Применение методов корпусной лингвистики к проблеме выделения имени собственного в тексте телугу Отчёт за I семестр.

Презентация:



Advertisements
Похожие презентации
Определяешь проблему, формулируешь тему работы Знакомишься с литературой по данной проблематике Определяешь методы исследования Собираешь собственный материал.
Advertisements

ОРГАНИЗАЦИЯ ИССЛЕДОВАТЕЛЬСКОЙ ДЕЯТЕЛЬНОСТИ УЧАЩИХСЯ Государственное учреждение образования «Средняя школа 3 г. Крупки» Заместитель директора по учебной.
РЕДОКТИРОВАНИЕ текста А. При редактировании текст просматривают, чтобы убедиться, что все правильно ; исправляют обнаруженные ошибки ; вносят необходимые.
Говоря о двух последних «умениях» компьютера, необходимо помнить, что почти во всех существующих системах автоматического реферирования в качестве основных.
Схема данных в Access Преподаватель: Французова Г.Н.
Критерии Снежанна Владиславовна учитель высшей квалификационной категории МОУ «СОШ 2» г.Краснотурьинск.
Описание и представление результатов исследования Беспалова Г.М. Гимназия 4 г.Брянска
Курсовая работа. Курсовая- настоящее студенческое исследование. Назначение курсовой работы- выяснить насколько студент овладел навыками самостоятельной.
Как правильно готовиться к написанию диплома Авторы: Белых Валерия и Козлова Елена, PR-505.
Учитель информатики Трашков О.Л.. Файловая система Windows позволяет выполнять следующие операции: Поиск Создание Копирование Перемещение Переименование.
Модель компетентностного подхода в образовании. Компетентностный подход-это попытка построить образовательный процесс, обеспечивающий становление у обучающихся.
Редактирование – это действия по исправлению ошибок и изменению содержания текста. Редактирование производится путем копирования, перемещения или удаления.
Базы данных в электронных таблицах 1. Представление базы данных в виде таблицы и формы.
Выполнение курсовой работы по дисциплине «Медицинское и фармацевтическое товароведение» (технология организации самостоятельной работы студентов) Кафедра.
ИССЛЕДОВАТЕЛЬСКИЙ СЕМИНАР МАГИСТЕРСКОЙ ПРОГРАММЫ «МЕЖДУНАРОДНЫЙ БИЗНЕС» Заместитель декана ВШМ СПбГУ по магистерским программам, д.э.н., профессор финансов.
Текстовый редактор Microsoft Word. Содержание Начальные сведения. Основные понятия Правила работы с текстом Сохранение документа.
Измерение информации Единицы измерения информации Информатика Урок 3.
Информатика в школе Форматирование и редактирования текста Microsoft Word Технология обработки текстовой информации.
Обработка данных в Базах данных. Быстрый поиск данных Основное назначение БД – поиск нужной информации. Access позволяет производить поиск: по части имени,
Название предметаКод предмета Русский язык Математика Физика Химия Информатика Биология История География Английский язык Немецкий язык Французский язык.
Транксрипт:

Применение методов корпусной лингвистики к проблеме выделения имени собственного в тексте телугу Отчёт за I семестр

Таким образом, основной задачей магистерской диссертации будет создание объективного словника, основным критерием которого будет частота встречаемости слов в корпусе. В настоящее время существует практика создания словаря на основе корпуса текстов.

Практической части работы предшествует теоретическая глава, раскрывающая следующие темы: Общая характеристика современного положения корпусной лингвистики Корпусная лингвистика и языки Южной Азии Обзор литературы телугу, посвящённой данной проблематике Понятие «имени собственного»

Практическая часть работы заключает в себе шесть основных этапов

1 На первом этапе работы из различных источников (газетные статьи, публикации в интернете) по заданной теме набирается корпус текстов телугу

2 Затем отобранные тексты проходят определённую обработку: из них удаляются знаки препинания, цифры и специализированные знаки. На данном этапе возможны два пути работы с текстом: полуавтоматический (создание специальной программы для удаления из корпуса текстов заданных символов и последующая дополнительная ручная обработка материала) и ручной (непосредственно ручная обработка текстов). Однако, учитывая достаточно большой объём корпуса, предпочтение отдаётся полуавтоматическому способу обработки материала

3 Далее производится выборка предварительной базы имён собственных (по спискам в интернете и существующим на данный момент публикациям)

4 Четвёртый этап - решение проблемы выборки имён собственных непосредственно из текста. Основной проблемой при выборке имён собственных в индийских текстах является отсутствие в письменности индийских языков заглавных букв. При работе с материалом других языков, обычно выборка производится по заглавной букве с определёнными условиями. Но, как было указано выше, с индийскими языками таким образом поступить нельзя, так как заглавные буквы в их письменности не представлены. Это можно сделать следующим образом: создаётся список родовидовых слов – слов, в окружении которых могут встретиться имёна собственные (например, река, гора, деревня, город, уважительные частицы и так далее). Это могут быть как отдельные самостоятельные слова, так и слово суффиксы, части слов и так далее

5 Затем пишется программа, которая будет маркировать эти слова в текстах. По этим отметкам специалист по данному языку может выделить из текста имена собственные, которые вносятся в базу данных

6 Непосредственная обработка имеющегося корпуса текстов с помощью полученной программы. Полученные новые имена собственные заносятся в исходную базу (см. этап 3). С каждым новым текстом эта база увеличивается в объёме, а затем она подключается к той же программе. Таким образом, программа начинает маркировать в тексте полученные имена собственные. Затем текст просматривается на предмет выделения имён нарицательных, которые были определены как собственные. Оставшиеся маркированные имена программа удаляет из текста и перемещает в отдельный список. Таким образом, будет получен список имён собственных