Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 8 лет назад пользователемМария Милорадович
1 Применение методов корпусной лингвистики к проблеме выделения имени собственного в тексте телугу Отчёт за I семестр
2 Таким образом, основной задачей магистерской диссертации будет создание объективного словника, основным критерием которого будет частота встречаемости слов в корпусе. В настоящее время существует практика создания словаря на основе корпуса текстов.
3 Практической части работы предшествует теоретическая глава, раскрывающая следующие темы: Общая характеристика современного положения корпусной лингвистики Корпусная лингвистика и языки Южной Азии Обзор литературы телугу, посвящённой данной проблематике Понятие «имени собственного»
4 Практическая часть работы заключает в себе шесть основных этапов
5 1 На первом этапе работы из различных источников (газетные статьи, публикации в интернете) по заданной теме набирается корпус текстов телугу
6 2 Затем отобранные тексты проходят определённую обработку: из них удаляются знаки препинания, цифры и специализированные знаки. На данном этапе возможны два пути работы с текстом: полуавтоматический (создание специальной программы для удаления из корпуса текстов заданных символов и последующая дополнительная ручная обработка материала) и ручной (непосредственно ручная обработка текстов). Однако, учитывая достаточно большой объём корпуса, предпочтение отдаётся полуавтоматическому способу обработки материала
7 3 Далее производится выборка предварительной базы имён собственных (по спискам в интернете и существующим на данный момент публикациям)
8 4 Четвёртый этап - решение проблемы выборки имён собственных непосредственно из текста. Основной проблемой при выборке имён собственных в индийских текстах является отсутствие в письменности индийских языков заглавных букв. При работе с материалом других языков, обычно выборка производится по заглавной букве с определёнными условиями. Но, как было указано выше, с индийскими языками таким образом поступить нельзя, так как заглавные буквы в их письменности не представлены. Это можно сделать следующим образом: создаётся список родовидовых слов – слов, в окружении которых могут встретиться имёна собственные (например, река, гора, деревня, город, уважительные частицы и так далее). Это могут быть как отдельные самостоятельные слова, так и слово суффиксы, части слов и так далее
9 5 Затем пишется программа, которая будет маркировать эти слова в текстах. По этим отметкам специалист по данному языку может выделить из текста имена собственные, которые вносятся в базу данных
10 6 Непосредственная обработка имеющегося корпуса текстов с помощью полученной программы. Полученные новые имена собственные заносятся в исходную базу (см. этап 3). С каждым новым текстом эта база увеличивается в объёме, а затем она подключается к той же программе. Таким образом, программа начинает маркировать в тексте полученные имена собственные. Затем текст просматривается на предмет выделения имён нарицательных, которые были определены как собственные. Оставшиеся маркированные имена программа удаляет из текста и перемещает в отдельный список. Таким образом, будет получен список имён собственных
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.