Применение методов корпусной лингвистики к проблеме выделения имени собственного в тексте телугу Отчёт за I семестр. - презентация

Презентация на тему: " Применение методов корпусной лингвистики к проблеме выделения имени собственного в тексте телугу Отчёт за I семестр." — Транскрипт:

1 Применение методов корпусной лингвистики к проблеме выделения имени собственного в тексте телугу Отчёт за I семестр

2 Таким образом, основной задачей магистерской диссертации будет создание объективного словника, основным критерием которого будет частота встречаемости слов в корпусе. В настоящее время существует практика создания словаря на основе корпуса текстов.

3 Практической части работы предшествует теоретическая глава, раскрывающая следующие темы: Общая характеристика современного положения корпусной лингвистики Корпусная лингвистика и языки Южной Азии Обзор литературы телугу, посвящённой данной проблематике Понятие «имени собственного»

4 Практическая часть работы заключает в себе шесть основных этапов

5 1 На первом этапе работы из различных источников (газетные статьи, публикации в интернете) по заданной теме набирается корпус текстов телугу

6 2 Затем отобранные тексты проходят определённую обработку: из них удаляются знаки препинания, цифры и специализированные знаки. На данном этапе возможны два пути работы с текстом: полуавтоматический (создание специальной программы для удаления из корпуса текстов заданных символов и последующая дополнительная ручная обработка материала) и ручной (непосредственно ручная обработка текстов). Однако, учитывая достаточно большой объём корпуса, предпочтение отдаётся полуавтоматическому способу обработки материала

7 3 Далее производится выборка предварительной базы имён собственных (по спискам в интернете и существующим на данный момент публикациям)

8 4 Четвёртый этап - решение проблемы выборки имён собственных непосредственно из текста. Основной проблемой при выборке имён собственных в индийских текстах является отсутствие в письменности индийских языков заглавных букв. При работе с материалом других языков, обычно выборка производится по заглавной букве с определёнными условиями. Но, как было указано выше, с индийскими языками таким образом поступить нельзя, так как заглавные буквы в их письменности не представлены. Это можно сделать следующим образом: создаётся список родовидовых слов – слов, в окружении которых могут встретиться имёна собственные (например, река, гора, деревня, город, уважительные частицы и так далее). Это могут быть как отдельные самостоятельные слова, так и слово суффиксы, части слов и так далее

9 5 Затем пишется программа, которая будет маркировать эти слова в текстах. По этим отметкам специалист по данному языку может выделить из текста имена собственные, которые вносятся в базу данных

10 6 Непосредственная обработка имеющегося корпуса текстов с помощью полученной программы. Полученные новые имена собственные заносятся в исходную базу (см. этап 3). С каждым новым текстом эта база увеличивается в объёме, а затем она подключается к той же программе. Таким образом, программа начинает маркировать в тексте полученные имена собственные. Затем текст просматривается на предмет выделения имён нарицательных, которые были определены как собственные. Оставшиеся маркированные имена программа удаляет из текста и перемещает в отдельный список. Таким образом, будет получен список имён собственных

11

Скачать бесплатно презентацию на тему "Применение методов корпусной лингвистики к проблеме выделения имени собственного в тексте телугу Отчёт за I семестр." в формате .ppt (PowerPoint)

Применение методов корпусной лингвистики к проблеме выделения имени собственного в тексте телугу Отчёт за I семестр. - презентация

Похожие презентации

Презентация на тему: " Применение методов корпусной лингвистики к проблеме выделения имени собственного в тексте телугу Отчёт за I семестр." — Транскрипт:

Похожие презентации

MyShared.ru - крупнейшая база готовых презентаций с возможностью предпросмотра. Загружай и скачивай презентации бесплатно!

О проекте

Обратная связь

Вход в систему

Войти с помощью социльных сетей

Применение методов корпусной лингвистики к проблеме выделения имени собственного в тексте телугу Отчёт за I семестр. - презентация

Похожие презентации

Презентация на тему: " Применение методов корпусной лингвистики к проблеме выделения имени собственного в тексте телугу Отчёт за I семестр." — Транскрипт:

Похожие презентации

MyShared.ru - крупнейшая база готовых презентаций с возможностью предпросмотра. Загружай и скачивай презентации бесплатно!

О проекте

Обратная связь