Информационный поиск с использованием татарской морфологии Сулейманов Д.Ш., Невзорова О.А., Гатиатуллин А.Р., Гильмуллин Р.А. Электронная Казань, 27-28.

Презентация:



Advertisements
Похожие презентации
Университетская информационная система РОССИЯ ( УИС РОССИЯ ) Режим доступа:
Advertisements

ИСПОЛЬЗОВАНИЕ ИНФОРМАЦИОННО- ПОИСКОВЫХ ЯЗЫКОВ В ПРОЦЕССЕ НАУЧНОЙ ОБРАБОТКИ ДОКУМЕНТОВ И СОЗДАНИЯ ЭЛЕКТРОННОГО КАТАЛОГА. Пяткова И.Н.
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ СТАВРОПОЛЬСКИЙ ГОСУДАРСТВЕННЫЙ АГРАРНЫЙ УНИВЕРСИТЕТ.
Технология формирования баз социально- экономических данных.
Интеллектуальные системы для эффективного поиска электронных ресурсов.
1 «Подсистема временного хранения информационных материалов на Интернет-сайте Совета Федерации ( подсистема «Виртуальные ячейки») Эффективный документооборот.
E-LIS: Возможности продвижения библиотечно - информационной науки Кыргызстана 12 Международная конференция «Иссык-Куль 2011:
LIBRARY RU как интегрированная информационная система LIBRARY RU как интегрированная информационная система e Павел Арефьев SCIENCE ONLINE VIII.
Компьютерная лингвистика как наука. 1. Определения компьютерной лингвистики 2. Компьютерная лингвистика и искусственный интеллект 3. Разделы компьютерной.
SCIENCE ONLINE Электронные информационные ресурсы для науки и образования ПРНД или особенности оценки национальной науки Г.О. Еременко Научная электронная.
Андренюк Вадим Ведущий менеджер департамента по работе с библиотеками и вузами Ретроконверсионный год в библиотеке Тартуского университета и компании ПроСофт-М.
Автоматизация деятельности архивной отрасли Система «АРХИВНЫЙ ФОНД» (версия 4.1) Управление государственной архивной службы Новосибирской области 2010.
"Электронные библиотеки " Дубна Россия Метаданные в системе управления многоязычной лингвистической базой знаний Н.В. Лунева Институт.
ИРБИС 64 Интегрированная развивающаяся библиотечно-информационная система.
Автоматизация деятельности архивной службы предприятия Система АРХИВНОЕ ДЕЛО (версия 3.5) Москва 2009.
ТЕХНОЛОГИЯ ПОЛНОТЕКСТОВОГО ПОИСКА В МУЛЬТИЯЗЫЧНЫХ СЕТЕВЫХ РЕСУРСАХ Д.В. Ландэ 1,2, д.т.н., В.В. Жигало 2 1 Институт проблем регистрации информации НАН.
Формализация предметной области при обработке фактографической информации А.В. Босов ИПИ РАН Д.В. Краюшкин ООО «САЙТЕК»
Использование систем RETRANS-MetaFraz в правительственных и государственных организациях, а также в центрах анализа информации Юрий Викторович Никитин.
1 Использование онтологий при создании интеллектуальных систем И.Л. Артемьева Дальневосточный государственный университет.
Проект «Научный архив» декабрь 2014 – декабрь 2016.
Транксрипт:

Информационный поиск с использованием татарской морфологии Сулейманов Д.Ш., Невзорова О.А., Гатиатуллин А.Р., Гильмуллин Р.А. Электронная Казань, апреля 2009 года

Университетская информационная система РОССИЯ (УИС РОССИЯ) создана как ресурсная база Российского университетского информационно- исследовательского консорциума по социальным и гуманитарным наукам (Russian inter-University Social Sciences Information and Analytical consortium - RUSSIA Consortium).RUSSIA Consortium Предназначена для проведения исследований по социальным наукам и открыта для коллективного доступа ученым и исследователям из университетов РФ Электронная Казань

Проект направлен на разработку прикладной двухуровневой компьютерной модели татарского языка и применение ее в интеллектуальных технологиях информационного поиска в корпусах многоязыковых текстов. Решение задачи интеллектуального информационного поиска требует создания: -полной морфологической модели татарского языка, -прагматически-ориентированной синтаксической модели татарского языка. Эти модели будут использованы для адаптации механизмов информационного поиска Университетской информационной системы РОССИЯ, базирующихся на терминологическом и лексическом поисковых индексах. Электронная Казань

ИсточникРетроспективаКоличество Правовые актыНТЦ Система ,000 Стенограммы заседаний Государственной Думы Аппарат ГД ФС РФ ,000 Статистические материалыГоскомстат РФ; Межгос. Стат. Комитет СНГ ,000 Материалы СМИ"Эксперт", "Независимая газета", "Известия", "Комсомольская правда", "Аргументы и факты", "Слово", ,000 Аналитические материалыматериалы министерств и ведомств РФ, Счетная палата РФ, ЦБ РФ, РЕЦЭП ,000 Научные изданияВестник МГУ, "Соц.исследования" Библиографические описания материалов по экономике, социологии,... СОЦИОНЕТ / RePEc...300,000 Электронная Казань

Решаются следующие задачи интеграции разнородных информационных ресурсов: - обеспечение единообразного формата хранения документов разных источников; - единообразные способы доступа ко всей коллекции документов; - использование специфических поисковых атрибутов для каждой коллекции; - тематическая систематизация /классификация документов по тезаурусу, рубрикаторам; - аннотирование полнотекстовых документов; -создание предметно-ориентированных баз данных, интегрированных в общую систему. Электронная Казань

Этапы автоматизированной лингвистической обработки текстов (АЛОТ): - Морфологический анализ; - Терминологический анализ; - Рубрицирование; - Аннотирование. В ходе морфологического анализа русскоязычного текста всем словам анализируемого текста сопоставляются леммы с соответствующей грамматической информацией (род, число, падеж, категория одушевленности и т.п.). Размер используемого морфологического словаря тысяч лемм. В сочетании с простыми словарями, описывающими словообразование, это обеспечивает более чем 99.6% покрытие текстов российских правовых актов и материалов СМИ. Электронная Казань

Подготовка больших электронных корпусов текстов по социально-экономической тематике (более 70 Мб). Разработка специализированных лингвистических ресурсов на татарском языке: - морфологический словарь татарского языка (объем словарных статей) Электронная Казань

Статистические данные электронной коллекции текстов на русском и татарском языках по рубрикам Количество файловКоличество слов в файлах 1. Воспитание и образование Русские тексты Татарские тексты Экономика Русские тексты Татарские тексты Политика Русские тексты Татарские тексты Фольклор и обычаи Русские тексты16686 Татарские тексты … Общее количество Русские тексты Татарские тексты Электронная Казань

Модуль графематического анализа татарских текстов 1.Фрагментация исходного текстового файла на предложения 2.Разбиение каждого предложения на слова, числа, знаки пунктуации, формулы и другие базовые текстовые единицы и представление выходной информации в следующем формате: лексема тип лексемы (число) номер в предложении предложения Выделяемые типы лексем: 1 – слово; 2 – аббревиатура; 3 – метка; 4 – формула; 5 – знак пунктуации; 6 – число; 7 – ФИО; 8 – имя собственное; 9 – комментарий; 10 – сокращение; 11 – стандартное сокращение; 12 – дата; 13 – ; 14 – http(www) гиперссылка Электронная Казань

Морфологический анализатор татарского языка Информационная база двухуровневого морфологического анализатора: 1.Файл правил - алфавит и фонологические правила (правила преобразования лексических символов в поверхностные символы в различных контекстных окружениях). 2. Лексикон - словарь лексических единиц (корневых и аффиксальных морфем) и их толкования, а также описания морфотактических правил. Электронная Казань

Файл фонологических правил ГЕНЕРАТОР РАСПОЗНАВАТЕЛЬ Файл морфотактических правил урман+ДА лес+Локатив урманда в лесу урманда в лесу урман+ДА лес+Локатив Структурно-функциональная схема ДМА татарского языка Электронная Казань

Диаграмма для номинативных парадигм Электронная Казань

Аффиксальный класс Лексическая запись морфемы КодГлоссарийПримеры N_Plural+LErNNI_PLUМножественностьатлар, өйләр N_Poss+HmNNI_1sPOSSпритяжательность в форме 1 л. ед. числа атым, өем +HbHzNNI_1pPOSSпритяжательность в форме 1 л. мн. числа атыбыз, өебез +HgHzNNI_2pPOSSпритяжательность в форме 2 л. мн. числа. атыгыз, өегез +HNNNI_2sPOSSпритяжательность в форме 2 л. ед. числа. атың, өең +ZHNNI_3sPOSSпритяжательность в форме 3 л. ед. числа. аты, өе Описание фрагмента значений словоизменительных и словообразовательных морфем Электронная Казань

Атрибуты коллекции "Татарский язык""Татар теле" коллекциясенең атрибутлары бизнес Бюджет РФРФ бюджеты В случае повторения ошибки свяжитесь со службой поддержки.Хата кабатланса ярдәм күрсәтү хезмәте белән элемтәгә керегез. Введите ваш Электрон адресыгызны кертегез: Восстановление забытого пароляОнытылган серсүзне төргезү Все коллекцииБарлык коллекцияләр Все словаБарлык сүзләр дә Выберите коллекции документов, по которым будет производиться поиск. Эзләү алып барыласы документлар коллекцияләрен сайлагыз. Выборы РФРФ сайлаулары Выбрать открытые коллекцииАчык коллекцияләрне сайлау ГлавнаяТөп Гостевая книгаКунак китабы ГрантыГрантлар Дайджест ДобавитьӨстәү Таблица перевода интерфейса Электронная Казань

Спасибо за внимание Электронная Казань