10.2. Технология автоматической рубрикации текстов с использованием тезауруса для автоматического концептуального индексирования.

Презентация:



Advertisements
Похожие презентации
ОБУЧЕНИЕ КЛАССИФИКАТОРОВ НА ОСНОВЕ ВЫДЕЛЕНИЯ ФРАГМЕНТОВ Васильев В.Г.
Advertisements

Обзор жилищного законодательства Российской Федерации.
10.1. Информационно-поисковые тезаурусы в условиях сверхбольших электронных коллекций и автоматической обработки текстов. Тезаурус для автоматического.
МОНИТОРИНГ ОФИЦИАЛЬНЫХ САЙТОВ ФЕДЕРАЛЬНЫХ ОРГАНОВ ИСПОЛНИТЕЛЬНОЙ ВЛАСТИ РОССИЙСКОЙ ФЕДЕРАЦИИ, 2009.
Применение генетических алгоритмов для генерации числовых последовательностей, описывающих движение, на примере шага вперед человекоподобного робота Ю.К.
РАСПРЕДЕЛЕНИЕ УЧАСТНИКОВ ККР-2011 ПО ТИПАМ ОБРАЗОВАТЕЛЬНЫХ УЧРЕЖДЕНИЙ Тип ОУДоля учащихся в общем количестве участников ККР-2011 СОШ115/72% ООШ35/22% НОШ9/6.
1 Круглый стол 2 Межведомственное взаимодействие с использованием систем электронного документооборота Тема выступления: Обмен электронными документами.
Проблемы автоматической рубрикации текстов Лукашевич Н.В. АНО Центр информационных исследований МГУ им. М.В.Ломоносова Научно-исследовательский.
НазваниеОписание ОбъектПример, шаблон, наблюдение АтрибутПризнак, независимая переменная, свойство Метка класса Зависимая переменная, целевая переменная,
3.1. Назначение онтологий. Информационный поиск..
ЦИФРЫ ОДИН 11 ДВА 2 ТРИ 3 ЧЕТЫРЕ 4 ПЯТЬ 5 ШЕСТЬ 6.
МЕЖДУНАРОДНЫЕ ДОГОВОРЫ В ПРАВОВОЙ СИСТЕМЕ РОССИЙСКОЙ ФЕДЕРАЦИИ.
ТУЛЬСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ МЕДИЦИНСКИЙ ИНСТИТУТ Хромушин В.А., д.б.н., к.т.н., академик МАИ и АМТН 2010 г. ГРАФИЧЕСКОЕ ОТОБРАЖЕНИЕ РЕЗУЛЬТИРУЮЩИХ.
Порядок пересмотра и внесения поправок в Конституцию России. Кашенов А.Т., к.и.н., доцент кафедры Теории права ЮФ ИИ ТУСУР.
Выделение терминов из документов с заданным тематическим делением Голомазов Денис Дмитриевич Механико - математический факультет МГУ 5 курс 15 апреля 2008.
Государственная гражданская служба как система: содержание, характеристики элементов и подсистем ПОДГОТОВИЛА СТУДЕНТКА 3 КУРСА ГРУППЫ 3104 КУГОТОВА ФАТИМАТ.
Источники права работу выполнила: Учитель истории и обществознания Черешнева О.Е.
Работа учащегося 7Б класса Толгского Андрея. Каждое натуральное число, больше единицы, делится, по крайней мере, на два числа: на 1 и на само себя. Если.
НЕЗАВИСИМАЯ СИСТЕМА ОЦЕНКИ КАЧЕСТВА РАБОТЫ ОРГАНИЗАЦИЙ, ОКАЗЫВАЮЩИХ СОЦИАЛЬНЫЕ УСЛУГИ.
Аттестация педагогических работников государственных и муниципальных образовательных учреждений с 1 января 2011г. 1.
Транксрипт:

10.2. Технология автоматической рубрикации текстов с использованием тезауруса для автоматического концептуального индексирования

Варианты классификациии

Рубрицирование текстов вид общей задачи классификации / организации информации (спам, гармонизация законодательства …) обмен информацией иерархия анализа замена сложного запроса

Каким ДОЛЖЕН быть рубрикатор? покрытие предметной области пересечение смысла рубрик? иерархия анализа замена сложного запроса

Субъективизм экспертов Совпадение при ручной рубрикации между разными экспертами 60%

Автоматическое рубрицирование

Методы автоматической рубрикации инженерный подход или подход, основанный на знаниях машинное обучение Коллекция Reuters : 135 рубрик, короткие однородные документы; точность и полнота > 80% SIGIR 2001, SIGIR 2002 Operational Text Categorization Workshop

Методы машинного обучения в задачах рубрикации

Положительные/отрицательные примеры

Как лучше отделить

Отсечение по центрам тяжести

Отсечение по ближайшим соседям (kNN)

Отсечение по ближайшим точкам (SVM) c d d c

Оптимальный линейный сепаратор SVM (Support Vector Machines) Максимизация расстояния между двумя параллельными поддерживающими плоскостями

Нелинейная отделимость

NAME DOC_CNT PRECISIONRECALL(P+R)/2 Joachims P/R b.p. Dumais et.al. P/R b.p. earn ,79 98,2098,00 acq ,8295,5595,6992,6093,60 money-fx ,0372,6372,8366,9074,50 grain ,0985,9189,0091,3094,60 crude ,1581,4882,8286,0088,90 trade ,1277,7877,4569,2075,90 interest ,57 69,8077,70 ship ,3061,8074,5582,0085,60 wheat ,8194,3789,5983,1091,80 corn ,6883,9386,3186,0090,30 Reuters-21578, SVM, (P+R)/2 max (J) (ModApte split)

Примеры документов из Reuters CHINA'S HEILONGJIANG PROVINCE BOOSTS GOLD OUTPUT Gold output in the northeast China province of Heilongjiang rose 22.7 pct in 1986 from 1985's level, the New China News Agency said. It gave no figures. It said the province, China's second largest gold producer after Shandong, plans to double gold output by 1990 from the 1986 level. China does not publish gold production figures. However, industry sources estimate output at about 65 tonnes a year, with exports put between 11 and 31 tonnes. China is selling more gold abroad to offset large trade deficits in recent years, western diplomats said. REUTER CONSOLIDATED TVX TO BUY BRAZIL GOLD MINE STAKES said it agreed to issue 7.8 mln treasury shares to acquire interests in three gold mining companies in Brazil and an option to increase the company's interest in a platinum property. The company said the transactions will bring immediate production and earnings to Consolidated TVX, enhance its precious metal potential and is expected to improve cash flow and earnings on a per share basis. The company did not give specific figures. Consolidated TVX said it will acquire 29 pct of CMP, a public gold mining company in which TVX already holds a 15 pct interest, making TVX the largest single shareholder. The company also agreed to acquire a 19 pct stake in Novo Astro, a private company, and a 16 pct interest in Teles Pires Mining, increasing the TVX's ownership to 51 pct. In addition, Consolidated TVX said it will acquire the right to add a 10 pct interest to a platinum property in which it already owns a 29.4 pct stake. CMP earned 11 mln Canadian dlrs in 1986 and expects to produce 42,000 ounces of gold in 1987 at a cost of 160 U.S. dlrs an ounce, Consolidated TVX

Сложные случаи Пересечение выпуклых оболочек

Сложные задачи автоматической рубрикации текстов размер рубрикатора больше рубрик, обычно со сложной иерархией; трудно обеспечить достаточную по качеству и количеству обучающую коллекцию, субъективизм ручного индексирования (обучающей коллекции) значительно возрастает; документы могут иметь несколько рубрик

Множество примеров отсутствует и не может быть создано в короткое время Российский социологический архив ( Данные соцопросов разных организаций 350 рубрик, 4 уровня иерархии Новый проект => отсутствие примеров

Множество примеров существует, но отсутствовали требования к качеству Международное научное сообщество RePec ( SocioNet ( Архив исследовательских материалов по экономике и социологии Рубрикатор: Journal of Economic Literature Classification System (JEL ) Более 700 рубрик Автор сам приписывает рубрики к своей работе

Множество примеров противоречиво и недостаточно для большинства рубрик (очень большие классификаторы) Российские правовые документы Президентский классификатор (Указ ) рубрик Множество примеров – 10,000 документов классифицированных вручную Только для 47 рубрик – более чем 100 док., только для 200 рубрик – более чем 20 док. Inconsistency: мало отличающиеся документы имеют разные наборы рубрик

Множество примеров для обучения из другой коллекции Примеры: документы федерального уровня Проблема: рубрицирование 600,000 региональных документов Тот же рубрикатор Похожие документы, похожая проблема НО!!! Стандартный метод SVM-light, обученный на федеральных документах не приписывает ни одной рубрики для 50% документов

Применение тезауруса для решения сложных задач рубрикации

Системы автоматической рубрикации Автоматическая рубрикация по Классификатору правовых актов РФ (Указ Президента РФ N511 от 15 марта 2000 г., 1169 рубрик) Автоматическая рубрикация по Классификатору НПП «Гарант» (3200 рубрик) Новые системы автоматической рубрикации Разработаны различные системы автоматической рубрикации: по общему тематическому правовому классификатору Центральной избирательной комиссии РФ (450 рубрик, 4 уровня) по терминам верхнего уровня тезауруса Исследовательской службы Конгресса США (80 рубрик) по правовому рубрикатору Центра информационных исследований (180 рубрик, 3 уровня)

Технология автоматического рубрицирования Опора на знания, описанные в Общественно-политическом Тезаурусе Представление рубрики в виде логической формулы для небольшого числа ОПОРНЫХ концептов, затем автоматическое расширение с использованием иерархической структуры Тезауруса Независимый от конкретного рубрикатора (изменения состава рубрикатора) автоматический тематический анализ текста – выявление в тексте совокупностей близких терминов, выявление терминов, характеризующих основную тему и подтемы документов

Схема описания рубрики Рубрика Альтернатива 1 Альтернатива 2 У 11 У 12 У 13 У 21 Условие 22 ИЛИ ИИИ

Тезаурус по общественно-политической жизни 27 тысяч понятий, 64 тысячи терминов 105 тысяч отношений предметная область – проблемы современного общества; состав - терминология таких областей как экономика, финансы, оборона, законодательство, научная политика, спорт, искусство, военные конфликты и др.; типы обрабатываемых текстов – официальные документы, международные договора, законы, газетные статьи, новостные сообщения

Программное обеспечение для описания отношений «рубрика – понятие тезауруса» описание смысла рубрики как булевской формулы над понятиями тезауруса генерация расширенной булевской формулы на основе иерархии тезауруса: С => дизъюнкция понятий из дерева С; управление расширением: параметры Е – полное, L – по видам, N – без расширения: (Государственные символы)L (Российской Федерации)N просмотр тезаурусной окрестности понятий для определения пропусков; специальные средства вычеркивания лишнего: отдельными понятиями и поддеревьями

Представление смысла рубрики опорными понятиями

Расширенное представление рубрики понятиями тезауруса

Рубрикатор СОФИСТ. Представление рубрики ЖЕНЩИНЫ … Семейные роли /ЖЕНЩИНЫ/ Семейные роли /ЖЕНЩИНЫ/ ИЛИ {ЖЕНЩИНА} И {СЕМЬЯ} И {РОЛЬ,ПОЛОЖЕНИЕ||ОБЯЗАННОСТЬ||СТАТУС||…} ИЛИ {ЧЛЕН СЕМЬИ[L]} //жена,дочь,мать,бабушка,… И {ОБЯЗАННОСТЬ||ОТВЕТСТВЕННОСТЬ||ПРАВО||…} ИЛИ {СЕМЬЯ} И {ДОВЕРИЕ||ГЛАВНЫЙ||ЗАВИСЕТЬ||СЛУШАТЬСЯ||}

Рубрикатор СОФИСТ. Представление рубрики ЭКОНОМИЧЕСКАЯ РЕФОРМА … ОТНОШЕНИЕ К РЕФОРМЕ /ЭКОНОМИЧЕСКАЯ РЕФОРМА/ ОТНОШЕНИЕ К РЕФОРМЕ /ЭКОНОМИЧЕСКАЯ РЕФОРМА/ { {ЭКОНОМИКА[E]||ЭКОНОМИЧЕСКАЯ РЕФОРМА[E]} И НЕ {МИРОВАЯ ЭКОНОМИКА[E]|| ОТРАСЛЬ ЭКОНОМИКИ[E]||ФИНАНСЫ[E]} И {РЕФОРМА||ЭКОНОМИЧЕСКАЯ РЕФОРМА[E]||}} И {НЕУДАЧНЫЙ||НУЖНЫЙ||ОДОБРИТЬ||ОПАСНЫЙ[L]|| ОТВРАТИТЕЛЬНЫЙ||ОТРИЦАТЕЛЬНЫЙ||ПЛОХОЙ|| ПОДДЕРЖАТЬ||ПОЛЕЗНЫЙ||ПРИВЕТСТВОВАТЬ…} ОПАСНЫЙ => авантюрный, вредный, гибельный, гиблый, злокачественный, пагубный…

Отношение рубрика – понятие. Вес или …? Отношение рубрика-понятие: 1)без подтверждения 2)с подтверждением 1)вес=1 2)Рубрика «Машиностроение» - авиастроение (без подтверждения) – самолет (с подтверждением) Понятие с подтверждением учитывается для вывода рубрики только тогда, когда в тексте есть хотя бы одно понятие, относящееся к этой рубрике без подтверждения Подтверждение может быть выведено по связям тезауруса или проставлено вручную

ЖИЛОЕ ПОМЕЩЕНИЕ (25) ЖИЛОЕ ЗДАНИЕ (1) КВАРТИРА (2) А А СОБСТВЕННОСТЬ (1) ЖИЛИЩНОЕ СТРОИТЕЛЬСТВО (4) КОМНАТА (ПОМЕЩЕНИЕ) (1) В В НАЕМ ЖИЛОГО ПОМЕЩЕНИЯ (13) МНОГОКВАРТИРНЫЙ ДОМ (1) ЗДАНИЕ (1) СООРУЖЕНИЕ (1) ЖИЛАЯ ПЛОЩАДЬ (1) СТРОИТЕЛЬСТВО (12) ЖИЛИЩНО-СТРОИТЕЛЬНЫЙ КООПЕРАТИВ (2) ЖИЛИЩНАЯ НОРМА (2) НАНЯТЬ (13) ПОКУПКА (6) ПЛАТИТЬ (1) ДЕНЬГИ (22) А Сеть тематических узлов (Постановление Правительства РФ от 26 июня 1995 г. N 604)

TN j+2 TN j+1 TN j MT k MT 3 MT 2 MT 1 Mc 1 Mc 3 Mc k Mc 2 Структура тематического представления Основные тематические узлы Локальные тематические узлы

Вычисление веса термина на основе тематического представления текста α = 0.7 Учет двух факторов: категория в тематическом представлении и частотность Вес категории тематического представления: 0.9-для центра основного тематического узла, 0.7-для элемента основного тематического узла, 0.75-для центра локального тематического узла …

Расчет веса конъюнкции Вес конъюнкции предназначен учитывать не только сумму весов составляющих его конъюнктов, но и меру близости конъюнктов в тексте: сумма всех текстовых связей между понятиями одного конъюнкта и понятиями другого, деленная на значение максимальной текстовой связи между любыми двумя понятиями текста. Этот член равен обычно единице для сильно связанных конъюнктов и принимает малое значение, если понятия различных конъюнктов обсуждались в разных местах текста

Вычисление веса рубрики Вес дизъюнкции: где d ijk -понятия, не требующие подтверждения, p ijm - понятия, требующие подтверждения, -множитель равный единице, если имеются понятия, не требующие подтверждения, и нулю иначе

ПРАВИТЕЛЬСТВО РОССИЙСКОЙ ФЕДЕРАЦИИ ПОСТАНОВЛЕНИЕ (от 26 декабря 2001 г. N 905) О подписании Соглашения между Правительством Российской Федерации и Правительством Туркменистана о сотрудничестве в области исследования и использования космического пространства в мирных целях … Космическая деятельность 64 T ПУСК РАКЕТЫ1264 T4200 КОСМОДРОМ863 T БАЙКОНУР863 T6783 РАКЕТА-НОСИТЕЛЬ662 T955 КОСМОНАВТИКА662 T956 КОСМИЧЕСКАЯ ТЕХНИКА461 T ЗАПУСК КОСМИЧЕСКИХ АППАРАТОВ361 T1023 КОСМИЧЕСКИЙ АППАРАТ261 T1022 СПУТНИКОВАЯ СВЯЗЬ160 T КОСМИЧЕСКИЕ ИССЛЕДОВАНИЯ160 T9340 КОСМИЧЕСКАЯ МЕДИЦИНА160 T5962 АСТРОФИЗИКА160 T2497 ИСКУССТВЕННЫЙ СПУТНИК ЗЕМЛИ115

Содержание и порядок прохождения военной службы 95 T791 ВОЕННАЯ СЛУЖБА T792 ВОЕННОСЛУЖАЩИЙ T6999 ВОИНСКАЯ СЛУЖБА ПО КОНТРАКТУ Строительство 81 T55 СТРОИТЕЛЬСТВО T482 ЖИЛИЩНОЕ СТРОИТЕЛЬСТВО 4 64 T6217 ЖИЛИЩНО-СТРОИТЕЛЬНЫЙ КООПЕРАТИВ Федеральные органы исполнительной власти 77 T2576 ФЕД. ОРГАН ИСПОЛНИТЕЛЬНОЙ ВЛАСТИ 7 77 T5109 МИНИСТЕРСТВО ОБОРОНЫ Кадры Вооруженных Сил Российской Федерации 76 T792 ВОЕННОСЛУЖАЩИЙ Компенсационные и иные социальные выплаты 75 T КОМПЕНСАЦИЯ Фрагмент рубрик, приписанных документу (Постановление Правительства РФ от 26 июня 1995 г. N 604)

Системы автоматической рубрикации Автоматическая рубрикация по Классификатору правовых актов РФ (Указ Президента РФ N511 от 15 марта 2000 г., 1169 рубрик) Новая система автоматической рубрикации Разработаны различные системы автоматической рубрикации: по общему тематическому правовому классификатору Центральной избирательной комиссии РФ (450 рубрик, 4 уровня) по терминам верхнего уровня тезауруса Исследовательской службы Конгресса США (80 рубрик) по правовому рубрикатору Центра информационных исследований (180 рубрик, 3 уровня)

классификация для legal-коллекции автоматическая классификация нормативных документов законодательства РФ из БД СПС «Кодекс» 183 рубрик -- подмножество большого иерархического рубрикатора нормативных документов для обучения процедуры классификации предлагается коллекция из 4496 документов, отрубрицированных по данному классификатору экспертами компании «Кодекс» для тестирования предоставлены документов, для которых необходимо автоматически определить рубрики, к которым эти документы относятся. для некоторых рубрик нет документов в коллекции обучения, всего рубрик с ненулевым количеством документов для обучения 170

классификация для legal-коллекции Прогон 1: SVM по леммам Прогон 2: SVM по леммам+терминам Леммы/понятия, встречающиеся менее, чем в четырёх документах, были усечены различных лемм и пар лемма-документ для обучающей выборки из 4496 документов различных лемм/терминов и пар «лемма/термин»-документ.

классификация для legal-коллекции Прогон 3: Метод машинного обучения, основанный на моделировании логики рубрикатора описание рубрики в виде булевской формулы запроса к ИПС Элементами формул являются понятия Тезауруса ЦИИ. Алгоритм строит формулы вида Конъюнкции, составляющие формулу, имеют длину от 1 до 3. Мотивация -- создать алгоритм машинного обучения, который бы моделировал смысл рубрики, составленной человеком, по результатам рубрицирования. Необходимым требованием для данного алгоритма было построение правил описания рубрики, которые можно легко интерпретировать.

классификация для legal-коллекции Таблицу релевантности, состоящую из оценок, проставленных экспертами ИС «Кодекс» для рубрик из А Б будем обозначать ideal50.

классификация для legal-коллекции Результаты прогонов участников для таблицы релевантности ideal50

классификация для legal-коллекции Зависимость F-меры от количества примеров для обучения (в среднем для рубрик, частотность которых попадает в указанный интервал)

Вопросы к лекции 1.Перечислите методы автоматической рубрикации. 2.По каким причинам возникают сложности в задачах автоматической рубрикации текстов? 3.Какие рубрикаторы Вам известны? Опишите их характеристики.