О ВОЗМОЖНОСТЯХ АВТОМАТИЗАЦИИ ВЫЯВЛЕНИЯ СВЯЗЕЙ МЕЖДУ ТЕРМИНАМИ ПРЕДМЕТНОЙ ОБЛАСТИ (НА ПРИМЕРЕ КАТАЛИЗА) Саломатина Н.В., Гусев В.Д. Институт математики.

Презентация:



Advertisements
Похожие презентации
1 ОСОБЕННОСТИ СТРОЕНИЯ, РЕАКЦИОННОЙ СПОСОБНОСТИ И МЕТОДЫ СИНТЕЗА АЛКИНОВ.
Advertisements

Тематический анализ и квазиреферирование текста с использованием сканирующих статистик Гусев В.Д., Мирошниченко Л.А., Саломатина Н.В. Институт математики.
1 В результате освоения программы обучающийся должен: - - понимать сущность явления катализа, причины ускорения и возбуждения химических реакций под влиянием.

ТЕОРЕТИЧЕСКИЕ ОСНОВЫ ХИМИЧЕСКОЙ ТЕХНОЛОГИИ ТОПЛИВА И УГЛЕРОДНЫХ МАТЕРИАЛОВ Лекция 10 КАТАЛИТИЧЕСКИЙ КРЕКИНГ.
1 ПРЕЗЕНТАЦИЯ ПАКЕТА ПРОГРАММ «STEP+» Численное исследование автономных систем обыкновенных дифференциальных уравнений и нелинейных уравнений общего вида.
1 Химический тренажер по теме «Кислородосодержащие органические соединения.» Курсовая работа Роговой Е. В.
2.ЗАДАЧИ: Знать изомеры, гомологи, алканы, алкены – их физические и химические свойства, применение. Уметь называть вещества по структурным формулам, составлять.
Развитие программных комплексов Сбор РБД и Планирование ЕГЭ.
Теория статистики Корреляционно-регрессионный анализ: статистическое моделирование зависимостей Часть 1. 1.
МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ ИНСТИТУТ ЭЛЕКТРОНИКИ И МАТЕМАТИКИ (ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ) КАФЕДРА ИКТ 1 Лекция 1 (окончание). О ключах и целостности. Курс:
Лекция 7 Постникова Ольга Алексеевна1 Тема. Элементы теории корреляции
1 КИСЛОРОДСОДЕРЖАЩИЕ СОЕДИНЕНИЯ. (СПИРТЫ. ФЕНОЛЫ).
Урок повторения по теме: «Сила». Задание 1 Задание 2.
Тема 11 Медицинская помощь и лечение (схема 1). Тема 11 Медицинская помощь и лечение (схема 2)
Типовые расчёты Растворы
Michael Jackson
Предельные ( насыщенные) углеводороды, парафины. Определение. Алканы- это углеводороды, в молекулах которых атомы связаны одинарными связями и которые.
МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования.
1 Массивы 2 Опр. Массивом называется совокупность однотипных данных, связанных общим именем. Основные характеристики массива: 1. Имя массива 2. Тип компонентов.
Транксрипт:

О ВОЗМОЖНОСТЯХ АВТОМАТИЗАЦИИ ВЫЯВЛЕНИЯ СВЯЗЕЙ МЕЖДУ ТЕРМИНАМИ ПРЕДМЕТНОЙ ОБЛАСТИ (НА ПРИМЕРЕ КАТАЛИЗА) Саломатина Н.В., Гусев В.Д. Институт математики СО РАН Ильина Л.Ю., Кузьмин А.О., Пармон В.Н. Институт катализа г. Новосибирск

2 Решаемая задача Формирование и пополнение специализированного тезауруса на основе текстов предметной области Тезаурус – термины ПО + связи между ними Предметная область – катализ Назначение – расширение и уточнение поисковых запросов, повышение эффективности поиска Первоначальное наполнение – из предметных указателей учебников Пополнение – из периодических изданий

3 Выявление терминов в тексте Элементы технологии: формирование текстовой подборки выбор системы представления текстов обработка текстов и формирование словаря терминов и индикаторов связи: oс использованием процедур фильтрации и упорядочения oс привлечением эксперта на заключительном этапе

4 L- грамма – цепочка из L подряд следующих слов текста Т L -граммная характеристика текста ( L = 1,…, L max ) L max – длина максимального повтора в Т M L – число различных L -грамм в T : x i – i- я L- грамма F(x i ) – частота встречаемости x i в Т {r j (x i )} – позиции вхождения x i в Т 1 j F(x i ) – полный L -граммный спектр Т Представление текста

5 Представление группы текстов L -граммная характеристика группы текстов T = {T 1, T 2, …, T m } – четверка: x i – i -я L -грамма; – текстовая частота (число текстов из T, в которых представлена x i ); – абсолютная частота встречаемости x i в Т ; – вектор частот вхождения L -граммы x i в каждый из текстов подборки Т. Совместный L -граммный спектр группы текстов:

6 Схема обработки обучающей подборки oнормализация слов oвычисление L-граммных характеристик (на основе trie-структур) oвыявление устойчивых (встречающихся в большом числе разнообразных контекстов) цепочек (L-грамм) oвведение ограничений на параметры, характеризующие L-грамму oуточнение терминологического словаря экспертом

7 Выявление связей Исследование вариативности L-грамм oL-граммные шаблоны: построение образцов с переменной/переменными Выявление позиционной неравномерности распределения L-грамм в тексте oпостроение профиля кластеризуемости L-грамм в тексте Использование индикаторов связи oФормирование индикаторного словаря экспертом на основе устойчивых L-грамм небольшой длины, не являющихся терминами oпоиск индикаторов в тексте, анализ контекста

8 Терминологические шаблоны образец с одной переменной p = a 1 a 2 … a k-1 x k a k+1 …a n фиксирует подмножество словосочетаний длины n, отличающихся друг от друга заменой по k-й позиции Пример p = РЕАКТОР\С\Х\СЛОЕМ\ Х { НЕПОДВИЖНЫМ, КИПЯЩИМ, ДВИЖУЩИЙМСЯ, ПСЕВДОСЖИЖЕННЫМ, ФИЛЬТРУЮЩИМ }

9 Объединение образцов X\КАТАЛИЗАТОР\, КАТАЛИЗАТОР\Y\ X { активность, состав, приготовление, восстановление, свойство, селективность, …} Y { окисление, крекинг, гидрирование, полимеризация, газоочистка,…} Образец р = X\КАТАЛИЗАТОР\Y позволяет учесть всевозможные комбинации слов: АКТИВНОСТЬ КАТАЛИЗАТОРА ОКИСЛЕНИЯ АКТИВНОСТЬ КАТАЛИЗАТОРА КРЕКИНГА СОСТАВ КАТАЛИЗАТОРА ОКИСЛЕНИЯ СОСТАВ КАТАЛИЗАТОРА КРЕКИНГА ПРИГОТОВЛЕНИЕ КАТАЛИЗАТОРА ГАЗООЧИСТКИ ВОССТАНОВЛЕНИЕ КАТАЛИЗАТОРА ОКИСЛЕНИЯ СВОЙСТВО КАТАЛИЗАТОРА ОКИСЛЕНИЯ СЕЛЕКТИВНОСТЬ КАТАЛИЗАТОРА ОКИСЛЕНИЯ

10 Профиль позиционной кластеризуемости терминов в тексте Статистически значимые кластеры выделяются с помощью сканирующих статистик Взаимное расположение кластеров: oпозиционно разнесены друг от друга oпересекаются друг с другом oвкладываются один в другой Профиль кластеризуемости аккумулирует на одном графике информацию обо всех участках кластеризации разных L-грамм

11 Профиль кластеризуемости терминов в тексте – ступенчатая функция аргумент – порядковый номер предложения в тексте значение – число различных кластеров, включающих в себя данное предложение СО 2 ; СО 2 ; ОКИСЛЕНИЕ; СО 2 ; ОКИСЛЕНИЕ; ОКСИД; СО 2 ; ОКИСЛЕНИЕ; ОКСИД; КАТАЛИЗАТОР; СО 2 ; ОКИСЛЕНИЕ; КАТАЛИЗАТОР; СО 2 ; ОКИСЛЕНИЕ;

12 Индикаторы связи «Он (Ипатьев)… создал ряд важнейших каталитических процессов нефтепереработки, таких как алкилирование, гидрокрекинг, изомеризация» Индикаторы связи отбираются экспертом из устойчивых цепочек параллельно с формированием словаря терминов Индикаторный подход прост в реализации, результаты хорошо интерпретируемы Ограничения подхода: oнеобходимость формирования индикаторных словарей в каждом отдельном случае oотсутствие гарантий обязательного наличия индикатора

13 Индикаторы связи поиск подстроки (индикатора) в строке (тексте): oБойер-Мур – O(N) oTrie-структуры \ L-граммные деревья – O(N L) oКнут-Моррис-Пратт – O(N) oАхо-Корасик (групповой запрос) – O(N + Σ|p i |) N – длина текста |p i | – длина образца

14 Структура тезауруса Русскоязычная часть тезауруса – 1035 терминов NT – narrower term: метанол, окисление – метанол BT – broader term: окисление каталитическое – метанол, окисление USE – use instead: метанол – древесный спирт UF – use for: древесный спирт – метанол RT – related term: метанол, окисление – кислород LE – linguistic equivalent: метанол – methanol x-FE – full equivalent: метанол, окисление в формальдегид – формальдегид, получение окислением метанола

15 Количественные характеристики тезауруса В среднем ~ 3 связи на термин Максимальное число связей – 26 катализаторы окисления – 26, переходные металлы – 20 Минимальное число связей – 0 стехиометрическое число, оже-спектроскопия, Рейнольдса критерий,… Распределение количества связей у термина % 19% 21% 14% 10% 6% 5% 4% 4% 1% 9% Распределение связей по типам: NT BT LE RT x-FE USE,UF 33% 32% 16% 10% 8% 1%

16 Апробация методов Тексты: 1. О.В. Крылов «Гетерогенный катализ» 2. В.Б. Фенелонов «Введение в основы адсорбции и текстурологии» 3. И.П. Мухленов «Технология катализаторов» 4. «Лекции по катализу» 5. «Химическая энциклопедия»

17 Количественные характеристики текста Объем текста ~ 400 тыс. словоупотреблений Объем словаря текста ~ 24 тыс. слов Устойчивые L-граммы: L = ,8 0,6 0,09 тыс. Расслоение лексики по с.к.о. начало списка содержит % терминов конец списка %

18 Образцы F = 250 активные центры 0 LE active centers 2 NT активные центры Бренстеда + 0 NT активные центры, кислотные + 0 NT активные центры Льюиса + 0 NT активные центры, основные + 0 NT активные центры, функция распределения 26 NT активные центры, число + 0 RT поверхность, неоднородной поверхности теория X\ЦЕНТР, X { АКТИВНЫЙ_250;КИСЛОТНЫЙ_96;ОСНОВНЫЙ_24;ЧИСЛО_18… ЦЕНТР\X, X { ЛЬЮИСА_34;БРЕНСТЕД_29;ПОВЕРХНОСТЬ_23… Х\АКТИВНЫЙ\ЦЕНТР, Х { ЧИСЛО_26, КОНЦЕНТРАЦИЯ_9,…} ЧИСЛО\X\ЦЕНТР, X { АКТИВНЫЙ_26;КИСЛОТНЫЙ_6;ОСНОВНЫЙ_3…} X\ЦЕНТР\БРЕНСТЕД, X { КИСЛОТНЫЙ_15;ЧИСЛО_2;АКТИВНЫЙ_2…} АКТИВНЫЙ\ЦЕНТР\X, X { ПОВЕРХНОСТЬ_9;БРЕНСТЕДА_2…} КИСЛОТНЫЙ\ЦЕНТР\X, X { ЛЬЮИСА_16;БРЕНСТЕД_15…}

19 Образцы x-FE: ОКИСЛЕНИЕ\X\В\ЭТИЛЕНОКСИД, X {ЭТИЛЕН _11; С 2 Н 4_ 1 } RT: КАТАЛИЗАТОР\Х, Х {полимеризация_15;Циглер-Натта_13 NT\BT, x-FE, RT: X\УГЛЕВОДОРОД, X { 1)воскообразный_4;газообразный _4;жидкий(3);твердый_2 2)высший_5; разветвленный_5; насыщенный_4; ненасыщенный_2; предельный_2; непредельный_2… 3) ароматический_57; нафтеновый_10; парафиновый_5; ацетиленовый_3; изопарафиновый_2… 4) производство_4; выход_4; переработка_2… 5)образование_9; превращение_9; реакция_4; взаимодействие_2… 6) окисление_22; синтез_17; крекинг_14; адсорбция_6; дегидрирование_5; изомеризация_3; алкилирование_2…}

20 Профиль кластеризуемости Пример 1. КИСЛОТНЫЙ ЦЕНТР; 9. ЦЕОЛИТ ТИПА; 2. УДЕЛЬНАЯ ПОВЕРХНОСТЬ; 10. АРОМАТИЧЕСКИЙ УГЛЕВОДОРОД; 3. ПОРИСТАЯ СТРУКТУРА; 11. ПЕРЕХОДНЫЙ МЕТАЛЛ; 4. ОСНОВНЫЙ ЦЕНТР; 12. КРИСТАЛЛИЧЕСКОЕ ПОЛЕ; 5. КАТАЛИЗАТОР КРЕКИНГА; 13. ИОН МЕТАЛЛА; 6. АКТИВНЫЙ ЦЕНТР; 14. АТОМ МЕТАЛЛА; 7. АДСОРБИРОВАННАЯ МОЛЕКУЛА; 15. ТВЕРДОЕ ТЕЛО; 8. КАТАЛИТИЧЕСКИЙ АКТИВНОСТЬ; 7; 6; 6; 7; 8; 8 ; 5; 5; 5; 5; 5; 5; 7; 9; 9;10; 15; 11; 8; 8; 11; 4; 4; 4; 4; 4; 4; 5; 5; 5; 5; 8; 8; 11; 14;14;14; 15;15;11;11;11;11; 8; 8; 3; 3; 3; 3; 3; 3; 4; 4; 4; 4; 5; 5; 8; 5;10; 12;12;12;12;13;13;13;13;13;13;13;13;13; 2; 2; 2; 2; 2; 2; 2; 3; 3; 3; 4; 4; 4; 4; 4;10; 11;11;11;11;11;12;12;12;12;12;12;12;12;12; 1; 1; 1; 1; 1; 1; 1; 1; 1; 1; 1; 1; 1; 1; 1; 1; 1; 1; 1; 1; 1; 1; 1; 1; 1; 1; 1; 1; 1; 1; 1;

21 Профиль кластеризуемости активные центры LE active centers NT активные центры Бренстеда + NT активные центры, кислотные + NT активные центры Льюиса + NT активные центры, основные + NT активные центры, функция распределения NT активные центры, число + RT поверхность, неоднородной поверхности теория L = 2; фраз АКТИВНЫЙ ЦЕНТР 6835 ÷ 6874 КИСЛОТНЫЙ ЦЕНТР 6662 ÷ 8809 ОСНОВНЫЙ ЦЕНТР 6658 ÷ 7632 L = 1; АДСОРБЦИЯ 6742 ÷ 6752, 6789 ÷ 6804 L = 3; фраз КИСЛОТНЫЙ ЦЕНТР БРЕНСТЕДА 6767 ÷ 7573 КИСЛОТНЫЙ ЦЕНТР ЛЬЮИСА 6751 ÷ 7609 ЧИСЛО АКТИВНЫХ ЦЕНТРОВ 6750 ÷ 6874 СИЛА КИСЛОТНОГО ЦЕНТРА 6662 ÷ 6776

22 Индикаторы связи Объем словаря ~ 220 индикаторов BT/NT К ПРОЦЕССАМ ГОМОГЕННОГО КАТАЛИЗА ОТНОСЯТ МНОГОЧИСЛЕННЫЕ РЕАКЦИИ ГИДРАТАЦИИ, ГИДРОЛИЗА, СУЛЬФИРОВАНИЯ, ГАЛОГЕНИРОВАНИЯ, ЭТЕРИФИКАЦИИ, КОНДЕНСАЦИИ И ДРУГИЕ RT С ПОМОЩЬЮ КРЕКИНГА ИЗ НЕФТИ ПОЛУЧАЕТСЯ ЖИДКОЕ МОТОРНОЕ ТОПЛИВО: БЕНЗИН, ДИЗЕЛЬНОЕ И РЕАКТИВНОЕ ТОПЛИВО x-FE ПРОМОТОРАМИ, ИЛИ АКТИВАТОРАМИ, НАЗЫВАЮТ ВЕЩЕСТВА, ДОБАВЛЕНИЕ КОТОРЫХ К КАТАЛИЗАТОРУ УВЕЛИЧИВАЕТ ЕГО АКТИВНОСТЬ, СЕЛЕКТИВНОСТЬ, УСТОЙЧИВОСТЬ. USE/UF КАТАЛИТИЧЕСКОЕ ГИДРИРОВАНИЕ ИЛИ ГИДРОГЕНИЗАЦИЯ ВКЛЮЧАЕТ БОЛЬШУЮ ГРУППУ РЕАКЦИЙ ПРИСОЕДИНЕНИЯ ВОДОРОДА ПО НЕНАСЫЩЕННЫМ СВЯЗЯМ…

23 Точность поиска связанных терминов один из : найдено 180 фраз, из них верно – 87, p = 48% один из … являться : 43/34, p = 79% и другой : 229/169, p = 74% и др. : 284/236, p = 83% синтез … из … окисление … в … Способ повышения точности – построение комбинированных индикаторов: а) индикатор + индикатор б) индикатор + термин в) построение образцов

24 Заключение Предложены три возможные подхода, которые позволяют выявлять из текстов термины, связанные зафиксированными в тезаурусе отношениями. Рассмотрены возможности частичной автоматизации процесса выявления связей, ориентированные на минимизацию труда эксперта С помощью предложенных методов обнаруживаются: oсвязи, отсутствующие в текущей версии тезауруса, oновые термины, связанные с имеющимися в тезаурусе Дублирование найденных разными методами связей может служить подтверждением правильности выявленной связи

25 Поиск устойчивых цепочек а, b – словоформы, x L – L -грамма, F(x L ) – ее частота в Т а*x L, x L b* – лево- и правосторонние расширения x L с максимальными F(аx L ) и F(x L b). Критерий устойчивости: x L с F(x L ) > 2 устойчива, если F(a*x L ) / F(x L ) П и F(x L b*) / F(x L ) П устойчивые сочетания неустойчивое сочетание предложение с предложение со предложение со Скремблингом

26 Позиционный анализ Тематически важные слова распределены по тексту неравномерно Типы неравномерности: кластеры, гэпы, сверхравномерное распределение Способы выявления неравномерности: сканирующие статистики, с.к.о., …

27 Выявление кластеров устойчивых цепочек в тексте Метод выявления обнаружение аномалий в позиционном распределении ЯЕ Аппарат сканирующие статистики d(n) минимальный размер интервала d с фиксированным числом ( n) вхождения ЯЕ (вычисляется для каждой ЯЕ из Т) Если d(n) аномально мал, то ЯЕ кластеризуются Значимость кластера оценивается с помощью имитационного моделирования

28 Выявление кластеров устойчивых цепочек в тексте Кластеризация имеет место, если выполняется условие: (S набл S min )& (S набл 3s) S набл наблюдаемое значение d(n ) в тексте S min и минимальное и среднее значения d(n) в имитационном эксперименте s среднеквадратичное отклонение Микротема характеризуется кластерами, содержащими по 6 12 вхождений устойчивых цепочек Среднее внутрикластерное расстояние между устойчивыми цепочеками меньше среднего внутритекстового в 5 и более раз