Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 10 лет назад пользователемКлавдия Еськова
1 О ВОЗМОЖНОСТЯХ АВТОМАТИЗАЦИИ ВЫЯВЛЕНИЯ СВЯЗЕЙ МЕЖДУ ТЕРМИНАМИ ПРЕДМЕТНОЙ ОБЛАСТИ (НА ПРИМЕРЕ КАТАЛИЗА) Саломатина Н.В., Гусев В.Д. Институт математики СО РАН Ильина Л.Ю., Кузьмин А.О., Пармон В.Н. Институт катализа г. Новосибирск
2 2 Решаемая задача Формирование и пополнение специализированного тезауруса на основе текстов предметной области Тезаурус – термины ПО + связи между ними Предметная область – катализ Назначение – расширение и уточнение поисковых запросов, повышение эффективности поиска Первоначальное наполнение – из предметных указателей учебников Пополнение – из периодических изданий
3 3 Выявление терминов в тексте Элементы технологии: формирование текстовой подборки выбор системы представления текстов обработка текстов и формирование словаря терминов и индикаторов связи: oс использованием процедур фильтрации и упорядочения oс привлечением эксперта на заключительном этапе
4 4 L- грамма – цепочка из L подряд следующих слов текста Т L -граммная характеристика текста ( L = 1,…, L max ) L max – длина максимального повтора в Т M L – число различных L -грамм в T : x i – i- я L- грамма F(x i ) – частота встречаемости x i в Т {r j (x i )} – позиции вхождения x i в Т 1 j F(x i ) – полный L -граммный спектр Т Представление текста
5 5 Представление группы текстов L -граммная характеристика группы текстов T = {T 1, T 2, …, T m } – четверка: x i – i -я L -грамма; – текстовая частота (число текстов из T, в которых представлена x i ); – абсолютная частота встречаемости x i в Т ; – вектор частот вхождения L -граммы x i в каждый из текстов подборки Т. Совместный L -граммный спектр группы текстов:
6 6 Схема обработки обучающей подборки oнормализация слов oвычисление L-граммных характеристик (на основе trie-структур) oвыявление устойчивых (встречающихся в большом числе разнообразных контекстов) цепочек (L-грамм) oвведение ограничений на параметры, характеризующие L-грамму oуточнение терминологического словаря экспертом
7 7 Выявление связей Исследование вариативности L-грамм oL-граммные шаблоны: построение образцов с переменной/переменными Выявление позиционной неравномерности распределения L-грамм в тексте oпостроение профиля кластеризуемости L-грамм в тексте Использование индикаторов связи oФормирование индикаторного словаря экспертом на основе устойчивых L-грамм небольшой длины, не являющихся терминами oпоиск индикаторов в тексте, анализ контекста
8 8 Терминологические шаблоны образец с одной переменной p = a 1 a 2 … a k-1 x k a k+1 …a n фиксирует подмножество словосочетаний длины n, отличающихся друг от друга заменой по k-й позиции Пример p = РЕАКТОР\С\Х\СЛОЕМ\ Х { НЕПОДВИЖНЫМ, КИПЯЩИМ, ДВИЖУЩИЙМСЯ, ПСЕВДОСЖИЖЕННЫМ, ФИЛЬТРУЮЩИМ }
9 9 Объединение образцов X\КАТАЛИЗАТОР\, КАТАЛИЗАТОР\Y\ X { активность, состав, приготовление, восстановление, свойство, селективность, …} Y { окисление, крекинг, гидрирование, полимеризация, газоочистка,…} Образец р = X\КАТАЛИЗАТОР\Y позволяет учесть всевозможные комбинации слов: АКТИВНОСТЬ КАТАЛИЗАТОРА ОКИСЛЕНИЯ АКТИВНОСТЬ КАТАЛИЗАТОРА КРЕКИНГА СОСТАВ КАТАЛИЗАТОРА ОКИСЛЕНИЯ СОСТАВ КАТАЛИЗАТОРА КРЕКИНГА ПРИГОТОВЛЕНИЕ КАТАЛИЗАТОРА ГАЗООЧИСТКИ ВОССТАНОВЛЕНИЕ КАТАЛИЗАТОРА ОКИСЛЕНИЯ СВОЙСТВО КАТАЛИЗАТОРА ОКИСЛЕНИЯ СЕЛЕКТИВНОСТЬ КАТАЛИЗАТОРА ОКИСЛЕНИЯ
10 10 Профиль позиционной кластеризуемости терминов в тексте Статистически значимые кластеры выделяются с помощью сканирующих статистик Взаимное расположение кластеров: oпозиционно разнесены друг от друга oпересекаются друг с другом oвкладываются один в другой Профиль кластеризуемости аккумулирует на одном графике информацию обо всех участках кластеризации разных L-грамм
11 11 Профиль кластеризуемости терминов в тексте – ступенчатая функция аргумент – порядковый номер предложения в тексте значение – число различных кластеров, включающих в себя данное предложение СО 2 ; СО 2 ; ОКИСЛЕНИЕ; СО 2 ; ОКИСЛЕНИЕ; ОКСИД; СО 2 ; ОКИСЛЕНИЕ; ОКСИД; КАТАЛИЗАТОР; СО 2 ; ОКИСЛЕНИЕ; КАТАЛИЗАТОР; СО 2 ; ОКИСЛЕНИЕ;
12 12 Индикаторы связи «Он (Ипатьев)… создал ряд важнейших каталитических процессов нефтепереработки, таких как алкилирование, гидрокрекинг, изомеризация» Индикаторы связи отбираются экспертом из устойчивых цепочек параллельно с формированием словаря терминов Индикаторный подход прост в реализации, результаты хорошо интерпретируемы Ограничения подхода: oнеобходимость формирования индикаторных словарей в каждом отдельном случае oотсутствие гарантий обязательного наличия индикатора
13 13 Индикаторы связи поиск подстроки (индикатора) в строке (тексте): oБойер-Мур – O(N) oTrie-структуры \ L-граммные деревья – O(N L) oКнут-Моррис-Пратт – O(N) oАхо-Корасик (групповой запрос) – O(N + Σ|p i |) N – длина текста |p i | – длина образца
14 14 Структура тезауруса Русскоязычная часть тезауруса – 1035 терминов NT – narrower term: метанол, окисление – метанол BT – broader term: окисление каталитическое – метанол, окисление USE – use instead: метанол – древесный спирт UF – use for: древесный спирт – метанол RT – related term: метанол, окисление – кислород LE – linguistic equivalent: метанол – methanol x-FE – full equivalent: метанол, окисление в формальдегид – формальдегид, получение окислением метанола
15 15 Количественные характеристики тезауруса В среднем ~ 3 связи на термин Максимальное число связей – 26 катализаторы окисления – 26, переходные металлы – 20 Минимальное число связей – 0 стехиометрическое число, оже-спектроскопия, Рейнольдса критерий,… Распределение количества связей у термина % 19% 21% 14% 10% 6% 5% 4% 4% 1% 9% Распределение связей по типам: NT BT LE RT x-FE USE,UF 33% 32% 16% 10% 8% 1%
16 16 Апробация методов Тексты: 1. О.В. Крылов «Гетерогенный катализ» 2. В.Б. Фенелонов «Введение в основы адсорбции и текстурологии» 3. И.П. Мухленов «Технология катализаторов» 4. «Лекции по катализу» 5. «Химическая энциклопедия»
17 17 Количественные характеристики текста Объем текста ~ 400 тыс. словоупотреблений Объем словаря текста ~ 24 тыс. слов Устойчивые L-граммы: L = ,8 0,6 0,09 тыс. Расслоение лексики по с.к.о. начало списка содержит % терминов конец списка %
18 18 Образцы F = 250 активные центры 0 LE active centers 2 NT активные центры Бренстеда + 0 NT активные центры, кислотные + 0 NT активные центры Льюиса + 0 NT активные центры, основные + 0 NT активные центры, функция распределения 26 NT активные центры, число + 0 RT поверхность, неоднородной поверхности теория X\ЦЕНТР, X { АКТИВНЫЙ_250;КИСЛОТНЫЙ_96;ОСНОВНЫЙ_24;ЧИСЛО_18… ЦЕНТР\X, X { ЛЬЮИСА_34;БРЕНСТЕД_29;ПОВЕРХНОСТЬ_23… Х\АКТИВНЫЙ\ЦЕНТР, Х { ЧИСЛО_26, КОНЦЕНТРАЦИЯ_9,…} ЧИСЛО\X\ЦЕНТР, X { АКТИВНЫЙ_26;КИСЛОТНЫЙ_6;ОСНОВНЫЙ_3…} X\ЦЕНТР\БРЕНСТЕД, X { КИСЛОТНЫЙ_15;ЧИСЛО_2;АКТИВНЫЙ_2…} АКТИВНЫЙ\ЦЕНТР\X, X { ПОВЕРХНОСТЬ_9;БРЕНСТЕДА_2…} КИСЛОТНЫЙ\ЦЕНТР\X, X { ЛЬЮИСА_16;БРЕНСТЕД_15…}
19 19 Образцы x-FE: ОКИСЛЕНИЕ\X\В\ЭТИЛЕНОКСИД, X {ЭТИЛЕН _11; С 2 Н 4_ 1 } RT: КАТАЛИЗАТОР\Х, Х {полимеризация_15;Циглер-Натта_13 NT\BT, x-FE, RT: X\УГЛЕВОДОРОД, X { 1)воскообразный_4;газообразный _4;жидкий(3);твердый_2 2)высший_5; разветвленный_5; насыщенный_4; ненасыщенный_2; предельный_2; непредельный_2… 3) ароматический_57; нафтеновый_10; парафиновый_5; ацетиленовый_3; изопарафиновый_2… 4) производство_4; выход_4; переработка_2… 5)образование_9; превращение_9; реакция_4; взаимодействие_2… 6) окисление_22; синтез_17; крекинг_14; адсорбция_6; дегидрирование_5; изомеризация_3; алкилирование_2…}
20 20 Профиль кластеризуемости Пример 1. КИСЛОТНЫЙ ЦЕНТР; 9. ЦЕОЛИТ ТИПА; 2. УДЕЛЬНАЯ ПОВЕРХНОСТЬ; 10. АРОМАТИЧЕСКИЙ УГЛЕВОДОРОД; 3. ПОРИСТАЯ СТРУКТУРА; 11. ПЕРЕХОДНЫЙ МЕТАЛЛ; 4. ОСНОВНЫЙ ЦЕНТР; 12. КРИСТАЛЛИЧЕСКОЕ ПОЛЕ; 5. КАТАЛИЗАТОР КРЕКИНГА; 13. ИОН МЕТАЛЛА; 6. АКТИВНЫЙ ЦЕНТР; 14. АТОМ МЕТАЛЛА; 7. АДСОРБИРОВАННАЯ МОЛЕКУЛА; 15. ТВЕРДОЕ ТЕЛО; 8. КАТАЛИТИЧЕСКИЙ АКТИВНОСТЬ; 7; 6; 6; 7; 8; 8 ; 5; 5; 5; 5; 5; 5; 7; 9; 9;10; 15; 11; 8; 8; 11; 4; 4; 4; 4; 4; 4; 5; 5; 5; 5; 8; 8; 11; 14;14;14; 15;15;11;11;11;11; 8; 8; 3; 3; 3; 3; 3; 3; 4; 4; 4; 4; 5; 5; 8; 5;10; 12;12;12;12;13;13;13;13;13;13;13;13;13; 2; 2; 2; 2; 2; 2; 2; 3; 3; 3; 4; 4; 4; 4; 4;10; 11;11;11;11;11;12;12;12;12;12;12;12;12;12; 1; 1; 1; 1; 1; 1; 1; 1; 1; 1; 1; 1; 1; 1; 1; 1; 1; 1; 1; 1; 1; 1; 1; 1; 1; 1; 1; 1; 1; 1; 1;
21 21 Профиль кластеризуемости активные центры LE active centers NT активные центры Бренстеда + NT активные центры, кислотные + NT активные центры Льюиса + NT активные центры, основные + NT активные центры, функция распределения NT активные центры, число + RT поверхность, неоднородной поверхности теория L = 2; фраз АКТИВНЫЙ ЦЕНТР 6835 ÷ 6874 КИСЛОТНЫЙ ЦЕНТР 6662 ÷ 8809 ОСНОВНЫЙ ЦЕНТР 6658 ÷ 7632 L = 1; АДСОРБЦИЯ 6742 ÷ 6752, 6789 ÷ 6804 L = 3; фраз КИСЛОТНЫЙ ЦЕНТР БРЕНСТЕДА 6767 ÷ 7573 КИСЛОТНЫЙ ЦЕНТР ЛЬЮИСА 6751 ÷ 7609 ЧИСЛО АКТИВНЫХ ЦЕНТРОВ 6750 ÷ 6874 СИЛА КИСЛОТНОГО ЦЕНТРА 6662 ÷ 6776
22 22 Индикаторы связи Объем словаря ~ 220 индикаторов BT/NT К ПРОЦЕССАМ ГОМОГЕННОГО КАТАЛИЗА ОТНОСЯТ МНОГОЧИСЛЕННЫЕ РЕАКЦИИ ГИДРАТАЦИИ, ГИДРОЛИЗА, СУЛЬФИРОВАНИЯ, ГАЛОГЕНИРОВАНИЯ, ЭТЕРИФИКАЦИИ, КОНДЕНСАЦИИ И ДРУГИЕ RT С ПОМОЩЬЮ КРЕКИНГА ИЗ НЕФТИ ПОЛУЧАЕТСЯ ЖИДКОЕ МОТОРНОЕ ТОПЛИВО: БЕНЗИН, ДИЗЕЛЬНОЕ И РЕАКТИВНОЕ ТОПЛИВО x-FE ПРОМОТОРАМИ, ИЛИ АКТИВАТОРАМИ, НАЗЫВАЮТ ВЕЩЕСТВА, ДОБАВЛЕНИЕ КОТОРЫХ К КАТАЛИЗАТОРУ УВЕЛИЧИВАЕТ ЕГО АКТИВНОСТЬ, СЕЛЕКТИВНОСТЬ, УСТОЙЧИВОСТЬ. USE/UF КАТАЛИТИЧЕСКОЕ ГИДРИРОВАНИЕ ИЛИ ГИДРОГЕНИЗАЦИЯ ВКЛЮЧАЕТ БОЛЬШУЮ ГРУППУ РЕАКЦИЙ ПРИСОЕДИНЕНИЯ ВОДОРОДА ПО НЕНАСЫЩЕННЫМ СВЯЗЯМ…
23 23 Точность поиска связанных терминов один из : найдено 180 фраз, из них верно – 87, p = 48% один из … являться : 43/34, p = 79% и другой : 229/169, p = 74% и др. : 284/236, p = 83% синтез … из … окисление … в … Способ повышения точности – построение комбинированных индикаторов: а) индикатор + индикатор б) индикатор + термин в) построение образцов
24 24 Заключение Предложены три возможные подхода, которые позволяют выявлять из текстов термины, связанные зафиксированными в тезаурусе отношениями. Рассмотрены возможности частичной автоматизации процесса выявления связей, ориентированные на минимизацию труда эксперта С помощью предложенных методов обнаруживаются: oсвязи, отсутствующие в текущей версии тезауруса, oновые термины, связанные с имеющимися в тезаурусе Дублирование найденных разными методами связей может служить подтверждением правильности выявленной связи
25 25 Поиск устойчивых цепочек а, b – словоформы, x L – L -грамма, F(x L ) – ее частота в Т а*x L, x L b* – лево- и правосторонние расширения x L с максимальными F(аx L ) и F(x L b). Критерий устойчивости: x L с F(x L ) > 2 устойчива, если F(a*x L ) / F(x L ) П и F(x L b*) / F(x L ) П устойчивые сочетания неустойчивое сочетание предложение с предложение со предложение со Скремблингом
26 26 Позиционный анализ Тематически важные слова распределены по тексту неравномерно Типы неравномерности: кластеры, гэпы, сверхравномерное распределение Способы выявления неравномерности: сканирующие статистики, с.к.о., …
27 27 Выявление кластеров устойчивых цепочек в тексте Метод выявления обнаружение аномалий в позиционном распределении ЯЕ Аппарат сканирующие статистики d(n) минимальный размер интервала d с фиксированным числом ( n) вхождения ЯЕ (вычисляется для каждой ЯЕ из Т) Если d(n) аномально мал, то ЯЕ кластеризуются Значимость кластера оценивается с помощью имитационного моделирования
28 28 Выявление кластеров устойчивых цепочек в тексте Кластеризация имеет место, если выполняется условие: (S набл S min )& (S набл 3s) S набл наблюдаемое значение d(n ) в тексте S min и минимальное и среднее значения d(n) в имитационном эксперименте s среднеквадратичное отклонение Микротема характеризуется кластерами, содержащими по 6 12 вхождений устойчивых цепочек Среднее внутрикластерное расстояние между устойчивыми цепочеками меньше среднего внутритекстового в 5 и более раз
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.