Ассоциативная сеть понятий, образующих запросы к Интернету И.А. Большаков Е.И. Большакова А.Ф. Гельбух.

Презентация:



Advertisements
Похожие презентации
Рисуем параллелепипед Известно, что параллельная проекция тетраэдра, без учета пунктирных линий, однозначно определяется заданием проекций его вершин (рис.
Advertisements


1. Определить последовательность проезда перекрестка
1© Богомолова ОМ. Многоугольник называется вписанным в окружность, если все его вершины принадлежат окружности Окружность при этом называется описанной.
Типовые расчёты Растворы
Статистические характеристики Ц ЕЛИ образовательные: объяснить понятие ряда; ввести понятие среднего арифметического, размаха и моды ряда; рассказать.
«Создает человека природа, но развивает и образует его общество» В.Г.Белинский.
Урок повторения по теме: «Сила». Задание 1 Задание 2.
1© Богомолова ОМ. 2 Площадь треугольника равна половине произведения его стороны на высоту, проведенную к этой стороне Площадь треугольника равна половине.
КОНЦЕПЦИЯ РАЗВИТИЯ ЗДРАВООХРАНЕНИЯ РФ ДО 2020 ГОДА РОССИЯ 2009.
6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г. Лекция 5. Сравнение двух выборок 5-1. Зависимые и независимые выборки 5-2.Гипотеза о равенстве.
Теория статистики Описательная статистика и получение статистических выводов Часть 2. 1.

Ребусы Свириденковой Лизы Ученицы 6 класса «А». 10.
1 Знаток математики Тренажер Таблица умножения 2 класс Школа 21 века ®м®м.
Результаты ФЭПО по направлениям и специальностям В разрезе факультетов.
Анализ результатов краевых диагностических работ по русскому языку в 11-х классах в учебном году.
В7 ТРИГОНОМЕТРИЧЕСКИЕ ВЫРАЖЕНИЯ ЕГЭ по математике.
Методы и приемы решения ЕГЭ заданий типа С6 по математике методические рекомендации Серебряков И.П., учитель математики МБОУ «Лицей» г.Лесосибирск.
1 Приближенные алгоритмы Комбинаторные алгоритмы.
Транксрипт:

Ассоциативная сеть понятий, образующих запросы к Интернету И.А. Большаков Е.И. Большакова А.Ф. Гельбух

Резюме В базе пользовательских запросов поисковиков Google и Яндекс выявлена обширная совокупность сочиненных пар существительных. На их основе построена и описана ассоциативная сеть понятий, из которых часто формируются русскоязычные запросы к Интернету. Показано, что выявленные пары существительных представительно входят и в текстовые массивы Интернета. Исследована полученная ассоциативная сеть и составляющие ее понятия.

Задачи данного сообщения Описать имеющуюся коллекцию сочиненных именных пар до и после пополнения ее данными из Google и Яндекса; Дать приближенную интерпретацию ряда характерных запросов в виде сочиненных пар, показав на примерах несводимость возникающих ассоциаций к семантическим связям типа WordNet На основе статистических данных показать, что новые пары понятий встречаются и на сайтах Интернета, а потому могут считаться принадлежащими русскому языку в целом Бегло описать созданную из компонентов сочиненных пар ассоциативную сеть понятий, которыми оперирует русскоязычный пользователь в запросах к Интернету Проанализировать построенную сеть глубже, выявив понятия с максимальным количеством ассоциативных связей, вычленив и описав связные компоненты сети и др.

Связи внутри сочиненных пар в прежней коллекции пар Когипонимы в некой родовидовой иерархии (руки и ноги, аксиомы и теоремы, труд и капитал, акушерство и гинекология); Синонимы, квазисинонимы и повторы (траур и скорбь, горести и несчастья, тысячи и тысячи); Антонимы, квазиантонимы, противоположные понятия и конверсивы (бедные и богатые, актив и пассив, Бог и дьявол, купля и продажа, действие и противодействие); Парные названия и исторически связанные имена (Босния и Герцеговина, Адам и Ева). Редко: соучастники некой ситуации (писатель и читатели, закон и порядок, кожа и косметика) или понятия, связанные причинно-следственными связями (война и разруха, преступление и наказание, штормы и наводнения).

Методика пополнения коллекции 1. Для пар Х i и Y i исходной коллекции (0-й версии) делается попытка найти все новые пары Х i и ? и Y i и ? в БДЗ. Этим создается 1-я версия. 2. Для пар Х i и Y i 1-й версии делается попытка найти все новые пары Y i и ? Этим создается 2-я версия. 3. Для пар Х i и Y i 2-й версии делается попытка найти все новые пары Y i и ? Этим создается 3-я версия. ………………………………………….. 4. Проверяются и отдельные случаи вхождения в основные массивы Интернета пар «и Х i »

Примеры связей внутри новых сочиненных пар Запрос X и цены эквивалентен предикату цены(Х)? (Но: цены и комплектация / наличие / скидки / ценообразование) При Y = беременность или здоровье запрос представим в виде влияние(X,Y)? При Х или Y = СМИ запрос представим симметрич-ным предикатом взаимодействие(X,Y)? При Х = йога, Y = православие / христианство / буддизм имеем симметричный предикат совместимость(йога,Y)? Пара ангина и керосин предполагает структуру с двумя вложенными предикатами: эффективность(лечение(ангина, керосин))?

Статистика образцов запросов и ответов VQ – число запросов, VS – число прямых ответов, VF – число косвенных ответов, все в тысячах Сочиненная пара VQ VS VF беременность и роды беременность и простуда беременность и компьютер беременность и месячные беременность и курение беременность и питание беременность и грипп беременность и молочница здоровье и красота здоровье и материнство здоровье и спорт здоровье и комфорт здоровье и здоровый образ жизни здоровье и долголетие здоровье и окружающая среда

Соотношения статистик в базе данных запросов и в Интернете Сопоставление векторов статистик велось по известной формуле косинуса что дало СOS(VQ,VF) = 0,95 - вектора БДЗ и косвенных ответов коллинеарны СOS(VS,VQ) = 0,26 - вектор прямых ответов идет СOS(VS,VF) = 0,27 - под углом к векторам БДЗ и косвенных ответов

Наша ассоциативная сеть - это неориентированный граф с вершинами, помеченными понятиями, входящими в сочиненные пары. Ребра графа соединяют вершины X и Y, если последние образуют сочиненную пару X и Y и/или Y и Х.

Понятия теории графов Степень вершины это число ребер, которым она принадлежит Висячая вершина это вершина степени 1 Мощностью графа это число узлов в нем Диаметр графа это длина самой длинной из кратчайших цепей, связывающих какие-либо две вершины графа Мост это ребро, разрыв которого увеличивает число связных подграфов Точка сочленения это вершина, удаление которой ведет к увеличению числа связных подграфов

Примеры вершин сети с их ассоциациями аденоиды: аллергия, бассейн, гланды, гомеопатия, кашель, лазеротерапия, миндалины, слух ангина: антибиотики, беременность, гомеопатия, грудное вскармливание, кашель, керосин, мороженое, прополис, сердце, фарингит аргументация: доказательство, контраргументация, опровержение, риторика аритмия: алкоголь, армия, беременность, остеохондроз, роды, спорт, тахикардия астрономия: астрология, астрофизика, космонавтика, космос, непознанное, общество, телескопостроение, физика безработица: бедность, занятость, инфляция, кризис, рынок труда биотехнология: генная инженерия, медицина, микробиология, окружающая среда, селекция, сельское хозяйство, энергетика

Степени D наиболее популярных понятий D Понятие D ПонятиеD Понятие 302 беременность36 право27 власть 110 здоровье 34 температура27 реклама 87 алкоголь 34 характер 27 экология 87 цены 33 бизнес 26 структура 54 спорт 33 дизайн 25 философия 52 культура 32 кризис 24 контроль 51 похудение 32 развитие 24 наука 49 дети 31 политика 24 пиво 48 человек 31 ремонт 24 христианство 41 диабет 29 армия 23 водка 40 диета 29 методы 23 государство 39 курение 29 экономика 23 деньги 39 любовь 28 давление 23 Интернет 37 общество 28 лечение 23 искусство 37 религия 28 функции 23 православие 37 Россия 27безопасность 23 прыщи

Степени D популярных многословных понятий D Понятие 22 окружающая среда 9 заработная плата 20 щитовидная железа 9 культура речи 16 кормление грудью 9 Новый год 14 лунный календарь 9 общественное мнение 13 грудное вскармливание 9 социальный контроль 12 социальная политика 8 бронхиальная астма 12 характерные черты 8 зеленый чай 11 государственное управление 8 знаки зодиака 11 группа крови 8 информационные технологии 11 международное право 8 образ жизни 11 охрана окружающей среды 8 оливковое масло 10 охрана природы 8 охрана труда 10 рынок труда 8 рыночная экономика 10 экономический рост 8 социальная справедливость 9 витамин С 8 тепловые двигатели 9 глобальные проблемы 7 валютный курс

Общая характеристика сети (на январь 2010 г.) Число понятий в сети 9200 Суммарное число связанных с ними понятий Всего связных подсетей 870 Доминирующая подсеть включает 56% всех вершин сети В доминирующей сети висячие вершины («торчащие иголки») составляют 52% Следующая по мощности подсеть в 24 раза меньше доминирующей Подсетей из двух вершин 75% Среднее число связей у вершины 2,75

Наиболее крупные подсети Мощ- Под- Длина ность сетей диам. Примеры диаметров Примеры мостов Точки сочл. Тематика продавцы–покупатели гололедица–снег; цены; снег; общежитейский –поставщики–закупки комплектация вода; водка; универсум –снабжение– –цены; комплектация–цены –ламинат–вода– ветер –снег–грозы– дожди; любители–профессионалы специалисты–ЕГЭ; вузы; ЕГЭ; воспитательно- –дилетанты–специалисты ЕГЭ–вузы; детсады; образовательная –ЕГЭ–вузы–школы1– лицеи–гимназии; институты; сфера колледжи–лицеи–гимназии; ясли–детсады; фасад–кровля–фасады– изоляция–кровли; кровли; (1)детали домов кровли–крыша1– кровли–фасады; крыши; (2)преступность перекрытия–пустоты; диаметр–окружность– диаметр– крест; круг1; (1)геометр. фигуры круг1–крест–шар окружность; (2)фазы изменения –сфера1; (3)стройматериалы

Некоторые параметры на май 2010 г. Число сочиненных пар Из них из существительных Число понятий в сети 9700 Суммарное число связанных с ними понятий Среднее число ассоциаций у понятия 2,77

Общие свойства понятий- компонентов ассоциативной сети Обычно нейтрального стиля В большинстве своем широко используются в обычной речи В рамках ассоциаций имеют четко фиксированное значение (как у терминов) Однозначно переводятся на иные языки Порядка 10% состоят из двух и более слов. Если у понятия есть оба числа, но обычно используется множественное

Для чего можно использовать сеть? Автоматизированное составление запроса к Интернету в типовых случаях Дальнейшие исследования: Сравнение «профиля» русскоязычного пользователя с общемировым Построение антологий для Интернета Сопоставление с другими ассоциативными и идеографическими словарями

Замечания под конец Google с 10 марта перестал давать статистику запросов. Это не первый раз, когда гуглисты показывают лингвистам конфетку и почти тут же убирают! Развитая нами ассоциативная сеть выложена в Интернете. Если будет интерес, напишите, я выложу самую последнюю версию. При ней дается расшифровка омонимов. Можно выложить и обнаруженные синонимы (их немного).

Спасибо за внимание! Жду вопросов. Большаков Игорь Алексеевич