MegaLing'2011 Горизонты прикладной лингвистики и лингвистических технологий MegaLing'2011 Горизонты прикладной лингвистики и лингвистических технологий.

Презентация:



Advertisements
Похожие презентации
Визуализация статистики вхождения слов Ландэ Дмитрий Владимирович, д.т.н., зам. директора ИЦ «ЭЛВИСТИ» Киев-2009.
Advertisements

Лекция «Самоподобие в информационном пространстве» ЛАНДЭ Д.В., д.т.н., профессор НТУУ «КПИ», ведущий научный сотрудник ИПРИ НАН Украины Летняя школа Компьютерной.
ИНФОРМАЦИОННЫЕ ПОТОКИ В ВЕБ - ПРОСТРАНСТВЕ И СОЦИАЛЬНО - ПРАВОВОЕ МОДЕЛИРОВАНИЕ Дмитрий Владимирович ЛАНДЭ, доктор технических наук, член-корреспондент.
Лекция «Элементы фрактального анализа информационных потоков» ЛАНДЭ Д.В., д.т.н., профессор НТУУ «КПИ», ведущий научный сотрудник ИПРИ НАН Украины Летняя.
Метод выявления неявных связей объектов Снарский А.А., Ландэ Д.В., Женировский М. И. НТУУ «Киевский политехнический институт», Информационный центр «ЭЛВИСТИ»,
Лекция «Модели информационных потоков» ЛАНДЭ Д.В., д.т.н., профессор НТУУ «КПИ», ведущий научный сотрудник ИПРИ НАН Украины Летняя школа Компьютерной лингвистики.
© ElVisti Лекция 6 Математические модели информационных потоков Дмитрий Владимирович ЛАНДЭ МЕЖДУНАРОДНЫЙ СОЛОМОНОВ УНИВЕРСИТЕТ.
© ElVisti Лекция 10 Основные сведения о нейронных сетях Дмитрий Владимирович ЛАНДЭ МЕЖДУНАРОДНЫЙ СОЛОМОНОВ УНИВЕРСИТЕТ.
Динамические частотные характеристики как основа для структурного описания разнородных лингвистических объектов Ландэ Дмитрий Владимирович, доктор технических.
© ElVisti Лекция 7 Кластерный анализ и информационный поиск Дмитрий Владимирович ЛАНДЭ МЕЖДУНАРОДНЫЙ СОЛОМОНОВ УНИВЕРСИТЕТ.
ВЫЯВЛЕНИЕ НОВЫХ СОБЫТИЙ ИЗ ПОТОКА НОВОСТЕЙ Ландэ Д.В., Брайчевский С.М., Григорьев А.Н., Дармохвал А.Т., Радецкий А.Б. Информационный центр «ЭЛВИСТИ»,
Логарифмическая функция. Её свойства и график. Определение.
© ElVisti Лекция 9 Элементы фрактального анализа информационных потоков Дмитрий Владимирович ЛАНДЭ МЕЖДУНАРОДНЫЙ СОЛОМОНОВ УНИВЕРСИТЕТ.
Ранжирование источников информации в системе мониторинга новостей InfoStream Д.В. Ландэ, С.М. Брайчевский, А.Т. Дармохвал, А.Ю. Морозов Информационный.
Д.т.н., заместитель директора Дмитрий Владимирович ЛАНДЭ, Информационного центра ЭЛВИСТИ Инструментарий анализа игроков рынка новостей на базе технологии.
Законы распределения случайной величины Лекция 4 по дисциплине «Математические методы моделирования в геологии» 1Грановская Н.В.
© ElVisti Лекция 2 Общие сведения об информационно-поисковых системах Дмитрий Владимирович ЛАНДЭ МЕЖДУНАРОДНЫЙ СОЛОМОНОВ УНИВЕРСИТЕТ.
Динамические частотные характеристики слов для описания разнородных лингвистических объектов Ландэ Дмитрий Владимирович, доктор технических наук, ИПРИ.
ТЕХНОЛОГИЯ ПОЛНОТЕКСТОВОГО ПОИСКА В МУЛЬТИЯЗЫЧНЫХ СЕТЕВЫХ РЕСУРСАХ Д.В. Ландэ 1,2, д.т.н., В.В. Жигало 2 1 Институт проблем регистрации информации НАН.
© ElVisti Лекция 14 Основные закономерности развития информационного пространства Дмитрий Владимирович ЛАНДЭ МЕЖДУНАРОДНЫЙ СОЛОМОНОВ УНИВЕРСИТЕТ.
Транксрипт:

MegaLing'2011 Горизонты прикладной лингвистики и лингвистических технологий MegaLing'2011 Горизонты прикладной лингвистики и лингвистических технологий 12 – 16 мая 2011 г. Украина, Крым, Партенит ОСОБЕННОСТИ РАСПРЕДЕЛЕНИЯ УНИКАЛЬНЫХ СЛОВ В ТЕКСТОВЫХ МАССИВАХ Ландэ Дмитрий Владимирович 1,2, Снарский Андрей Александрович 2 1 ИПРИ НАН Украины, 2 НТУУ «Киевский политехнический институт» Киев, Украина

Если последовательно каждому уникальному слову из текстового массива, начиная с первого, приписывать номер, то можно получить зависимость между позицией слова в тексте и этим номером. График зависимости «номер слова в тексте – номер уникального слова»

Закон Хипса

Закон Ципфа

Формальное доказательство закон Хипса

Верхняя кромка соответствует повышенной частоте встречаемости слов после их первого появления.

График рангового распределения количества новых слов в заданном окне наблюдения для потока Интернет-новостей, сканируемых системой InfoStream, удовлетворительно аппроксимирующегося степенной функцией. Ранжированное распределение количества новых слов в окне наблюдения шириной в 250 слов

Зависимость R/S для распределения количества новых слов в окне наблюдения шириной в 250 слов (в логарифмической шкале)

При окне наблюдений в 250 слов эта величина R/S для романа Л.Толстого «Анна Каренина» составила 1,1, в то время, как для политематического потока из Интернет – в среднем 1,25. Одновременно, показатель Херста для первого случая составил 0,75, а для второго – в среднем 0,70. Первые предварительные результаты

Подходы: -Анализ соответствия закону Ципфа - Анализ соответствия закону Хипса (связано с предыдущим) - Анализ распределения новых слов в «окнах» наблюдения - Анализ наличия коррелированных элементов в тексте: Проблема определения осмысленности текста Значения χ отношения среднего установившегося значения объема сжатого перемешанного текста к объему сжатого исходного текста

MegaLing'2011 Горизонты прикладной лингвистики и лингвистических технологий MegaLing'2011 Горизонты прикладной лингвистики и лингвистических технологий 12 – 16 мая 2011 г. Украина, Крым, Партенит Спасибо за внимание! Ландэ Д.В.