ТЕОРИЯ ПОДОБИЯ КОНЕЧНЫХ ПОСЛЕДОВАТЕЛЬНОСТЕЙ В ЗАДАЧАХ ИДЕНТИФИКАЦИИ СООБЩЕНИЙ Н.В. Северин n_severin@ukr.net.

Презентация:



Advertisements
Похожие презентации
Поисковая оптимизация (SEO) – введение Поисковые машины Сервисы статистики, оценка трафика Обзор основных инструментов.
Advertisements

Поиск информации – одна из самых востребованных на практике задач, которую приходится решать любому пользователю Интернета. Существуют три основных способа.
Учитель информатики Артеменко Т.В. Поиск информации в Интернет.
Поиск информации в Интернет. Что такое web-сервер? Подключенный к сети компьютер, на котором хранятся Web-сайты и Web- документы. Т. е. структурированные.
Безопасный поиск в сети ИНТЕРНЕТ. Интернет Интернет – это … … сеть, которая включает в себя …, … и … сети и объединяет миллионы … по всему миру.
Поиск информации в Интернет (web). Способы поиска информации в web Поиск информации – одна из самых востребованных на практике задач, которую приходится.
КУРС «WEB-ДИЗАЙН». Что такое Web-страница? То, что мы видим в окне браузера, когда заходим на какой-либо сайт! Мы видим веб-страницу сайта – ее содержимое!
1. Задача Исходные данные: Программа производит чтение трех целых чисел, которые интерпретируются как длины сторон треугольника. Далее программа печатает.
Версия 2.3 Одно из соображений, положенных в основу создания тестов - иметь инструмент быстрого и относительно точного оценивания больших контингентов.
Бесплатный интернет-фильтр для детей Сайт программы
Выполнил: ученик 9а класса МОУ СОШ с УИОП пгт Ленинское Минин Игорь Учитель Е.И. Леушина.
Система тестирования знаний учащихся. Теория. (часть 1)
П ОИСК ИНФОРМАЦИИ В И НТЕРНЕТЕ Работу выполнила: Забавина Татьяна.
Ключевые слова и теги в Интернет- тексте. Все источники трафика можно разделить на 3-4 категории: Прямой Ссылочный Поисковый Трафик соц.сетей?
Оценка достижений планируемых результатов Группа террабиты.
ТЕМА : « Теоретические и практические аспекты поискового продвижения » NetPromoter 2006 КОНФЕРЕНЦИЯ Деловой Интернет © Денис Кравченко SEO-аудитор компании.
1 Измерение информации: алфавитный подход Информация и информационные процессы.
Что такое связи между таблицами В реляционной базе данных связи позволяют избежать избыточности данных. Например, в ходе создания базы данных, содержащей.
Нагрузочное тестирование Применение при разработке высоконагруженных веб- проектов Михаил Токовинин, генеральный директор компании QSOFT +7 (495)
Инструментальные системы для создания компьютерных тестов.
Транксрипт:

ТЕОРИЯ ПОДОБИЯ КОНЕЧНЫХ ПОСЛЕДОВАТЕЛЬНОСТЕЙ В ЗАДАЧАХ ИДЕНТИФИКАЦИИ СООБЩЕНИЙ Н.В. Северин

Пути выхода на сайты, содержащие запрещенный, аморальный или травмирующий психику контент ввод URL в строке браузера переход по баннеру (реклама) переход по результату запроса в поисковой системе

Безопасный поисковый сервис - настройка уровня фильтрации непристойного текста - семейный поиск - интернет ЦЕНЗОР (безопасная поисковая система) другие поисковые системы

Надежность безопасных поисковых систем: СЕКС или СЕКИС ???

NO COMMENTS:

СЕКИС – мнение интернет-сообщества

порнозвезда или опрнозвезда ???

Типы ошибок, допускаемых при «ручном» наборе искажения символа (нескольких символов); пропуск символа(ов); вставка «лишнего» символа(ов); перестановки нескольких (часто – рядом стоящих) символов.

Краткий обзор теории подобия конечных последовательностей (ТПКП) Пусть M 0 – нулевой уровень представляющий множество букв (например, естественного языка). Тогда объекты 1-го уровня – это слова этого языка, а объекты 2- го уровня – его предложения. Два виды подобий для объектов a и b принадлежащих одному уровню (например, 1-му): подобие в широком смысле ( Fw) : 1) подобие в широком смысле ( Fw) : объекты a и b подобны, если число их подобных суб-объектов достаточно велико; подобие в узком смысле ( Fs) : 2) подобие в узком смысле ( Fs) : a и b подобны, если длиннейшая подпоследовательность их подобных суб-объектов, сохраняющая порядок следования этих суб-объектов в составе как a, так и b, достаточно длинна.

Определение численных мер для каждого из двух видов подобия Если a и b – два объекта одного и того же ненулевого уровня, то Fw(a,b) = dw(a,b)/max(|a|,|b|) Fs(a,b) = ds(a,b)/max(|a|,|b|), где dw(a,b)– число сходных суб-объектов у a и b; ds(a,b) – длина длиннейшей подпоследовательности сходных суб- объектов в a и b; |a| – длина (число суб-объектов) объекта a. Например, пусть M 0 – множество букв латинского алфавита a = analogy b = analogia – Fw(a,b) = Fs(a,b) = 6/8 = 0.75; c = naalogia – Fw(a,b) = 0.75; Fs(a,b) = 5/8=0.625.

Выбор меры для определения подобия Узкую меру подобия FsУзкую меру подобия Fs, разумно применять к объектам 1-го уровня. Перемешивание символов в слове изменяет его значение Широкая мера подобия FwШирокая мера подобия Fw, более приемлема для объектов 2-го уровня. Так как в большинстве натуральных языков порядок слов в предложении может изменяться без изменения его смысла.

Узкая мера подобия Fs Узкая мера подобия Fs хорошо справляется с задачами в которых следует учитывать: искажение символа (нескольких символов); пропуск символа(ов); вставку «лишнего» символа(ов); сдвиг и/или перестановку нескольких символов. (возможность изменения длины слова)

Оценки близости слов, полученные при использовании узкой меры подобия Fs(W,W*) W* (искаженное слово) W (правильная форма слова) Оценка сходства W и W* в ТПКП – F s (W, W*) Распознавание MS Word ( « + » – есть замена, «–» – нет) очепяткаопечатка0.625 – очепаткаопечатка потенциаотнопотенциально0.833 – опрелятьсяопределяться0.833 – несовдимостьнесводимость тестсетексте (тесте) констркцуииконструкции0.909 – информационно-посиковыхинформационно-поисковых – кажествсякажется0.778 – мсенноименно0.833+(сменно) сосбенностейособенностей0.927 – произзюстрируемпроиллюстрируем0.867 – сосовупностьсовокупность0.833 – екобходимынеобходимы0.900 – довайтидавайте0.714 – взгяловвзглядов0.875 – фундаметральнойфундаментальной0.933 –

Повышение порога оценки мер подобия Занижение порога может приводить к неоправданной идентификации «близких» слов Решение - повышения порога за счет ввода «взвешенных» мер ТПКП. «Взвешенные» меры – ввод различных весов для суб-объектов из объекта a Вес любого суб-объекта - отражение его «существенности» для объекта a сравнительно с другими суб-объектами из a. изобретение При этом степени аналогичности («взвешенного» подобия) будут иметь одно и то же значение 0.92 как для пары слов {изобретение, изобрели}, так и для {изобретение, изобритение}.

Оценка меры подобия предложений с учетом (1)веса слов и (2)сплоченности слов в ИГ Вопрос Каково наиболее значительное достижение в области математики конца XVII в.; и кто его автор? Ответ с расставленными весами (эталон): {Ньютон и Лейбниц} {изобрели} {математический анализ} Именные группы (ИГ) выделены фигурными скобками. - Оценка подобия производится с учетом веса слов в предложении - В ожидаемых ответах не учитывается порядок слов внутри именных групп, но чередование слов разных ИГ снижает оценку «подобия» ответа эталону

Оценка системой контроля знаний CONTROL Ньютон и Лейбниц изобрели математический анализ -- положительный ответ -- Матем. наализ – это изобритение и Ляйбница, и Невтона. (1.00) Лейбниц и Ньютон – изобретатели матанализа. (1.00) Мат. анализ был создан Ньютоном и Лейбницем. (1.00) Лейбниц, а также Ньютон, открыли анализ. (0.85) Мат. анализ Ньютон открыл, и Лейбниц. (0.80) Матанализ, Лейбниц, Ньютон. (0.95) -- неудовлетворительный -- Математика Ньютона открыла Лейбницев анализ. (0.39) Открыт и Ньютон анализом Лейбница. (0.65) Ньютон придумал Лейбница и создал анализ. (0.63) Ньютон открыл математику, Лейбниц – анализ и. (0.46)

Серверы статистики ключевых запросов wordstat.yandex.ru adwords.google.com/select/KeywordToolExternal stat.go.mail.ru adstat.rambler.ru серверы других поисковых систем

Выборочная статистика популярности запросов (

Спрос и предложения на очепятки

Узкая мера подобия для сообщения Узкая мера подобия для сообщения a = сексуально Сообщение bds(a,b)max(|a|,|b|)Fs(a,b) сесуально9100,90 секуально9100,90 ексуально9100,90 сксуально9100,90 скесуально9100,90 есксуально9100,90

Причины малого веса подобия Порноиндустрия 1.слишком много букв (индуст), отсутствующих в слове-эталоне; 2.грамматически правильное длинное составное слово и можно рекомендовать включить его в список эталонов, наряду с порнографией.

Грамматически правильное длинное составное слово эталон a1= порнозвезда при распределении весов (тоже, что и для эталона порнография) порнозвезда будем иметь: Gs(a1, порно-звезда, L) = Gs(a1, порно-звездища, L) = Gs(a1, порно-звездочка, L) = Наличие ожидаемых в ответе (запросе) символов, даже при их нулевых весах, приводит к существенному росту подобия.