Алгоритм автоматизации идентификации автора письменного речевого произведения в рамках судебного автороведения Хоменко Анна, магистрант, Национального.

Презентация:



Advertisements
Похожие презентации
Отчет о выполненных работах (оказанных услугах) по I этапу Государственного контракта от 10 ноября 2014 года по разработке и внедрению инструмента.
Advertisements

Лекция 7 Постникова Ольга Алексеевна1 Тема. Элементы теории корреляции
Элементы математической статиститки. Статистика – дизайн информации.
7 ноября 2012 г.7 ноября 2012 г.7 ноября 2012 г.7 ноября 2012 г. Лекция 4. Проверка статистических гипотез 4-1. Гипотеза о доле признака 4-2. Гипотеза.
Этапы моделирования в ЭТ. Этапы: Постановка задачи Разработка модели Компьютерный эксперимент Анализ результатов.
6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г. Лекция 5. Сравнение двух выборок 5-1. Зависимые и независимые выборки 5-2.Гипотеза о равенстве.
Формализованные методы в управлении предприятием Докладчик: С.И. Шаныгин Федеральное государственное бюджетное образовательное учреждение высшего профессионального.
СРС На тему : « Сравнение средних значений признаков по критерию Стьюдента : Критерий Стьюдента для независимых выборок. Критерий Стьюдента для связанных.
ГОСУДАРСТВЕННЫЙ КОНТРАКТ «РАЗРАБОТКА МОДЕЛИ СИСТЕМЫ ПОДГОТОВКИ, ПОВЫШЕНИЯ КВАЛИФИКАЦИИ И ПРОФЕССИОНАЛЬНОЙ ПЕРЕПОДГОТОВКИ ПЕДАГОГИЧЕСКИХ РАБОТНИКОВ ОБРАЗОВАТЕЛЬНЫХ.
Этапы компьютерного моделирования. 1. Описание задачи Задача формулируется на обычном языке; Определяется объект моделирования; Представляется конечный.
ВЕБИНАР РТЦ Института образования НИУ ВШЭ 26 июня 2014 года Формирование независимой системы оценки качества образования в среднем профессиональном образовании.
Курс математической статистики Лекционный материал Преподаватель – В.Н. Бондаренко.
Муниципальное образовательное учреждение средняя общеобразовательная школа 9. Компьютерная презентация по математике на тему «Закон больших чисел» ученика.
Теория статистики Корреляционно-регрессионный анализ: статистическое моделирование зависимостей Часть 1. 1.
Минаева Татьяна Александровна Демьяненко Ирина Николаевна.
Линейная модель парной регрессии и корреляции. 2 Корреляция – это статистическая зависимость между случайными величинами, не имеющими строго функционального.
Проверка статистических гипотез Лекция 7 (продолжение) 1.
АНАЛИЗ ДАННЫХ НА КОМПЬЮТЕРЕ. Регрессионный анализ.
Расчет оптимальной численности выборки. Статистическое наблюдение сплошное Обследование всех единиц изучаемой совокупности не сплошное Обследование части.
Санкт-Петербургский государственный университет Факультет психологии Магистерская программа «Организационная психология» Анализ ценностей потребителей.
Транксрипт:

Алгоритм автоматизации идентификации автора письменного речевого произведения в рамках судебного автороведения Хоменко Анна, магистрант, Национального исследовательского университета «Высшая школа экономики», эксперт-лингвист, эксперт-фоноскопист, Независимое Профессиональное Объединение «Эксперт Союз», г.Нижний Новгород

Судебное автороведение: Отрасль судебной экспертной деятельности в области речеведческих экспертиз. Определить автора текста чаще всего требуется в спорах, связанных с нарушением авторских и смежных прав (ст. 146 УК РФ). Судебная автороведческая экспертиза (судебное автороведение) традиционно относится к классу криминалистических экспертиз. Наряду с почерковедением это вид криминалистического исследования письма. Согласно приказу Минюста Российской Федерации от г «Об утверждении Перечня родов (видов) экспертиз, выполняемых в государственных судебно-экспертных учреждениях Министерства юстиции Российской Федерации, и Перечня экспертных специальностей, по которым предоставляется право самостоятельного производства судебных экспертиз в государственных судебно-экспертных учреждениях Министерства юстиции Российской Федерации» автороведческая экспертиза определяется как исследование письменной речи с целью установления авторства, а соответствующей экспертной специальностью является специальность «Исследование письменной речи». Предмет судебного автороведческого исследования – установление фактических данных о личности автора.

Цели, задачи, методы исследования Цель - определить, могут ли выбранные методы математической статистики и стилеметрического анализа успешно применяться в судебном автороведении; можно ли на их основе создать универсальную безошибочную методику атрибуции текста любого объёма и можно ли автоматизировать процесс атрибуции текста на современном этапе развития российской судебно-экспертной практики. Задача – разработать алгоритм, включающую как методы интерпретационного анализа, так и методы математической статистики и теории вероятности и позволяющую как можно более точно и в автоматическом или полуавтоматическом режиме определять автора письменного текста. Методы исследования - метод интерпретации, метод контекстуального анализа, метод семантико-стилистического анализа, метод коммуникативно-синтаксического анализа, метод стилеметрического анализа, методы математической статистики и теории вероятности.

Актуальность исследования востребованность экспертиз и экспертных исследований по атрибуции текстового материала компетентными органами, как то: прокуратурами, следственными комитетами, судами различной юрисдикции; частое использование экспертами-лингвистами методик, основанных лишь на интерпретации языкового знака; вероятность различной интерпретации языкового знака разными экспертами, приводящая к неоднозначности выводов; попытки замены специалистами в области языка методов математической статистики арифметическими подсчётами, приводящие к неоднозначности выводов; необходимость объективизации, оптимизации и автоматизации методик автороведческих экспертиз.

Материал для исследования (для достижения цели исследования были взяты уже авторизованные тексты) ТВ (тестовая выборка, сравнительный образец, текстовый массив, автор которого заведомо известен) – тексты С.Д. Довлатова, размещённые в НКРЯ (объём ТВ – слов); ЭТ (экспериментальный текст, спорный текст, текст, автор которого якобы неизвестен) – текст С.Д. Довлатова «Наши» (объём – слов).

Методика исследования основа: исследование Е.С. Родионовой «Лингвистические методы атрибуции и датировки литературных произведений (К проблеме «Мольер - Корнель»)» - стилеметрический анализа, квантитативная лингвистика, теория распознавания образов; анализ языковой личности автора по Ю.Н. Караулову, « Русский язык и языковая личность » - интерпретационный анализа; методикой квантитативного анализа незнаменательных и стилистически немаркированных лексем и квазисинонимов А.Н. Баранова, « Введение в прикладную лингвистику ».

Апробация алгоритма I. Построение атрибуционных гипотез об авторстве спорного текста ЭТ: Н 0 – автор ТВ и ЭТ – одно лицо, то есть автор ТВ и ЭТ – С.Д. Довлатов (по закону транзитивности: если автор ТВ – С.Д. Довлатов, а автор ЭТ и ТВ – одно лицо, то автор ЭТ – тоже С.Д. Довлатов). Н 1 – авторы ТВ и ЭТ – разные лица, то есть автор ЭТ не С.Д. Довлатов (если автор ТВ – С.Д. Довлатов, а авторы ЭТ и ТВ – разные лица, то автор ЭТ – не С.Д. Довлатов).

Апробация алгоритма II. Анализ языковой личности (ЯЛ) (анализ ЯЛ автора ТВ и ЭТ) Результатом стали 35 выявленных характеристик ЯЛ С.Д. Довлатова на трёх уровнях языковой личности:

Апробация алгоритма Вербально-семантический уровень: я, мы, ты, они, сочинительный союз «а» в начале предложения; сочинительный союз «но» в начале предложения; сочинительный союз «и» в начале предложения.

Апробация алгоритма Лингвокогнитивный уровень: 1.Аксиологические оценки, прямое и опосредованное отношение к действительности: плохо, хорошо, тёмный, белый, светлый, грусть, грустный, грустно, молчание, молчаливый; 2. Образы, символы: город, чемодан, родина, детство;

Апробация алгоритма Мотивационный, прагматический уровень 1.Экспликаторы модальности допущения, неуверенности: ну, пусть, ладно, пожалуй, так, бы, видно; 2.Экспликаторы модальности удивления: неужели, разве, ах; 3.Экспликаторы модальности ограничения: только, лишь, почти; 4.Экспликатор модальности возражения: всё-таки.

Апробация алгоритма III. Квантитативные и стилеметрические преобразования данных, полученных в результате анализа ЯЛ. 1) Определение выборочных частот. Механический подсчёт того, сколько раз параметр реализуется в ТВ, ЭТ.

Апробация алгоритма 2) Определение средневыборочной частоты (аналог математического ожидания) каждого параметра по формуле (1) :

Апробация алгоритма 3) Определение отклонения выборочных частоты от средневыборочной частоты (среднеквадратическое отклонения) рассчитывается по формуле (2).

Апробация алгоритма 4) Поиск вероятной ошибки в определении средней частоты по формуле (3) (для α – 0,2 и вероятности 0,8 при (n – 1) степеней свободы (35-1=34): t = 1,3070 ). Для ТВ ошибка составляет 0, Для ЭТ - 0,

Апробация алгоритма 5 ) Определение релевантных параметров для конечных моделей. Определяются по t-критерию Стьюдента (4). Уровень значимости α – 0,2. Критическое значение – в таблице пересечение уровня степеней свободы (количества параметров - 1) и вероятности 0,8.

Апробация алгоритма По результатам исследования выделены следующие релевантные для модели ТВ и ЭТ параметры: грусть,; сочинительный союз "но" в начале предложения; пусть; грустный; разве; ах; белый; неужели. Релевантными для построения моделей в настоящей работе считаются параметры, числовые показатели которых наиболее близки к табличному значению t-критерия (1, 3070).

Апробация алгоритма IV. Переход от реальных объектов к их математическим моделям, то есть описание выделенных в ходе предшествующего анализа параметров с помощью условной сигнатуры. Формирование матриц данных

Апробация алгоритма. Модель ТВ и ЭТ

Апробация алгоритма V. Сравнение моделей ТВ и ЭТ. Для сравнения моделей используется коэффициент корреляции между однородными параметрами модели, определяемый по формуле (5) Этот коэффициент показывает, насколько близки две модели. Чем ближе значение этого коэффициента к 1, тем более сходны модели в качественном отношении, что говорит и о близости характеристик текстов.

Апробация алгоритма Коэффициент корреляции между числовыми значениями матриц ТВ и ЭТ равен 0,

Апробация алгоритма VI. Выводы о том, какие из выстроенных в начале исследования гипотез нашли своё подтверждение. Подтвердилась следующая гипотеза: Н 0 – автор ТВ и ЭТ – одно лицо, то есть автор ТВ и ЭТ - С.Д. Довлатов (по закону транзитивности: если автор ТВ – С.Д. Довлатов, а автор ЭТ и ТВ – одно лицо, то автор ЭТ – тоже С.Д. Довлатов).

Рекомендации по улучшению рабочих характеристик алгоритма Для улучшения работы алгоритма в условиях реальной действительности для текстов большого объёма можно дать следующие рекомендации: число параметров для идентификации автора по письменному речевому произведению должно быть около 45 – 50 единиц; методику можно дополнить вычленением из двух текстов (эталонного текста, то есть сравнительного образца, и спорного текста), так называемых, квазисинонимичных лексем.

Осуществлено в рамках Программы «Научный фонд НИУ ВШЭ» в 2013 году, грант при поддержке: -Автономной некоммерческой образовательной организации «Волго-окская экспертная компания»,г. Нижний Новгород; -Независимого профессионального объединения «Эксперт Союз», г. Нижний Новгород

Спасибо за внимание! Хоменко Анна,