Автоматическая обработка текста Предварительная обработка текста.

Презентация:



Advertisements
Похожие презентации
Лекция 4 Программирование на Паскале. Элементы языка Турбо Паскаль 7.0. Типы данных. Управляющие конструкции.
Advertisements

Шестое ноября Классная работа В этот день… 1980 (32 года назад) - Билл Гейтс сумел убедить IBM, что "Майкрософт" в состоянии разработать необходимые компании.
Урок 7 10 академ. 1. Какие объекты текстового процессора используются для группировки информации? 2. Какие объекты текстового процессора удобно использовать.
Форматирование документа. Форматирование символов и абзацев. Форматирование символов и абзацев. Нумерованные и маркированные списки. Нумерованные и маркированные.
ОБЩИЕ СВЕДЕНИЯ О ЯЗЫКЕ ПРОГРАММИРОВАНИЯ ПАСКАЛЬ НАЧАЛА ПРОГРАММИРОВАНИЯ.
Символьные и строковые переменные. Общие понятия Для того чтобы ЭВМ могла обрабатывать тексты, она должна уметь оперировать не только с числами, но и.
Задания: 1.Сообщение на русском языке первоначально было записано в 16- битном коде UNICODE. При его перекодировке в 8 битную кодировку КОИ-8 информационное.
ВВОД РЕДАКТИРОВАНИЕ ФОРМАТИРОВАНИЕ Основные правила ввода текста Переход на другую строку внутри абзаца происходит автоматически. Окончание абзаца –
1 Записи 2 Запись – это тип данных, который может включать в себя несколько полей – элементов разных типов (в том числе и другие структуры). Свойства:
Текстовый редактор WORD Форматирование текста. Виды форматирования Форматирование символов Форматирование символов Форматирование абзацев Форматирование.
Общие правила оформления презентации Учитель ИЗО, МХК Лебедь С.Г.
Поиск информации Задача поиска: где в заданной совокупности данных находится элемент, обладающий заданным свойством? Большинство задач поиска сводится.
Обработка текстовой информации Основные понятия. Содержание пособия Понятие текстовой информации Понятие документа Элементы текста Операции с документами.
Форматирование текста Специальные виды форматирования.
1 Лекция 6 Команды категории извлечения данных языка структурированных запросов SQL План лекции Выборка определенных столбцов таблицы Устранение избыточных.
ACCESS 2003 Простые запросы. Теория Запрос на выборку позволяет выбрать данные из одной или нескольких таблиц по определенному условию. В результате выполнения.
I вариант 1.Абзац – произвольная последовательность символов, ограниченная специальными символами конца абзаца. 2.Клавиатура – важнейшее устройство ввода.
Особенности работы с большим текстом. Основные термины 1.СноскиСноски 2.КолонтитулыКолонтитулы 3.Работа в режимах Схема документа и СтруктураРабота в.
10 2/1 Муниципальное автономное общеобразовательное учреждение средняя общеобразовательная школа 50 города Томска.
Статичні структури даних.. 2 Статические данные переменная (массив) имеет имя, по которому к ней можно обращаться размер заранее известен (задается при.
Транксрипт:

Автоматическая обработка текста Предварительная обработка текста

графематический анализ графематический анализ служебные символы служебные символы токенизация токенизация классификация токенов классификация токенов

Графематический анализ The U. S. may sell a record $3. 25 trillion of debt this fiscal year ending Sept. 30, according to primary dealer Goldman Sachs Group Inc. INDEX CHANGE The 10-year note yielded 3.71 percent as of 7:56 a.m. in London, according to data compiled by Bloomberg. The percent security maturing in May 2019 traded at a price of 95 4/32. The yield yesterday dropped eight basis points. The MSCI World Index of equities fell 0.3 percent and the Nikkei 225 Stock Average slipped 2.9 percent. Industrial production dropped 1 percent in May, the seventh month of declines, Italy's FTSE MIB Index lost , or 3 percent, to 19, The yen climbed to per euro as of 7:40 a.m. in London from yesterday in New York. It earlier rose to , the strongest level since May 28. The yen advanced 1.5 percent to per dollar, the biggest gain since May 29. Japan's currency rose 1.6 percent to against the New Zealand dollar, and strengthened 1.8 percent to versus Australia's currency.

Графематический анализ. Задачи Задача: Задача: получить выборку полных словоформ из массива текстов базы данных. получить выборку полных словоформ из массива текстов базы данных. выполняет три функции: выполняет три функции: 1. отсечение стоп-слов в тексте; 1. отсечение стоп-слов в тексте; 2. разбиение данных на три потока (n потоков); 2. разбиение данных на три потока (n потоков); 3. индексация каждого потока. 3. индексация каждого потока. Единицей графематического анализа является цепочка символов, выделенная с двух сторон пробелами. Единицей графематического анализа является цепочка символов, выделенная с двух сторон пробелами. Выделенная цепочка символов подвергается последовательной обработке эвристическими правилами: отсечь знаки пунктуации, проверить присутствие гласных внутри цепочки, чередование верхнего и нижнего регистров и т.д. В зависимости от результатов обработки полученная цепочка символов направляется в один из трех потоков данных: Выделенная цепочка символов подвергается последовательной обработке эвристическими правилами: отсечь знаки пунктуации, проверить присутствие гласных внутри цепочки, чередование верхнего и нижнего регистров и т.д. В зависимости от результатов обработки полученная цепочка символов направляется в один из трех потоков данных: - цифровые и символьные комплексы (кг, ст., ); - цифровые и символьные комплексы (кг, ст., ); - аббревиатуры - названия государств, организаций, предприятий (СССР, ЮНЕСКО, ДорСтройСервис); - аббревиатуры - названия государств, организаций, предприятий (СССР, ЮНЕСКО, ДорСтройСервис); - полные словоформы - полные словоформы

Лекция 3 АОТ Графематический анализ разделение входного текста на элементы (слова, разделители и т.д.); удаление нетекстовых элементов; выделение и оформление нестандартных (нелексических) элементов, например: элементов форматирования – жирность, курсивность, подчёркивание; структурных элементов текста – заголовков, абзацев, примечаний; различных элементов текста, не являющихся словами (числа, даты в цифровых форматах, буквенно-цифровые комплексы, и т.п.); имен (имя, отчество), написанных инициалами; иностранных лексем, записанных латиницей; и т.д сборка например, слов, написанных в разрядку

Пример 1 Назва ние Русское назван ие ОбъяснениеПримеры RLE ЛЕ русская лексема, присваивается последовательностям, состоящим из кириллицы Иван LLE ИЛЕ иностранная лексема, присваивается последовательностям из латиницы John DEL РЗДразделитель. "*', '=', '_' PUN ЗПР знак препинания, присваивается последовательностям, состоящим из одинаковых знаков препинания ".", '[', ']', '(', ')', '-', ':', ';' DC ЦК цифровой комплекс, присваивается последовательностям, состоящим из цифр 1234 DSC ЦБК цифро-буквенный комплекс, присваивается последовательностям, состоящим из цифр и букв 34h GRAU NK сложный узел, присваивается последовательностям, не обладающим вышеперечисленными признаками

Пример 2 #Cap_Letter 110 (? (? [Case.SCap])&".") //выделяет инициалы (B.), буквы в названиях типов коммерческих организаций (P.,C., A.,G.), считаем, что это контекст для точки не в конце предложения #ABBR_dot 120 (? (? [RX"\[A-Z\]"]\[a-z\])&".") // выделяет двухбуквенные аббревиатуры с точкой, возможно правильней задавать их списком, но их достаточно много

Пример 2 (? [Case.Number]((&"."|&",")[Case.Number])/0-1) (? {!'_Cap_list_abbr'[Case.Cap]}) //слова с большой буквы, содержащие не меньше 2-х букв, не аббревиатура (? [Case.Mixed]) //McDonalds (? [Case.Upper]) //USA (? [Case.Cap]&"-"[]) //слова с дефисом, например, двойные имена или фамилии Marry-Ann

Лекция 5 Корпусная лингвистика9 Графематический анализ Примерный перечень элементов текста, требующих специальной обработки Адрес докладчика/унив-та Примечания Страницы форзаца Тезисы докладов отдельным файлом Зачеркивания Перечисления в тексте Титульные листы Текст списком Сами рисунки Списки литературы Слова типа «рак1», «рак2», Nкластеры Цифры Таблицы Иностр. язык в тексте Формат Адреса, ссылки, гиперссылки Римские цифры Сокращения, аббревиатуры Рус. яз. в иностранном тексте Пример поиска Формулы Значки для формул Названия рисунков Схемы

Слова с дефисом : Слова с дефисом : 1) по-моему, по-пушкински, 2) Петербургу-Петрограду-Ленинграду, 3) бело-желтым, штабс-капитана, удовлетворенно- смущенное, штабс-капитан Числа, "шаблоны": 1945г., тел Числа, "шаблоны": 1945г., тел сокращения: г., вв. и т.п. ст. сокращения: г., вв. и т.п. ст. особенности расстановки стилей: особенности расстановки стилей: разрядка: Д О Л Г О разрядка: Д О Л Г О дополнительные "внутрисловные" знаки: дополнительные "внутрисловные" знаки: м-е-е-е-дленно, о'key, he's знаки препинания знаки препинания вкрапления другого алфавита вкрапления другого алфавита Грфематический анализ. Токенизация

Лекция 3 АОТ Графематический анализ Cложности: обработка дефиса и пробела; выделение составных предлогов, устойчивых оборотов, аналитических форм и др.; иноязычные фрагменты; нетекстовые элементы.

Лекция 3 АОТ Графематический анализ Межсловный дефис: объединительная функция (буква)? кто-то, где-нибудь, давным-давно, бакш-таг, брейд-вымпел, генерал-аншеф или разделительная функция (знак препинания)? старик-художник, словарь справочник, девочка-пионерка Пробел: объединительная функция (буква)? сто двадцать пять или разделительная функция? русский язык

Часть 2. Индекс. Поиск в корпусе Найти: «дом» Найти: «дом» ??? Как найти дома, доме, домом и т.п.? ??? Как найти дома, доме, домом и т.п.? форму «дом» или часть слова, совпадающего с последовательностью букв «дом» - народом форму «дом» или часть слова, совпадающего с последовательностью букв «дом» - народом Программа ищет ту подстроку, которую мы ей зададим (точное совпадение) Программа ищет ту подстроку, которую мы ей зададим (точное совпадение) Можно загрузить текст в Word искать там: Правка: найти Что найдем? Можно использовать специальный язык «дом.*» Что найдем? Дома, доме и т.п. + домашний, домовой, домолоть … Дома, доме и т.п. + домашний, домовой, домолоть …

Часть 2. Индекс char* strstr(char *big, char *little) { char *x, *y, *z; for (x = big; *x; x++) { for (y = little, z = x; *y; ++y, ++z) { if (*y != *z) break;} if (!*y) return x; } return 0; } В этой функции языка C текст строки big просматривают слева направо и для каждой позиции x запускают последовательное сравнение с искомой подстрокой little. Для этого, двигая одновременно два указателя y и z, попарно сравнивают все символы. Если мы успешно дошли до конца искомой подстроки, значит она найдена.

Индекс. Полнотекстовый поиск Хотя прямой просмотр всех текстов – довольно медленное занятие, не следует думать, что алгоритмы прямого поиска не применяются в интернете. Норвежская поисковая система Fast ( использовала чип, реализующий логику прямого поиска упрощенных регулярных выражений [fastpmc], и разместила 256 таких чипов на одной плате. Это позволяло Fast-у обслуживать довольно большое количество запросов в единицу времени. (И. Сегалович)

Часть 2. Индекс Xml формат с разбивкой на предложения и токенизацией: Нам.... …

Индекс. Инвертированный файл Эта простейшая структура данных, несмотря на свое загадочное иностранное название, интуитивно знакома любому грамотному человеку, так и любому программисту баз данных, даже не имевшему дело с полнотекстовым поиском. Первая категория людей знает, что это такое, по «конкордансам» - алфавитно упорядоченным исчерпывающим спискам слов из одного текста или принадлежащих одному автору (например «Конкорданс к стихам А. С. Пушкина», «Словарь-конкорданс публицистики Ф. М. Достоевского»). Вторые имеют дело с той или иной формой инвертированного списка всякий раз, когда строят или используют «индекс БД по ключевому полю».