Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 10 лет назад пользователемЗинаида Гоглачева
1 Автоматическая обработка текста Предварительная обработка текста
2 графематический анализ графематический анализ служебные символы служебные символы токенизация токенизация классификация токенов классификация токенов
3 Графематический анализ The U. S. may sell a record $3. 25 trillion of debt this fiscal year ending Sept. 30, according to primary dealer Goldman Sachs Group Inc. INDEX CHANGE The 10-year note yielded 3.71 percent as of 7:56 a.m. in London, according to data compiled by Bloomberg. The percent security maturing in May 2019 traded at a price of 95 4/32. The yield yesterday dropped eight basis points. The MSCI World Index of equities fell 0.3 percent and the Nikkei 225 Stock Average slipped 2.9 percent. Industrial production dropped 1 percent in May, the seventh month of declines, Italy's FTSE MIB Index lost , or 3 percent, to 19, The yen climbed to per euro as of 7:40 a.m. in London from yesterday in New York. It earlier rose to , the strongest level since May 28. The yen advanced 1.5 percent to per dollar, the biggest gain since May 29. Japan's currency rose 1.6 percent to against the New Zealand dollar, and strengthened 1.8 percent to versus Australia's currency.
4 Графематический анализ. Задачи Задача: Задача: получить выборку полных словоформ из массива текстов базы данных. получить выборку полных словоформ из массива текстов базы данных. выполняет три функции: выполняет три функции: 1. отсечение стоп-слов в тексте; 1. отсечение стоп-слов в тексте; 2. разбиение данных на три потока (n потоков); 2. разбиение данных на три потока (n потоков); 3. индексация каждого потока. 3. индексация каждого потока. Единицей графематического анализа является цепочка символов, выделенная с двух сторон пробелами. Единицей графематического анализа является цепочка символов, выделенная с двух сторон пробелами. Выделенная цепочка символов подвергается последовательной обработке эвристическими правилами: отсечь знаки пунктуации, проверить присутствие гласных внутри цепочки, чередование верхнего и нижнего регистров и т.д. В зависимости от результатов обработки полученная цепочка символов направляется в один из трех потоков данных: Выделенная цепочка символов подвергается последовательной обработке эвристическими правилами: отсечь знаки пунктуации, проверить присутствие гласных внутри цепочки, чередование верхнего и нижнего регистров и т.д. В зависимости от результатов обработки полученная цепочка символов направляется в один из трех потоков данных: - цифровые и символьные комплексы (кг, ст., ); - цифровые и символьные комплексы (кг, ст., ); - аббревиатуры - названия государств, организаций, предприятий (СССР, ЮНЕСКО, ДорСтройСервис); - аббревиатуры - названия государств, организаций, предприятий (СССР, ЮНЕСКО, ДорСтройСервис); - полные словоформы - полные словоформы
5 Лекция 3 АОТ Графематический анализ разделение входного текста на элементы (слова, разделители и т.д.); удаление нетекстовых элементов; выделение и оформление нестандартных (нелексических) элементов, например: элементов форматирования – жирность, курсивность, подчёркивание; структурных элементов текста – заголовков, абзацев, примечаний; различных элементов текста, не являющихся словами (числа, даты в цифровых форматах, буквенно-цифровые комплексы, и т.п.); имен (имя, отчество), написанных инициалами; иностранных лексем, записанных латиницей; и т.д сборка например, слов, написанных в разрядку
6 Пример 1 Назва ние Русское назван ие ОбъяснениеПримеры RLE ЛЕ русская лексема, присваивается последовательностям, состоящим из кириллицы Иван LLE ИЛЕ иностранная лексема, присваивается последовательностям из латиницы John DEL РЗДразделитель. "*', '=', '_' PUN ЗПР знак препинания, присваивается последовательностям, состоящим из одинаковых знаков препинания ".", '[', ']', '(', ')', '-', ':', ';' DC ЦК цифровой комплекс, присваивается последовательностям, состоящим из цифр 1234 DSC ЦБК цифро-буквенный комплекс, присваивается последовательностям, состоящим из цифр и букв 34h GRAU NK сложный узел, присваивается последовательностям, не обладающим вышеперечисленными признаками
7 Пример 2 #Cap_Letter 110 (? (? [Case.SCap])&".") //выделяет инициалы (B.), буквы в названиях типов коммерческих организаций (P.,C., A.,G.), считаем, что это контекст для точки не в конце предложения #ABBR_dot 120 (? (? [RX"\[A-Z\]"]\[a-z\])&".") // выделяет двухбуквенные аббревиатуры с точкой, возможно правильней задавать их списком, но их достаточно много
8 Пример 2 (? [Case.Number]((&"."|&",")[Case.Number])/0-1) (? {!'_Cap_list_abbr'[Case.Cap]}) //слова с большой буквы, содержащие не меньше 2-х букв, не аббревиатура (? [Case.Mixed]) //McDonalds (? [Case.Upper]) //USA (? [Case.Cap]&"-"[]) //слова с дефисом, например, двойные имена или фамилии Marry-Ann
9 Лекция 5 Корпусная лингвистика9 Графематический анализ Примерный перечень элементов текста, требующих специальной обработки Адрес докладчика/унив-та Примечания Страницы форзаца Тезисы докладов отдельным файлом Зачеркивания Перечисления в тексте Титульные листы Текст списком Сами рисунки Списки литературы Слова типа «рак1», «рак2», Nкластеры Цифры Таблицы Иностр. язык в тексте Формат Адреса, ссылки, гиперссылки Римские цифры Сокращения, аббревиатуры Рус. яз. в иностранном тексте Пример поиска Формулы Значки для формул Названия рисунков Схемы
10 Слова с дефисом : Слова с дефисом : 1) по-моему, по-пушкински, 2) Петербургу-Петрограду-Ленинграду, 3) бело-желтым, штабс-капитана, удовлетворенно- смущенное, штабс-капитан Числа, "шаблоны": 1945г., тел Числа, "шаблоны": 1945г., тел сокращения: г., вв. и т.п. ст. сокращения: г., вв. и т.п. ст. особенности расстановки стилей: особенности расстановки стилей: разрядка: Д О Л Г О разрядка: Д О Л Г О дополнительные "внутрисловные" знаки: дополнительные "внутрисловные" знаки: м-е-е-е-дленно, о'key, he's знаки препинания знаки препинания вкрапления другого алфавита вкрапления другого алфавита Грфематический анализ. Токенизация
11 Лекция 3 АОТ Графематический анализ Cложности: обработка дефиса и пробела; выделение составных предлогов, устойчивых оборотов, аналитических форм и др.; иноязычные фрагменты; нетекстовые элементы.
12 Лекция 3 АОТ Графематический анализ Межсловный дефис: объединительная функция (буква)? кто-то, где-нибудь, давным-давно, бакш-таг, брейд-вымпел, генерал-аншеф или разделительная функция (знак препинания)? старик-художник, словарь справочник, девочка-пионерка Пробел: объединительная функция (буква)? сто двадцать пять или разделительная функция? русский язык
13 Часть 2. Индекс. Поиск в корпусе Найти: «дом» Найти: «дом» ??? Как найти дома, доме, домом и т.п.? ??? Как найти дома, доме, домом и т.п.? форму «дом» или часть слова, совпадающего с последовательностью букв «дом» - народом форму «дом» или часть слова, совпадающего с последовательностью букв «дом» - народом Программа ищет ту подстроку, которую мы ей зададим (точное совпадение) Программа ищет ту подстроку, которую мы ей зададим (точное совпадение) Можно загрузить текст в Word искать там: Правка: найти Что найдем? Можно использовать специальный язык «дом.*» Что найдем? Дома, доме и т.п. + домашний, домовой, домолоть … Дома, доме и т.п. + домашний, домовой, домолоть …
14 Часть 2. Индекс char* strstr(char *big, char *little) { char *x, *y, *z; for (x = big; *x; x++) { for (y = little, z = x; *y; ++y, ++z) { if (*y != *z) break;} if (!*y) return x; } return 0; } В этой функции языка C текст строки big просматривают слева направо и для каждой позиции x запускают последовательное сравнение с искомой подстрокой little. Для этого, двигая одновременно два указателя y и z, попарно сравнивают все символы. Если мы успешно дошли до конца искомой подстроки, значит она найдена.
15 Индекс. Полнотекстовый поиск Хотя прямой просмотр всех текстов – довольно медленное занятие, не следует думать, что алгоритмы прямого поиска не применяются в интернете. Норвежская поисковая система Fast ( использовала чип, реализующий логику прямого поиска упрощенных регулярных выражений [fastpmc], и разместила 256 таких чипов на одной плате. Это позволяло Fast-у обслуживать довольно большое количество запросов в единицу времени. (И. Сегалович)
16 Часть 2. Индекс Xml формат с разбивкой на предложения и токенизацией: Нам.... …
17 Индекс. Инвертированный файл Эта простейшая структура данных, несмотря на свое загадочное иностранное название, интуитивно знакома любому грамотному человеку, так и любому программисту баз данных, даже не имевшему дело с полнотекстовым поиском. Первая категория людей знает, что это такое, по «конкордансам» - алфавитно упорядоченным исчерпывающим спискам слов из одного текста или принадлежащих одному автору (например «Конкорданс к стихам А. С. Пушкина», «Словарь-конкорданс публицистики Ф. М. Достоевского»). Вторые имеют дело с той или иной формой инвертированного списка всякий раз, когда строят или используют «индекс БД по ключевому полю».
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.