Лекция 4. Экстралингвистическая разметка. Метаданные. В.П. Захаров Санкт-Петербургский государственный университет.

Презентация:



Advertisements
Похожие презентации
Функциональные стили литературного языка Экстралингвистические признаки.
Advertisements

Интерфейс текстового процессора Microsoft Word. С помощью ленты можно быстро находить необходимые команды (элементы управления: кнопки, раскрывающиеся.
Урок 3. Формы представления данных (таблицы, формы, запросы, отчеты)
1 Изучение особенностей цветового оформления материала в презентации Работа 3 Федеральное агентство по образованию Государственное образовательное учреждение.
Из чего состоит "электронный офис". Запуск программ Office.
УРОК РАЗВИТИЯ РЕЧИ 1 7 класс. Тема: стили литературного языка Цели: -закрепить понятие о стилях речи; -развивать навыки анализа текста.
Лекция 3. Корпус как особый тип информационно- поисковой системы В.П. Захаров Санкт-Петербургский государственный университет.
Письма, отчеты, web-страницы и почтовые сообщения с графическим оформлением.
Модуль 2 Документы в текстовом редакторе Microsoft Word 2003.
Инструкция по созданию базы данных в Microsoft Access
Процесс создания презентации состоит из следующих действий: выбор общего оформления; изменение цветовой схемы; выбор разметки слайдов; добавление новых.
1 © Хацкевич Александр Георгиевич Windows 7. 2 В предыдущих версиях операционных систем Windows управление файлами означало расположение файлов в различных.
Программа Проводник 8 класс Яблоновская СОШ 3, Тахтамукайский район, Республика Адыгея Учитель информатики Нигматуллин Р.Р.
Урок развития речи. Стили русского языка. Тема урока: «Урок развития речи. Стили русского языка» Цель урока: закрепить понятия о стилях речи; закрепить.
«Первые шаги в MS Excel ». НАЗНАЧЕНИЕ И ОБЛАСТИ ПРИМЕНЕНИЯ ТАБЛИЧНЫХ ПРОЦЕССОРОВ ПРАКТИЧЕСКИ В ЛЮБОЙ ОБЛАСТИ ДЕЯТЕЛЬНОСТИ ЧЕЛОВЕКА, ОСОБЕННО ПРИ РЕШЕНИИ.
Модуль 7 Разработка и создание форм. Общие сведения Формы. Основные понятия. Создание форм с помощью мастера. Использование выражений в формах. Работа.
Работа с историческими источниками на уроках. Анализ современного школьного опыта показывает отсутствие интереса у учащихся к историческим источникам.
Освоение среды текстового процессора Word Форматирование текстового документа Форматирование текстового документа.
Задача регистрации курсов (диаграмма классов). Классы-сущности Класс-сущность (entity class) используется для моделирования данных и поведения с длинным.
Система управления обучением «Moodle» Бесстрашнова Янина Константиновна.
Транксрипт:

Лекция 4. Экстралингвистическая разметка. Метаданные. В.П. Захаров Санкт-Петербургский государственный университет

Лекция 4Корпусная лингвистика2 Метаразметка Метаданные – структурированные данные о данных: помогают установить порядок среди хаоса, позволяют осуществить автоматическое обнаружение и обработку данных.

Лекция 4Корпусная лингвистика3 Экстралингвистическая разметка "внешняя", "интеллектуальная" разметка библиографические характеристики типологические характеристики тематические характеристики социологические характеристики …………………………. "формальная" структурная разметка текст, раздел, глава, часть, абзац, предложение … технико-технологическая разметка кодировка даты обработки исполнители источник электронной версии …………………………

Лекция 4Корпусная лингвистика4 "Внешняя", "интеллектуальная" разметка Нужна: для выявления взаимосвязи языка и условий его существования; для изучения отдельных подмножеств языка. Выделяют два класса факторов, влияющих на язык текстов: внешние, внеязыковые факторы (E - external); внутренние факторы (I - internal). ( См. Sinclair (1996). Preliminary recommendations on text typology. EAGLES Document EAG-TCWG-TTYP/P.

Лекция 4Корпусная лингвистика5 "Внешняя", "интеллектуальная" разметка (продолжение) Синклер выделяет: три группы E-факторов: Е1 (origin) - факторы, относящиеся к созданию текста автором; E2 (state) - факторы, относящиеся к внешним признакам текста (включая устную или письменную речь); Е3 (aims) - факторы, относящиеся к причинам создания текста и его влиянию на аудиторию. и две группы I-факторов: I1 (topic) - предметная область текста; I2 (style) - стилистические особенности (стиль, жанр).

Лекция 4Корпусная лингвистика6 Набор метаданных в «Национальном корпусе русского языка» Первый блок: 1) 1) автор текста: имя, пол, дата рождения (или примерный возраст); 2) 2) название текста; 3) 3) время и место создания текста (может указываться точно или приблизительно); 4) 4) объем текста: для художественных произведений принято, что обычная длина рассказа – менее 5 тыс. слов; обычная длина повести – от 5 до 15 тыс. слов; обычная длина романа – более 15 тыс. слов. Второй блок: параметры метаописания трех основных массивов текстов корпуса: 1) 1) художественных текстов; 2) 2) нехудожественных текстов; 3) 3) драматургии.

Лекция 4Корпусная лингвистика7 Художественные тексты (в НКРЯ): жанр текста нежанровая проза, автобиографическая проза, детектив, детская литература, историческая проза, криминальная литература, приключения, фантастика, юмор и сатира тип текста автобиографическая проза, анекдот, ассоциа­тивная проза, боевик, детектив, очерк, литературное письмо, повесть, притча, пьеса, рассказ, роман, сказка, триллер, эпопея, эссе и др.; хронотоп текста приблизительное указание на место и время описываемых в тексте событий Реально предлагается следующее: древний Восток; Россия XVII в.; Россия XIX в.; Россия/СССР: советский период в целом; Россия, советский период – Германия 1920–1940-е годы; Россия/СССР – Европа е годы; Россия/СССР: перестройка; Россия/СССР: советский и постсоветский период; Америка: современная жизнь; Израиль: современная жизнь; Средняя Азия: современная жизнь; ирреальный мир и др. Также может быть «хронотоп не определен».

Лекция 4Корпусная лингвистика8 Нехудожественные тексты (в НКРЯ): тип текста автобиография, акт, дневник, договор, доку­мент, закон, заметка, заявление, инструкция, информационное сообщение, кодекс, комментарий, листовка, обзор, объявление, отзыв, отчет, очерк, письмо, постановление, проповедь, путево­дитель, резюме, реклама, рекомендация, рецензия, рецепт, сочи­нение, справочник, статья, учебник, характеристика, хроника, эссе, юридический документ (включается также помета «тип не определен») и пр. (всего 62 параметра); тематика текста открытый список в 5 подмножествах: бизнес, коммерция, экономика, финансы; война и вооруженные конфликты; дом и домашнее хозяйство; здоровье и медицина; зрелища и развлечения; искусство; криминал; наука (по разделам и отраслям); политика и общественная жизнь; право; производ­ство; сельское хозяйство; спорт; природа; частная жизнь и т.п.

Лекция 4Корпусная лингвистика9 Служебная, или «имплицитная» метаразметка (в НКРЯ) «текст-стиль», при этом выделяются академический, научно-популярный, официально-деловой, нейтральный, сниженный, сниженный с элементами грубого просторечия и жаргона, архаизованный, индивидуально-авторский, диалектный и пр. (всего 21); аудитория-возраст; аудитория-уровень образования; аудитория-размер.

Лекция 4Корпусная лингвистика10 Программа метаразметки Systemic Coder Systemic Coder - программа, облегчающая процесс метаописания корпуса текстов. Метаданные задаются на основе классификационной схемы. Программа состоит из 5 интерфейсов. Text Segmentation: разметка границ между сегментами текста; Scheme Management: настройка классификационной схемы; Coding: разметка текста; Review: просмотр размеченного текста; Statistics: интерфейс, позволяющий получить описательную статистику о тексте, или разделить его на две или более совокупности и статистически их сравнить.

Лекция 4Корпусная лингвистика11 Деление текста на отдельные сегменты Интерфейс Разметки текста. Текст, представлен в основном диалоговом окне - текстовое окно, слева расположен набор кнопок (панель инструментов). Интерфейс метаразметки текста позволяет разделить загруженный текстовый файл на сегменты.

Лекция 4Корпусная лингвистика12 Классификационная схема Классификация состоит из 3 частей: имя (system name): идентификатор схемы; признаки (features): варианты выбора; условия ввода (entry-condition). Расширенная классификационная схема:

Лекция 4Корпусная лингвистика13 Создание и изменение классификационной схемы Управление классификационной схемой Добавить признак (Add Feature): добавление нового признака в схему. Переименование классификационной схемы (Rename System): изменение имени схемы. Удаление классификации (Delete System): удаление классификации из схемы. Примечание: все признаки принадлежащие схеме и любая классификация, зависящая от нее будут также удалены. В настоящее время функция Отменить отсутствует. Изменение условия ввода (Change Entry Condition): изменение условия ввода классификации с одного признака на другой. Игнорировать/Не игнорировать подсхему (Ignore/Unignore Subnet): [New] Отключение классификации. Отключенная классификация выделена серым цветом. Она будет проигнорирована в кодировке и статистическом анализе. Управление признаками Добавить классификацию (Add System): создание макета классификации Переименовать признак (Rename Feature): изменение имени признака Удалить признак (Delete Feature): удаление признака. Примечание: все признаки, принадлежащие классификации и любая классификация, зависящая от нее будут также удалены. В настоящее время функция Отменить отсутствует Редактирование примеров (Edit Realisations): [New] Вы можете добавить примеров, прикрепленных за признаками Показать примеры (Show Examples): [New] Выбрав эту опцию вы перемещаетесь в интерфейс Просмотра.

Лекция 4Корпусная лингвистика14 Режим разметки

Лекция 4Корпусная лингвистика15 Интерфейс пользователя для поиска по метаданным: Запросная форма НКРЯ для поиска по жанру текста: нежанровая проза автобиографическая проза детектив детская литература историческая проза криминальная литература приключения фантастика юмор и сатира

Лекция 4Корпусная лингвистика16 Интерфейс пользователя для поиска по метаданным: Запросная формы НКРЯ для поиска по автору текста: Автор текста Пол: мужской женский любой Год рождения: от … до …