Лингвистические электронные ресурсы (введение) О.Н.Ляшевская факультет филологии НИУ ВШЭ.

Презентация:



Advertisements
Похожие презентации
Республиканская научно-практическая конференция «Интеллектуальное будущее Мордовии» « Формирование лексикографической компетенции учащихся в эпоху интернета.
Advertisements

ИНТЕРНЕТ – гигантская Всемирная компьютерная сеть, объединяющая десятки тысяч сетей всего мира. ЕЕ назначение – обеспечить постоянный доступ к информации.
Цифровые Интернет ресурсы на уроках русского языка и литературы.
Образовательные ресурсы Интернета. Классификация образовательных электронных ресурсов с точки зрения целей создания: информационно-справочные ресурсы;
ПОЛНОВЕСНЫЕ ЭЛЕКТРОННЫЕ БИБЛИОТЕКИ В ИНТЕРНЕТЕ, источники электронного комплектования.
Онлайн-словари и переводчики (английский язык). Англо-русские (русско-английские) электронные словари.
Интернет для учителя Интернет – как источник цифровых образовательных ресурсов.
Интерактивные ресурсы по русскому языку. Организационные сайты Центр развития межличностных коммуникаций Центр развития межличностных коммуникаций (бывший.
«Электронные библиотеки необходимы огромному количеству людей. За ними – будущее!»
Электронные библиотеки для школьников и учителей.
Технология Вики-Вики и ее использование в сетевом ресурсе «Летописи» Патрина Елена Алексеевна, зам. директора по УВР школы 3 г. Кирсанова.
Новое качество образования: использование ИКТ технологий в учебно-воспитательном процессе. учитель истории МОУ СОШ 2 г. Буденновска Донскова Ирина Анатольевна.
Электронные библиотеки для школьников Астрахань 2011 Выполнила: Мажитова Д.И. Библиотекарь МОУ «Началовская СОШ»
ИСПОЛЬЗОВАНИЕ РЕСУРСОВ УДАЛЕННОГО ДОСТУПА В РАБОТЕ ШКОЛЬНОЙ БИБЛИОТЕКИ / МЕДИАТЕКИ ИСПОЛЬЗОВАНИЕ РЕСУРСОВ УДАЛЕННОГО ДОСТУПА В РАБОТЕ ШКОЛЬНОЙ БИБЛИОТЕКИ.
Интернет – всемирное объединение взаимосвязанных компьютерных сетей.
ИКТ в обучении английскому языку А.В. Конобеев, к. пед. н., зам. главного редактора издательства «Титул» по информационно- методической работе.
Э ЛЕКТРОННЫЕ ФИЛОЛОГИЧЕСКИЕ РЕСУРСЫ. У НИВЕРСИТЕТСКИЕ РЕСУРСЫ Основные направления работы Совета: организация и проведение конференций молодых учёных.
Использование компьютерно - информационных технологий в библиотеке Справочно - информационный центр МОУ СОШ 117.
Преподавание истории и обществознания в условиях открытой информационно-образовательной среды. Методические подходы к использованию ресурсов и возможностей.
Компьютерная лингвистика как наука. 1. Определения компьютерной лингвистики 2. Компьютерная лингвистика и искусственный интеллект 3. Разделы компьютерной.
Транксрипт:

Лингвистические электронные ресурсы (введение) О.Н.Ляшевская факультет филологии НИУ ВШЭ

Что нужно для исследования языка? Документация языков: можно ли написать текст на незнакомом языке, прочитав его грамматику и словарь?

Что нужно для исследования языка? Документация языков: можно ли написать текст на незнакомом языке, прочитав его грамматику и словарь? Нет - нужно прочитать много текстов, а еще лучше, пообщаться с носителями языка. язык - средство общения в языке всегда есть много вариантов выражения мысли - в зависимости от намерений говорящего и коммуникативной ситуации язык - живой, языковые средства могут меняться

Цифровая революция и лингвистика книги словари учебники + электронные книги интернет аудиокниги электронные словари электронные пособия, медиакурсы, тренажеры радио, телевидение энциклопедии автоматические переводчики, Skype-обучение....

Русский язык в Интернете (Ру)нет как фонд текстов на (русском) языке: Источник полезной информации: новости, статьи из газет и журналов, электронные версии книг, сценарии кинофильмов, сайты музеев и учебных заведений, обзоры товаров, транскрипты интервью... + аудио- и видеозаписи: радиопрограммы, интервью, аудиокниги, радиоспектакли, песни, youtube (rutube) Сети для электронной коммуникации: facebook, вконтакте, Живой журнал и др., форумы, чаты Справочные, энциклопедические и образовательные ресурсы Поисковые системы и переводчики

Интернет представляет испорченный язык (Ру)нет как фонд текстов на (русском) языке: Источник полезной информации: новости, статьи из газет и журналов, электронные версии книг, сценарии кинофильмов, сайты музеев и учебных заведений, обзоры товаров, транскрипты интервью... + аудио- и видеозаписи: радиопрограммы, интервью, аудиокниги, радиоспектакли, песни, youtube (rutube) Сети для электронной коммуникации: facebook, вконтакте, Живой журнал и др., форумы, чаты Справочные, энциклопедические и образовательные ресурсы Поисковые системы и переводчики

Электронные библиотеки "Народные" проекты lib.ru Библиотека Максима Мошковаlib.ru lib.aldebaran.ru Библиотека "Альдебаран"lib.aldebaran.ru netslova.ru Сетевая словесностьnetslova.ru russ.ru Русский журналruss.ru Google Books ru.wikipedia.org Википедия (архив Википедии как большой текстовый ресурс)ru.wikipedia.org Академические проекты feb-web.ru Фундаментальная электронная библиотека "Русская литература и фольклор"feb-web.ru -- аннотированные электронные версии классики, включая варианты изданий -- словари и литературные энциклопедии

Электронные корпуса Задачам лингвистического исследования лучше всего отвечают не просто тексты (архивы текстов), а корпуса - коллекции текстов, снабженные специальной разметкой (информация о текстах в общем, о каждом предложении и слове)

Электронные корпуса Типичные вопросы, на которые отвечают корпуса: - отличается ли речь авторов-женщин от авторов-мужчин? - когда впервые появилось в языке слово слямзить? (NB! не появилось, а задокументировано) - отличается ли сочетаемость слов хотеть и стремиться? (ср. *я стремился, чтобы...)

Классификация ресурсов базы данных грамматики - структурированные факты по грамматикам корпуса - сводные данные по употреблению языковых единиц в корпусе, в т.ч. частотные словари - структурированные факты о лексике справочные системы другие специальные ресурсы (геоинформация по диалектам и т.п.)

Чем еще пользуются лингвисты?

интуицией: если являешься носителем языка, можно спросить себя, "можно ли так сказать"?

Чем еще пользуются лингвисты? интуицией: если являешься носителем языка, можно спросить себя, "можно ли так сказать"? К сожалению, интуицию трудно превратить в ресурс!

интуицией: если являешься носителем языка, можно спросить себя, "можно ли так сказать"? опросами информантов + экспериментами если сомневаешься, можно спросить носителя языка, "можно ли так сказать"? можно (в ходе эксперимента) спровоцировать носителя языка произнести или не произнести интересующую меня языковую единицу Чем еще пользуются лингвисты? К сожалению, результаты опросов информантов и экспериментов малодоступны и еще не стали общественным достоянием

Примеры (just a few...) Словари в электронном формате slovari.yandex.ru на портале Яндексаslovari.yandex.ru –словари русского языка –энциклопедии –двуязычные словари dic.academic.ru –словари и энциклопедии slovari.ru под эгидой Института русского языка им.В.В.Виноградова РАНslovari.ru –академические словари русского языка –грамматики русского языка etymolog.ruslang.ru - этимологические словариetymolog.ruslang.ru dict.ruslang.ru - словари на основе НКРЯdict.ruslang.ru ru.wiktionary.org - Вики-словарь (сделай словарь сам!)ru.wiktionary.org gramota.ru Словари XXI века и т.д.gramota.ru

Электронные корпуса Корпуса русского языка ruscorpora.ru - Национальный корпус русского языкаruscorpora.ru Упсальский корпус Тюбингенский корпус ХАНКО Хельсинкский аннотированный корпус русских текстовХАНКО Компьютерный корпус текстов русских газет конца ХХ века (МГУ)Компьютерный корпус текстов русских газет конца ХХ века Корпус русского литературного языка (С.-Петербург)Корпус русского литературного языка Регенсбургский диахронический корпус русского языка (древнерусские тексты)Регенсбургский диахронический корпус русского языка (древнерусские тексты) Рукописные памятники Древней Руси: берестяные грамоты, летописи, рукописная книгаРукописные памятники Древней Русиберестяные грамоты летописирукописная книга Параллельный корпус переводов «Слова о полку Игореве» Корпус русских публицистических текстов второй половины XIX векаКорпус русских публицистических текстов второй половины XIX века

Базы данных О языках (типологические БД) Ethnologue - база данных языков мира (семья, численность, ареал, живой/вымирающий, карты) Glottolog glottolog.org - генеалогическая классификация + библиографияglottolog.org WALS wals.info - The World Atlas of Language Structures, + типологические свойства языков, типологические очеркиwals.info О лексике The Tower of Babel starling.rinet.ru - этимологическая база данныхstarling.rinet.ru WordNet - семантическая сеть для разных языков О синтаксисе и сочетаемости WordSketchEngine FrameNet

Glottolog: ареал распространения сино-тибетских языков

WALS: языки с разными системами грамматического числа

Вавилонская башня: этимологически связанное гнездо (фино-угорск.)

SketchEngine: типичные контексты слова goal

SketchEngine: синонимы и сочетаемость слов clever и intelligent

Справочно-информационные ресурсы Справочные порталы (на примере русского) gramota.ru - Грамота.ру, портал "Русский язык"gramota.ru –Справочная служба русского языка –словари, статьи, интерактивные диктанты, игры gramma.ru "Культура письменной речи"gramma.ru –академические словари русского языка –грамматики русского языка pishu-pravilno.livejournal.com "Пишу правильно", сообщество в Живом журналеpishu-pravilno.livejournal.com Порталы для исследователей studiorum.ruscorpora.ru - справочная система в помощь пользователям корпусовstudiorum.ruscorpora.ru linguistlist.org - информация о конференциях, журналах, исследователях и институтах, ресурсах и т.д.linguistlist.org

Ресурсы компьютерной лингвистики Яндекс.ru, Google.com - работают на гигантских размеченных (индексированных) архивах текстов и на специальных словарях Системы проверки орфографии - используют словари и базы данных Системы автоматического перевода (translate.google.com, multitran и другие) - используют параллельные корпуса и словари Системы классификации новостей - словари + базы знаний Системы анализа мнения о товарах (opinion mining) и т.д.

Аннотация текстов: ELAN tla.mpi.nl/tools/tla-tools/elan/ - аннотация аудио и видеоtla.mpi.nl/tools/tla-tools/elan/ Praat - для работы с фонетикой GATE GATE.ac.uk - профессиональные инструментыGATE.ac.uk UIMA uima.apache.org компьютерной лингвистикиuima.apache.org Создание словарей: Lexus tla.mpi.nl/.../lexus/tla.mpi.nl/.../lexus/ iLex IDM idm.fridm.fr TshwaneLex tshwanedje.com/tshwanelex/tshwanedje.com/tshwanelex/ Lexique Pro lexiquepro.comlexiquepro.com ABBYY Lingvo Content + текстовые редакторы, базы данных, конкордансеры и т.д Инструменты для разметки текстов и создания ресурсов Корпус-менеджеры: WordSmithTools Bonito Corpus Workbench

Инструменты для разметки текстов и создания ресурсов

Аннотация текстов: ELAN tla.mpi.nl/tools/tla-tools/elan/ - аннотация аудио и видеоtla.mpi.nl/tools/tla-tools/elan/ Praat - для работы с фонетикой GATE GATE.ac.uk - профессиональные инструментыGATE.ac.uk UIMA uima.apache.org компьютерной лингвистикиuima.apache.org Создание словарей: Lexus tla.mpi.nl/.../lexus/tla.mpi.nl/.../lexus/ iLex IDM idm.fridm.fr TshwaneLex tshwanedje.com/tshwanelex/tshwanedje.com/tshwanelex/ Lexique Pro lexiquepro.comlexiquepro.com ABBYY Lingvo Content + текстовые редакторы, конкордансеры и т.д Инструменты для разметки текстов и создания ресурсов Корпус-менеджеры: WordSmithTools Bonito Corpus Workbench

Аннотация текстов: ELAN tla.mpi.nl/tools/tla-tools/elan/ - аннотация аудио и видеоtla.mpi.nl/tools/tla-tools/elan/ Praat - для работы с фонетикой GATE GATE.ac.uk - профессиональные инструментыGATE.ac.uk UIMA uima.apache.org компьютерной лингвистикиuima.apache.org Создание словарей: Lexus tla.mpi.nl/.../lexus/tla.mpi.nl/.../lexus/ iLex IDM idm.fridm.fr TshwaneLex tshwanedje.com/tshwanelex/tshwanedje.com/tshwanelex/ Lexique Pro lexiquepro.comlexiquepro.com ABBYY Lingvo Content + текстовые редакторы, базы данных, конкордансеры и т.д Инструменты для разметки текстов и создания ресурсов Корпус-менеджеры: WordSmithTools Bonito Corpus Workbench

Лингвистические электронные ресурсы