Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 10 лет назад пользователемЛиана Скосарева
1 Лингвистические электронные ресурсы (введение) О.Н.Ляшевская факультет филологии НИУ ВШЭ
2 Что нужно для исследования языка? Документация языков: можно ли написать текст на незнакомом языке, прочитав его грамматику и словарь?
3 Что нужно для исследования языка? Документация языков: можно ли написать текст на незнакомом языке, прочитав его грамматику и словарь? Нет - нужно прочитать много текстов, а еще лучше, пообщаться с носителями языка. язык - средство общения в языке всегда есть много вариантов выражения мысли - в зависимости от намерений говорящего и коммуникативной ситуации язык - живой, языковые средства могут меняться
4 Цифровая революция и лингвистика книги словари учебники + электронные книги интернет аудиокниги электронные словари электронные пособия, медиакурсы, тренажеры радио, телевидение энциклопедии автоматические переводчики, Skype-обучение....
5 Русский язык в Интернете (Ру)нет как фонд текстов на (русском) языке: Источник полезной информации: новости, статьи из газет и журналов, электронные версии книг, сценарии кинофильмов, сайты музеев и учебных заведений, обзоры товаров, транскрипты интервью... + аудио- и видеозаписи: радиопрограммы, интервью, аудиокниги, радиоспектакли, песни, youtube (rutube) Сети для электронной коммуникации: facebook, вконтакте, Живой журнал и др., форумы, чаты Справочные, энциклопедические и образовательные ресурсы Поисковые системы и переводчики
6 Интернет представляет испорченный язык (Ру)нет как фонд текстов на (русском) языке: Источник полезной информации: новости, статьи из газет и журналов, электронные версии книг, сценарии кинофильмов, сайты музеев и учебных заведений, обзоры товаров, транскрипты интервью... + аудио- и видеозаписи: радиопрограммы, интервью, аудиокниги, радиоспектакли, песни, youtube (rutube) Сети для электронной коммуникации: facebook, вконтакте, Живой журнал и др., форумы, чаты Справочные, энциклопедические и образовательные ресурсы Поисковые системы и переводчики
7 Электронные библиотеки "Народные" проекты lib.ru Библиотека Максима Мошковаlib.ru lib.aldebaran.ru Библиотека "Альдебаран"lib.aldebaran.ru netslova.ru Сетевая словесностьnetslova.ru russ.ru Русский журналruss.ru Google Books ru.wikipedia.org Википедия (архив Википедии как большой текстовый ресурс)ru.wikipedia.org Академические проекты feb-web.ru Фундаментальная электронная библиотека "Русская литература и фольклор"feb-web.ru -- аннотированные электронные версии классики, включая варианты изданий -- словари и литературные энциклопедии
8 Электронные корпуса Задачам лингвистического исследования лучше всего отвечают не просто тексты (архивы текстов), а корпуса - коллекции текстов, снабженные специальной разметкой (информация о текстах в общем, о каждом предложении и слове)
9 Электронные корпуса Типичные вопросы, на которые отвечают корпуса: - отличается ли речь авторов-женщин от авторов-мужчин? - когда впервые появилось в языке слово слямзить? (NB! не появилось, а задокументировано) - отличается ли сочетаемость слов хотеть и стремиться? (ср. *я стремился, чтобы...)
10 Классификация ресурсов базы данных грамматики - структурированные факты по грамматикам корпуса - сводные данные по употреблению языковых единиц в корпусе, в т.ч. частотные словари - структурированные факты о лексике справочные системы другие специальные ресурсы (геоинформация по диалектам и т.п.)
11 Чем еще пользуются лингвисты?
12 интуицией: если являешься носителем языка, можно спросить себя, "можно ли так сказать"?
13 Чем еще пользуются лингвисты? интуицией: если являешься носителем языка, можно спросить себя, "можно ли так сказать"? К сожалению, интуицию трудно превратить в ресурс!
14 интуицией: если являешься носителем языка, можно спросить себя, "можно ли так сказать"? опросами информантов + экспериментами если сомневаешься, можно спросить носителя языка, "можно ли так сказать"? можно (в ходе эксперимента) спровоцировать носителя языка произнести или не произнести интересующую меня языковую единицу Чем еще пользуются лингвисты? К сожалению, результаты опросов информантов и экспериментов малодоступны и еще не стали общественным достоянием
15 Примеры (just a few...) Словари в электронном формате slovari.yandex.ru на портале Яндексаslovari.yandex.ru –словари русского языка –энциклопедии –двуязычные словари dic.academic.ru –словари и энциклопедии slovari.ru под эгидой Института русского языка им.В.В.Виноградова РАНslovari.ru –академические словари русского языка –грамматики русского языка etymolog.ruslang.ru - этимологические словариetymolog.ruslang.ru dict.ruslang.ru - словари на основе НКРЯdict.ruslang.ru ru.wiktionary.org - Вики-словарь (сделай словарь сам!)ru.wiktionary.org gramota.ru Словари XXI века и т.д.gramota.ru
16 Электронные корпуса Корпуса русского языка ruscorpora.ru - Национальный корпус русского языкаruscorpora.ru Упсальский корпус Тюбингенский корпус ХАНКО Хельсинкский аннотированный корпус русских текстовХАНКО Компьютерный корпус текстов русских газет конца ХХ века (МГУ)Компьютерный корпус текстов русских газет конца ХХ века Корпус русского литературного языка (С.-Петербург)Корпус русского литературного языка Регенсбургский диахронический корпус русского языка (древнерусские тексты)Регенсбургский диахронический корпус русского языка (древнерусские тексты) Рукописные памятники Древней Руси: берестяные грамоты, летописи, рукописная книгаРукописные памятники Древней Русиберестяные грамоты летописирукописная книга Параллельный корпус переводов «Слова о полку Игореве» Корпус русских публицистических текстов второй половины XIX векаКорпус русских публицистических текстов второй половины XIX века
17 Базы данных О языках (типологические БД) Ethnologue - база данных языков мира (семья, численность, ареал, живой/вымирающий, карты) Glottolog glottolog.org - генеалогическая классификация + библиографияglottolog.org WALS wals.info - The World Atlas of Language Structures, + типологические свойства языков, типологические очеркиwals.info О лексике The Tower of Babel starling.rinet.ru - этимологическая база данныхstarling.rinet.ru WordNet - семантическая сеть для разных языков О синтаксисе и сочетаемости WordSketchEngine FrameNet
18 Glottolog: ареал распространения сино-тибетских языков
19 WALS: языки с разными системами грамматического числа
20 Вавилонская башня: этимологически связанное гнездо (фино-угорск.)
21 SketchEngine: типичные контексты слова goal
22 SketchEngine: синонимы и сочетаемость слов clever и intelligent
23 Справочно-информационные ресурсы Справочные порталы (на примере русского) gramota.ru - Грамота.ру, портал "Русский язык"gramota.ru –Справочная служба русского языка –словари, статьи, интерактивные диктанты, игры gramma.ru "Культура письменной речи"gramma.ru –академические словари русского языка –грамматики русского языка pishu-pravilno.livejournal.com "Пишу правильно", сообщество в Живом журналеpishu-pravilno.livejournal.com Порталы для исследователей studiorum.ruscorpora.ru - справочная система в помощь пользователям корпусовstudiorum.ruscorpora.ru linguistlist.org - информация о конференциях, журналах, исследователях и институтах, ресурсах и т.д.linguistlist.org
24 Ресурсы компьютерной лингвистики Яндекс.ru, Google.com - работают на гигантских размеченных (индексированных) архивах текстов и на специальных словарях Системы проверки орфографии - используют словари и базы данных Системы автоматического перевода (translate.google.com, multitran и другие) - используют параллельные корпуса и словари Системы классификации новостей - словари + базы знаний Системы анализа мнения о товарах (opinion mining) и т.д.
25 Аннотация текстов: ELAN tla.mpi.nl/tools/tla-tools/elan/ - аннотация аудио и видеоtla.mpi.nl/tools/tla-tools/elan/ Praat - для работы с фонетикой GATE GATE.ac.uk - профессиональные инструментыGATE.ac.uk UIMA uima.apache.org компьютерной лингвистикиuima.apache.org Создание словарей: Lexus tla.mpi.nl/.../lexus/tla.mpi.nl/.../lexus/ iLex IDM idm.fridm.fr TshwaneLex tshwanedje.com/tshwanelex/tshwanedje.com/tshwanelex/ Lexique Pro lexiquepro.comlexiquepro.com ABBYY Lingvo Content + текстовые редакторы, базы данных, конкордансеры и т.д Инструменты для разметки текстов и создания ресурсов Корпус-менеджеры: WordSmithTools Bonito Corpus Workbench
26 Инструменты для разметки текстов и создания ресурсов
28 Аннотация текстов: ELAN tla.mpi.nl/tools/tla-tools/elan/ - аннотация аудио и видеоtla.mpi.nl/tools/tla-tools/elan/ Praat - для работы с фонетикой GATE GATE.ac.uk - профессиональные инструментыGATE.ac.uk UIMA uima.apache.org компьютерной лингвистикиuima.apache.org Создание словарей: Lexus tla.mpi.nl/.../lexus/tla.mpi.nl/.../lexus/ iLex IDM idm.fridm.fr TshwaneLex tshwanedje.com/tshwanelex/tshwanedje.com/tshwanelex/ Lexique Pro lexiquepro.comlexiquepro.com ABBYY Lingvo Content + текстовые редакторы, конкордансеры и т.д Инструменты для разметки текстов и создания ресурсов Корпус-менеджеры: WordSmithTools Bonito Corpus Workbench
29 Аннотация текстов: ELAN tla.mpi.nl/tools/tla-tools/elan/ - аннотация аудио и видеоtla.mpi.nl/tools/tla-tools/elan/ Praat - для работы с фонетикой GATE GATE.ac.uk - профессиональные инструментыGATE.ac.uk UIMA uima.apache.org компьютерной лингвистикиuima.apache.org Создание словарей: Lexus tla.mpi.nl/.../lexus/tla.mpi.nl/.../lexus/ iLex IDM idm.fridm.fr TshwaneLex tshwanedje.com/tshwanelex/tshwanedje.com/tshwanelex/ Lexique Pro lexiquepro.comlexiquepro.com ABBYY Lingvo Content + текстовые редакторы, базы данных, конкордансеры и т.д Инструменты для разметки текстов и создания ресурсов Корпус-менеджеры: WordSmithTools Bonito Corpus Workbench
30 Лингвистические электронные ресурсы
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.