ВЕБ-ПРОСТРАНСТВО КАК ЯЗЫКОВОЙ КОРПУС В. П. Захаров Филологический факультет Санкт-Петербургского университета Институт лингвистических исследований РАН.

Презентация:



Advertisements
Похожие презентации
Лекция 12. Поисковые системы сети Интернет как корпусные менеджеры. Специализированные корпусные интерфейсы к индексам глобальных поисковых систем В.П.
Advertisements

Лекция 11. Поисковые системы Интернет как корпусные менеджеры. Специализированные корпусные интерфейсы к индексам глобальных поисковых систем. В. П. Захаров.
Лекция 3. Корпус как особый тип информационно- поисковой системы В.П. Захаров Санкт-Петербургский государственный университет.
Глобальная сеть Интернет и её информационные сервисы: Авторы: ученик 10 «А» класса Близняков Александр ученица 10 «А» класса Тихомирова Анна ученик 10.
Поиск информации в Интернет (web). Способы поиска информации в web Поиск информации – одна из самых востребованных на практике задач, которую приходится.
КУРС «WEB-ДИЗАЙН». Что такое Web-страница? То, что мы видим в окне браузера, когда заходим на какой-либо сайт! Мы видим веб-страницу сайта – ее содержимое!
Тест по информатике. 1. Что называется файлом? 1.программа, которая переводит язык программирования в машинный код 2.программа, которая служит для подключения.
Поиск информации в Интернете. Для поиска информации используются специальные поисковые системы, которые содержат постоянно обновляемую информацию о местонахождении.
ЛИНГВИСТИЧЕСКИЕ КОРПУСЫ: НОВОЕ НАПРАВЛЕНИЕ ПРОЕКТНОЙ ДЕЯТЕЛЬНОСТИ Львова Ольга Владимировна доцент кафедры информатизации образования МГПУ.
Инструментальные средства создания Web-сайтов
Интернет и Всемирная паутина. Internet = INTERconnected NETworks (Связанные сети) - глобальное информационное пространство, хранящее огромное количество.
Основные понятия World Wide Web (W W W). WWW это сеть документов, связанных между собой гиперссылками. Каждый отдельный документ, имеющий собственный.
Как осуществить поиск в Интернете Элективный курс 9 класс.
Автоматическая обработка естественного языка I. Обработка письменного текста.
Лекция 2. Технология создания корпусов В.П. Захаров Санкт-Петербургский государственный университет.
Архитектура поисковых систем. Поисковая система Поисковая система – веб-сервис, предоставляющий возможность поиска информации в Интернет В основе - идея.
В глобальной компьютерной сети Интернет протокол маршрутизации Internet Protocol (IP) обеспечивает... передачу.
П О И С К О В Ы Е П О И С К О В Ы Е СИСТЕМЫ СИСТЕМЫ.
Компьютерная лингвистика как наука. 1. Определения компьютерной лингвистики 2. Компьютерная лингвистика и искусственный интеллект 3. Разделы компьютерной.
Информационно-поисковая система. Классификация информационно- поисковых систем.
Транксрипт:

ВЕБ-ПРОСТРАНСТВО КАК ЯЗЫКОВОЙ КОРПУС В. П. Захаров Филологический факультет Санкт-Петербургского университета Институт лингвистических исследований РАН

2 июня 2005 гСПбГУ, ИЛИ РАН2 Корпусная лингвистика Назначение корпусов История создания Проблемы создания национальных корпусов Национальный корпус русского языка – см. НТИ, сер.2, 2005, 3

2 июня 2005 гСПбГУ, ИЛИ РАН3 Проблемы создания Репрезентативность Хронологические рамки Разметка Разные задачи разные типы корпусов Трудоёмкость Специализированное программное обеспечение (corpus managers)

2 июня 2005 гСПбГУ, ИЛИ РАН4 Web как корпус Интернет – огромный справочник, всемирная библиотека, всемирный архив текстовой информации Число веб-страниц (документов): более 10 миллиардов ? Удваивается каждые 8 – 16 мес. Любые типы текстов Разные языки НО: Проблема сбалансированности Проблема метаинформации Проблема поисковых средств

2 июня 2005 гСПбГУ, ИЛИ РАН5 Поисковые системы как корпус-менеджеры

2 июня 2005 гСПбГУ, ИЛИ РАН6 Поисковая система Робот – подсистема, обеспечивающая просмотр (сканирование) Интернета и поддержание инвертированного файла (индексной базы данных) в актуальном состоянии Поисковая база данных(индекс) – специальным образом организованная база – инвертированный файл Поисковая система – подсистема поиска, обеспечивающая обработку запроса пользователя, поиск в базе данных и выдачу результатов поиска Пользовательские интерфейсы – экранные формы программ-браузеров: интерфейс формирования запросов и интерфейс просмотра результатов поиска

2 июня 2005 гСПбГУ, ИЛИ РАН7 Поисковые системы как инструмент лингвистического анализа Наиболее важными с точки зрения лингвистического анализа текстового материала представляются следующие особенности ИПС: "грамотная" работа со словоформами; поиск слов с заданным или произвольным усечением, как правым, так и левым; индексирование полных текстов в полном объеме без исключения; работа со словосочетаниями – учет расстояния между элементами словосочетаний и порядка их следования; различение больших и малых букв.

2 июня 2005 гСПбГУ, ИЛИ РАН8 Возможности поисковых систем для получения лингвостатистических данных о частоте

2 июня 2005 гСПбГУ, ИЛИ РАН9 Примеры лингвистических "изысканий" "броузер" или "браузер" "Яндекс": статистика слов: броузер: , браузер: ; запросов за месяц: броузер: 2150, браузер: "пергамент" или "пергамен" "Яндекс": Статистика слов: пергамен: 635, пергамент: 59585; запросов за месяц: пергамен: 4, пергамент: 240. "офсайд" или "оффсайд" "Яндекс": "офсайд": словоупотреблений "оффсайд": 9867 словоупотреблений

2 июня 2005 гСПбГУ, ИЛИ РАН10 Еще примеры: Частота употребления отдельных лексем в Интернете

2 июня 2005 гСПбГУ, ИЛИ РАН11 Поиск в Яндексе (язык запросов) «изучение языка» Результат поиска: страниц 61986, сайтов не менее 1601 Запросов за месяц: изучение 44683, языка Всё для изучения языка программирования Турбо Паскаль «изучение языков» Результат поиска: страниц , сайтов не менее 1620 Запросов за месяц: изучение 44683, языков Изучение языков в Интернете: лучшие методики и пособия изучение /1 языка Результат поиска: страниц , сайтов не менее 1479 Запросов за месяц: изучение 44683, языка Изучение языков в Интернете: лучшие методики и пособия Всё для изучения языков программирования изучение /2 языка Изучение английского языка … Изучение иностранных языков в Интернете: лучшие методики и пособия

2 июня 2005 гСПбГУ, ИЛИ РАН12 Яндекс

2 июня 2005 гСПбГУ, ИЛИ РАН13 Поиск в Google (язык запросов) примерно для изучение языка примерно для изучение языков примерно для "изучение языка" примерно для "изучение языков" примерно для "изучение * языка" из примерно для "изучение * языков"

2 июня 2005 гСПбГУ, ИЛИ РАН14 WebCorp

2 июня 2005 гСПбГУ, ИЛИ РАН15 WebCorp – входной интерфейс(1)

2 июня 2005 гСПбГУ, ИЛИ РАН16 WebCorp – входной интерфейс(2)

2 июня 2005 гСПбГУ, ИЛИ РАН17 WebCorp – входной интерфейс(3)

2 июня 2005 гСПбГУ, ИЛИ РАН18 Google: изучение … языка

2 июня 2005 гСПбГУ, ИЛИ РАН19 WebCorp: изучение … языка WebCorp output for search termизучение * языка Producing output Document Dated: 2004/04/23 15:50:34 (server header) Plain Text Word List 2241 tokens, 1186 types Plain TextWord List информационного обеспечения в отрасли, углубленное изучение иностранного языка, расширение перечня изучаемых прикладных управленческихизучение иностранного языка Document Dated: 2002/08/06 15:16:51 (server header) Plain Text Word List 219 tokens, 169 types Plain TextWord List владеть же ивритом и продолжить изучение английского языка вам помогут специальные молодежные программыизучение английского языка Document Dated: 1997/12/30 03:03:00 (server header) Plain Text Word List 5214 tokens, 2299 types Plain TextWord List путей создания тестов является глубокое изучение стандарта языка С++, в ходе которого выявляютсяизучение стандарта языка Statistics: Using the Google search engine WebCorp accessed 20 web pages, 3 of which returned errors.Google 5 concordances were generated.

2 июня 2005 гСПбГУ, ИЛИ РАН20 WebCorp: изучение … … языка WebCorp output for search term изучение * * языка Producing output... Document Dated: 1999/12/28 11:40:15 (server header) Plain Text Word List 2170 tokens, 1132 types Plain TextWord List изучаемого языка, б) долгосрочная изучение и использование языка в общении. Язык является отражением изучение и использование языка Document Dated: 2005/05/31 13:23:58 (server header) Plain Text Word List 527 tokens, 373 types Plain TextWord List Кроме того, институт предлагает студентам изучение второго иностранного языка. СТАЖИРОВКИ. Летние школы в зарубежныхизучение второго иностранного языка Sort Options Alphabetise concordance lines on :Position:Case Sensitive? : Sort by Date: Statistics Using the Google search engine WebCorp accessed 7 web pages, 2 of which returned errors.Google 2 concordances were generated.

2 июня 2005 гСПбГУ, ИЛИ РАН21 WebCorp: [run] WebCorp output for search term r[u|a]n[ning|s|] Document Dated: 2005/01/01 00:00:00 (copyright) Plain Text Word List 980 tokens, 607 types Plain TextWord List kann. (more) Plot Outline: Lola runs. To save her boyfriend's life runs his immediate death. Lola starts running immediately thinking of a million running in her life and she runs and runs..... The quality of runs Document Dated: 2005/01/01 00:00:00 (copyright) Plain Text Word List 582 tokens, 331 types Plain TextWord List matters 'crucial to improving my running' I knew I had stumbled running revolutionary book to hit the running community this decade. It will running is revolutionizing the sport of running. Success Stories Hi I running Now a 12 mile trail run is fun! Keep up the run

2 июня 2005 гСПбГУ, ИЛИ РАН22 Дальнейшие возможности Ограничением область поиска определенными формальными признаками: страна (доменное имя) время Домен Тематика и др. Подобные поиски и изыскания может провести каждый лингвист, не тратя времени на сбор текстового материала. И в ряде случаев результаты будут более представительны, чем на базе специализированных корпусов.

2 июня 2005 гСПбГУ, ИЛИ РАН23 Спасибо за внимание! В. П. Захаров