Тема 3. 3.1. Структура представления информации в мировых информационных сетях.

Презентация:



Advertisements
Похожие презентации
Мировые информационные ресурсы Поисковые системы.
Advertisements

ПОИСКОВАЯ СИСТЕМА Поисковая система Поисковая система - это программно-аппаратный комплекс, предназначенный для осуществления поиска в сети Интернет и.
"Информационные технологии, Интернет и мультимедиа на службе Церкви и религиозного образования" 1. Принципы работы поисковых систем - Концепция web поиска.
Архитектура поисковых систем. Поисковая система Поисковая система – веб-сервис, предоставляющий возможность поиска информации в Интернет В основе - идея.
Информационно-поисковая система. Классификация информационно- поисковых систем.
Поиск информации в ИНТЕРНЕТЕ Для слушателей курсов. ХалкечеваЛ.В.
Анализ данных Введение в информационный поиск. План оставшихся лекций 1.Введение в информационный поиск 2.Нормализация и извлечение информации из текста.
©Академия последипломного образования, 2012 Поиск информации в Internet.
Страничные факторы ранжирования Михаил Костин, Mail.ru.
Поиск данных. Постановка, организация, последовательность поиска МОУ СОШ 2 городского округа город Буй Костромской области.
Технология поиска информации в Интернете. Поиск по адресам URL URL (Uniform Resource Locator) используется в World Wide Web для задания местоположения.
Поиск информации в Интернете. Для поиска информации используются специальные поисковые системы, которые содержат постоянно обновляемую информацию о местонахождении.
Д.А.Россиев Поиск в Интернет и создание Интернет-обзоров.
Оптимизация информационного поля компании в сети Интернет Ашарапова Елена Валентиновна, заместитель генерального директора ООО "Агентство виртуальных технологий.
Поисковая оптимизация (SEO) – введение Поисковые машины Сервисы статистики, оценка трафика Обзор основных инструментов.
Поиск информации в интернете Теория поиска информации.
Поиск информации – одна из самых востребованных на практике задач, которую приходится решать любому пользователю Интернета. Существуют три основных способа.
Визуализация опорный конспект на будущее. БЕССМЫСЛЕННЫЕ «УКРАШАТЕЛЬСТВА»
Поисковые системы в сети Интернет. Поисковая система Поисковая система - специальный web- сайт, на котором пользователь по заданному запросу может получить.
Выполнила студентка группы ТУ-501 Полозова Ю.О. Виды документальных информационных систем Документальная информационная система (ДИС) единое хранилище.
Транксрипт:

Тема Структура представления информации в мировых информационных сетях

Принципы работы поисковых систем

Виды поиска в WWW поиск по известным адресам Тематические каталоги Поисковые машины Специализированный поиск в базах данных (резервирование, поиск справочной информации о людях, организациях …)

Критерии профессионального поиска: контроль полноты охвата ресурсов; контроль полноты охвата ресурсов; контроль достоверности информации, полученной из Сети; контроль достоверности информации, полученной из Сети; высокая скорость проведения поиска. высокая скорость проведения поиска.

Компоненты поисковой системы SEARCH ENGINE Поисковая система SEARCH ENGINE Поисковая система spider (паук) crawler indexer (индексатор) search engine results engine (система выдачи результатов): the database (база данных) Браузероподобна я программа скачивания web-страниц «путешествующий» паук, который автоматически идет по всем ссылкам, найденным на странице хранилище скаченных и обработанных страниц программа, которая анализирует веб-страницы, скаченные пауками извлекает результаты поиска из базы данных

Метод, по которому поисковая система (ПС) принимает решение называется алгоритмом. ПC осуществляет отбор на основании постоянно меняющихся критериев: Title (заголовок): Имеется ли ключевое слово в заголовке? Domain/URL (Домен/адрес): Имеется ли ключевое слово в имени домена / в адресе страницы? Style (стиль): (STRONG или B), Курсив (EM или I), Заголовки HEAD.

Density (плотность): Количество ключевых слов относительно всего текста страницы называется плотностью ключевого слова. MetaInformation (мета данные): - мета ключевые слова (meta keywords) и мета описания (meta description). Outbound Links (ссылки наружу): Какие ссылки есть на странице и содержит ли они и ключевое слово?

Inbound Links (внешние ссылки): Имеются ли в Интернет ссылки на данный сайт? Каков текст ссылки? Это называется «вне страничный» критерий (автор страницы не всегда может им управлять). Insite Links (ссылки внутри страницы): Какие ссылки на страницы данного сайта содержит эта страница? Т.о., поисковой системе необходимо делать множество уточняющих запросов, используя страницу целиком.

Непосредственный Тематические каталоги Архивы файлов Энциклопедии Словари Базы данных Электронные каталоги библиотек Поиск в соответствии с видом представления

3. Как искать информацию в Интернет Основные методы поиска информации в Интернет: Непосредственный поиск с использованием гипертекстовых ссылок (особенно необходим на заключительных этапах информационного поиска). Поиск в тематических каталогах. Поиск в энциклопедиях, словарях. Поиск с помощью поисковых машин. Поиск в базах данных.

Технология проведения информационного поиска Определение географических регионов поиска; Составление тезауруса; При составлении тезауруса необходимо предусмотреть обработку синонимов, омонимов и морфологических вариаций ключевых слов. Тезаурус - список ключевых слов, организованный с учетом семантических отношений между ними.

Отбор поисковых машин. Устанавливается последовательность использования поисковых машин в соответствии с убыванием ожидаемой эффективности поиска с применением каждой машины.

Составление и выполнение запросов к поисковым машинам. Это наиболее сложный и трудоемкий этап, связанный с обработкой большого количества информации (в основном шумовой).

Эффективность поиска Семантические показатели. Основаны на оценке релевантности между документами и ззапросами Семантические показатели. Основаны на оценке релевантности между документами и ззапросами Устанавливается экспертным путем Релевантность – объективно существующее смысловое соответствие между содержанием документа и ззапроса.

Эффективность поиска Семантические показатели: Полнота выдачи (ПВ) Полнота выдачи (ПВ)Где: а – множество релевантных и выданных системой документов а – множество релевантных и выданных системой документов в – множество релевантных, но не выданных системой документов в – множество релевантных, но не выданных системой документов

Эффективность поиска Семантические показатели: Точность выдачи (ТВ) Точность выдачи (ТВ)Где: а – множество релевантных и выданных системой документов б – множество нерелевантных, но выданных системой документов

Эффективность поиска Семантические показатели: Потери информации (ПИ) Потери информации (ПИ)Где: а – множество релевантных и выданных системой документов в – множество релевантных, но не выданных системой документов

Эффективность поиска Семантические показатели: Информационный шум (ИШ) Информационный шум (ИШ)Где: а – множество релевантных и выданных системой документов б – множество нерелевантных, но выданных системой документов

Эффективность поиска Прагматические показатели. Определяются абонентами системы по оценке пертинентности выданных документов. Прагматические показатели. Определяются абонентами системы по оценке пертинентности выданных документов. Пертинентность – субъективно оцениваемое соответствие содержания документов или текстов информационным интересам потребителя.

Технология поиска Уточнение ззапроса (отсечение нерелевантных результатов) Анализ полученных результатов Формирование запроса Формирование ззапроса Составление тезауруса Отбор поисковых машин

Правильный набор ключевых слов имеет очень важное значение для задания ззапроса. Слова, встречающиеся с максимальной частотой - это предлоги, частицы, местоимения, в английском языке – артикли. Их называют «стоп- слова». Для отбора ключевых слов используют процедуру, основанную на применении законов Зипфа. Текст оценивается по частоте появления каждого слова. Слова ранжируются по частоте.