Как сегодня работает поисковая система. Поисковый кластер Два дешевых сервера вычислят больше запросов и проиндексируют больше web- страниц, чем один.

Презентация:



Advertisements
Похожие презентации
Технология поиска информации в Интернете. Поиск по адресам URL URL (Uniform Resource Locator) используется в World Wide Web для задания местоположения.
Advertisements

Поддержка пользовательских файловых хранилищ. Облачные хранилища. Максим Смирнов ведущий разработчик.
Exchange 2010: Новые возможности по хранению данных и обеспечению отказоустойчивости в Exchange 2010, backup и восстановление с использованием System Center.
«Нужно снизить затраты на оборудование и поддержку» - Начальник ЦОД «Мои сотрудники должны все время быть на связи с заказчиками.» - Директор по продажам.
Компьютерная сеть (Computer Network) – это множество компьютеров, соединенных линиями связи и работающих под управлением специального программного обеспечения.
СОЗДАНИЕ ПЛАТФОРМЫ для ИНТЕРНЕТ МАГАЗИНА. Решения План работ Разработка Дизайн Контент Интеграция в социальные сети Стоимость Привлечение Вопросы ОГЛАВЛЕНИЕ.
Локальная сеть Типы локальных сетей Топология сетей.
ПОИСКОВАЯ СИСТЕМА Поисковая система Поисковая система - это программно-аппаратный комплекс, предназначенный для осуществления поиска в сети Интернет и.
Распределенная обработка информации Разработано: Е.Г. Лаврушиной.
ЗАО «Институт ситуационного анализа» (ЗАО «ИСА») Универсальный программный комплекс для информационно-аналитического сопровождения для информационно-аналитического.
Понятие локальной вычислительной сети. Виды ЛВС. Маршрутизация в локальных сетях. Серверные локальные сети. Система « файл - сервер », « клиент - сервер.
Редакционная система интернет-издания «Газета.Ru» 2008 Особенности издания СМИ в интернет Редакционная издательская система Редакционный процесс Публикация.
Услуга нового поколения «Антивирус Dr.Web». Сейчас вы узнаете почему провайдерам важно, чтобы на компьютерах их пользователей стоял надежный антивирус.
Интернет служба World Wide Web. Способы поиска информации в Интернете В интернете есть все? Пространство Web быстрее наполняется или систематизируется?
IdleCrawler – современный инструмент Интернет-маркетинга.
Создание облачной инфраструктуры в Международном университете природы, общества и человека «Дубна» Проректор по информатизации и инновационной деятельности.
Архитектура поисковых систем. Поисковая система Поисковая система – веб-сервис, предоставляющий возможность поиска информации в Интернет В основе - идея.
КУРС «WEB-ДИЗАЙН». Что такое Web-страница? То, что мы видим в окне браузера, когда заходим на какой-либо сайт! Мы видим веб-страницу сайта – ее содержимое!
Государственное образовательное учреждение среднего профессионального образования. «Прокопьевский политехнический техникум» Причины сбоев и технология.
САЙТ как СРЕДСТВО ИНФОРМАЦИОННОГО ОБЕСПЕЧЕНИЯ малого предпринимательства.
Транксрипт:

Как сегодня работает поисковая система

Поисковый кластер Два дешевых сервера вычислят больше запросов и проиндексируют больше web- страниц, чем один дорогой. Критерии выбора серверов: Стоимость Производительность Размер Потребление электроэнергии и тепловыделение

Плюсы: Высокая производительность Низкая стоимость Простота изготовления, отсутствие «загадочных болезней» Минус: Высокая частота отказов оборудования Много дешевых машин

Программное обеспечение: Исключение сбойных серверов из кластера, перераспределение нагрузки на оставшиеся в строю машины; Хранение данных в нескольких экземплярах Непрерывный контроль целостности данных И как же с этим бороться?

Примеры RADIST: распределенное хранилище данных Рамблера; HICS: система для распределенного хранения и быстрой обработки сверхбольших массивов данных; Автоматическое «голодание» поисковых модулей.

Что в результате? Из ненадежного «железа» и специального программного обеспечения можно построить надежную и производительную систему.

Что хранится в кластере? Полный комплект веб-страниц, которые скачивал робот + частично хранится история изменения страниц Архив поисковых запросов Метаинформация Данные о посещаемости страниц Сети

Как объем данных помогает улучшить поиск Робот научился распознавать и удалять из URL необязательные параметры Индексатор стал лучше понимать естественный язык (повышение качества лингвистического анализа) Выявление «горячих» запросов и специальное ранжирование. Эврика! Разделение веб-страниц на смысловую часть и элементы навигации/дизайна.

Что ищут на Рамблере: Авария Николая Караченцова: Небольшой всплеск перед публикациями в СМИ Резкое увеличение запросов сразу после первых сообщений Расширение тематики (номер машины, супруга, дилер, нейрохирурги и т. д.) Спад интереса GTA San Andreas: Лавина запросов «коды gta san andreas» Горячий кофе Сейчас: Зимняя резина, убийство Нуркадилова, пожар в сетуньском проезде, Т. Качарава и М. Згибай, IPS-19

Как это выглядит?