Веб-система агрегации и интеллектуального анализа проектов фриланс-бирж Докладчик: Савин И.И. 1.

Презентация:



Advertisements
Похожие презентации
Агрегация и интеллектуальный анализ проектов фриланс-бирж Докладчик: Савин Иван.
Advertisements

Текстовая кластеризация алгоритмом ROCK студент 4 курса МИЭМ, каф. ИКТ Иван Савин 1.
Анализ данных Кластеризация. План лекции Определение кластеризации Применение кластеризации Общий алгоритм кластеризации Типы кластеризации Цели: Дать.
Кластеризация статей кафедральной базы знаний студент 4 курса И.И. Савин 1 руководитель: И.С. Игнатьев.
Анализ данных Кластеризация. План лекции Иерархические алгоритмы (пример: алгоритм ближайшего соседа) Итеративные алгоритмы (пример: k-means) Плотностные.
Е-МАСТЕР ® Документооборот Программно-методический комплекс (Система управления организационной информацией) +7 (812)
CRM БИЗНЕС СИСТЕМА. MS TelemarketingSIA "Multi Stream"2 CRM Customer Rrelationship Management - Управление взаимоотношениями с клиентами; Модель взаимодействия,
2 Разработка электронной версии журнала «Студенческая аудитория» (Миграция) Докладчик: Максимова Марина Сергеевна Руководитель проекта: к.т.н. Королёв.
Анализ данных Кластеризация. План лекции Модельные алгоритмы (пример: EM) Концептуальные алгоритмы (пример: COBWEB) Цель: Знакомство с основными алгоритмами.
Касьянов А.А. 1 ПРОЕКТ:. Общая характеристика проекта Цель проекта: повышение количества одновременно обслуживаемых интернет-пользователей, в условиях.
Анализ данных Введение в информационный поиск. План оставшихся лекций 1.Введение в информационный поиск 2.Нормализация и извлечение информации из текста.
«Либэр. Электронная библиотека» - новый этап в автоматизации Программное решение для создания электронной библиотеки Сорокин И.В., менеджер проекта, ЗАО.
Система сопровождения игрового обучения Игнатьев И.С. МИЭМ кафедра ИКТ 1.
Используйте быструю и доступную программу для решения большинства задач: Составляйте расписание Регистрируйте новых клиентов Работайте с заключениям Записывайте.
© ООО «Юмисофт» UMI.CMS Быстрая и удобная система управления сайтами.
Интеллектуальные возможности для обработки растущих объемов данных. Технологии завтрашнего дня. Сергей Полтев Москва, 17 октября 2014 года.
Text Mining. Анализ текстовой информации. Text Mining- методы анализа неструктурированного текста Обнаружение знаний в тексте Обнаружение знаний в тексте.
Веб-система управления проектами с элементами социальной сети «Freetask» А.К. Красавина Группа С руководитель: И.С. Игнатьев.
Организация корпоративных архивов и баз знаний с помощью платформы eDocLib. Технологии и успешные проекты. Сергей Полтев.
BPMS и бумажные документы Опыт сопряжения обработки бумажных и электронных документов в отделе валютного контроля СБ Банка.
Транксрипт:

Веб-система агрегации и интеллектуального анализа проектов фриланс-бирж Докладчик: Савин И.И. 1

Состояние фриланса на сегодня Фриланс – удаленная разовая работа Фриланс-биржа – веб-площадка публикации заказов Особенности: Идеальный путь быстрого заработка и накопления опыта Широкое распространение с развитием интернета Максимально гибкие условия работы Проблемы: Много источников заказов (фриланс-бирж) Конкуренция с фриланс-компаниями Требуется быстрый анализ сложности и бюджета заказа 2

Существующие помощники фрилансера 3 Фриланс-биржиАгрегаторыLancery Все проекты на одной ленте -++ Система фильтрации ++/-+/-+ Ключевые слова проекта --+ Мобильная версия --+ Оперативный ответ +-+ Прогноз бюджета --+/-+/-

Структура комплекса Lancery 4 База данных Сборщик проектов Биржи Нормализатор Кластеризатор Фильтры Кластеры Проекты Запуск каждую минуту Запуск после сборщика Запуск каждый час Фрилансер Оперативный ответ

Структура комплекса Lancery 5 База данных Сборщик проектов Биржи Нормализатор Кластеризатор Фильтры Кластеры Проекты Запуск каждую минуту Запуск после сборщика Запуск каждый час Фрилансер Оперативный ответ

Особенности агрегации проектов Технологии и приемы: Really Simple Syndication (RSS) Полиморфизм модулей для индивидуальных правил обработки источника Особенности: Независимость модулей бирж друг от друга Простота модификации и добавления новых источников Результат работы: Оперативное добавление новых проектов с бирж в Lancery 6

Структура комплекса Lancery 7 База данных Сборщик проектов Биржи Нормализатор Кластеризатор Фильтры Кластеры Проекты Запуск каждую минуту Запуск после сборщика Запуск каждый час Фрилансер Оперативный ответ

Нормализация проектов 8 Этапы нормализации: Разбиение текста на зоны важности Разбиение на термы, леммизация Фильтрация по части речи (сущ., глаг., прил.) Подсчет частоты термов в документе Отброс стоп-слов Итоги нормализации: Ключевые слова проекта Поиск по навыкам, технологиям Векторная модель документа (ВМД) подойдет для более глубокого анализа

Структура комплекса Lancery 9 База данных Сборщик проектов Биржи Нормализатор Кластеризатор Фильтры Кластеры Проекты Запуск каждую минуту Запуск после сборщика Запуск каждый час Фрилансер Оперативный ответ

Особенности кластеризации 10 Особенности ВМД: Объекты имеют различное количество атрибутов Всех возможных атрибутов много Метрика Жаккара: Адекватное сравнение неоднородных множеств Быстрота вычисления Итоговая метрика:

Особенности кластеризации 11 A B C D Алгоритм ROCK: Количества общих соседей (ссылок) как мера близости двух объектов Свойства: Поиск похожих фактов, изложенных разными словами Иммунитет к выбросам Быстрое вычисление итераций кластеризации Вычислительная сложность этапа подготовки данных О(n³)

Особенности кластеризации Проблема: Большая вычислительная сложность вызывает проблемы с масштабированием (в Lancery уже более проектов) Решение: периодическая кластеризация небольшими порциями Преимущества: Каждый объект участвует в нескольких распределениях Результаты готовы через 2-5 минут Низкие требования к ресурсам сервера 12 Проекты за 24 часа 3ч 2ч 1ч сейчас

Результаты кластеризации Прогноз бюджета проекта на основе наблюдений за схожими проектами того же периода Возможность прогнозировать любые другие частично неопределенные свойства объектов (сложность, риски) Составление рекомендаций проектов на основании интересов пользователя 13

Структура комплекса Lancery 14 База данных Сборщик проектов Биржи Нормализатор Кластеризатор Фильтры Кластеры Проекты Запуск каждую минуту Запуск после сборщика Запуск каждый час Фрилансер Оперативный ответ

Оперативная реакция В подавляющем большинстве случаев исполнитель выбирается из авторов первых 1-3 ответов Система оперативной реакции: Отправить ответ прямо с ленты проектов Lancery на биржу Мобильная версия Автоматическая авторизация на нужной бирже 15 Агрегатор Страница проекта Авторизация на бирже Ответ отправлен Страница ответа

Резюме проекта Методика анализа текста отмечена на конференциях «Телематика 2010», «МИЭМ 2010», «МИЭМ 2011» и других Участник конкурса «УМНИК-Сколковец» Победитель программы «У.М.Н.И.К. 2011» 16 Докладчик: Савин Иван Спасибо за внимание Адрес проекта: Мобильная версия: