Обработка больших данных (Big Data) в R Олег Мубаракшин, к.э.н. Лаборатория количественных финансов IV Всероссийская научно-практическая конференция «Принципы.

Презентация:



Advertisements
Похожие презентации
Архитектура, возможности и методы использования платформы облачных вычислений Microsoft Windows Azure Лекция 3 Основные концепции и архитектура Microsoft.
Advertisements

Выполнила студентка группы ТУ-501 Полозова Юлия..
OpenGL и Direct3D сравнение стандартов Выполнил: Пенкин А. Группа И-204.
Система фрагментированного программирования Перепелкин В.А. Всероссийская молодежная школа по параллельному программированию МО ВВС ИВМиМГ 2009 г.
Государственное бюджетное образовательное учреждение Санкт-Петербургский колледж информационных технологий «Использование возможностей технологий Web 3.0.
Докладчик Должность Дата и место проведения мероприятия Автоматизация задач эксплуатации "Библиотека автоматизации (beta)"
"Электронные библиотеки " Дубна Россия Метаданные в системе управления многоязычной лингвистической базой знаний Н.В. Лунева Институт.
Разработка программного обеспечения для расчета молниезащиты, заземления и ЭМС, интегрированного в AutoCAD Шишигин Дмитрий, аспирант Шишигин С.Л. д.т.н.,
Выполнила Чумадина Елизавета ИЯ-АНБ-111. Введение Понятие «Облачные технологии» Характеристики Терминология Платформы Модели обслуживания Модели развёртывания.
Администрирование информационных систем Лекция 4. Система управления базами данных.
Классификация ЭВМ. Электронно-вычислительные машины принято классифицировать по целому ряду признаков, в частности: по функциональным возможностям и характеру.
Big Data пришли в Россию Объем данных в компаниях.
Электронно-вычислительные машины принято классифицировать по целому ряду признаков, в частности: по функциональным возможностям и характеру решаемых задач,
Архитектура, возможности и методы использования платформы облачных вычислений Microsoft Windows Azure Лекция 2 Понятие об облачных вычислениях. Обзор платформ.
Amazon Web Services Д.И. Свирихин (ВМИ-115). Amazon Web Services Стандарт «de facto» в области облачной инфраструктуры Богатый выбор образов заранее сконфигурированных.
Развитие платформы облачных вычислений Microsoft Windows Azure Лекция 7 Новая версия Windows Azure Compute Сафонов Владимир Олегович Профессор кафедры.
ПРОЕКТ СРЕДЫ РАЗРАБОТКИ СПЕЦИАЛИЗИРОВАННЫХ СИСТЕМ ВИЗУАЛИЗАЦИИ П.А. Васёв ИММ УрО РАН, Екатеринбург XII Международный семинар «Супервычисления и математическое.
РАЗРАБОТКА ПРОГРАММНОГО ОБЕСПЕЧЕНИЯ ДЛЯ МОДЕЛИРОВАНИЯ КОНКУРЕНТНОГО РЫНКА НА КЛАСТЕРНЫХ СИСТЕМАХ Авторы: Е.В. Болгова, А.С. Кириллов, Д.В. Леонов Научный.
.NET ModelKit Suite – это набор высококлассных программных компонентов, специально разработанных для платформы.NET, предназначенных для обработки, анализа.
1 «Разработка методического и технологического обеспечения размещения и сбора сведений об образовательных организациях, используемых в процедурах государственной.
Транксрипт:

Обработка больших данных (Big Data) в R Олег Мубаракшин, к.э.н. Лаборатория количественных финансов IV Всероссийская научно-практическая конференция «Принципы и механизмы формирования национальной инновационной системы в Российской Федерации» (включая мероприятия VIII ежегодной конференции «ОЭЗ «Дубна») 3-4 октября 2013, г. Дубна, Московская область

Содержание 1/10/20162quant-lab.com 1. Что такое R? 2. Big Data и R 3. Хранение данных 4. Параллелизм 5. Облачные вычисления

Что такое R? 1/10/20163quant-lab.com 1. Язык программирования и среда разработки для статистических вычислений и графики 2.GNU, Open Source проект 3. Многообразие статистических и графических методов (линейного и нелинейного моделирование, стат. анализ, анализ временных рядов, кластерный анализ,...) 4. Функционал значительно расширяется с помощью packages 5. Работает под UNIX, Windows, MacOS

Что такое R? 1/10/20164quant-lab.com

Big Data и R 1/10/20165quant-lab.com R имеет два основных ограничения: 1. Используется только одно ядро CPU 2. Данные считываются в RAM (возникает ошибка при превышении 2Гб)

Big Data и R 1/10/20166quant-lab.com R имеет два основных ограничения: Задача: Обработать ордер-лог CME* (txt, ~4Гб) * ордер-лог CME – список всех торговых заявок, отправленных на биржу Chicago Mercantile Exchange. Используется для бэк-тестинга торговых стратегий.

Хранение данных 1/10/20167quant-lab.com Основные способы хранения маркет-даты: 1. База данных 2.CSV-файл 3.HDF5-файл

Хранение данных 1/10/20168quant-lab.com Что такое и почему HDF5? HDF5 (Hierarchical Data Format) – это уникальный набор технологий, позволяющих управлять чрезвычайно большими и сложными структурами данных. 1. Универсальная модель данных, которая может представлять очень сложные объекты данных, а также широкий спектр метаданных 2. Полностью портативный формат файлов без ограничения на количество или размер объектов данных в коллекции 3. Библиотеки работают на различных вычислительных мощностях: от ноутбуков до систем с массовым пароляелизмом; и платформах: C/C++, Java, R, Python 4. Богатый набор встроенных настроек производительности, позволяющих оптимизировать размер данных и время доступа к ним 5. Наличие инструментов и приложений для управления, манипулирования, просмотра и анализа данных в коллекции

Хранение данных 1/10/20169quant-lab.com Структура HDF5-файла

Хранение данных 1/10/201610quant-lab.com Структура HDF5-файла с рыночными данными по опционам Options_data.h5 Expiry1 (130927) Type1 (Call) Strike1 (1675) Expiry2 (130930) Expiry3 (131004) Type1 (Put) Strike2 (1700) Strike3 (1725) Groups1 Groups2 Datasets

Параллелизм 1/10/201611quant-lab.com Параллелизм означает запуск нескольких вычислений одновременно с использованием нескольких ядер одного процессора или нескольких отдельных процессоров. Основные пакеты R, предназначенные для пароляельных вычислений: Rmpi Snowfall Foreach Multicore

Параллелизм 1/10/201612quant-lab.com Пример кода для реализации пароляельного цикла в R (Windows) library(doSNOW) library(foreach) cl = makeCluster(4) #number of CPU cores registerDoSNOW(cl) foreach(i = 1:10) %dopar% { #loop contents } stopCluster(cl)

Параллелизм 1/10/201613quant-lab.com Задача: Рассчитать оптимальную величину шага дельта-хеджа купленного стрэдла на фьючерс индекса РТС Данные: Time frame – 1 сек., 27 торговых дней (31500 сек * 27 = ), 2 опционные серии Время, затраченное на вычисления: 1. Без пароля. вычислений – 31 час 2. С исп. кода пред. слайда – 8 часов

Облачные вычисления 1/10/201614quant-lab.com Amazon Elastic Compute Cloud Amazon EC2 – это веб-сервис, предоставляющий вычислительные мощности изменяемого размера в облаке. Преимущества запуска R на Amazon EC2: Эластичный размер памяти и количество процессоров для вычислений Доступный Micro Instances для небольших наборов данных (750 часов/месяц бесплатно в теч. 1 года) Легкий в использовании интерфейс консоли для управления наборами данных, а также процессами

Облачные вычисления 1/10/201615quant-lab.com Запуск R на Amazon EC2 под Windows имеет дополнительные преимущества: Удаленный рабочий стол R 64 Bit Возможность использовать Revolution R Enterprise (бесплатно для ученых)

Заключение 1/10/201616quant-lab.com Вы можете использовать все преимущества R при обработке больших данных (Big Data) с помощью специализированных пакетов

1/10/201617quant-lab.com Спасибо за внимание! Олег Мубаракшин, к.э.н. Лаборатория количественных финансов quant-lab.com