Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 8 лет назад пользователемПётр Бедарев
1 Обработка больших данных (Big Data) в R Олег Мубаракшин, к.э.н. Лаборатория количественных финансов IV Всероссийская научно-практическая конференция «Принципы и механизмы формирования национальной инновационной системы в Российской Федерации» (включая мероприятия VIII ежегодной конференции «ОЭЗ «Дубна») 3-4 октября 2013, г. Дубна, Московская область
2 Содержание 1/10/20162quant-lab.com 1. Что такое R? 2. Big Data и R 3. Хранение данных 4. Параллелизм 5. Облачные вычисления
3 Что такое R? 1/10/20163quant-lab.com 1. Язык программирования и среда разработки для статистических вычислений и графики 2.GNU, Open Source проект 3. Многообразие статистических и графических методов (линейного и нелинейного моделирование, стат. анализ, анализ временных рядов, кластерный анализ,...) 4. Функционал значительно расширяется с помощью packages 5. Работает под UNIX, Windows, MacOS
4 Что такое R? 1/10/20164quant-lab.com
5 Big Data и R 1/10/20165quant-lab.com R имеет два основных ограничения: 1. Используется только одно ядро CPU 2. Данные считываются в RAM (возникает ошибка при превышении 2Гб)
6 Big Data и R 1/10/20166quant-lab.com R имеет два основных ограничения: Задача: Обработать ордер-лог CME* (txt, ~4Гб) * ордер-лог CME – список всех торговых заявок, отправленных на биржу Chicago Mercantile Exchange. Используется для бэк-тестинга торговых стратегий.
7 Хранение данных 1/10/20167quant-lab.com Основные способы хранения маркет-даты: 1. База данных 2.CSV-файл 3.HDF5-файл
8 Хранение данных 1/10/20168quant-lab.com Что такое и почему HDF5? HDF5 (Hierarchical Data Format) – это уникальный набор технологий, позволяющих управлять чрезвычайно большими и сложными структурами данных. 1. Универсальная модель данных, которая может представлять очень сложные объекты данных, а также широкий спектр метаданных 2. Полностью портативный формат файлов без ограничения на количество или размер объектов данных в коллекции 3. Библиотеки работают на различных вычислительных мощностях: от ноутбуков до систем с массовым пароляелизмом; и платформах: C/C++, Java, R, Python 4. Богатый набор встроенных настроек производительности, позволяющих оптимизировать размер данных и время доступа к ним 5. Наличие инструментов и приложений для управления, манипулирования, просмотра и анализа данных в коллекции
9 Хранение данных 1/10/20169quant-lab.com Структура HDF5-файла
10 Хранение данных 1/10/201610quant-lab.com Структура HDF5-файла с рыночными данными по опционам Options_data.h5 Expiry1 (130927) Type1 (Call) Strike1 (1675) Expiry2 (130930) Expiry3 (131004) Type1 (Put) Strike2 (1700) Strike3 (1725) Groups1 Groups2 Datasets
11 Параллелизм 1/10/201611quant-lab.com Параллелизм означает запуск нескольких вычислений одновременно с использованием нескольких ядер одного процессора или нескольких отдельных процессоров. Основные пакеты R, предназначенные для пароляельных вычислений: Rmpi Snowfall Foreach Multicore
12 Параллелизм 1/10/201612quant-lab.com Пример кода для реализации пароляельного цикла в R (Windows) library(doSNOW) library(foreach) cl = makeCluster(4) #number of CPU cores registerDoSNOW(cl) foreach(i = 1:10) %dopar% { #loop contents } stopCluster(cl)
13 Параллелизм 1/10/201613quant-lab.com Задача: Рассчитать оптимальную величину шага дельта-хеджа купленного стрэдла на фьючерс индекса РТС Данные: Time frame – 1 сек., 27 торговых дней (31500 сек * 27 = ), 2 опционные серии Время, затраченное на вычисления: 1. Без пароля. вычислений – 31 час 2. С исп. кода пред. слайда – 8 часов
14 Облачные вычисления 1/10/201614quant-lab.com Amazon Elastic Compute Cloud Amazon EC2 – это веб-сервис, предоставляющий вычислительные мощности изменяемого размера в облаке. Преимущества запуска R на Amazon EC2: Эластичный размер памяти и количество процессоров для вычислений Доступный Micro Instances для небольших наборов данных (750 часов/месяц бесплатно в теч. 1 года) Легкий в использовании интерфейс консоли для управления наборами данных, а также процессами
15 Облачные вычисления 1/10/201615quant-lab.com Запуск R на Amazon EC2 под Windows имеет дополнительные преимущества: Удаленный рабочий стол R 64 Bit Возможность использовать Revolution R Enterprise (бесплатно для ученых)
16 Заключение 1/10/201616quant-lab.com Вы можете использовать все преимущества R при обработке больших данных (Big Data) с помощью специализированных пакетов
17 1/10/201617quant-lab.com Спасибо за внимание! Олег Мубаракшин, к.э.н. Лаборатория количественных финансов quant-lab.com
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.