Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 10 лет назад пользователемАнгелина Шмыгина
1 1 Oracle для анализа и исследования Больших Данных Ольга Горчинская Oracle
2 2 План Бизнес-анализ Больших Данных -- Аналитическая in-memory машина Oracle Exalytics От бизнес-анализа к исследованию данных – Oracle Endeca Information Discovery Статистические исследования, предиктивная аналитика – Oracle Advanced Analytics
3 3 План Бизнес-анализ Больших Данных -- Аналитическая in-memory машина Oracle Exalytics От бизнес-анализа к исследованию данных – Oracle Endeca Information Discovery Статистические исследования, предиктивная аналитика – Oracle Advanced Analytics
4 4 Аналитическая машина Oracle Exalytics Программно-аппаратный комплекс для бизнес- анализа «Экстремальная производительность и неограниченная визуализация» Реализация концепции «аналитика в оперативной памяти» (in-memory analytics)
5 5 Oracle Exalytics – основные компоненты Программное обеспечение для In-Memory аналитики Memory Optimized Essbase TimesTen for Exalytics Adaptive In-Memory Tools 1 TB RAM 40 Processing Cores High Speed Networking Аппаратный комплекс для In-Memory аналитики Oracle Business Intelligence Suite – специальная редакция для Exalytics
6 6 Аппаратное обеспечение Оперативная память 1 TB RAM, 1033 MHz Процессоры 4 Intel® Xeon® E7-4870, 40 cores Сетевые интерфейсы 40 Gbps InfiniBand – 2 ports 10 Gbps Ethernet – 2 ports 1 Gbps Ethernet – 4 ports Дисковая память 3.6 TB HDD Capacity
7 7 Программное обеспечение Oracle Business Intelligence Oracle Essbase Oracle TimesTen for Exalytics Адаптивные in-memory акселераторы Oracle Business Intelligence Essbase TimesTen for Analytics Адаптивные in-memory акселераторы
8 8 Oracle Business Intelligence Полная интегрированная система бизнес-анализа Единая платформа для всех видов анализа Доступ ко всем данным предприятия и внешним источникам Интеграция с любыми системами, приложениями и бизнес- процессами Interactive Dashboards Office Integration Secure Search Production Reporting Ad-hoc Analysis Scorecards Strategy Maps Geographic Visualization Embedded in Applications Mobile Business Processes Scenario Analysis Predictive Analysis Tablet
9 9 Инструментальная среда Oracle BI Oracle BI Пользователи Объем продаж Кол-во договоров … Годы, месяцы Продукты Регионы Клиенты
10 10 Аналитический сервер Oracle BI Server Генерация запросов и оптимизация доступа к информационным источникам Выполнение сложных вычислений и аналитическая обработка Доступ к любым хранилищам данных, информационным источникам и системам –Прямой доступ к Oracle Database, DB2, MS SQL Server, MS SQL Server Analysis Services, Teradata –Реляционные, многомерные, файловые системы, XML, и др. –Аналитические, оперативные, транзакционные, внешние Масштабируемость, надежность, производительность, интеллектуальное кэширование, балансировка нагрузки, работа в кластерной архитектуре DW ERP Oracle BI Server Oracle BI Server
11 11 Все виды бизнес-анализа на единой платформе Не только отчеты SINGLE ENTERPRISE INFORMATION MODEL Единая бизнес-модель Информационные панели Регламентные отчеты Мобильный доступ Интерактивный анализ Активный бизнес- анализ Карты показателей Пространственн ая аналитика Интеграция с MS Office OLAP-анализ BI Collaboration Интерактивный анализ Пространственная аналитика Активный бизнес- анализ BI Collaboration Ключевые показатели и стратегическое управление Мобильная аналитика
12 12 Расширенная визуализация Высокая степень интерактивности Рекомендации по выбору визуального представления Встроенные сценарии
13 13
14 14
15 15
16 16 Oracle Essbase Универсальный OLAP-сервер для хранения, обработки и представления информации Высокая производительность Прогнозирование, моделирование, финансовый анализ Основа систем планирования и бюджетирования (Hyperion Planning)
17 17 Times Ten for Exalytics На основе Oracle TimesTen In-Memory Database 100% In-memory RDBMS –База данных в оперативной памяти Высокая производительность –Снижение времени отклика –Высокая пропускная способность Сохранение в дисковой памяти –Транзакции и контрольные точки копируются для постоянного хранения Колоночная компрессия –Сжатие от 5 до 10 раз –Аналитические алгоритмы работают непосредственно с компрессированными данными Аналитические функции –Эффективное выполнение аналитических функций –Разгрузка BI-сервера Oracle BI TimesTen Libraries Memory-Resident Database JDBC / ODBC / OCI / PLSQL Checkpoint Files Log Files Fast data access
18 18 Адаптивные in-memory акселераторы Кэширование данных в оперативной памяти In-Memory Data Warehouse Хранение в оперативной памяти всего хранилища данных In-Memory Essbase Cubes Кэширование в оперативной памяти Essbase- кубов In-Memory Intelligent Result Cache Хранение в оперативной памяти результатов выполненных запросов In-Memory Adaptive Data Marts Кэширование в TimesTen Автоматическое формирование витрины на основе статистики запросов
19 19 BI отчеты и запросы : Exalytics и Oracle DB –Скорость выполнения запросов и отчетов повышается в 18 раз. Использование механизмов Lock elimination, in-memory агрегирования. Наиболее ощутимые преимущества при большом числе пользователей BI отчеты и запросы : Exalytics и Exadata –Повышение скорости выполнения запросов в 23 раз за счет использования технологий Lock elimination, in-memory агрегирование, быстрое соединение (fast inter-connect)с Exadata, SQL оптимизация для Exadata. OLAP анализ: Essbase –В 16 раз увеличивается пропускная способность и повышается скорость отклика Essbase Минимизация обмена страниц при доступу к блокам, in-memory вычисления, отложенные вычисления. Результаты тестирования
20 20 Бизнес-анализ и источники данных Аналитика в оперативной памяти Экстремальная производительность хранилища данных InfiniBand OLTP & ODS Systems Data Warehouse Data Mart Packaged Applications (Oracle, SAP, Others) Excel XML/Office Business Process OLAP Sources Unstructured & Semi- Structured Любые источники данных
21 21 План Бизнес-анализ Больших Данных -- Аналитическая in-memory машина Oracle Exalytics От бизнес-анализа к исследованию данных – Oracle Endeca Information Discovery Статистические исследования, предиктивная аналитика – Oracle Advanced Analytics
22 22 Oracle Endeca Information Discovery – платформа для исследования структурированных, слабо-структурированных и неструктурированных данных с меняющейся структурой в условиях нечетких критериев поиска
23 23 Новые требования в анализу данных Аналитика Больших Данных Большое разнообразие данных Не все можно описать традиционными реляционныим и многомерными моделями данных Больше непредвиденных запросов Неизвестно, какую информацию можно запрашивать Большая скорость изменения Нельзя ориентироваться на заранее установленную модель данных
24 24 Что такое Data Discovery? Инструменты обеспечивают высокую степень удобства (usability), гибкости управления процессом моделирования и создания контента Высокая степень интерактивности и расширенные возможности визуализациии интерфейса, основанного на in-memory архтектурах и быстрым развертыванием Возможность пользователям исследовать данные самостоятельно без предварительного обучения Примеры: QlikTech QlikView, Tableau, Tibco Spotfire, Microsoft PowerPivot, Oracle Endeca Information Discovery (previously Endeca Latitude) **Source: Gartner, June 17, 2011, Emerging Technology Analysis: Visualization-Based Data Discovery Tools **Source: Forrester, April 22, 2010, Agile BI Out of the Box, Boris Evelson Быстрая разработка и ускоренная реакция на быстро меняющиеся бизнес- требования Инкрементальное внедрение, быстрое прототипирование Данные, метаданные и приложения (отчеты, дэшборды) не разделяются («one and the same») Легкость и простота создания новых приложений и изменения существующих
25 25 От бизнес-анализа к исследованию данных Когда возникает необходимость нового подхода к анализу данных Пользователи не знают какие вопросы они будут формулировать: Огромное число различных параметров и характеристик и их состав заранее неизвестен Быстрые изменения информационных источников Невозможно каждый раз обращаться к ИТ специалистам для изменения модели данных ИТ-специалисты не знают, какая модель данных будет использоваться: Разнообразие данных и наличие большого числа внешних информационных источников Неструктурированные данные Схемы исходных данных часто меняются
26 26 Endeca Историческая справка Основана в Кембридже, MA в 1999 Более 600 клиентов 33% of the Fortune 100 Анилиз неструктурированной информации, Большие данные От систем поиска (для электронной коммерции) к «BI beyond the data warehouse» Entdecken (немецкий) = to discover, открытие
27 27 Oracle Endeca Information Discovery Платформа для исследования информации Endeca Server –Поисково-аналитическая база данных Information Integration Suite –Загрузка данных в Endeca Server Endeca Studio –Быстрая компонентная разработка приложений для исследования данных Faceted Data ModelIntegrationEnrichment Unified Querying Interactive Exploration App Composition Endeca Information Discovery Endeca Server
28 28 Особенности интерфейса пользователей Удобство и простота использования –На основе 10-летнего опыта работы в области разработки поисковых систем для электронной коммерции Поиск + Фасетная навигация + Визуальный анализ –Поиск и выбор атрибутов в стиле вэб сайтов Интерактивные исследования –Без заранее определенного сценария
29 29 Фасетный поиск, фасетная навигация Технологии доступа к информации, организованной на основе системы фасетной классификации Поиск путем уточнений, навигация по независимым параметрам Модель информационного поиска – набор характеристик Теоретические основы фасетной классификации -- Ш. Р. Ранганатан («Классификация двоеточием», 1933)
30 30 Интерактивные исследования и анализ Средства расширенного поиска в сочетании с аналитическими вычислениями Расширенный поиск Search look-ahead Исправление неправильного написания Data-driven фильтры Визуальный анализ Диаграммы и кросс- таблицы Пространственная аналитика Tag clouds Фасетная навигация Выбор атрибутов, стиль Web-поиска ++
31 31 Разработка приложений Структурированные Слабоструктурированные Неструктурированныеd Источники данных Загрузка в Endeca Server (без модели) Drag-and-drop инструменты создания приложения Интерактивный поиск, навигация и анализ
32 32 Один из видов «Key Value» модели Набор записей, каждая из которых имеет собственную «структуру» –Многозначные поля –Неструктурированные поля (тексты) Модель: записи и атрибуты Каждая запись – это набор пар (атрибут, значение) Нет никакойго разбиения на таблицы Нет понятия схемы данных TxnID = ProductID = 506 Category = Mountain Bike Amount = $ Suspension = Fox 32 F-Series FrameType = Aluminium Saddle = Bontrager SSR Mountain Accessories = Fork and shock sag meter Mountain Accessories = Water Bottle Review = A great bike for off road. Smooth ride over the bumps ReviewSentiment = Positive ReviewTerm = Great ReviewTerm = Off Road ReviewTerm = Smooth ReviewTerm = Bumps TxnID = ProductID = 506 Category = Mountain Bike Amount = $ Suspension = Fox 32 F-Series FrameType = Aluminium Saddle = Bontrager SSR Mountain Accessories = Fork and shock sag meter Mountain Accessories = Water Bottle Review = A great bike for off road. Smooth ride over the bumps ReviewSentiment = Positive ReviewTerm = Great ReviewTerm = Off Road ReviewTerm = Smooth ReviewTerm = Bumps TxnID = ProductID = 507 Category = Road Bike Amount = $ Weight = 20lb. FrameType = Composite Saddle = Bontrager Race Review = Disappointing for the price. The frame feels heavier than I expected. ReviewSentiment = Negative ReviewTerm = Disappointing ReviewTerm = Price ReviewTerm = Heavier TxnID = ProductID = 507 Category = Road Bike Amount = $ Weight = 20lb. FrameType = Composite Saddle = Bontrager Race Review = Disappointing for the price. The frame feels heavier than I expected. ReviewSentiment = Negative ReviewTerm = Disappointing ReviewTerm = Price ReviewTerm = Heavier Фасетная модель данных Унифицированная структура для хранения неоднородных данных
33 33 ETL Загрузка данных : Структурированные источники Структурированные данные загружаются в фасетную модель естественным образом –Каждый кортеж становится записью –Каждый столбец становится атрибутом TxnID = ProductID = 506 Category = Mountain Bike Amount = $ Suspension = Fox 32 F-Series FrameType = Aluminium Saddle = Bontrager SSR Mountain Accessories = Fork and shock sag meter Mountain Accessories = Water Bottle Review = A great bike for off road. Smooth ride over the bumps ReviewSentiment = Positive ReviewTerm = Great ReviewTerm = Off Road ReviewTerm = Smooth ReviewTerm = Bumps TxnID = ProductID = 506 Category = Mountain Bike Amount = $ Suspension = Fox 32 F-Series FrameType = Aluminium Saddle = Bontrager SSR Mountain Accessories = Fork and shock sag meter Mountain Accessories = Water Bottle Review = A great bike for off road. Smooth ride over the bumps ReviewSentiment = Positive ReviewTerm = Great ReviewTerm = Off Road ReviewTerm = Smooth ReviewTerm = Bumps TxnID = ProductID = 507 Category = Road Bike Amount = $ Weight = 20lb. FrameType = Composite Saddle = Bontrager Race Review = Disappointing for the price. The frame feels heavier than I expected. ReviewSentiment = Negative ReviewTerm = Disappointing ReviewTerm = Price ReviewTerm = Heavier TxnID = ProductID = 507 Category = Road Bike Amount = $ Weight = 20lb. FrameType = Composite Saddle = Bontrager Race Review = Disappointing for the price. The frame feels heavier than I expected. ReviewSentiment = Negative ReviewTerm = Disappointing ReviewTerm = Price ReviewTerm = Heavier Transaction TxnIDProductIDCategoryAmount Mountain Bike Road Bike1399 Реляционная таблица
34 34 Слабоструктурированные данные из различных источников -- промышленные системы, XML источники, внешние приложения. Загружаются в виде пар атрибут- значение Гетерогенные структуры записей TxnID = ProductID = 506 Category = Mountain Bike Amount = $ Suspension = Fox 32 F-Series FrameType = Aluminium Saddle = Bontrager SSR Mountain Accessories = Fork and shock sag meter Mountain Accessories = Water Bottle Review = A great bike for off road. Smooth ride over the bumps ReviewSentiment = Positive ReviewTerm = Great ReviewTerm = Off Road ReviewTerm = Smooth ReviewTerm = Bumps TxnID = ProductID = 506 Category = Mountain Bike Amount = $ Suspension = Fox 32 F-Series FrameType = Aluminium Saddle = Bontrager SSR Mountain Accessories = Fork and shock sag meter Mountain Accessories = Water Bottle Review = A great bike for off road. Smooth ride over the bumps ReviewSentiment = Positive ReviewTerm = Great ReviewTerm = Off Road ReviewTerm = Smooth ReviewTerm = Bumps TxnID = ProductID = 507 Category = Road Bike Amount = $ Weight = 20lb. FrameType = Composite Saddle = Bontrager Race Review = Disappointing for the price. The frame feels heavier than I expected. ReviewSentiment = Negative ReviewTerm = Disappointing ReviewTerm = Price ReviewTerm = Heavier TxnID = ProductID = 507 Category = Road Bike Amount = $ Weight = 20lb. FrameType = Composite Saddle = Bontrager Race Review = Disappointing for the price. The frame feels heavier than I expected. ReviewSentiment = Negative ReviewTerm = Disappointing ReviewTerm = Price ReviewTerm = Heavier Загрузка данных : Слабо-структурированные источники Fox 32 F- Series Aluminium Bontrager SSR Fork and shock sag meter Water Bottle 20lb. Composite Bontrager Race ETL
35 35 Неструктурированные данные «присоединяются» к остальным данным на основе значения ключа В определеных случаях неструктурированные данные могут храниться в виде независимых записей Текстовые документы, RSS, Twitter, Facebook, форумы, etc.. TxnID = ProductID = 506 Category = Mountain Bike Amount = $ Suspension = Fox 32 F-Series FrameType = Aluminium Saddle = Bontrager SSR Mountain Accessories = Fork and shock sag meter Mountain Accessories = Water Bottle Review = A great bike for off road. Smooth ride over the bumps ReviewSentiment = Positive ReviewTerm = Great ReviewTerm = Off Road ReviewTerm = Smooth ReviewTerm = Bumps TxnID = ProductID = 506 Category = Mountain Bike Amount = $ Suspension = Fox 32 F-Series FrameType = Aluminium Saddle = Bontrager SSR Mountain Accessories = Fork and shock sag meter Mountain Accessories = Water Bottle Review = A great bike for off road. Smooth ride over the bumps ReviewSentiment = Positive ReviewTerm = Great ReviewTerm = Off Road ReviewTerm = Smooth ReviewTerm = Bumps TxnID = ProductID = 507 Category = Road Bike Amount = $ Weight = 20lb. FrameType = Composite Saddle = Bontrager Race Review = Disappointing for the price. The frame feels heavier than I expected. ReviewSentiment = Negative ReviewTerm = Disappointing ReviewTerm = Price ReviewTerm = Heavier TxnID = ProductID = 507 Category = Road Bike Amount = $ Weight = 20lb. FrameType = Composite Saddle = Bontrager Race Review = Disappointing for the price. The frame feels heavier than I expected. ReviewSentiment = Negative ReviewTerm = Disappointing ReviewTerm = Price ReviewTerm = Heavier Review: #1301 Product: 506 A great bike for off road. Smooth ride over the bumps Review: #1327 Product: 507 Disappointing for the price. The frame feels heavier than I expected. Загрузка данных : Неструктурированные источники
36 36 Использование дополнительных пакетов работы с текстами, пространственными данными и др. Примеры: –Извлечение объектов по именам –Анализ эмоциональной окраски текстов –Совмещение с геопространственными –Term extraction –Geospatial matching TxnID = ProductID = 506 Category = Mountain Bike Amount = $ Suspension = Fox 32 F-Series FrameType = Aluminium Saddle = Bontrager SSR Mountain Accessories = Fork and shock sag meter Mountain Accessories = Water Bottle Review = A great bike for off road. Smooth ride over the bumps ReviewSentiment = Positive ReviewTerm = Great ReviewTerm = Off Road ReviewTerm = Smooth ReviewTerm = Bumps TxnID = ProductID = 506 Category = Mountain Bike Amount = $ Suspension = Fox 32 F-Series FrameType = Aluminium Saddle = Bontrager SSR Mountain Accessories = Fork and shock sag meter Mountain Accessories = Water Bottle Review = A great bike for off road. Smooth ride over the bumps ReviewSentiment = Positive ReviewTerm = Great ReviewTerm = Off Road ReviewTerm = Smooth ReviewTerm = Bumps TxnID = ProductID = 507 Category = Road Bike Amount = $ Weight = 20lb. FrameType = Composite Saddle = Bontrager Race Review = Disappointing for the price. The frame feels heavier than I expected. ReviewSentiment = Negative ReviewTerm = Disappointing ReviewTerm = Price ReviewTerm = Heavier TxnID = ProductID = 507 Category = Road Bike Amount = $ Weight = 20lb. FrameType = Composite Saddle = Bontrager Race Review = Disappointing for the price. The frame feels heavier than I expected. ReviewSentiment = Negative ReviewTerm = Disappointing ReviewTerm = Price ReviewTerm = Heavier Обогащение (Enrichment) Добавление в модель новой информации, которых «не было» в источнике
37 37 План Платформа Oracle для Больших Данных Аналитическая in-memory машина Oracle Exalytics От бизнес-анализа к исследованию данных – Oracle Endeca Information Discovery Встроенная аналитика для статистических исследований – Oracle R Enterprise
38 38 Oracle Advanced Analytics Статистические исследования и data mining Опция для СУБД Oracle Database 11g, объединяет среду статистических исследований Oracle R Enterprise и Oracle Data Mining
39 39 Аналитические и статистические функции Функции ранжирова ния Агрегирование Сравнение с предыдущими периодами Линейная регрессия Корреляции Базовая статистика Проверка гипотез Подбор распределений Статистика & Data Mining в Oracle Встроенная в базу данных аналитика Oracle Data Mining Встроенные в базу данных процедуры автоматического выявления закономерностей в больших массивах данных API для разработки приложений, встраивания data mining в существующие приложения и системы Инфраструктура вместо готовой инструментальной среды Oracle Data Miner
40 40 Проект R для статистических вычислений Язык для статистических исследован ий и работы с графикой (Росс Айхэк, Роберт Джентельмен, Оклендский ун-т, 1997) Open source проект, R Foundation Широкий спектр различных функций (временные ряды, прогнозирование, классификация, кластеризация и др) Важное отличительное преимущество – простые средства построения самых сложных графиков и диаграмм Возможность расширения, технолгия разработки дополнительных пакетов участниками проекта
41 41 Open Source Частично благодаря появлению концепции Big Data, бизнес- анализ(BI) остается быстро растущим рынком.... Одновременно с ростом рынка BI постоянно увеличиваются инвестиции в предиктивную аналитику; R является не только хорошим готовым инструментом, но и идеальной средой для исследований в области углубленной аналитики. R ориентирован на расширения и интегрируется с инструментаим бизнес-анализа, обогащая отчеты глубокой аналитикой. Hype Cycle for Analytic Applications, 2011, 30 August 2011 Кол-во f web site линков, которые указывают на основной сайт инструментальной среды March 19,
42 42 Растущая популярность проекта R Благодаря быстрому развитию и большому интересу со стороны специалистов R заслужил репутацию нового стандарта в области статистического программного обеспечения Трудно оценить точно, сколько людей используют R, по оценкам специалистов примерно 250,000 людей работают с этой средой регулярно Data Analysts Captivated by Rs Power, New York Times, Jan 6, 2009Data Analysts Captivated by Rs Power Трудно оценить точно, сколько людей используют R, по оценкам специалистов примерно 250,000 людей работают с этой средой регулярно Data Analysts Captivated by Rs Power, New York Times, Jan 6, 2009Data Analysts Captivated by Rs Power
43 43 R Graphics R> boxplot(split(cars$acceleration, cars$model.year), col = "red")
44 44 R Graphics R> plot(cars$weight, cars$mpg)
45 45 R Graphics R> abline(coef(lm(acceleration ~ weight, cars)), col = "red")
46 46 Графики и диаграммы в R
47 47 Линейное моделирование
48 48 ARIMA --прогнозирование year
49 49 Oracle R Enterprise R «встраивается» в Oracle database Данные сохраняются и статистические вычисления выполняются в базе данных 100% совместимость с R интерфейсом и клиентскими приложениями R Open Source
50 50 Аналитическая платформа Oracle Бизнес-анализ: анализ многомерных показателей, агрегирование, аналитические вычисления, моделирование, прогнозирование Information Discovery – поиск и анализ структурированных и неструктурированных данных Предиктивная аналитика: cтатистические исследования, data mining (кластеризация, классификация, поиск ассоциаций и др) Бизнес-анализ Oracle Business Intelligence EXALYTICS Исследование информации Наилучшая платформа для BI Apps Статистика, data mining Oracle Advanced Analytics
51 51 Спасибо за внимание!
52 52
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.