Click to edit Master title style www.netkom-ipc.ru partner@netkom-ipc.ru Аналитические исследования при помощи Infosphere Warehouse и Netezza.

Презентация:



Advertisements
Похожие презентации
FastTrack Data Warehouse Иван Косяков Technology Architect, MTC Moscow Особая благодарность Алексею Халяко из SQLCAT.
Advertisements

Introduction Microsoft Access 41 Database models 2 Database management system 3 What is database?
Click to edit Master subtitle style Оптимизация базовой ИТ Инфраструктуры с Windows Server 2008 R2 Петр Васильев специалист по технологиям Microsoft Corporation.
The waterfall model is a popular version of the systems development life cycle model for software engineering. Often considered the classic approach to.
HPC Pipelining Parallelism is achieved by starting to execute one instruction before the previous one is finished. The simplest kind overlaps the execution.
© 2006 Cisco Systems, Inc. All rights reserved. MPLS v Complex MPLS VPNs Introducing Central Services VPNs.
Microsoft TechDays Николай Миляев консультант Microsoft.
Business Objects Analytical Applications Михаил Аветисов.
Microsoft TechDays Марат Бакиров Эксперт по разработке ПО Microsoft
ASE 12.0 Эволюция продуктов ASE for Linux поддержка jConnect ASE 12.0 Распределенные транзакции Java/XML в БД Enterprise Event Broker Обработка событий.
© 2009 Avaya Inc. All rights reserved.1 Chapter Four, UMS Web Services Module Three – Exchange 2007.
Microsoft TechDays Золотовицкий Аркадий Директор по производству «Интеллектуальные системы»
Yogesh Mehla Now concept of logic building is not so complex and not so simple. We will not work on how to make logic program in.
The waterfall model is a popular version of the systems development life cycle model for software engineering. Often considered the classic approach to.
The Stock Market What Is It?. Introduction Why do people start businesses?
DRAFTING TECHNIQUES I 136. Here is a basic shape. From here, we will do some advanced drafting once we put this shape on a sheet as a drawing. Select.
Lecture # Computer Architecture Computer Architecture = ISA + MO ISA stands for instruction set architecture is a logical view of computer system.
© 2003, Cisco Systems, Inc. All rights reserved. CSPFA Chapter 3 Cisco PIX Firewall Technology and Features.
Microsoft TechDays Ксения Хмелёва Специалист по технологиям Microsoft.
WiseImage 6.0 for AutoCAD 2000/2000i/2002/2004 and AutoCAD LT 2000/2000i/2002/2004 On the leading edge of new technology.
Транксрипт:

Click to edit Master title style Аналитические исследования при помощи Infosphere Warehouse и Netezza

Как создать лучшее аналитическое решение? Как разделить транзакционные и аналитические нагрузки? Почему MPP - лучшая технология для аналитики? Являются ли технологии in-memory панацеей? Какие есть еще технологии? Что даст технология параллельной обработки ?

Click to edit Master title style ItemCostCust Shoes$34James Транзакционные нагрузки и аналитические нагрузки Два очень разных подхода к хранению и обработки данных Бизнес-аналитикХранилище данных Сложный запрос Sales & Profit for Shoes & Belts Year >= 2005 #ibmiod SALES BI Отчеты & Показатели заказчик Традиционная База Данных Транзакция Простой запрос Item:Shoes Cost:$34 Cust:James 2011 Sales Бизнес-транзакция

Click to edit Master title style #ibmiod Обработка транзакций (OLTP) Пример: o Вы жалуетесь в банк, выпустивший вашу пластиковую карту, и просите отменить уплату НДС по платежу за электрическую вафельницу, которую вы приобрели в Тайпее. Банк отменяет уплату НДС. Около 10,000 других клиентов банка делают тоже самое в течении рабочей недели.

Click to edit Master title style Обработка транзакций (OLTP) Большой объем транзакций Короткие, Раздельные транзакции Добавление/Изменение/Удаление данных Большое количество пользователей Должно включать в себя: o Высокая пропускная способность ( транзакций / сек ) o Целостность данных ( многопользовательский режим ) o Мгновенное восстановление ( критически важно ) #ibmiod

Click to edit Master title style #ibmiod Architectural Implications for OLTP OLTP usage frequently accesses the same data repeatedly o New rows are appended sequentially at tail end of table(s) o Indexes are traversed and maintained for integrity OLTP tends to deal with subset of current data, less with historical data o This tends to imply an active subset of all available data o Caching of data yields significant benefit Read once, touch many times

Click to edit Master title style #ibmiod Architectural Implications for OLTP Data access is typically very selective Small I/O operations, many of them Scattered randomly as a result of high selectivity The overall system can be tuned and tailored for predictable usage Access and manipulation must be serialized via locks o So that no two parties can simultaneously update the same item Serialization preserves integrity and fidelity but adds overhead

Click to edit Master title style #ibmiod Аналитическая обработка Пример: o Аналитик из отдела розничных продаж запускает отчет пытаясь понять почему они получили за последний месяц в описи товаров сообщение распродано об электрических вафельницах в магазинах в Тайпее.

Click to edit Master title style #ibmiod Exploratory Analytics Processing Lower Transactional Volume Complex, Resource Intensive Queries Response Times in 10s to 100s of Seconds Lower volumes of users o Multiple Steps, Paths Through the Data o Dynamic Exploration o Hunt for the Unknown o Discard irrelevant Data

Click to edit Master title style #ibmiod Шаблон Использования Аналитической Информации Аналитическое хранилище отличается от OLTP следующим: Сопряжена с пересечением огромных объемов данных Включая все возможные истории Индивидуальные аналитические задачи стремятся затронуть огромные наборы данных Гораздо меньше повторных использований данных, повторный обход одних тех же данных Доступ и использование очень трудно предсказать; Запросы очень узкоспециализированные Вопросы, задаваемые потом зависят от ответа на текущий вопрос Очень сложно настраивать; настройка улучшает одно, ухудшая другое Частое использование сложных вычислений, аггрегирования, оперирование множествами Зачастую на практике read-only, гораздо меньше операций типа insert/update/delete

Click to edit Master title style Architectural Implications for Analytics Кэширование не всегда применимо, или выгодно (если вы не кэшируете все) Слишком много данных для кэша ( до нескольких TB и более ) Управление кэшированием снижает параллелизм и пропускную способность Процедура чтения тяжелая, объемная, последовательная Огромная, оптимизированная по томам (больше данных за операцию) Чтение происходит последовательно: начинается с одного конца, сканирование идет до другого Зачастую зависит от I/O скорости диска Узкое место хранилища (Storage Bottlenecks) #ibmiod

Click to edit Master title style #ibmiod Architectural Implications for Analytics Much less overhead needed for OLTP robustness The data is not changing as much, fewer safeguards needed Less overhead and constraint as a result Divide and Conquer via massive parallelism Each process will work on its own private copy of a subset of data Heavy Computation and analysis happens near the data o For maximal efficiency, minimal shipping delay of data

Click to edit Master title style #ibmiod What makes a good Analytics platform? Take advantage of as many CPU cores (and memory slices and disks) as possible o Minimize Resource Contention o Decompose query into stand-alone pieces and distribute broadly Pulling data from disk is often the slowest part of the time equation o Pull only what you need for a query o Move data in efficient, bulk, streaming scan operations (work on streaming data) Localize transfers from disk to corresponding CPU Avoid shipping massive quantities back and forth Avoid shared bus i/o saturation caused by heavy concurrency Perform computation and analytic processing as the data streams

Click to edit Master title style #ibmiod Symmetric Multi Processing (SMP) Traditional Big Iron approach Resources are shared in a single image Good: simple programming model, single machine to manage Not so good: Limited Scalability (diminishing returns)

Click to edit Master title style #ibmiod Why SMP Doesnt Work Well for Analytics? Each additional CPU that has to share memory increases the potential contention for access to a memory location. The hardware has to keep track of which CPU is using which memory locations so that errors and old data do not creep in. The operating system (OS) also has more sharing and resource contention to manage, thus consuming more system resources as it handles more CPUs concurrently.

Click to edit Master title style #ibmiod Massively Parallel Processing (MPP)

Click to edit Master title style #ibmiod Уроки истории

Click to edit Master title style SOLARISAIX TRU64HP-UX WINDOWSLINUX Massively Parallel Intelligent Storage Network Fabric SMP Host DBOS Front End High-Speed Loader/Unloader ODBC 3.X JDBC Type 4 OLE-DB SQL/92 Execution Engine SQL Compiler Query Plan Optimize Admin Source Systems Massively Parallel Processing (MPP) Client High Performance Loader #ibmiod 3rd Party Apps DBA CLI ETL/CDC Server High-Performance Database Engine Streaming joins, aggregations, sorts Snippet Processor Processor & streaming DB logic Snippet Processor Processor & streaming DB logic Snippet Processor Processor & streaming DB logic Snippet Processor Processor & streaming DB logic

Click to edit Master title style IBM Netezza Простое устройство для серьезной аналитики Интегрированная база данных, сервер и хранилище Стандартные интерфейсы Низкая итоговая цена владения И зготовленный для специальных целей движок Скорость: раз быстрее традиционных систем Простота: Минимальное администрироание и настройка Масштабируемость: емкость информации в петабайтах Разумность: Высокоэффективная углубленная аналитика

Click to edit Master title style Netezzas AMPP Architecture Eliminates the I/O Bottleneck Scoring… Analytics Summary Scored Results Data IBM Netezza data warehouse appliance 11 S-BladesDisk Enclosures Model Analytics Client Building… Scoring… Analytics Model Host Hosts Summary Results Scoring… Analytics Summary Scored Data Results Scored Data

Click to edit Master title style Аналитика IBM Netezza: Обзор In-database statistics and data mining functions Interface to commercial packages – IBM SPSS – SAS – Revolution Analytics Interface to Hadoop Matrix engine Spatial analytics engine SDK (C/C++, Fortran, Java, Python and R) 12

Click to edit Master title style Analytics SPSS Predictive Analytics with Netezza -- Нет движения данных -- Нет избыточной инфраструктуры -- Нет вводимых вручную данных -- Нет побочных явлений -- Аналитика работает 10x-100x быстрее -- Аналитика более продуктивна -- Лучшая аналитика

Click to edit Master title style Какова ценность анализа с прогнозированием для бизнеса ?

Click to edit Master title style explosion in information … operating with blind spots Почему анализ с прогнозированием так важен? With this change comes an … Yet organizations are Недостаток понимания происходящего 1 из 3 менеджеров принимает решения критической важности не имея требуемой для этого информации Неэффективный доступ 1 из 2 не имеет доступа к информации о деятельности организации необходимой для его работы Невозможность предсказания 3 из 4 лидеров бизнеса говорят, что большее количество предсказательной информации привело бы к принятию лучших решений Source: IBM Institute for Business Value Volume of Digital Data Variety of Information Velocity of Decision Making

Click to edit Master title style © 2011 IBM Corporation 6 Information Management Какая группа товаров представляет наибольший интерес для этого покупателя?

Click to edit Master title style Предсказательная Аналитика 7 Какие группы населения находятся в зоне риска заболеть диабетом ?

Click to edit Master title style Процесс предсказательной аналитики Model Development Шаблоны Тренды Взаимоотношения Model Scoring Предсказания Presentation Отчеты Визуализация Приложения

Click to edit Master title style Серьезный выигрыш в производительности Недавние тесты, проводимые Fortune 100 с использованием SQL Pushback и алгоритмов SPSS : 28 Обсчет 100M клиентов с 10 предикторами и 1 моделью Scoring 100M customers with 20 predictors for 20 models 4 Sec 10 Sec

Click to edit Master title style To request a fully-functional evaluation copy of IBM SPSS Modeler contact: IBM SPSS Modeler Evaluation Program IBM SPSS Modeler provides many benefits to Netezza customers, including: an easy-to-use graphical user interface, in-database mining, and SQL pushback. Michael Slawter Participants in the IBM SPSS Modeler Evaluation Program will also be invited to a one-on-one jump start session to get you started on leveraging Modeler – and its integration with IBM Netezza Analytics – so you can quickly and fully maximize the ROI of Modeler and Netezza..

Click to edit Master title style Спасибо ! 32

Click to edit Master title style #ibmiod MPP Examples: o IBM Netezza 1000 (TwinFin) and 1000C (Cruiser) o IBM PureData for Analytics (powered by Netezza) o Teradata o HP Vertica o EMC Greenplum o Oracle Exadata (sort of)