Корпоративні сховища даних 1.Концепція сховищ і вітрин даних 2.Архітектура інформаційних сховищ 3.Адміністрування інформаційних сховищ 4.Інструментальні.

Презентация:



Advertisements
Похожие презентации
База даних (БД) це структурована сукупність взаємопов'язаних даних певної предметної області (реальних об'єктів, процесів, явищ тощо). це структурована.
Advertisements

Лекція 1. Інформаційні системи в управлінні економікою. 1.Поняття інформаційної системи. 2.Класифікація інформаційних систем. 3.Структура інформаційної.
ІНФОРМАТИКА. 9 КЛАС Програмне забезпечення комп'ютерних систем Навчальна презентація вчителя Большакової Кристини Сергіївни ЗОШ 9 м. Ізмаїл.
Бази даних Поняття про моделі даних. Види моделей даних Бази даних.
Поняття бази даних Інформатика 8 клас. База даних - це систематизоване сховище інформації з певної предметної області, до якого можуть мати доступ багато.
Модель Виконали: студенти групи маг МІ-3 Волошин Андрій.
РОЗДІЛ 2 ОБ'ЄКТИ ТА ІНФОРМАЦІЙНІ СИСТЕМИ Інформатика 9 клас.
Інформаційне забезпечення
Виконала учениця 11- А класу Кандиба Анжеліка. БД- структурована сукупність даних, які відображають стан об'єктів певної предметної області. Реляційна.
Виконали студенти 11-ОВ Тітаренко М.А. Захарчук А.Р.
Розробив: Студент 221 грп Олару Дмитро. Залежно від відстані виділяють: Локальні мережі – об'єднання комп'ютерів, що розміщені на невеликих відстанях.
Загальні відомості про системне, службове та прикладне програмне забезпечення. Класифікація, основні функції та складові операційних систем. Поняття про.
Інформаційні системи та технології. Інформаційна технологія (ІТ) – це сукупність засобів і методів, які використовуються для реалізації інформаційних.
Структура операційної системи. Операційна система починає працювати одразу після ввімкнення комп ютера, тому певну її частину розміщено в найважливішій.
Тема уроку: Проектування бази даних. Мета уроку:навчити створювати структуру нової бази даних на логічному та фізичному рівнях проектування, працювати.
Використання довідкової системи інтерактивна довідкова система До складу операційної системи Windows XР входить інтерактивна довідкова система, яка забезпечує.
Урок 10 5 клас. Комп'ютернні мережі. Локальна мережа. Використаннямережевих папок
ІНФОРМАТИКА. 9 КЛАС Програмне забезпечення комп'ютерних систем Розділ 6 Навчальна презентація з інформатики для 9 класу вчителя Анрієнко М.А.
Кваліфікаційна робота На тему: Робота з фрагментами тексту в MS Word Учениця.
Основи баз даних. База даних (БД) Структурована сукупність даних, які відображують стан обєктів певної предметної області та звязки між ними Предметна.
Транксрипт:

Корпоративні сховища даних 1.Концепція сховищ і вітрин даних 2.Архітектура інформаційних сховищ 3.Адміністрування інформаційних сховищ 4.Інструментальні засоби архівації та очистки інформаційних сховищ 1

Корпоративні сховища даних Література 1. Inmon W.H. Building the Data Warehouse. Fourth edition , 517 p. 2. Шаховська Н. Б., Пасічник В. В. Сховища та простори даних. Львів, Видавництво Львівської політехніки, 2009., 244 с. Татарчук М.І. Корпоративні інформаційні системи: Навч. посібник. К.: КНЕУ, с. 2

Концепція сховищ і вітрин даних У великих корпораціях нагромадились величезні обсяги інформації, а якість вирішення аналітичних завдань почала відставати від можливостей обчислювальної техніки. OLTP (Online Transaction Processing) обробка транзакцій в реальному часі. Спосіб організації БД, при якому система працює із невеликими за розміром транзакціями, але які проходять великим потоком, і при цьому клієнт потребує від системи максимально швидкого часу відповіді.БД транзакціямиклієнт 3 1

Концепція сховищ і вітрин даних Ідею сховищ даних вперше запропонував Білл Інмон (Bill Inmon) у 1992 р. У своїй книзі «Building the Data Warehouse». Б.Інмон дав класичне визначення сховища даних (Data Warehouse DW), охарактеризувавши його як: Сховище даних (DW) - предметно- орієнтований, інтегрований, незмінний, що підтримує хронологію, набір даних, організований для цілей підтримки управління. 4 1

Концепція сховищ і вітрин даних Сховище даних дуже велика предметно-орієнтована інформаційна корпоративна база даних, яка спеціально розроблена і призначена для підготовки звітів, аналізу бізнес-процесів з метою підтримки прийняття рішень в організації. Будується на базі клієнт-серверної архітектури, реляційної СУБД та утиліт підтримки прийняття рішень. 5 1

Концепція сховищ і вітрин даних Інформація, що потрапляє до сховища даних, стає доступною тільки для читання. Важливо, щоб дані із промислової OLTP- системи (Online Transaction Processing) копіювалися до сховища даних таким чином, щоб побудова звітів і OLAP (online analytical processing) не використовували ресурси промислової системи і не порушували її стабільність. 6 1

Концепція сховищ і вітрин даних Дані завантажуються до сховища із визначеною періодичністю, тому актуальність даних дещо відстає від OLTP-системи. Сховище даних зазвичай вміщує досить великий масив даних і для зручності використання може поділятися на підмножини, які називаються вітринами даних. 7 1

Концепція вітрин даних Вітрина даних (Data Mart) зріз сховища даних, який вміщує масив тематичної, вузько спрямованої інформації, орієнтованої на користувачів однієї робочої групи або департаменту. Концепція Вітрин даних була запропонована Forrester Research у 1991 р. За задумом авторів: Вітрина даних це множина тематичних БД, що вміщують інформацію, яка належить до окремих аспектів діяльності організації. 8 1

Концепція вітрин даних Концепція має свої переваги : Аналітики можуть бачити і фактично працюють тільки із тими даними, які їм реально потрібні. Цільова БД максимально наближена до кінцевого користувача. Вітрини даних зазвичай вміщують тематичні підмножини раніше агрегованих даних, їх простіше проектувати та налагоджувати. Для реалізації Вітрин даних не потрібна надто потужна обчислювальна техніка. 9 1

Концепція вітрин даних Концепція має вади: для вітрин даних пропонується реалізація територіально розподіленої інформаційної системи з мало контрольованою надмірністю, але не пропонуються способи забезпечення цілісності даних та їх несуперечливості. Вітрина даних це спрощений варіант сховища даних, що містить лише тематично обєднані дані (це альтернатива DW). 10 1

Основні властивості сховища даних Предметна орієнтація На відміну від БД у OLTP-системах, де інформація структурована відповідно до конкретних додатків, інформація в DW орієнтована на оперативний аналіз та підтримку прийняття рішень. Предметна організація даних у сховищі сприяє як значному спрощенню аналізу, так і підвищенню швидкості виконання аналітичних запитів. Оскільки в DW-технології обєкти даних виходять на перший план, то особливі вимоги висуваються до структур БД: у них міститься лише та інформація, що може бути корисною для підтримки прийняття рішень. 11 1

Основні властивості сховища даних Інтегрованість даних Інформація у сховище даних надходить із різних джерел, де вони можуть мати різні імена, атрибути, одиниці виміру і способи кодування. Після того, як дані зчитані з оперативних БД, вони очищаються від індивідуальних ознак, тобто приводяться до єдиного вигляду, потрібною мірою агрегуються (тобто обчислюються сумарні показники) і завантажуються в DW. Інтегровані дані набагато простіше аналізувати. 12 1

Основні властивості сховища даних Інваріантність у часі У OLTP-системах істинність даних гарантована тільки в момент читання, оскільки вже в наступну мить вони можуть змінитися внаслідок чергової транзакції. Дані в сховищі завжди безпосередньо повязані з визначеним періодом часу. Дані, вибрані з оперативних БД, зчитуються у сховище у вигляді «історичних пластів», кожен з яких належить до конкретного періоду часу. Інваріантність даних у часі у сховищі досягається за рахунок уведення поля з атрибутом «час» (день, тиждень, місяць, рік) у ключі таблиць. У результаті записи у таблицях DW ніколи не змінюються, і являють собою знімки даних, зроблені у визначені моменти часу. Кожен елемент у своєму ключі явно або опосередковано зберігає часовий параметр, наприклад день, місяць або рік. Це дає змогу аналізувати тенденції в розвитку бізнесу. 13 1

Основні властивості сховища даних Стабільність (незмінюваність) даних Якщо у OLTP-системах записи можуть додаватися, видалятися і редагуватися, то у сховищах, потрапивши у визначений «історичний пласт», дані вже ніколи не будуть змінені. Стосовно них можливі тільки дві операції початкове завантаження і читання. Якщо під час створення OLTP-систем розробники повинні запрограмувати відкат транзакцій після збою, боротьбу з взаємним блокуванням процесів (deadlocks), зберігання цілісності даних, то для сховищ даних ці проблеми менш актуальні: перед розробниками стоять інші завдання, повязані, наприклад, із забезпеченням високої швидкості доступу до даних. 14 1

Основні властивості сховища даних Мінімізація збитковості інформації Оскільки інформація в DW завантажується з OLTP-систем, виникає питання, чи не веде це до надмірності даних? Як стверджує Б.Інмон, насправді надмірність мінімальна (близько 1 %), що пояснюється такими факторами: під час завантаження інформації з OLTP-систем у DW дані фільтруються і багато з них узагалі не потрапляють до сховищ, оскільки позбавлені змісту з погляду використання в системах підтримки прийняття рішень; інформація в OLTP-системах має, як правило, оперативний характер, і дані, втративши актуальність вилучаються. У сховищах даних, навпаки, зберігається вся історія даних у хронологічному порядку; у сховищах даних зберігається деяка підсумкова інформація, якої в БД OLTP-систем взагалі немає, під час завантаження в сховище записи сортуються, очищаються від непотрібної інформації та доводяться до єдиного формату, а це вже зовсім інші дані. 15 1

Концепція сховищ і вітрин даних Під корпоративним сховищем даних будемо розуміти оптимально організовану базу даних корпорації, що забезпечує максимально швидкий доступ до інформації, необхідної для управління корпорацією. 16 1

Архітектура інформаційних сховищ Основним завданням будь-якої корпоративної інформаційної системи є оперативне забезпечення вірогідною інформацією управлінського персоналу для прийняття оптимальних рішень. Ця задача значно полегшується, якщо КІС базується на використанні сховища даних. Корпоративне сховище даних є серцевиною сучасних КІС, і від того, як воно побудоване, залежить ефективність роботи всієї системи. 17 2

Технологія OLAP Технологія комплексного багатомірного аналізу даних – технологія OLAP (On-Line Analytical Processing) це головний компонент організації сховищ даних (Data Warehouse), тобто збору, очистки й попереднього оброблення даних з метою надання результатної інформації користувачам для оперативного аналізу та складання звітів. Концепцію OLAP сформулював і описав Е.Ф.Кодд, відомий дослідник баз даних і автор реляційної моделі даних. 18 2

Технологія OLAP У 1993 році Е.Ф.Кодд з партнерами опублікували статтю «Забезпечення OLAP для користувачів-аналітиків», в якій сформулювали 12 правил OLAP. Пізніше (1995 р.) до них було долучено ще шість правил. Ці правила Е.Ф.Кодд розбив на чотири групи, назвавши їх особливостями. Із цими правилами можна ознайомитися у відповідній літературі (наприклад ). Практика підказала, що можна описати OLAP-визначення пятьма головними словами швидкий аналіз розподіленої багатовимірної інформації. 19 2

Структура корпоративного сховища даних 20 2

Структура корпоративного сховища даних Поряд з потоками даних існують і потоки метаданих, які забезпечують взаємодію різних компонентів сховища й розміщуються в репозиторії. Репозиторій є центральною частиною сховища даних. Репозиторій метаданих дає змогу визначити семантичну структуру додатку у вигляді опису термінів предметної галузі, їх взаємозвязки і атрибути. Терміни предметної галузі, визначеної в репозиторії метаданих, можуть бути використані для створення розмірностей, що розділяються і структур довідників для визначення взаємодії між документами. 21 2

Структура корпоративного сховища даних Завданням метаданих є відстеження змін у структурі моделі предметної галузі та забезпечення порівнювання даних, зібраних у різні періоди. Властивість метаданих відстежувати зміни структур даних і їх значення в часі називається контролем модифікацій (versioning). 22 2

Архітектура інформаційних сховищ Корпоративне сховище даних може функціонувати у одній із трьох архітектур: реляційній (ROLAP) багатовимірній (MOLAP) гібридній, або змішаній (HOLAP). 23 2

Реляційна архітектура інформаційного сховища У ROLAP-архітектурі (Relational OLAP) детальні дані знаходяться в реляційній БД, агреговані дані (підсумкові) так само в спеціально створених службових таблицях. Частина таблиць створюється під час інсталяції системи, частина під час опису логічної моделі даних (метаданих системи). Підхід побудови ROLAP-архітектури (оперативного аналітичного оброблення реляційних даних) базується на посиланні, що дані не обовязково мають зберігатися в багатовимірному вигляді для того, щоб потім їх можна було використати в багатовимірному аналізі. 24 2

Реляційна архітектура інформаційного сховища 25 2

Просторова архітектура інформаційного сховища Область застосування структурована у просторі, при цьому вона може бути централізованою або розподіленою. Просторова модель Сховища даних вміщує ту саму атомарну інформацію, що і нормалізована модель Білла Інмона, але інформація структурована по іншому – головна мета забезпечити виконання запитів. Ця модель вміщує як атомарні дані, так і узагальнюючу інформацію (агрегати у звязаних таблицях або багатовимірних кубах) у відповідності до вимог продуктивності або просторового розміщення даних. 26 2

Просторова архітектура інформаційного сховища На відміну від підходу Білла Інмона, просторові моделі створюються для обслуговування бізнес-процесів (які, в свою чергу, звязані з бізнес-показниками або бізнес-подіями), а не бізнес-департаментів. Наприклад, дані про замовлення, які повинні бути доступними для загально корпоративного використання, вносяться у просторове Сховище даних тільки один раз, на відміну від ROLAP-архітектури, у якому їх довелося б тричі копіювати до вітрини даних департаментів маркетингу, продажів і фінансів. 27 2

Просторова архітектура інформаційного сховища 28 2

Гібридна архітектура інформаційного сховища НOLAP-архітектура (Hybrid OLAP) це спеціалізований механізм, який дає змогу зберігати дані у власних форматах, які являють собою масиви, що відповідають зручному для користувачів представленню даних у так званих ділових вимірах. Основною ознакою цієї архітектури є те, що детальні дані залишаються на відведеному для них місці у реляційному сховищі, а агреговані (підсумкові) дані зберігаються в багатовимірній базі (Multidimensional OLAP MOLAP). 29 2

Гібридна архітектура інформаційного сховища 30 2

Шість рівнів архітектури сховищ даних 31 2 Документи MS Office Успадковані системи Транзакційні системи Файли Архіви ETL Ведення НДІ Ведення метаданих Центральне сховище Оперативний склад даних Зони тимчасо- вого зберігання SRD Тематична вітрина даних Регіональна вітрина даних Вітрина даних підрозділу Прикладна вітрина даних Функціональна вітрина даних Сценарний аналіз Статистичний аналіз Багатовимірний аналіз Звітність Планування Джерела даних Екстракція перетворення завантаження Збережен- ня даних Вибірка реструктурізаці я доставка Представ- лення даних Бізнес застосуванн я

Рівні архітектури DW ETL - Extract, Transformation and Load). Головна задача ETL – витягнути дані із систем, привести їх до узгодженого вигляду і завантажити до сховища. Програмно-апаратний комплекс, на якому реалізована система ETL, повинен володіти значною пропускною здатністю. Але найважливішим - є висока обчислювальна продуктивність. 32 2

Адміністрування інформаційних сховищ Функціями адміністрування є наповнення та обслуговування інформаційних сховищ. Наповнення інформаційних сховищ складається з кількох етапів: екстракції трансформації завантаження. 33 3

Адміністрування - екстракція Екстракція (extract витягування) даних починається з ідентифікації базової СУБД, у якій зберігаються первинні дані. Потім за допомогою певних програмних процедур дані експортуються з інформаційних підсистем, виробничих відділів та інших джерел і імпортуються до сховища даних. Дані, які надходять в інформаційне Cховище, утворюють інформаційні потоки. Найвагоміший потік повязаний з первинними даними із OLTP-систем (транзакційних) та інших зовнішніх джерел (Inflow). На цьому етапі дані не просто копіюються в сховище даних, а зазнають інтелектуального оброблення: таблиці денормуються, дані очищаються, до них додаються нові атрибути і т. ін. При цьому первинні дані транзакційних систем можуть змішуватися з інформацією з зовнішніх джерел текстових файлів, повідомлень електронної пошти, відповідних електронних таблиць, географічно розподілених БД тощо. 34 3

Адміністрування - трансформація Потрапивши до сховища, дані проходять другий етап оброблення (Upflow), у ході якого, з погляду кінцевого користувача, підвищується їх практична цінність. Дані консолідуються, агрегуються, розбиваються на фракції (partitions), коригуються та трансформуються у відповідні формати. Як правило, консолідовані дані утворюються з первинної інформації, отриманої із транзакційних систем. Однак є винятки, коли сумарні дані також імпортуються. Прикладом може служити баланс корпорації, який щокварталу складає бухгалтерія. Основні показники балансу використовуються багатьма підрозділами корпорації і тому мають бути загальнодоступними і зберігатися у сховищі даних у консолідованому вигляді. 35 3

Адміністрування - завантаження Після екстракції та трансформації здійснюється процес завантаження даних в інформаційне сховище. Під час завантаження відбувається синхронізація з датою або якимись зовнішніми подіями. Обслуговування інформаційного сховища охоплює низку поточних робіт з адміністрування, до яких належать: копіювання БД, настроювання тиражування, архівування, управління правами користувачів, створення й редагування графічних діаграм БД тощо. Для того щоб інформаційне сховище працювало надійно, методи адміністрування мають бути автоматизовані. Ключем до успішної автоматизації адміністрування є використання метаданих. 36 3

Адміністрування - метадані Метадані це дані про дані, які визначають джерело, приймальник та алгоритм трансформації даних під час перенесення їх від джерела до приймальника. 37 3

Адміністрування – вміст метаданих Метадані містять: Описи структур даних та їх взаємозвязків. Інформацію про джерела даних і про ступінь їх вірогідності. Інформацію про власників даних. Користувачу може бути корисною інформація про наявність у системі даних, до яких він не має доступ, про власників цих даних і про дії, які необхідно виконати, щоб одержати доступ до даних. 38 3

Адміністрування – вміст метаданих Метадані містять: Схему перетворення стовпців вхідних таблиць у стовпці кінцевих таблиць. Правила знаходження підсумків, консолідації та агрегування даних. Інформацію про періодичність оновлення даних. Каталог таблиць, стовпців та ключів що використані для сховища. Фізичні атрибути стовпців. 39 3

Адміністрування – вміст метаданих Метадані містять: Кількість табличних рядків та обсяг даних. Дата та час створення/модифікації записів. Статистичні оцінки часу виконання запитів. До виконання запиту корисно мати хоча б приблизну оцінку часу для відповіді та обсяг цієї відповіді. 40 3