Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология
Образование Политология Производство Психология Стандартизация Технологии


Технологія оперативно-аналітичної обробки даних OLAP



З концепцією багатовимірного аналізу даних тісно пов'язують оперативний аналіз, виконуваний засобами OLAP-систем.

OLAP (On-Line Analytical Processing) – технологія оперативної аналітичної обробки даних, що використовує методи і засоби для збору, зберігання і аналізування багатовимірних даних в цілях підтримки процесів ухвалення рішень.

Основне призначення OLAP-систем − підтримка аналітичної діяльності, довільних запитів користувачів-аналітиків. Мета OLAP-аналіза − перевірка виникаючих гіпотез.

Біля джерел технології OLAP стоїть основоположник реляційного підходу Е. Кодд. В 1993 р. він опублікував статтю під назвою “OLAP для користувачів-аналітиків: яким він повинен бути”. В даній праці висловлені основні концепції оперативної аналітичної обробки і визначено наступні 12 вимог, яким повинні задовольняти продукт, що дозволяють виконувати оперативну аналітичну обробку, а саме:

1. Багатовимірність. OLAP-система на концептуальному рівні повинна представляти дані у вигляді багатовимірної моделі, що спрощує процеси аналізування і сприйняття інформації.

2. Прозорість. OLAP-система повинна приховувати від користувача реальну реалізацію багатовимірної моделі, спосіб організації, джерела, засоби обробки і зберігання.

3. Доступність. OLAP-система повинна надавати користувачу єдину, злагоджену і цілісну модель даних, забезпечуючи доступ до даних незалежно від того, як і де вони бережуться.

4. Постійна продуктивність при розробці звітів. Продуктивність OLAP-систем не повинна значно зменшуватися при збільшенні кількості вимірювань, за якими виконується аналіз.

5. Клієнт-серверна архітектура. OLAP-система повинна бути здатна працювати в середовищі “клієнт-сервер”, оскільки більшість даних, які сьогодні вимагаються піддавати оперативній аналітичній обробці, зберігаються розподілено. Основною ідеєю тут є те, що серверний компонент інструменту OLAP повинен бути достатньо інтелектуальним і дозволяти будувати загальну концептуальну схему на основі узагальнення і консолідації різних логічних і фізичних схем корпоративних БД для забезпечення ефекту прозорості.

6. Рівноправність вимірювань. OLAP-система повинна підтримувати багатовимірну модель, в якій всі вимірювання рівноправні. При необхідності додаткові характеристики можуть бути надані окремим вимірюванням, але така можливість повинна бути у будь-якого вимірювання.

7. Динамічне управління розрідженими матрицями. OLAP-система повинна забезпечувати оптимальну обробку розріджених матриць. Швидкість доступу повинна зберігатися незалежно від розташування осередків даних і бути постійною величиною для моделей, що мають різне число вимірювань і різний ступінь розрідженості даних.

8. Підтримка розрахованого на багато користувачів режиму. OLAP-система повинна надавати можливість декільком користувачам працювати спільно з однією аналітичною моделлю або повинна створювати для них різні моделі з єдиних даних. При цьому можливі як читання, так і запис даних, тому система повинна забезпечувати їх цілісність і безпеку.

9. Необмежені перехресні операції. OLAP-система повинна забезпечувати збереження функціональних відносин, описаних за допомогою певної формальної мови між осередками гіперкуба при виконанні будь-яких операцій зрізу, обертання, консолідації або деталізації. Система повинна самостійно (автоматично) виконувати перетворення встановлених відносин, не вимагаючи від користувача їх перевизначення.

10. Інтуїтивна маніпуляція даними. OLAP-система повинна надавати спосіб виконання операцій зрізу, обертання, консолідації і деталізації над гіперкубом без необхідності користувачу скоювати безліч дій з інтерфейсом. Вимірювання, визначені в аналітичній моделі, повинні містити всю необхідну інформацію для виконання наведених операцій.

11. Гнучкі можливості отримання звітів. OLAP-система повинна підтримувати різні способи візуалізації даних, тобто засоби формування звітів повинні представляти дані або інформацію, яка виходить з моделі даних, що синтезуються, в її будь-якій можливій орієнтації. Це означає, що рядки, стовпці або сторінки повинні показувати одночасно від 0 до N вимірювань, де N − число вимірювань всієї аналітичної моделі. Крім того, кожне вимірювання вмісту, показане в одному записі, колонці або сторінці, повинне дозволяти показувати будь-яку підмножину елементів (значень), що містяться у вимірюванні, у будь-якому порядку.

12. Необмежена розмірність і число рівнів агрегації. Дослідження про можливе число необхідних вимірювань, потрібних в аналітичній моделі, показало, що одночасно можуть використовуватися до 19 вимірювань. Звідси виходить рекомендація, щоб аналітичний інструмент міг одночасно надати хоча б 15, а краще — і 20 вимірювань. Більш того, кожне із загальних вимірювань не повинне бути обмежене за числом визначених користувачем-аналітиком рівнів агрегації і шляхів консолідації.

Набір правил Кодда, що послужили де-факто визначенням OLAP, достатньо часто викликає різні нарікання, наприклад правила 1, 2, 3, 6 є вимогами, а правила 10, 11 − неформалізованими побажаннями. Таким чином, перелічені 12 правил Кодда не дозволяють точно визначити OLAP.

У 1995 р. Кодд до приведеного переліку додав наступні шість правил:

1. Пакетне витягання проти інтерпретації. OLAP-система повинна рівною мірою ефективно забезпечувати доступ як до власних, так і до зовнішніх даних.

2. Підтримка всіх моделей OLAP-аналізу. OLAP-система повинна підтримувати всі чотири моделі аналізування даних, визначені Коддом: категоріальну, тлумачну, умоглядну, абстрактну, стереотипну.

3. Обробка ненормалізованих даних. OLAP-система повинна бути інтегрована з ненормалізованими джерелами даних. Модифікації даних, виконані в середовищі OLAP, не повинні приводити до змін даних, збережених в початкових зовнішніх системах.

4. Збереження результатів OLAP: зберігання їх окремо від початкових даних. OLAP-система, що працює в режимі читання-запису, після модифікації початкових даних повинна зберігати результати окремо, тобто повинна забезпечуватися безпека початкових даних.

5. Виключення відсутніх значень. OLAP-система, представляючи дані користувачу, повинна відкидати всі відсутні значення, тобто відсутні значення повинні відрізнятися від нульових значень.

6. Обробка відсутніх значень. OLAP-система повинна ігнорувати всі відсутні значення без урахування їх джерела. Ця особливість пов'язана з 17-м правилом.

Крім того, Е. Кодд розбив всі 18 правил на наступні чотири групи, назвавши їх особливостями. Ці групи одержали назви В, S, R , D.

Основні особливості (В) включають наступні правила:

· (правило 1) багатовимірне концептуальне представлення даних;

· (правило 2) прозорість;

· (правило 3) доступність;

· (правило 4) постійна продуктивність звітів;

· (правило 5) архітектура “клієнт-сервер”;

· (правило 6) універсальність вимірювань;

· (правило 7) автоматична настройка фізичного рівня;

· (правило 8) розрахована на багатокористувацьку підтримка;

· (правило 9) необмежені операції між розмірностями;

· (правило 10) інтуїтивне маніпулювання даними;

· (правило 11) гнучкість формування звітів;

· (правило 12) необмежене число вимірювань і рівнів агрегації;

· (правило 13) пакетне витягання проти інтерпретації;

· (правило 14) підтримка всіх моделей OLAP-аналізу;

· (правило 15) обробка ненормалізованих даних;

· (правило 16) збереження результатів OLAP: зберігання їх окремо від початкових даних;

· (правило 17) виключення відсутніх значень;

· (правило 18) обробка відсутніх значень.

Крім розглянутих раніше особливостей? відомий також тест FASMI (Fast Analysis Shared Multidimensional Information), створений в 1995 р. Н. Пендсом і                         Р. Крітом на основі аналізу правил Кодда. В даному контексті акцент зроблений на швидкість обробки, розрахований на багатокористувацький доступ, релевантність інформації, наявність засобів статистичного аналізу і багатовимірність, тобто на представлення аналізованих фактів як функцій від великого числа параметрів, які їх характеризують. Таким чином, Пендс і Кріт визначили OLAP наступними п'ятьма ключовими словами: FAST (Швидкий), ANALYSIS (Аналіз), SHARED (Що розділяється), MULTIDIMENSIONAL (Багатовимірний), INFORMATION (Інформаційний). Розглянемо ці п'ять ключових уявлень детальніше.

FAST (Швидкий). OLAP-система повинна забезпечувати видачу більшості відповідей користувачам в межах приблизно 5с. При цьому найпростіші запити обробляються протягом 1с., і дуже небагато − більше 20с. Недавнє дослідження в Нідерландах показало, що кінцеві користувачі сприймають процес невдалим, якщо результати не одержані після закінчення 30с. Вони можуть натискувати комбінацію клавіш <Alt>+<Ctrl>+<Del>, якщо система не попередить їх, що обробка даних вимагає більшого часу. Навіть якщо система попередить, що процес триватиме істотно довше, користувачі можуть втратити інтерес, при цьому якість аналізу страждає. Такої швидкості нелегко досягти з великою кількістю даних, особливо якщо потрібні спеціальні обчислення “на льоту”. Для досягнення даної мети застосовуються різні методи, включаючи використання апаратних платформ з більшою продуктивністю.

ANALYSIS (Аналіз). OLAP-система повинна справлятися з будь-яким логічним і статистичним аналізом, характерним для даного додатку, і забезпечувати його збереження у вигляді, доступному для кінцевого користувача. Природно, система повинна дозволяти користувачу визначати нові спеціальні обчислення як частину аналізу і формувати звіти будь-яким бажаним способом, без необхідності програмування. Всі необхідні функціональні можливості аналізування винні забезпечуватися зрозумілим для кінцевих користувачів способом.

SHARED (Розподілення). OLAP-система повинна виконувати всі вимоги захисту конфіденційності (можливо, до рівня осередку зберігання даних). Якщо для запису необхідний множинний доступ, забезпечується блокування модифікацій на відповідному рівні. Обробка множинних модифікацій повинна виконуватися своєчасно і безпечним способом.

MULTIDIMENSIONAL (Багатовимірна). OLAP-система повинна забезпечити багатовимірне концептуальне представлення даних, включаючи повну підтримку для ієрархій і множинних ієрархій, що забезпечують найлогічніший спосіб аналізування. Ця вимога не встановлює мінімального числа вимірювань, які повинні бути оброблені, оскільки цей показник залежить від додатку. Вона також не визначаєвикористовувану технологію БД, якщо користувач дійсно одержує багатовимірне концептуальне представлення інформації.

INFORMATION (Інформація). OLAP-система повинна забезпечувати отримання необхідної інформації в умовах реального додатку. Потужність різних систем вимірюється не обсягом збереженої інформації, а кількістю вхідних даних, які вони можуть обробити. В цьому значенні потужність продуктів вельми різна. Великі OLAP-системи можуть оперувати принаймні в 1000 разів великою кількістю даних в порівнянні з простими версіями OLAP-систем. При цьому варто враховувати безліч факторів, включаючи дублювання даних, необхідну оперативну пам'ять, використовування дискового простору, експлуатаційні показники, інтеграцію з інформаційними сховищами і т.п.

Архітектура OLAP-систем включає два основних компоненти:

OLAP-сервер − забезпечує зберігання даних, виконання над ними необхідних операцій і формування багатовимірної моделі на концептуальному рівні. В теперішній час OLAP-сервери об'єднують зі СД;

OLAP-клієнт − представляє користувачу інтерфейс до багатовимірної моделі даних, забезпечуючи його можливістю зручно маніпулювати даними для виконання задач аналізу.

OLAP-сервери приховують від кінцевого користувача спосіб реалізації багатовимірної моделі. Вони формують гіперкуб, з яким користувачі за допомогою OLAP-клієнта виконують всі необхідні маніпуляції, аналізуючи дані. Тим часом спосіб реалізації дуже важливий, оскільки від нього залежать такі характеристики, як продуктивність і займані ресурси. Виділяють три основних способи реалізації:

MOLAP − багатовимірний (multivariate) OLAP. Для реалізації багатовимірної моделі використовують багатовимірні БД;

ROLAP − реляційний (relational) OLAP. Для реалізації багатовимірної моделі використовують реляційні БД;

HOLAP − гібридний (hybrid) OLAP. Для реалізації багатовимірної моделі використовують і багатовимірні, і реляційні БД.

 


Поделиться:



Последнее изменение этой страницы: 2019-04-11; Просмотров: 290; Нарушение авторского права страницы


lektsia.com 2007 - 2024 год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! (0.028 с.)
Главная | Случайная страница | Обратная связь