Technologie analitycznego przetwarzania informacji. Przegląd i analiza technologii oprogramowania do tworzenia aplikacji WEB do analitycznego przetwarzania danych

Temat 6

KORPORACYJNE SYSTEMY INFORMATYCZNE DO PRZETWARZANIA INFORMACJI GOSPODARCZEJ

Koncepcja korporacyjnej technologii informacyjnej

Istota i znaczenie korporacji Technologie informacyjne

Wśród różnorodnych programów dla biznesu termin „technologie informacyjne w zarządzaniu przedsiębiorstwem” jest tradycyjnie rozumiany jako „zintegrowane systemy automatyzacji zarządzania”. Znane są również ich inne nazwy - systemy na skalę korporacyjną, korporacyjne systemy informacyjne (CIS), korporacyjne (lub zintegrowane) systemy zarządzania (ICS), systemy automatyczne system sterowania (ACS).

Z reguły złożone systemy automatyki sterowania są „podstawowymi” uniwersalnymi rozwiązaniami, które nadają się do stosowania różne rodzaje przedsiębiorstwa. Dotyczy to przede wszystkim zarządzania finansami, zarządzania zapasami, zarządzania zakupami i sprzedażą. Jednak te same systemy często mają rozwiązania specyficzne dla danej branży, które odzwierciedlają tę czy inną specyfikę i zawierają odpowiednią bazę regulacyjną i referencyjną.

Przykładowo rozwiązanie systemu SAP R/3 dla przemysłu lotniczego umożliwia rejestrację i kontrolę numerów seryjnych wszystkich części samolotów, ich żywotności, planowanej wymiany lub naprawy, co zapewnia nie tylko niezawodność produkcji, ale także bezpieczeństwo pasażerów.

Ponieważ zintegrowane systemy zarządzania skierowane są przede wszystkim do dużych przedsiębiorstw posiadających struktury multidyscyplinarne, oferują nie tylko rozbudowany zestaw funkcji, ale także zapewniają niezawodne przechowywanie i przetwarzanie dużych ilości informacji, wykorzystując potężne platformy i narzędzia systemowe do pracy wielu użytkowników.

Nowoczesne technologie informacyjne, komunikacja i Internet umożliwiają rozwiązywanie problemów zdalny dostęp do jednej bazy danych, co ma również znaczenie dla ładu korporacyjnego.

Koncepcja budowy

Chociaż większość programistów nazywa swoje produkty zarządzaniem oprogramowaniem (zarządzanie przedsiębiorstwem, zarządzanie magazynem, finanse itp.), W zasadzie prawie wszystkie oprogramowanie stosowane w ładzie korporacyjnym to ewidencja faktów i dokumentów działalności finansowo-gospodarczej, systemy księgowe z możliwością budowania raportów i zaświadczeń w sekcjach akceptowalnych według kryteriów analitycznych. Oznacza to, że informacje strukturalne są wprowadzane do bazy danych. Struktura ta jest w pewnym stopniu określona przez połączone ze sobą podręczniki, klasyfikatory, parametry i formy standardowych dokumentów. Według informacji dostępnych w bazie tzw. „wycięcie” jest „budowane”, „rozciągane”, „montowane” za pomocą narzędzi. Po otrzymaniu raportów i certyfikatów, często nazywanych analitycznymi, na podstawie takich danych, kierownictwo może podejmować decyzje. Jest to typowa koncepcja i standardowa technologia pracy z systemami rozważanej klasy.



To nie przypadek, że treść funkcjonalna jest tak odmienna, rozwiązania systemowe, przeznaczenie i zastosowanie, oprogramowanie „zarządzające”, takie jak „Galaktika”, „BEST” i „1C: Enterprise”, jest podobne pod względem zasad organizacji informacji, technologii jej tworzenia i przetwarzania, a także metod interakcja z systemami.

A jednak przedsiębiorstwa, na przykład Uralelectromed OJSC, stawiają tak rygorystyczne i różnorodne wymagania dotyczące narzędzi ładu korporacyjnego, że istnieje potrzeba ich wielopoziomowej konstrukcji. Zazwyczaj rdzeniem systemu jest rdzeń centralny, zawierający wyłącznie kody programów. Kolejnym istotnym koncepcyjnie elementem jest wbudowany zestaw narzędzi systemu, który pozwala bez zmiany kodów programu przynajmniej skonfigurować go na stanowiskach pracy, wykonać określone operacje, wprowadzić nowe i zmienić istniejące formy dokumentów podstawowych i sprawozdawczych oraz użyj innych narzędzi do konfiguracji parametrycznej. Bardziej zaawansowane systemy posiadają wbudowane narzędzia do tworzenia różne modele przedsiębiorstwo: informacyjne, organizacyjne, funkcjonalne itp. I wreszcie sama baza danych.

Analityczne przetwarzanie informacji

Planowanie działalności przedsiębiorstwa, pozyskiwanie informacji operacyjnych i podejmowanie właściwych decyzji na podstawie ich analizy wiąże się z przetwarzaniem dużych ilości danych. Raporty generowane w księgowości systemy korporacyjne ah, kontrole są zwykle nieelastyczne. Nie można ich „przekręcać”, „rozwijać” ani „zwijać” w celu uzyskania pożądanej prezentacji danych, w tym także graficznej. Im więcej „wycinków” i „sekcji” można wykonać, tym bardziej realistycznie można przedstawić obraz działalności przedsiębiorstwa i podjąć optymalną decyzję dotyczącą zarządzania procesami biznesowymi. Do tego rodzaju zadań wymagane jest modelowanie matematyczne i ekonomiczne, a także wysoka wydajność. Moduł analityczny dostępny jest w systemie RepCo; bardziej znany jest system Triumph-Analytics (PARUS Corporation – Tora Center). Wydawać by się mogło, że systemy księgowe budują certyfikaty w różnych „sekcjach” na podstawie informacji zgromadzonych w bazie danych, po prostu prezentują to, co tam jest; Natomiast systemy analityczne budują nowe informacje według określonych parametrów czy kryteriów, optymalizując je pod konkretne cele. Dlatego często potrzebne jest specjalne narzędzie do przeglądania i wizualizacji informacji, jakim jest „analityczne przetwarzanie online” (OLAP). Zapewnia zestaw wygodnych i szybkich sposobów dostępu, przeglądania i wielowymiarowej analizy informacji zgromadzonych w repozytorium.

Technologie OLAP służą do modelowania sytuacji według schematu „co by się stało, gdyby…” oraz do tworzenia różnych raportów analitycznych. Istnieją wyspecjalizowane zachodnie produkty programowe.

Zazwyczaj informacje przekazywane są z korporacyjnych systemów zarządzania do wyspecjalizowanych programów do analitycznego przetwarzania danych. Wielu krajowych programistów próbuje samodzielnie rozwiązać te problemy, na przykład firmy „Nikos-Soft” (system NS-2000), „Cefei” (system zarządzania przedsiębiorstwem „Etalon”), „COMSOFT” (oprogramowanie-metodologiczne i kompleks instrumentalny „COMSOFT-STANDARD” „ 2.0) itp.

6.4. Perspektywy rozwoju i wykorzystania korporacyjnych technologii informatycznych

Oprócz rozwoju i wykorzystania nowoczesnych narzędzi i platform, a także narzędzi systemowych, rozwój krajowych systemów korporacyjnych wiąże się z ich nasyceniem funkcjonalnym, zwłaszcza pod kątem produkcyjnym.

Pomimo powszechnej pasji do wdrażania standardów zarządzania, czołowi gracze na krajowym rynku oprogramowania opracowują rozwiązania branżowe dla różnego rodzaju produkcji.

Zmniejsza się obawa firm przed ujawnieniem „poufności” swoich rozwiązań, co pomaga skonsolidować ich wysiłki na rzecz integracji swoich produktów, zamiast opracowywać wszystko samodzielnie, od „A” do „Z”. Dziś nikt nie ma wystarczających środków. Zrozumienie nowej koncepcji, opracowanie projektu i systemu, czyli systemu, który zmienia swoją jakość w zależności od tego, co się w nim znajduje, zajmuje lata. Ponadto wymóg integracji produkty oprogramowania Wysuwają je także przedsiębiorstwa, które chcą zachować „działające”, zwykle wyspecjalizowane, systemy i informacyjnie połączyć je z nowo nabytymi.

Integracji wymagają także produkty różnych producentów – w imię łączenia rozwiązań złożonych z wyspecjalizowanymi:

– budżetowanie, analizy finansowo-ekonomiczne, obsługa klienta, przetwarzanie danych analitycznych itp.

Należy zauważyć, że to nie same systemy sterowania są bardziej obiecujące, ale proste i narzędzie uniwersalne ich tworzenia, przeznaczone dla wykwalifikowanych pośredników pomiędzy deweloperem a użytkownikiem końcowym. Teraz próbują wykonywać te funkcje administratorzy systemu i analitycy.

Jeśli takie narzędzie będzie dostępne, „gotowe” standardowe rozwiązania będą pożądane dla wszystkich przedsiębiorstw we wszystkich branżach.

Internet jako dodatkowe narzędzie rozwoju biznesu można efektywnie wykorzystać tylko wtedy, gdy istnieje kompleksowy system zarządzania.

Chociaż nowoczesne informacje i technologie komunikacyjne, w tym Internetu, i pozwalają na organizację wynajmu oprogramowania, za wcześnie jest mówić o najbliższej przyszłości wykorzystania takich możliwości, szczególnie w naszym kraju. I to nie tyle ze względu na prywatność, ile z powodu braku porządku i niezawodnych środków komunikacji.

Próby wdrażania i doświadczenia wykorzystania, choćby niepełnego, technologii informatycznych w krajowych przedsiębiorstwach udowodniły w praktyce, że „chaosu nie da się zautomatyzować”. Konieczna jest wstępna reorganizacja biznesu i samego przedsiębiorstwa oraz stworzenie regulaminów (instrukcji) zarządzania. Pracownikom firmy trudno jest samodzielnie poradzić sobie z taką pracą. Zwłaszcza biorąc pod uwagę czynnik czasu w warunkach rynkowych. Dlatego wszędzie rozwija się praktyka interakcji z firmami konsultingowymi, które pomagają przedsiębiorstwom i uczą swoich pracowników „rozwijania wąskich gardeł”, ustalania głównego procesu biznesowego, rozwijania technologii, budowania przepływów informacji itp. Automatyzacja ustalonego procesu jest łatwiejsza, prostsza, tańsza i szybsza.

Każdy musi wykonywać swoją pracę. Księgowy, magazynier, kierownik sprzedaży i inni specjaliści „merytoryczny” nie powinni poprawiać formy formularzy dokumentów, rozdzielać kolumn ani zmieniać ich miejsca w związku ze zmianami przepisów prawnych lub schematów biznesowych. Dlatego rynek oprogramowania stopniowo przekształca się z rynku „produktowego” w rynek „usługowy”. Zaczyna się rozwijać outsourcing – przekazywanie części funkcji przedsiębiorstwa specjalistom z firm zewnętrznych. Zajmują się konserwacją sprzętu, oprogramowania systemowego, modyfikacją zastosowanej (funkcjonalnej) części systemów itp.

Najważniejszymi i istotnymi w stosowaniu systemów zarządzania przedsiębiorstwem są usługi informatyczne i metodologiczne dla ich użytkowników i konsumentów.

Obecny poziom rozwoju sprzętu i oprogramowania pozwala już od pewnego czasu na prowadzenie powszechnych baz danych informacji operacyjnej na różnych poziomach zarządzania. W trakcie swojej działalności przedsiębiorstwa przemysłowe, korporacje, struktury departamentalne, organy rządowe i zarządzające zgromadziły duże ilości danych. Zawierają ogromny potencjał wydobycia przydatnych informacji analitycznych, na podstawie których można zidentyfikować ukryte trendy, zbudować strategię rozwoju i znaleźć nowe rozwiązania.

W ostatnich latach na świecie ukształtowało się szereg nowych koncepcji przechowywania i analizowania danych korporacyjnych:

1) Hurtownie danych lub hurtownie danych


2) Operacyjne przetwarzanie analityczne (On-Line Analytical Processing, OLAP)

3) Inteligentna analiza danych - IDA (Data Mining)

Systemy analitycznego przetwarzania danych OLAP to systemy wspomagania decyzji, których zadaniem jest realizacja bardziej złożonych zapytań, wymagających statystycznego przetwarzania danych historycznych zgromadzonych w określonym przedziale czasu. Służą do sporządzania raportów biznesowych dotyczących sprzedaży, marketingu dla celów zarządczych, tzw. Data Mining – ekstrakcja danych, czyli tzw. sposób analizowania informacji w bazie danych w celu znalezienia anomalii i trendów bez odkrywania semantycznego znaczenia rekordów.

Systemy analityczne zbudowane w oparciu o OLAP obejmują narzędzia przetwarzania informacji oparte na metodach sztucznej inteligencji oraz narzędzia graficznej prezentacji danych. Systemy te determinowane są dużą ilością danych historycznych, pozwalających na wydobycie z nich znaczących informacji, tj. zdobywać wiedzę z danych.

Wydajność przetwarzania osiąga się dzięki zastosowaniu potężnej technologii wieloprocesorowej, złożonych metod analizy i wyspecjalizowanych hurtowni danych.

Relacyjne bazy danych przechowują jednostki w oddzielnych tabelach, które są zwykle dobrze znormalizowane. Ta struktura jest wygodna w przypadku operacyjnych baz danych (systemów OLTP), ale złożone zapytania wielotabelowe są stosunkowo powolne w wykonywaniu. Lepszym modelem do wykonywania zapytań niż do zmieniania jest przestrzenna baza danych.

System OLAP tworzy migawkę relacyjnej bazy danych i tworzy z niej model przestrzenny dla zapytań. Podany czas przetwarzania zapytań w OLAP wynosi około 0,1% podobnych zapytań w relacyjnej bazie danych.

Struktura OLAP utworzona z danych operacyjnych nazywana jest kostką OLAP. Kostka tworzona jest z łączenia tabel przy użyciu schematu gwiazdy. Pośrodku gwiazdy znajduje się tabela faktów zawierająca najważniejsze fakty, na podstawie których zadawane są zapytania. Tabele wielu wymiarów są łączone w tabelę faktów. Tabele te pokazują, jak można analizować zagregowane dane relacyjne. Liczba możliwych agregacji jest określana na podstawie liczby sposobów hierarchicznego wyświetlania oryginalnych danych.

Podane klasy systemów (OLAP i OLTP) opierają się na wykorzystaniu systemu DBMS, jednak rodzaje zapytań są bardzo różne. Mechanizm OLAP jest dziś jedną z najpopularniejszych metod analizy danych. Istnieją dwa główne podejścia do rozwiązania tego problemu. Pierwszy z nich to Multiwymiarowy OLAP (MOLAP) – implementacja mechanizmu wykorzystującego wielowymiarową bazę danych po stronie serwera, natomiast drugi Relational OLAP (ROLAP) – budowanie kostek w locie w oparciu o Zapytania SQL do relacyjnego systemu DBMS. Każde z tych podejść ma swoje zalety i wady. Ogólny schemat działania desktopowego systemu OLAP można przedstawić na rys.

Algorytm działania jest następujący:

1) uzyskanie danych w postaci płaskiej tabeli lub wyniku wykonania zapytania SQL;

2) buforowanie danych i konwersja ich do wielowymiarowej kostki;

3) wyświetlenie zbudowanej kostki za pomocą tabeli przestawnej lub wykresu itp.

Generalnie do jednej kostki można podłączyć dowolną liczbę widoków. Wyświetlacze stosowane w systemach OLAP najczęściej występują w dwóch rodzajach: tabelach krzyżowych i wykresach.

Schemat gwiazdy. Pomysł jest taki, że dla każdego wymiaru istnieją tabele, a wszystkie fakty są umieszczone w jednej tabeli, indeksowanej wielokrotnym kluczem składającym się z kluczy poszczególnych wymiarów. Każdy promień diagramu gwiazdy określa, według terminologii Codda, kierunek konsolidacji danych wzdłuż odpowiedniego wymiaru.

W złożonych problemach o wymiarach wielopoziomowych warto sięgnąć po rozszerzenia schematu gwiazdy - schemat konstelacji (schemat konstelacji faktów) i schemat płatka śniegu (schemat płatka śniegu). W takich przypadkach tworzone są osobne tabele faktów dla możliwych kombinacji poziomów podsumowań różnych wymiarów. Pozwala to na lepszą wydajność, ale często prowadzi do nadmiarowości danych i znacznej złożoności struktury bazy danych, która zawiera ogromną liczbę tabel faktów.

diagram konstelacji

UKD 621. 37/39. 061.2/4

METODY PRZETWARZANIA INFORMACJI ANALITYCZNYCH

GVOZDINSKIYA.N., KLIMKO E.G., SOROKOVY A.I.

Przeprowadza się przegląd analityczny metod eksploracji danych (zwanych także: IDA, data mining, odkrywanie wiedzy w bazach danych) z uwzględnieniem zastosowania specyficznej metody dla warunków Ukrainy. Przegląd metod analitycznego przetwarzania informacji w złożonych systemach informatycznych rozpatrywany jest pod kątem szybkości wyszukiwania danych, gromadzenia uogólnionych informacji i zwiększania niezawodności procesu.

Proces eksploracji danych to analityczne badanie dużych ilości informacji w celu zidentyfikowania wzorców i zależności między zmiennymi, które można następnie zastosować do nowych danych. Otrzymane informacje przekształcane są w poziom informacji, który charakteryzuje się wiedzą. Proces ten składa się z trzech głównych etapów:

Badania (identyfikacja wzorców);

Wykorzystanie zidentyfikowanych wzorców do zbudowania modelu;

Analiza wyjątków w celu wykrycia i wyjaśnienia odchyleń w znalezionych wzorcach.

Poszukiwanie nowej wiedzy z wykorzystaniem IAD to nowy i szybko rozwijający się kierunek wykorzystujący metody sztucznej inteligencji, matematyki i statystyki. Proces ten obejmuje następujące kroki:

Definicja problemu (sformułowanie problemu);

Przygotowywanie danych;

Gromadzenie danych: ich ocena, łączenie i oczyszczanie, selekcja i przekształcanie;

Budowanie modelu: ocena i interpretacja, weryfikacja zewnętrzna;

Korzystanie z modelu;

Obserwacja modelu.

Formalna weryfikacja danych za pomocą sekwencji zapytań lub wstępna eksploracja danych pomaga zbudować model i poprawić jego jakość. Do narzędzi takiej analizy zaliczają się następujące główne metody: sieci neuronowe, drzewa decyzyjne, algorytmy genetyczne oraz ich kombinacje.

Sieci neuronowe należą do klasy nieliniowych układów adaptacyjnych; ich budowa umownie przypomina tkankę nerwową zbudowaną z neuronów.

Jest to zbiór połączonych ze sobą węzłów, które odbierają dane wejściowe, przetwarzają je i wytwarzają pewien wynik jako wynik. Węzły warstwy dolnej zasilane są wartościami parametrów wejściowych, na ich podstawie dokonywane są obliczenia niezbędne do podejmowania decyzji, przewidywania rozwoju sytuacji itp.

Wartości te uważa się za sygnały przesyłane do warstwy wierzchniej, wzmacniające się lub osłabiające w zależności od wartości liczbowych (wag) przypisanych do połączeń międzyneuronowych. Na wyjściu neuronu warstwy najwyższej generowana jest wartość, która jest uważana za odpowiedź, reakcję całej sieci na wprowadzone wartości początkowe. Ponieważ każdy element sieci neuronowej jest częściowo odizolowany od sąsiadów, algorytmy takie mają możliwość zrównoleglenia obliczeń. Na ryc. 1 pokazany warunkowo

Ryc.1. Sieć neuronowa

Wielkość i struktura sieci musi odpowiadać istocie badanego zjawiska. Zbudowana sieć przechodzi proces tzw. „trenowania”. Neurony sieci przetwarzają dane wejściowe, dla których znane są zarówno wartości parametrów wejściowych, jak i prawidłowe odpowiedzi na nie. Uczenie polega na dobieraniu wag połączeń międzyneuronowych zapewniających jak najbliższą odległość odpowiedzi sieci do znanych prawidłowych odpowiedzi. Po przeszkoleniu na dostępnych danych sieć jest gotowa do pracy i można na jej podstawie przewidywać zachowanie obiektu w przyszłości na podstawie danych z jego rozwoju w przeszłości, przeprowadzać analizy oraz identyfikować odchylenia i podobieństwa. Wiarygodne prognozy można formułować bez określania rodzaju zależności, na których się opierają.

Sieci neuronowe służą do rozwiązywania problemów predykcji, klasyfikacji czy sterowania.

Zaleta - sieci mogą przybliżać dowolne funkcja ciągła, nie ma potrzeby dokonywania z góry żadnych założeń dotyczących modelu. Badane dane mogą być niekompletne lub zaszumione.

Wadą jest konieczność posiadania dużej próby szkoleniowej. Ostateczna decyzja zależy od początkowych ustawień sieciowych. Dane należy przekonwertować do postaci liczbowej. Powstały model nie wyjaśnia odkrytej wiedzy (tzw. „czarna skrzynka”).

Drzewa decyzyjne wykorzystują podział danych na grupy w oparciu o wartości zmiennych. Rezultatem jest hierarchiczna struktura operatorów „If...Then…”, która wygląda jak drzewo. Aby sklasyfikować obiekt lub sytuację, musisz odpowiedzieć na pytania w węzłach tego drzewa, zaczynając od jego korzenia. Jeżeli odpowiedź będzie pozytywna, przechodzą do prawego węzła kolejnego poziomu, jeżeli negatywna – do lewego węzła itd. Po udzieleniu odpowiedzi docierają do jednego z końcowych węzłów, gdzie

RI, 2000, nr 4

wskazuje się, do której klasy należy zaliczyć dany obiekt.

Drzewa decyzyjne mają na celu rozwiązywanie problemów klasyfikacyjnych i dlatego mają bardzo ograniczone zastosowanie w finansach i biznesie.

Zaletą metody jest prosta i zrozumiała prezentacja funkcjonalności dla użytkowników. Jako zmienną docelową wykorzystuje się zarówno cechy mierzone, jak i niemierzone, co poszerza zakres metody.

Wadą jest problem o dużym znaczeniu. Dane można podzielić na wiele szczególnych przypadków, w wyniku czego powstaje „krzaczaste” drzewo, które nie może dać statystycznie ważnych odpowiedzi. Przydatne wyniki uzyskuje się tylko w przypadku znaków niezależnych.

Algorytmy genetyczne naśladują proces doboru naturalnego w przyrodzie. Aby rozwiązać problem bardziej optymalny z punktu widzenia jakiegoś kryterium, wszystkie rozwiązania opisuje się zbiorem liczb lub wielkości o charakterze nienumerycznym. Poszukiwanie optymalnego rozwiązania przypomina ewolucję populacji osobników reprezentowanych przez ich zestawy chromosomów. W tej ewolucji działają trzy mechanizmy, pokazane na ryc. 2.

Można wyróżnić następujące mechanizmy:

Wybór najsilniejszych zestawów chromosomów odpowiadających najbardziej optymalnym rozwiązaniom;

Krzyżowanie to powstawanie nowych osobników poprzez mieszanie zestawów chromosomów wybranych osobników;

Mutacje to przypadkowe zmiany w genach u niektórych osobników w populacji.

W wyniku zmiany pokoleń wypracowywane jest rozwiązanie problemu, którego nie da się już ulepszyć.

Zaleta - metoda jest wygodna do rozwiązywania różnych problemów kombinatoryki i optymalizacji, jest preferowana bardziej jako narzędzie do badań naukowych.

Wadą jest to, że możliwość skutecznego sformułowania problemu, ustalenia kryterium selekcji chromosomów, a także sama procedura selekcji mają charakter heurystyczny i może być wykonany jedynie przez specjalistę. Ujęcie problemu w kategoriach nie pozwala na analizę istotności statystycznej rozwiązania uzyskanego za ich pomocą.

Technologie komputerowe do inteligentnego analitycznego przetwarzania danych umożliwiają wykorzystanie metod sztucznej inteligencji, statystyki, teorii baz danych i umożliwiają tworzenie nowoczesnych inteligentnych systemów.

Obecnie pilnym problemem jest tworzenie hurtowni informacji (hurtowni danych) – optymalnie zorganizowanych baz danych, które zapewniają najszybszy i najwygodniejszy dostęp do informacji niezbędnych do podejmowania decyzji. Repozytorium gromadzi rzetelne informacje z różnych źródeł przez długi okres czasu, który pozostaje niezmienny. Dane są agregowane i przechowywane według obszarów, które opisują (przedmiotowe) i spełniają wymagania całego przedsiębiorstwa (zintegrowane).

Biorąc pod uwagę stosunkowo krótki żywot większości krajowych przedsiębiorstw, niedostatek analizowanych danych oraz niestabilność przedsiębiorstw podlegających zmianom pod wpływem zmian w ramach prawnych, pojawia się trudność w opracowaniu skutecznej strategii podejmowania decyzji z wykorzystaniem systemów eksploracji danych. Dlatego też przewiduje się, że najwłaściwszą metodą badania danych z zakresu finansów i biznesu będą algorytmy genetyczne, a w przypadku problemów związanych z klasyfikacją obrazów i faktów lepiej zastosować metody drzew decyzyjnych lub sieci neuronowe.

Literatura: 1. Shchavelev L.V. Eksploracja danych. http://www.citforum.ru/seminars/cis99/sch_04.shtml, 2. Burov K. Odkrywanie wiedzy w hurtowniach danych / / Systemy otwarte. 1999. nr 5-6., http: //www.osp.ru/os/l999/05-06/14.htm. 3. KiselevM, Solomatin E. Sposoby zdobywania wiedzy w biznesie i finansach // Systemy otwarte. 1997. Nr 4. s. 41-44. 4. Krechetov N, Iwanow P. Produkty do inteligentnej analizy danych // Tydzień komputerowy – Moskwa. 1997. Nr 14-15. s. 32-39. 5. Edelstein H. Inteligentne narzędzia do analizy i prezentacji danych w repozytoriach informacji // Tydzień Komputerowy – Moskwa. 1996. Nr 16. s. 32-35.

Do redakcji dołączył 22 czerwca 2000 roku

Recenzent: Dr Tech. nauki, prof. Putyatin V.P.

Gvozdinsky Anatolij Nikołajewicz, dr. technologia Nauk ścisłych, profesor Katedry Sztucznej Inteligencji KhTURE. Zainteresowania badawcze: ocena efektywności złożonych systemów zarządzania informacją. Zainteresowania i hobby: muzyka klasyczna, turystyka. Adres: Ukraina, 61166, Charków, ul. akad. Lapunova, 7, lok. 9, tel. 32-69-08.

Klimko Elena Genrikhovna, asystent na Wydziale Technologii Komputerowych i Systemów Informacyjnych Połtawskiego Państwowego Uniwersytetu Technicznego imienia Jurija Kondratiuka. Student studiów podyplomowych (stażowy) w Katedrze Sztucznej Inteligencji KhTURE. Zainteresowania badawcze: analityczna analiza danych. Zainteresowania i hobby: czytanie, robienie na drutach. Adres: Ukraina, 36021, Połtawa, ul. Almaznaya, 1-A, lok. 34, tel. (053-22) 3-43-12.

Sorokowoj Aleksander Iwanowicz, dr hab. technologia Nauk ścisłych, profesor nadzwyczajny Wydziału Technologii Komputerowych i Systemów Informacyjnych Połtawskiego Państwowego Uniwersytetu Technicznego imienia Jurija Kondratiuka. Zainteresowania badawcze: KDD (Knowledge Discovery). Zainteresowania i hobby: psy. Adres: Ukraina, 36022, Połtawa, ul. Lomany, 37A, tel. (053-2) 18-60-87, e-mail: [e-mail chroniony]

4. Klasyfikacja produktów OLAP.

5. Zasady działania klientów OLAP.

7. Obszary zastosowań technologii OLAP.

8. Przykład wykorzystania technologii OLAP do analiz w sprzedaży.

1. Miejsce OLAP-u w strukturze informacyjnej przedsiębiorstwa.

Termin „OLAP” nierozerwalnie wiąże się z terminem „hurtownia danych” (Data Warehouse).

Dane znajdujące się w hurtowni pochodzą z systemów operacyjnych (systemów OLTP), które mają za zadanie automatyzować procesy biznesowe. Dodatkowo repozytorium można uzupełniać ze źródeł zewnętrznych, np. raportów statystycznych.

Celem repozytorium jest udostępnienie „surowca” do analiz w jednym miejscu i w prostej, zrozumiałej strukturze.

Jest jeszcze jeden powód uzasadniający pojawienie się osobnego repozytorium - złożone zapytania analityczne do informacji operacyjnych spowalniają aktualna praca firm, blokując stoły na długi czas i przejmując zasoby serwerów.

Repozytorium nie musi oznaczać gigantycznego nagromadzenia danych – najważniejsze, żeby było wygodne do analizy.

Centralizacja i wygodna struktura to nie wszystko, czego potrzebuje analityk. Nadal potrzebuje narzędzia do przeglądania i wizualizacji informacji. Tradycyjnym raportom, nawet tym zbudowanym w oparciu o jedno repozytorium, brakuje jednego – elastyczności. Nie można ich „skręcać”, „rozwijać” ani „zwijać”, aby uzyskać pożądany widok danych. Gdyby tylko miał narzędzie, które pozwoliłoby mu w prosty i wygodny sposób rozwijać i zwijać dane! OLAP jest takim narzędziem.

Choć OLAP nie jest niezbędnym atrybutem hurtowni danych, coraz częściej wykorzystuje się go do analizy informacji zgromadzonych w hurtowni.

Miejsce OLAP-u struktura informacji przedsiębiorstw (ryc. 1).

Obrazek 1. MiejsceOLAP w strukturze informacyjnej przedsiębiorstwa

Dane operacyjne są zbierane z różnych źródeł, oczyszczane, integrowane i przechowywane w magazynie relacyjnym. Co więcej, są one już dostępne do analizy przy użyciu różnych narzędzi raportowych. Następnie dane (w całości lub w części) przygotowywane są do analizy OLAP. Można je załadować do specjalnej bazy danych OLAP lub przechowywać w magazynie relacyjnym. Jej najważniejszym elementem są metadane, czyli informacje o strukturze, rozmieszczeniu i przekształceniach danych. Dzięki nim zapewniona jest efektywna interakcja różnych elementów składowania.

Podsumowując, OLAP można zdefiniować jako zestaw narzędzi do wielowymiarowej analizy danych zgromadzonych w hurtowni.

2. Operacyjne przetwarzanie danych analitycznych.

Koncepcja OLAP opiera się na zasadzie wielowymiarowej reprezentacji danych. W 1993 roku E. F. Codd odniósł się do mankamentów modelu relacyjnego, wskazując przede wszystkim na brak możliwości „scalania, przeglądania i analizowania danych w ujęciu wielowymiarowym, czyli w sposób najbardziej zrozumiały dla analityków korporacyjnych” oraz zdefiniował ogólne wymagania dla systemów OLAP, które rozszerzają funkcjonalność relacyjnego DBMS i obejmują analizę wielowymiarową jako jedną z jego cech.

Według Codda wielowymiarowy pogląd koncepcyjny to wielowymiarowa perspektywa składająca się z kilku niezależnych wymiarów, według których można analizować określone zbiory danych.

Jednoczesną analizę wielu wymiarów definiuje się jako analizę wieloczynnikową. Każdy wymiar zawiera wskazówki dotyczące konsolidacji danych, składające się z szeregu kolejnych poziomów uogólnienia, gdzie każdy wyższy poziom odpowiada większemu stopniowi agregacji danych dla odpowiedniego wymiaru.

Tym samym wymiar Performera można wyznaczyć poprzez kierunek konsolidacji, na który składają się poziomy uogólnienia „przedsiębiorstwo – oddział – dział – pracownik”. Wymiar Czas może nawet obejmować dwa kierunki konsolidacji – „rok – kwartał – miesiąc – dzień” i „tydzień – dzień”, ponieważ liczenie czasu według miesiąca i tygodnia jest niezgodne. W takim przypadku możliwe staje się dowolne dobranie pożądanego poziomu szczegółowości informacji dla każdego z wymiarów.

Operacja opadania (wiercenie) odpowiada przechodzeniu z wyższych etapów konsolidacji do niższych; wręcz przeciwnie, operacja podnoszenia (zwijania) oznacza przemieszczanie się z niższych poziomów na wyższe (rys. 2).


Rysunek 2.Wymiary i kierunki konsolidacji danych

3. Wymagania dotyczące internetowych narzędzi do przetwarzania analitycznego.

Podejście wielowymiarowe powstało niemal jednocześnie i równolegle z podejściem relacyjnym. Jednak dopiero począwszy od połowy lat dziewięćdziesiątych, a raczej od
1993, zainteresowanie MDBMS zaczęło się upowszechniać. Właśnie w tym roku ukazał się nowy artykuł programowy jednego z twórców podejścia relacyjnego E. Codda, w którym sformułował 12 podstawowych wymagań dotyczących środków realizacji OLAP(Tabela 1).

Tabela 1.

Wielowymiarowa reprezentacja danych

Narzędzia muszą wspierać koncepcyjnie wielowymiarowy widok danych.

Przezroczystość

Użytkownik nie musi wiedzieć, jakie konkretne narzędzia służą do przechowywania i przetwarzania danych, jak dane są zorganizowane i skąd pochodzą.

Dostępność

Same narzędzia muszą wybrać i skontaktować się z najlepszym źródłem danych, aby wygenerować odpowiedź na dane zapytanie. Narzędzia muszą mieć możliwość automatycznego mapowania własnej logiki na różne heterogeniczne źródła danych.

Stała wydajność

Wydajność powinna być praktycznie niezależna od liczby wymiarów w zapytaniu.

Obsługa architektury klient-serwer

Narzędzia muszą pracować w architekturze klient-serwer.

Równość wszystkich wymiarów

Żaden z wymiarów nie powinien być podstawowy, wszystkie powinny być równe (symetryczne).

Dynamiczne przetwarzanie rzadkich macierzy

Niezdefiniowane wartości muszą być przechowywane i obsługiwane w możliwie najbardziej efektywny sposób.

Obsługa trybu pracy z danymi dla wielu użytkowników

Narzędzia muszą umożliwiać pracę więcej niż jednemu użytkownikowi.

Obsługuje operacje w oparciu o różne wymiary

Wszystkie operacje wielowymiarowe (takie jak agregacja) muszą być stosowane jednolicie i konsekwentnie do dowolnej liczby dowolnych wymiarów.

Łatwość manipulacji danymi

Narzędzia powinny mieć najwygodniejszy, naturalny i wygodny interfejs użytkownika.

Zaawansowane narzędzia prezentacji danych

Fundusze muszą wspierać różne drogi wizualizacja (prezentacja) danych.

Nieograniczona liczba wymiarów i poziomów agregacji danych

Nie powinno być ograniczeń co do liczby obsługiwanych wymiarów.

Zasady oceny oprogramowania klasy OLAP

Zbiór tych wymagań, który posłużył za faktyczną definicję OLAP, należy traktować jako wytyczną, a konkretne produkty oceniać pod kątem stopnia, w jakim są bliskie idealnego spełnienia wszystkich wymagań.

Definicja Codda została później zrewidowana do tzw. testu FASMI, który wymaga, aby aplikacja OLAP zapewniała możliwość szybkiej analizy udostępnianych wielowymiarowych informacji.

Zapamiętywanie 12 zasad Codda jest dla większości ludzi zbyt uciążliwe. Okazało się, że definicję OLAP możemy podsumować tylko pięcioma słowa kluczowe: Szybka analiza współdzielonych informacji wielowymiarowych – czyli w skrócie FASMI (przetłumaczone z angielskiego:F ast A Analiza S zajęty M ultrawymiarowy I Informacja).

Definicja ta została po raz pierwszy sformułowana na początku 1995 r. i od tego czasu nie wymagała aktualizacji.

SZYBKO ( Szybko ) - oznacza, że ​​system powinien być w stanie udzielić większości odpowiedzi użytkownikom w ciągu około pięciu sekund. Jednocześnie najprostsze żądania są przetwarzane w ciągu jednej sekundy, a bardzo nieliczne - dłużej niż 20 sekund. Badania wykazały, że użytkownicy końcowi postrzegają proces jako nieudany, jeśli wyniki nie zostaną uzyskane w ciągu 30 sekund.

Na pierwszy rzut oka może wydawać się zaskakujące, że otrzymanie raportu w ciągu minuty, który jeszcze niedawno zajmował kilka dni, użytkownik bardzo szybko nudzi się czekaniem, a projekt okazuje się znacznie mniej udany niż w przypadku natychmiastowego odpowiedzi, nawet kosztem mniej szczegółowej analizy.

ANALIZAoznacza, że ​​system jest w stanie poradzić sobie z dowolną charakterystyką analizy logicznej i statystycznej ta aplikacja i zapewnia ich zachowanie w formie dostępnej dla końcowego użytkownika.

Nie ma znaczenia, czy analiza ta jest wykonywana w narzędziach własnych dostawcy, czy w powiązanym zewnętrznym oprogramowaniu, takim jak arkusz, po prostu wszystko, co potrzebne funkcjonalność analiza powinna być dostarczana w sposób intuicyjny dla użytkowników końcowych. Narzędzia analityczne mogą obejmować określone procedury, takie jak analiza szeregów czasowych, alokacja kosztów, transfery walut, wyszukiwanie celów, modyfikacja struktur wielowymiarowych, modelowanie nieproceduralne, wykrywanie wyjątków, ekstrakcja danych i inne operacje zależne od aplikacji. Możliwości te różnią się znacznie w zależności od produktu, w zależności od orientacji docelowej.

WSPÓLNY oznacza, że ​​system realizuje wszystkie wymogi ochrony prywatności (ewentualnie aż do poziomu komórki) i w przypadku konieczności wielokrotnego zapisu zapewnia blokadę modyfikacji na odpowiednim poziomie. Nie wszystkie aplikacje wymagają zapisywania zwrotnego danych. Jednak liczba takich aplikacji rośnie, a system musi być w stanie obsłużyć wiele modyfikacji w sposób terminowy i bezpieczny.

WIELOWYMIAROWE (Wielowymiarowe) - jest to kluczowy wymóg. Gdybyś miał zdefiniować OLAP jednym słowem, wybrałbyś go. System musi zapewniać wielowymiarowy koncepcyjny obraz danych, w tym pełną obsługę hierarchii i wielu hierarchii, ponieważ jest to zdecydowanie najbardziej logiczny sposób analizy przedsiębiorstw i organizacji. Nie ma minimalnej liczby wymiarów, które należy przetworzyć, ponieważ zależy to również od zastosowania, a większość produktów OLAP ma wystarczającą liczbę wymiarów dla rynków, na które są skierowane.

INFORMACJA - to wszystko. Niezbędne informacje należy uzyskać tam, gdzie są potrzebne. Wiele zależy jednak od zastosowania. Siłę różnych produktów mierzy się ilością danych wejściowych, które mogą przetworzyć, ale nie liczbą gigabajtów, które mogą przechowywać. Moc produktów jest bardzo zróżnicowana – największe produkty OLAP są w stanie obsłużyć co najmniej tysiąc razy więcej danych niż najmniejsze. Należy wziąć pod uwagę wiele czynników, w tym duplikację danych, wymagania dotyczące pamięci RAM, wykorzystanie miejsca na dysku, wskaźniki wydajności, integrację z repozytoriami informacji itp.

Test FASMI jest rozsądną i zrozumiałą definicją celów, jakie ma osiągnąć OLAP.

4. KlasyfikacjaOLAP-produkty.

A więc istota OLAP-u polega na tym, że wyjściowa informacja do analizy prezentowana jest w formie wielowymiarowego sześcianu, przy czym istnieje możliwość dowolnej manipulacji nią i uzyskania niezbędnych sekcji informacyjnych – raportów. W tym przypadku użytkownik końcowy widzi kostkę jako wielowymiarową dynamiczną tabelę, która automatycznie podsumowuje dane (fakty) w różnych sekcjach (wymiarach) i umożliwia interaktywne zarządzanie obliczeniami i formularzem raportu. Realizacja tych operacji jest zapewniona OLAP -samochód (lub samochód obliczenia OLAP).

Obecnie na świecie opracowano wiele produktów, które sprzedają OLAP -technologie. Aby ułatwić poruszanie się pomiędzy nimi, stosuje się klasyfikacje OLAP -produkty: według sposobu przechowywania danych do analizy i według lokalizacji OLAP -samochody. Przyjrzyjmy się bliżej każdej kategorii Produkty OLAP.

Klasyfikacja według metody przechowywania danych

Kostki wielowymiarowe budowane są w oparciu o dane źródłowe i zagregowane. Zarówno dane źródłowe, jak i zagregowane dla kostek można przechowywać zarówno w relacyjnych, jak i wielowymiarowych bazach danych. Dlatego obecnie stosowane są trzy metody przechowywania danych: MOLAP (wielowymiarowy OLAP), ROLAP (relacyjny OLAP) i HOLAP (hybrydowy OLAP) ). Odpowiednio, OLAP -produkty ze względu na sposób przechowywania danych dzielą się na trzy podobne kategorie:

1. W przypadku MOLAP-u , dane źródłowe i zagregowane przechowywane są w wielowymiarowej bazie danych lub w wielowymiarowej kostce lokalnej.

2. W ROLAP-ie -products dane źródłowe są przechowywane w relacyjnych bazach danych lub w płaskich tabelach lokalnych na serwerze plików. Dane zbiorcze można umieścić w tabelach usług w tej samej bazie danych. Konwersja danych z relacyjnej bazy danych na wielowymiarowe kostki odbywa się na życzenie Narzędzia OLAP.

3. W przypadku użycia HOLAP W architekturze oryginalne dane pozostają w relacyjnej bazie danych, a agregaty umieszczane są w wielowymiarowej. Budowa OLAP -kostka wykonywana na zamówienie OLAP - narzędzia oparte na danych relacyjnych i wielowymiarowych.

Klasyfikacja według lokalizacji OLAP-samochody.

Na tej podstawie OLAP -produkty są podzielone na Serwery OLAP i klienci OLAP:

· Na serwerze OLAP - sposób obliczania i przechowywania danych zbiorczych realizowany jest przez odrębny proces - serwer. Aplikacja kliencka odbiera jedynie wyniki zapytań względem wielowymiarowych kostek, które są przechowywane na serwerze. Niektóre OLAP -serwery obsługują przechowywanie danych tylko w relacyjnych bazach danych, niektóre tylko w wielowymiarowych. Wiele nowoczesnych OLAP -serwery obsługują wszystkie trzy metody przechowywania danych:MOLAP, ROLAP i HOLAP.

MOLAP.

MOLAP jest Wielowymiarowe przetwarzanie analityczne on-line, czyli wielowymiarowy OLAP.Oznacza to, że serwer korzysta z wielowymiarowej bazy danych (MDB) do przechowywania danych. Cel stosowania MBD jest oczywisty. Może efektywnie przechowywać dane o charakterze wielowymiarowym, zapewniając możliwość szybkiej obsługi zapytań do bazy danych. Dane są przesyłane ze źródła danych do wielowymiarowej bazy danych, a następnie baza danych jest agregowana. Obliczenia wstępne przyspieszają zapytania OLAP, ponieważ dane podsumowujące zostały już obliczone. Czas zapytania staje się funkcją wyłącznie czasu wymaganego na dostęp do pojedynczej porcji danych i wykonanie obliczeń. Metoda ta wspiera koncepcję, że praca jest wykonywana raz, a wyniki są następnie wykorzystywane wielokrotnie. Wielowymiarowe bazy danych są stosunkowo nową technologią. Stosowanie MBD ma te same wady, co większość nowych technologii. Mianowicie nie są tak stabilne jak relacyjne bazy danych (RDB) i nie są zoptymalizowane w tym samym stopniu. Kolejną słabością MDB jest brak możliwości wykorzystania większości wielowymiarowych baz danych w procesie agregacji danych, dlatego też zanim nowe informacje staną się dostępne do analizy, potrzeba czasu.

ROLAP.

ROLAP jest Relacyjne przetwarzanie analityczne on-line, czyli relacyjny OLAP.Termin ROLAP oznacza, że ​​serwer OLAP opiera się na relacyjnej bazie danych. Dane źródłowe są wprowadzane do relacyjnej bazy danych, zazwyczaj w schemacie gwiazdy lub płatka śniegu, co pomaga skrócić czas wyszukiwania. Serwer udostępnia wielowymiarowy model danych wykorzystując zoptymalizowane zapytania SQL.

Istnieje wiele powodów, dla których warto wybrać relacyjną, a nie wielowymiarową bazę danych. RDB to technologia o ugruntowanej pozycji, dająca wiele możliwości optymalizacji. Zastosowanie w świecie rzeczywistym zaowocowało bardziej wyrafinowanym produktem. Ponadto bazy RDB obsługują większe wolumeny danych niż bazy MDB. Są precyzyjnie zaprojektowane dla takich objętości. Głównym argumentem przeciwko bazom RDB jest złożoność zapytań wymaganych do pobrania informacji z dużej bazy danych przy użyciu języka SQL. Niedoświadczony programista SQL może łatwo obciążyć cenne zasoby systemowe, próbując wykonać podobne zapytanie, które jest znacznie łatwiejsze do wykonania w MDB.

Dane zagregowane/wstępnie zagregowane.

Szybka implementacja zapytań jest koniecznością dla OLAP. To jedna z podstawowych zasad OLAP-u – umiejętność intuicyjnego manipulowania danymi wymaga szybkiego wydobywania informacji. Ogólnie rzecz biorąc, im więcej obliczeń należy wykonać, aby uzyskać informację, tym wolniejsza jest odpowiedź. Dlatego też, aby skrócić czas realizacji zapytania, informacje, do których zwykle dociera się najczęściej, a które jednocześnie wymagają obliczeń, poddawane są wstępnej agregacji. Oznacza to, że są one liczone, a następnie zapisywane w bazie danych jako nowe dane. Przykładem rodzaju danych, które można obliczyć z wyprzedzeniem, są dane podsumowujące – na przykład dane dotyczące sprzedaży za miesiące, kwartały lub lata, dla których faktycznie wprowadzane dane są danymi dziennymi.

Różni dostawcy mają różne metody wybierania parametrów, wymagające wstępnej agregacji i liczby wstępnie obliczonych wartości. Podejście agregacyjne wpływa zarówno na czas wykonania bazy danych, jak i zapytania. Jeśli obliczanych jest więcej wartości, wzrasta prawdopodobieństwo, że użytkownik zażąda wartości, która została już obliczona, a zatem czas odpowiedzi zostanie skrócony, ponieważ nie będzie konieczne żądanie obliczenia pierwotnej wartości. Jeśli jednak obliczysz wszystkie możliwe wartości, tak nie jest Najlepsza decyzja- w tym przypadku rozmiar bazy danych znacznie się zwiększy, co spowoduje, że stanie się ona niemożliwa do zarządzania, a czas agregacji będzie zbyt długi. Ponadto w przypadku dodania wartości liczbowych do bazy danych lub ich zmiany, informacja ta musi zostać odzwierciedlona we wstępnie obliczonych wartościach, które zależą od nowych danych. Dlatego też aktualizacja bazy danych może w niektórych przypadkach zająć dużo czasu duża liczba wstępnie obliczone wartości. Ponieważ podczas agregacji baza danych zazwyczaj działa w trybie offline, pożądane jest, aby czas agregacji nie był zbyt długi.

OLAP - klient ma inną strukturę. Budowa wielowymiarowej kostki i OLAP -obliczenia wykonywane są w pamięci komputera klienckiego.OLAP -klienci są również podzieleni na ROLAP i MOLAP.Niektóre mogą obsługiwać obie opcje dostępu do danych.

Każde z tych podejść ma swoje zalety i wady. Wbrew powszechnemu przekonaniu o przewadze narzędzi serwerowych nad narzędziami klienckimi, w wielu przypadkach zastosowanie OLAP - klient może być bardziej wydajny i opłacalny w użyciu dla użytkowników Serwery OLAP.

Tworzenie aplikacji analitycznych z wykorzystaniem klienckich narzędzi OLAP jest procesem szybkim i nie wymagającym specjalnego przeszkolenia. Użytkownik znający fizyczną implementację bazy danych może samodzielnie opracować aplikację analityczną, bez udziału informatyka.

Korzystając z serwera OLAP, musisz nauczyć się obsługi 2 różnych systemów, czasami od różnych dostawców - tworzenia kostek na serwerze i rozwijania aplikacji klienckiej.

Klient OLAP zapewnia pojedynczy interfejs wizualny do opisywania kostek i konfigurowania dla nich interfejsów użytkownika.

W jakich więc przypadkach korzystanie z klienta OLAP może być bardziej efektywne i opłacalne dla użytkowników niż korzystanie z serwera OLAP?

· Ekonomiczna wykonalność zastosowania OLAP -server ma miejsce, gdy ilości danych są bardzo duże i przytłaczające OLAP -klient, w przeciwnym razie bardziej uzasadnione jest użycie tego drugiego. W tym przypadku OLAP -Klient łączy w sobie wysoką wydajność i niski koszt.

· Wydajne komputery PC dla analityków – kolejny argument za OLAP -klienci. Podczas używania OLAP -serwery nie wykorzystują tej pojemności.

Wśród zalet klientów OLAP można wymienić:

· Koszty wdrożenia i utrzymania OLAP - dla klienta znacznie niższe koszty niż za Serwer OLAP.

· Za pomocą OLAP - dla klienta posiadającego maszynę zabudowaną, transmisja danych przez sieć odbywa się jednorazowo. Wykonując OLAP -operacje nowych strumieni danych nie są generowane.

5. Zasady działania OLAP-klienci.

Przyjrzyjmy się procesowi tworzenia aplikacji OLAP za pomocą narzędzia klienckiego (rysunek 1).

Obrazek 1.Tworzenie aplikacji OLAP przy użyciu narzędzia klienckiego ROLAP

Zasadą działania klientów ROLAP jest wstępny opis warstwy semantycznej, za którą ukryta jest fizyczna struktura danych źródłowych. W tym przypadku źródłami danych mogą być: tabele lokalne, RDBMS. Lista obsługiwanych źródeł danych zależy od konkretnego oprogramowania. Następnie użytkownik może samodzielnie manipulować obiektami, które rozumie pod kątem tematyki, tworząc kostki i interfejsy analityczne.

Zasada działania klienta serwera OLAP jest inna. Na serwerze OLAP podczas tworzenia kostek użytkownik manipuluje fizycznymi opisami bazy danych. Jednocześnie w samej kostce tworzone są niestandardowe opisy. Klient serwera OLAP jest skonfigurowany tylko dla kostki.

Tworząc warstwę semantyczną, źródła danych - tabele Sales i Deal - są opisywane w sposób zrozumiały dla użytkownika końcowego i zamieniane w „Produkty” i „Oferty”. Pole „ID” w tabeli „Produkty” zmienia nazwę na „Kod”, a „Nazwa” na „Produkt” itp.

Następnie tworzony jest obiekt biznesowy Sprzedaż. Obiekt biznesowy to płaski stół, na podstawie którego tworzona jest wielowymiarowa kostka. Podczas tworzenia obiektu biznesowego tabele „Produkty” i „Transakcje” są łączone za pomocą pola „Kod” produktu. Ponieważ do wyświetlenia w raporcie nie są wymagane wszystkie pola tabeli, obiekt biznesowy wykorzystuje jedynie pola „Pozycja”, „Data” i „Kwota”.

W naszym przykładzie, w oparciu o obiekt biznesowy „Sprzedaż”, utworzono raport sprzedaży produktów w podziale na miesiące.

Podczas pracy z interaktywnym raportem użytkownik może ustawić warunki filtrowania i grupowania za pomocą tych samych prostych ruchów myszką. W tym momencie klient ROLAP uzyskuje dostęp do danych w pamięci podręcznej. Klient serwera OLAP generuje nowe zapytanie do wielowymiarowej bazy danych. Przykładowo, stosując filtr po produkcie w raporcie sprzedaży, można uzyskać raport dotyczący sprzedaży interesujących nas produktów.

Wszystkie ustawienia aplikacji OLAP można przechowywać w dedykowanym repozytorium metadanych, w aplikacji lub w repozytorium systemu wielowymiarowej bazy danych.Implementacja zależy od konkretnego oprogramowania.

Wszystko, co zawiera te aplikacje, to standardowe spojrzenie na interfejs, predefiniowane funkcje i struktura oraz szybkie rozwiązania dla mniej lub bardziej standardowych sytuacji. Popularne są na przykład pakiety finansowe. Gotowe aplikacje finansowe umożliwiają profesjonalistom korzystanie ze znanych narzędzi finansowych bez konieczności projektowania struktury bazy danych lub konwencjonalnych formularzy i raportów.

Internet to nowa forma klienta. Ponadto nosi piętno nowych technologii; pęczek Rozwiązania internetowe różnią się znacznie pod względem możliwości w ogóle, a w szczególności jako rozwiązanie OLAP. Generowanie raportów OLAP przez Internet ma wiele zalet. Najbardziej znaczący wydaje się brak zapotrzebowania na specjalizację oprogramowanie aby uzyskać dostęp do informacji. Oszczędza to firmie mnóstwo czasu i pieniędzy.

6. Wybór architektury aplikacji OLAP.

Wdrażając system informacyjno-analityczny, ważne jest, aby nie popełnić błędu w wyborze architektury aplikacji OLAP. Dosłowne tłumaczenie terminu Proces Analityczny On-Line – „przetwarzanie analityczne online” – często jest rozumiane dosłownie w tym sensie, że dane wchodzące do systemu są szybko analizowane. Jest to błędne przekonanie – efektywność analizy nie jest w żaden sposób powiązana z rzeczywistym czasem aktualizacji danych w systemie. Cecha ta odnosi się do czasu reakcji systemu OLAP na żądania użytkowników. Jednocześnie analizowane dane często stanowią migawkę informacji „z wczoraj”, jeśli np. dane w magazynach są aktualizowane raz dziennie.

W tym kontekście tłumaczenie OLAP jako „interaktywne przetwarzanie analityczne” jest dokładniejsze. To właśnie możliwość analizy danych w trybie interaktywnym odróżnia systemy OLAP od systemów przygotowywania raportów regulowanych.

Kolejną cechą przetwarzania interaktywnego w ujęciu założyciela OLAP E. Codda jest możliwość „łączenia, przeglądania i analizowania danych z punktu widzenia wielu wymiarów, czyli w sposób jak najbardziej zrozumiały dla analityków korporacyjnych”. Sam Codd używa terminu OLAP w odniesieniu wyłącznie do określonego sposobu prezentacji danych na poziomie koncepcyjnym – wielowymiarowym. Na poziomie fizycznym dane można przechowywać w relacyjnych bazach danych, ale w rzeczywistości narzędzia OLAP zazwyczaj współpracują z wielowymiarowymi bazami danych, w których dane są zorganizowane w hipersześcian (rysunek 1).

Obrazek 1. OLAP– sześcian (hipersześcian, metasześcian)

Co więcej, o przydatności tych danych decyduje moment zapełnienia hipersześcianu nowymi danymi.

Oczywiście czas potrzebny na utworzenie wielowymiarowej bazy danych zależy w dużej mierze od ilości załadowanych do niej danych, dlatego rozsądne jest ograniczenie tej objętości. Jak jednak uniknąć zawężenia możliwości analizy i pozbawienia użytkownika dostępu do wszystkich interesujących go informacji? Istnieją dwie alternatywne ścieżki: Analizuj, a następnie zapytaj i Zapytaj, a następnie analizuj.

Zwolennicy pierwszej ścieżki proponują ładowanie uogólnionych informacji do wielowymiarowej bazy danych, na przykład miesięcznych, kwartalnych i rocznych wyników działów. Natomiast w przypadku konieczności uszczegółowienia danych użytkownik proszony jest o wygenerowanie raportu z wykorzystaniem relacyjnej bazy danych zawierającej wymagany wybór np. według dnia dla danego działu lub według miesiąca i pracowników wybranego działu.

Zwolennicy drugiej ścieżki natomiast sugerują, aby to użytkownik przede wszystkim sam decydował, jakie dane będzie analizował, i ładował je do mikrokostki – małej wielowymiarowej bazy danych. Obydwa podejścia różnią się na poziomie koncepcyjnym i mają swoje zalety i wady.

Zaletami drugiego podejścia jest „świeżość” informacji, którą użytkownik otrzymuje w postaci wielowymiarowego raportu – „mikrosześcianu”. Mikrokostka tworzona jest na podstawie informacji żądanych z aktualnej relacyjnej bazy danych. Praca z mikrokostką odbywa się w trybie interaktywnym – pozyskiwanie wycinków informacji i ich uszczegółowienie wewnątrz mikrokostki odbywa się błyskawicznie. Kolejnym pozytywnym punktem jest to, że projektowanie konstrukcji i wypełnianie mikrokostki odbywa się przez użytkownika na bieżąco, bez udziału administratora bazy danych. Jednakże podejście to ma również poważne wady. Użytkownik nie widzi szerszego obrazu i musi z wyprzedzeniem zdecydować o kierunku swoich badań. W przeciwnym razie żądana mikrokostka może być za mała i nie zawierać wszystkich interesujących nas danych, a użytkownik będzie musiał zamówić nową mikrokostkę, potem nową, potem kolejną i kolejną. Podejście Query następnie analizuje implementuje narzędzie BusinessObjects firmy o tej samej nazwie oraz narzędzia firmowej platformy ContourIntersoft Laboratorium.

W przypadku podejścia Analizuj następnie zapytanie ilość danych ładowanych do wielowymiarowej bazy danych może być dość duża; wypełnianie musi odbywać się zgodnie z przepisami i może zająć sporo czasu. Jednak wszystkie te wady procentują później, gdy użytkownik ma dostęp do niemal wszystkich niezbędnych danych w dowolnej kombinacji. Dostęp do danych źródłowych w relacyjnej bazie danych następuje jedynie w ostateczności, gdy potrzebne są szczegółowe informacje np. na temat konkretnej faktury.

Na działanie pojedynczej wielowymiarowej bazy danych praktycznie nie ma wpływu liczba użytkowników uzyskujących do niej dostęp. Odczytują jedynie dostępne tam dane, w przeciwieństwie do podejścia Query następnie analizuj, w którym liczba mikrokostek w skrajnym przypadku może rosnąć w tym samym tempie, co liczba użytkowników.

Takie podejście zwiększa obciążenie usług IT, które oprócz relacyjnych, zmuszone są także do utrzymywania wielowymiarowych baz danych.Służby te odpowiadają za terminowość automatyczna aktualizacja danych w wielowymiarowych bazach danych.

Najbardziej znanymi przedstawicielami podejścia „Analizuj, a następnie zapytaj” są narzędzia PowerPlay i Impromptu firmy Cognos.

Wybór zarówno podejścia, jak i narzędzia je realizującego zależy przede wszystkim od realizowanego celu: zawsze trzeba balansować pomiędzy oszczędnościami budżetowymi a poprawą jakości obsługi użytkowników końcowych. Należy wziąć pod uwagę, że w planie strategicznym tworzenie systemów informacyjno-analitycznych dąży do osiągnięcia przewagi konkurencyjnej, nie unikając kosztów automatyzacji. Przykładowo korporacyjny system informacyjno-analityczny może dostarczać niezbędnych, aktualnych i rzetelnych informacji o spółce, których publikacja dla potencjalnych inwestorów zapewni przejrzystość i przewidywalność spółki, co nieuchronnie stanie się warunkiem jej atrakcyjności inwestycyjnej.

7. Obszary zastosowań technologii OLAP.

OLAP ma zastosowanie wszędzie tam, gdzie istnieje zadanie analizy danych wielowymiarowych. Ogólnie rzecz biorąc, jeśli tabela danych zawiera co najmniej jedną kolumnę opisową (wymiar) i jedną kolumnę liczbową (miary lub fakty), narzędzie OLAP będzie zazwyczaj skutecznym narzędziem do analizy i raportowania.

Przyjrzyjmy się niektórym obszarom zastosowania technologii OLAP zaczerpniętym z prawdziwego życia.

1. Sprzedaż.

Na podstawie analizy struktury sprzedaży rozwiązywane są kwestie niezbędne do podejmowania decyzji zarządczych: o zmianie asortymentu, cen, zamykaniu i otwieraniu sklepów, oddziałów, rozwiązywaniu i podpisywaniu umów z dealerami, realizacji lub rozwiązywaniu kampanie reklamowe itp.

2. Zakupy.

Zadanie jest odwrotnością analizy sprzedaży. Wiele przedsiębiorstw kupuje komponenty i materiały od dostawców. Przedsiębiorstwa handlowe kupują towary w celu ich odsprzedaży. Istnieje wiele możliwych zadań podczas analizy zamówień, od planowania funduszy w oparciu o przeszłe doświadczenia, po kontrolę nad menadżerami, wybór dostawców.

3. Ceny.

Analiza cen rynkowych jest ściśle powiązana z analizą zakupów. Celem tej analizy jest optymalizacja kosztów i wybranie najbardziej opłacalnych ofert.

4. Marketing.

Przez analizę marketingową rozumiemy jedynie obszar analizy nabywców lub klientów-konsumentów usług. Celem tej analizy jest prawidłowe pozycjonowanie produktu, identyfikacja grup nabywców dla celów reklamy ukierunkowanej oraz optymalizacja asortymentu. Zadaniem OLAP-u w tym przypadku jest udostępnienie użytkownikowi narzędzia, dzięki któremu w szybki i szybki sposób uzyska odpowiedzi na pytania, które intuicyjnie pojawiają się podczas analizy danych.

5. Magazyn.

Analiza struktury sald magazynowych według rodzaju towarów, magazynów, analiza trwałości towarów, analiza przesyłek według odbiorców i wiele innych rodzajów analiz, które są ważne dla przedsiębiorstwa, są możliwe, jeśli organizacja posiada księgowość magazynową.

6. Przepływ środków pieniężnych.

To cały obszar analizy, który ma wiele szkół i metod. Technologia OLAP może służyć jako narzędzie do wdrażania lub ulepszania tych technik, ale nie może ich zastępować. Obrót gotówkowy środkami bezgotówkowymi i gotówkowymi analizowany jest pod kątem operacji biznesowych, kontrahentów, walut i czasu w celu optymalizacji przepływów, zapewnienia płynności itp. Skład pomiarów w dużym stopniu zależy od charakterystyki firmy, branży i metodologii.

7. Budżet.

Jeden z najżyźniejszych obszarów zastosowania technologii OLAP. Ani jednego za darmo nowoczesny system budżetowanie nie jest uważane za kompletne bez obecności narzędzi OLAP do analizy budżetu. Większość raportów budżetowych można łatwo zbudować w oparciu o systemy OLAP. Jednocześnie raporty odpowiadają na bardzo szeroki zakres pytań: analizę struktury wydatków i przychodów, porównanie wydatków na poszczególne pozycje w różnych działach, analizę dynamiki i trendów wydatków na poszczególne pozycje, analizę kosztów i zyski.

8. Konta księgowe.

Klasyczny bilans składający się z numeru rachunku i zawierający salda wpływy, obroty i salda rozchodów można doskonale przeanalizować w systemie OLAP. Ponadto system OLAP potrafi automatycznie i bardzo szybko wyliczać salda skonsolidowane organizacji wielooddziałowej, salda za miesiąc, kwartał i rok, salda zagregowane według hierarchii kont oraz salda analityczne w oparciu o charakterystyki analityczne.

9. Sprawozdawczość finansowa.

Technologicznie skonstruowany system raportowania to nic innego jak zestaw nazwanych wskaźników z wartościami dat, które należy pogrupować i podsumować w różnych sekcjach, aby uzyskać konkretne raporty. W takiej sytuacji wyświetlanie i drukowanie raportów najłatwiej i najtaniej można wdrożyć w systemach OLAP. W każdym razie wewnętrzny system raportowania przedsiębiorstwa nie jest tak konserwatywny i można go zrestrukturyzować, aby zaoszczędzić pieniądze prace inżynieryjne do tworzenia raportów i uzyskiwania możliwości wielowymiarowej analizy operacyjnej.

10. Ruch w witrynie.

Plik dziennika serwera internetowego ma charakter wielowymiarowy, co oznacza, że ​​nadaje się do analizy OLAP. Faktami są: liczba odwiedzin, liczba trafień, czas spędzony na stronie i inne informacje dostępne w logu.

11. Wielkość produkcji.

To kolejny przykład analizy statystycznej. Dzięki temu możliwa jest analiza wielkości uprawy ziemniaków, wytopu stali i wyprodukowanych towarów.

12. Zużycie materiałów eksploatacyjnych.

Wyobraźmy sobie fabrykę składającą się z kilkudziesięciu warsztatów, w których zużywa się chłodziwa, płyny do płukania, oleje, szmaty, papier ścierny – setki rodzajów materiałów eksploatacyjnych. Do dokładnego planowania i optymalizacji kosztów wymagana jest dokładna analiza rzeczywistego zużycia materiałów eksploatacyjnych.

13. Korzystanie z lokalu.

Inny rodzaj analizy statystycznej. Przykłady: analiza obciążenia sal lekcyjnych, wynajmowanych budynków i lokali, wykorzystania sal konferencyjnych itp.

14. Rotacja personelu w przedsiębiorstwie.

Analiza rotacji personelu w przedsiębiorstwie według oddziałów, działów, zawodów, poziomu wykształcenia, płci, wieku, czasu pracy.

15. Przewóz osób.

Analiza liczby i ilości sprzedanych biletów według sezonu, kierunku, rodzaju przewozu (klasy), rodzaju pociągu (samolotu).

Lista ta nie ogranicza się do zakresu zastosowania OLAP - technologie. Weźmy na przykład pod uwagę technologię OLAP - analizy w zakresie sprzedaży.

8. Przykład zastosowania OLAP -technologie do analiz w obszarze sprzedaży.

Projektowanie wielowymiarowej reprezentacji danych dla OLAP -analiza rozpoczyna się od stworzenia mapy pomiarowej. Przykładowo przy analizie sprzedaży wskazane może być zidentyfikowanie poszczególnych części rynku (odbiorcy rozwijający się, stabilni, duzi i mali, prawdopodobieństwo pojawienia się nowych konsumentów itp.) i oszacowanie wielkości sprzedaży według produktu, terytorium, klienta, segmentu rynku , kanał sprzedaży i wielkość zamówień. Kierunki te tworzą siatkę współrzędnych wielowymiarowej reprezentacji sprzedaży – strukturę jej wymiarów.

Ponieważ działalność każdego przedsiębiorstwa ma charakter rozłożony w czasie, pierwszym pytaniem, które pojawia się w trakcie analizy, jest pytanie o dynamikę rozwoju przedsiębiorstwa. Prawidłowa organizacja osi czasu pozwoli nam jakościowo odpowiedzieć na to pytanie. Zazwyczaj oś czasu jest podzielona na lata, kwartały i miesiące. Możliwa jest jeszcze większa fragmentacja na tygodnie i dni. Struktura wymiaru czasu tworzona jest z uwzględnieniem częstotliwości otrzymywania danych; można również określić na podstawie częstotliwości żądań informacji.

Wymiar Grupy Produktów ma za zadanie jak najwierniej odzwierciedlać strukturę sprzedawanych produktów. Jednocześnie ważne jest zachowanie pewnego balansu, aby z jednej strony uniknąć nadmiernej szczegółowości (liczba grup powinna być widoczna), a z drugiej nie ominąć istotnego segmentu rynku.

Wymiar „Klienci” odzwierciedla strukturę sprzedaży według obszaru terytorialnego i geograficznego. Każdy wymiar może mieć swoje hierarchie, np. w tym wymiarze może to być struktura: Kraje – Regiony – Miasta – Klienci.

Aby analizować wydajność działów, należy stworzyć własny pomiar. Przykładowo możemy wyróżnić dwa poziomy hierarchii: działy i znajdujące się w nich działy, co powinno znaleźć swoje odzwierciedlenie w wymiarze „Piony”.

Tak naprawdę wymiary „Czas”, „Produkty”, „Klienci” w pełni definiują przestrzeń obszaru tematycznego.

Dodatkowo warto podzielić tę przestrzeń na obszary warunkowe, w oparciu o wyliczone charakterystyki, np. przedziały wolumenu transakcji pod względem wartości. Następnie całość biznesu można podzielić na szereg przedziałów kosztowych, w jakich jest prowadzona. W tym przykładzie możemy ograniczyć się do następujących wskaźników: wielkość sprzedaży towarów, liczba sprzedanych towarów, wysokość przychodów, liczba transakcji, liczba klientów, wielkość zakupów od producentów.

OLAP - kostka do analizy będzie wyglądać (rys. 2):


Rysunek 2.OLAP– kostka do analizy wielkości sprzedaży

To właśnie ta trójwymiarowa tablica nazywana jest kostką w terminologii OLAP. Tak naprawdę z punktu widzenia ścisłej matematyki taka tablica nie zawsze będzie sześcianem: prawdziwa sześcian musi mieć tę samą liczbę elementów we wszystkich wymiarach, ale kostki OLAP nie mają takiego ograniczenia. Kostka OLAP nie musi być trójwymiarowa. Może mieć ona charakter dwu- lub wielowymiarowy, w zależności od rozwiązywanego problemu. Poważne produkty OLAP są zaprojektowane dla około 20 wymiarów. Prostsze aplikacje komputerowe obsługują około 6 wymiarów.

Nie wszystkie elementy kostki muszą być wypełnione: jeśli w trzecim kwartale nie będzie informacji o sprzedaży Produktu 2 Klientowi 3, wartość w odpowiedniej komórce po prostu nie zostanie ustalona.

Jednak sama kostka nie nadaje się do analizy. Jeśli nadal można odpowiednio wyobrazić sobie lub przedstawić trójwymiarowy sześcian, to za pomocą sześcio- lub dziewiętnastowymiarowy sytuacja jest znacznie gorsza. Dlatego przed użyciem z wielowymiarowej kostki wyciągane są zwykłe dwuwymiarowe tabele. Ta operacja nazywa się „cięciem” sześcianu. Analityk niejako bierze i „tnie” wymiary sześcianu zgodnie z interesującymi go znakami. W ten sposób analityk otrzymuje dwuwymiarowy wycinek sześcianu (raport) i z nim pracuje. Strukturę raportu przedstawiono na rysunku 3.

Rysunek 3.Struktura raportu analitycznego

Wytnijmy naszą kostkę OLAP i otrzymajmy raport sprzedaży za trzeci kwartał, będzie to wyglądało tak (ryc. 4).

Rysunek 4.Raport sprzedaży za trzeci kwartał

Można przeciąć kostkę wzdłuż drugiej osi i otrzymać raport dotyczący sprzedaży grupy produktów 2 w ciągu roku (rys. 5).

Rysunek 5.Kwartalny raport sprzedaży produktu 2

Podobnie możesz analizować relację z klientem 4, wycinanie kostki według znaku Klienta(ryc. 6)

Rysunek 6.Raport z dostaw towarów do klienta 4

Możesz uszczegółowić raport według miesiąca lub porozmawiać o dostawie towaru do konkretnego oddziału klienta.

Wstęp

Ten projekt dyplomowy stanowi kontynuację prac nad rozwojem zautomatyzowanego systemu wyszukiwania informacji „Międzynarodowa współpraca naukowo-techniczna rosyjskich uniwersytetów”, opracowanego w ramach prac badawczych z Ministerstwem Edukacji i Nauki Federacja Rosyjska(Ministerstwo Edukacji i Nauki). Na tym etapie jednym z głównych zadań jest poszukiwanie nowych rozwiązań, które pozwolą na szybkie analityczne przetwarzanie informacji, biorąc pod uwagę duże wolumeny danych, złożoność powiązań między nimi oraz ograniczony czas użytkownika.

Projekt dyplomowy poświęcony jest opracowaniu wielowymiarowych modeli danych do budowy kostek OLAP, stworzeniu programowego mechanizmu dostępu do tych danych, opracowaniu webowego interfejsu użytkownika, który pozwala na kształtowanie struktury danych wyjściowych w zależności od potrzeb operatora i wizualizację uzyskanych wyników.

Opracowana aplikacja jest nowoczesnym narzędziem zapewniającym realizację działań organizacyjnych odpowiednich departamentów Federalnej Agencji Edukacji zarówno w codziennym praktyczna praca(szybkie przygotowanie bieżących informacji i materiałów roboczych dotyczących niektórych problemów międzynarodowej współpracy naukowo-technicznej, danych statystycznych ze spotkań, spotkań itp.) oraz przy podsumowaniu wyników (raporty miesięczne, kwartalne, roczne i inne). Funkcjonalność aplikacji może być przydatna w zakresie statystyki i analityki.

Decyzja o wykorzystaniu formatu aplikacji webowej pozwala na dostęp do bazy danych z dowolnego miejsca na świecie, eliminując konieczność instalowania dodatkowego oprogramowania klienckiego.

Przegląd i analiza technologii oprogramowania do tworzenia aplikacji WEB do analitycznego przetwarzania danych

Technologie operacyjnego przetwarzania danych analitycznych

dane aplikacji modelu oprogramowania

Obecnie ogromne ilości danych gromadzone są w księgowych, tzw. systemach transakcyjnych (OLTP).

Systemy tego typu budowane są w oparciu o nowoczesne SZBD, które posiadają rozbudowany mechanizm zarządzania transakcjami, co uczyniło je głównym środkiem tworzenia systemów przetwarzania transakcji on-line (systemy OLTP, On-Line Transactions Processing).

Głównym zadaniem takich systemów jest zapewnienie wykonania operacji na bazie danych. Takie systemy prawie zawsze udostępniają funkcje wyszukiwania, w tym takie, które pozwalają wyświetlić informacje podsumowujące i zagregowane.

Jednak zdolność takich systemów do przeprowadzania złożonej, dogłębnej analizy danych w celu podejmowania świadomych decyzji jest ograniczona.

Bez produktywnego przetwarzania i analizy kolosalny przepływ rudy informacji, tj. surowe dane tworzą bezużyteczny zrzut.

W związku z tym pojawiła się potrzeba stworzenia systemów analitycznych, które pozwoliłyby na przetworzenie surowych danych przydatna informacja oraz wiedzę, na podstawie której można podejmować decyzje zarządcze.

Analiza danych prowadzona jest w takim czy innym stopniu w wielu systemach informatycznych, w tym w systemach OLTP. Jednak rodzaje analizy danych różnią się w zależności od elastyczności i głębokości przeprowadzonej analizy.

Analiza wyszukiwania informacji to analiza danych prowadzona według z góry określonych, tj. z góry określone typy żądań (żądania regulowane).

Operacyjna analiza analityczna to analiza danych wymagająca tworzenia zapytań doraźnych, gdy nie da się z góry przewidzieć, jakich zapytań będzie potrzebował użytkownik.

Inteligentna analiza to głęboka analiza danych, która pozwala uzyskać wiedzę ukrytą dla użytkownika z istniejących danych, taką jak:

§ wzorce funkcjonalne i logiczne w gromadzonych danych;

§ modele i zasady wyjaśniające znalezione wzorce;

§ prognozy rozwoju procesów.

Porównanie cech różnych typów analizy danych przedstawiono w tabeli 1.1.

Charakterystyka

Rodzaje analizy danych

Analiza wyszukiwania informacji

Operacyjna analiza analityczna

Inteligentna analiza

Rodzaje żądań

Regulowane

Nieuregulowane

Głębokie skanowanie

Rodzaj otrzymywanych danych

Surowe próbki danych

Informacje uogólnione, pogrupowane i zagregowane

Modele, szablony, wzorce, wiedza

Problemy do rozwiązania

Pobieranie próbek danych

Zgrubna analiza eksploracyjna, testowanie wcześniej sformułowanych hipotez

Zdobycie nowej, nietrywialnej, ukrytej wiedzy

Poziom interaktywności

Interaktywna interakcja z informacją

Tabela 1.1 – Porównanie rodzajów analizy danych

Zgodnie z omówionymi powyżej rodzajami analizy danych, systemy analityczne można podzielić na następujące grupy:

1. Korporacyjne systemy raportowania:

§ służą do kontroli sytuacji operacyjnej i analizy odchyleń (odpowiedz na pytanie „co się dzieje”);

§ udostępniać dane operacyjne dotyczące wyników działalności w formie predefiniowanych formularzy raportowych;

§ w oparciu o analizę danych dotyczących wyszukiwania informacji;

§ nie może korzystać z hurtowni danych, lecz pobierać dane bezpośrednio z systemów OLTP;

§ przeznaczone są dla szerokiego grona użytkowników końcowych (klientów, partnerów, instytucji fiskalnych).

2. Systemy analitycznego przetwarzania danych i raportowania analitycznego (systemy OLAP - systemy analitycznego przetwarzania online, On-Line Analytical Processing):

§ pozwalają na wielowymiarową analizę danych w różnych przekrojach;

§ opracowaliśmy narzędzia do raportowania analitycznego i wizualizacji danych w postaci różnego rodzaju tabel, wykresów i wykresów;

§ opierają się na operacyjnej analizie danych analitycznych;

§ najczęściej korzystają z hurtowni danych zoptymalizowanej do zadań wielowymiarowej analizy danych;

§ skierowane są do użytkowników wymagających ciągłej interaktywnej interakcji z informacją (menedżerowie, analitycy).

3. Systemy głębokiej analizy danych:

§ opracowaliśmy narzędzia umożliwiające przeprowadzenie pogłębionej analizy;

§ pozwalają pozyskać nietrywialną, ukrytą wiedzę;

§ wykorzystywać hurtownię danych jako źródło informacji;

§ w oparciu o eksplorację danych;

§ przeznaczone są dla analityków posiadających wiedzę z zakresu metod analizy danych;

§ umożliwiają tworzenie kompletnych aplikacji dla użytkowników końcowych w postaci zbudowanych modeli, szablonów i raportów.

Schematyczny opis podziału systemów analitycznych na powyższe grupy przedstawiono na rysunku 1.1.1.

OLAP (On-Line Analytical Processing) to technologia operacyjnego przetwarzania danych analitycznych, która wykorzystuje metody i narzędzia gromadzenia, przechowywania i analizowania danych wielowymiarowych w celu wspomagania działań analitycznych oraz możliwości generowania na ich podstawie doraźnych zapytań i raportów.

Rysunek 1.1.1 – Rodzaje systemów analitycznych

Systemy OLAP tworzone są z myślą o użytkownikach końcowych i analitykach, dostarczając im narzędzi do analizy danych i testowania powstających hipotez.

Istnieje dobrze znany test, stworzony w 1995 roku, który określa kryteria, według których system można sklasyfikować jako system OLAP.

Test ten nazywa się FASMI (szybka analiza współdzielonych informacji wielowymiarowych) i jest obecnie szeroko stosowany.

Według testu FASMI OLAP definiuje się za pomocą pięciu słów kluczowych:

§ Szybko;

§ Analiza;

§ Wspólny;

§ Wielowymiarowy;

§ Informacja.

Schematyczne przedstawienie testu pokazano na rysunku 1.1.2.


Rysunek 1.1.2 – Test FASMI.

1. Szybko

System OLAP powinien być w stanie odpowiedzieć na większość zapytań w ciągu około 5 sekund. W przypadku prostych zapytań wskaźnik ten może wynosić 1 sekundę, a w przypadku zapytań o rzadkiej złożoności może osiągnąć 20 sekund.

Badania pokazują, że brak odpowiedzi w ciągu 30 sekund oznacza, że ​​użytkownik nie uważa systemu za przydatny. Potrafi nacisnąć kombinację klawiszy ++, chyba że system ostrzeże, że przetwarzanie danych wymaga więcej czasu.

Ale nawet jeśli system ostrzeże użytkownika o długim czasie przetwarzania żądania analitycznego, może on się rozproszyć i stracić rozum, co negatywnie wpłynie na jakość analizy.

Taka prędkość przetwarzania nie jest łatwa do osiągnięcia na ogromnych ilościach danych, szczególnie jeśli wymagane są niestandardowe i złożone zapytania generowane na bieżąco.

Aby osiągnąć ten cel, twórcy systemów OLAP wykorzystują różne metody:

Dynamiczne wstępne przetwarzanie danych;

Tworzenie specjalnych rozwiązań programowych i sprzętowych;

Korzystanie z platform sprzętowych o wyższej wydajności.

Kryterium szybkości jest najważniejsze przy określaniu, czy system należy do klasy OLAP.

2. Analiza.

System OLAP musi sobie poradzić z dowolną analizą logiczną i statystyczną specyficzną dla danego obszaru zastosowań.

Wszystkie wymagane funkcje analityczne muszą być zapewnione w sposób przyjazny dla użytkownika.

System OLAP musi cechować się elastycznością pozwalającą na generowanie graficznych wyników analiz oraz umożliwiać generowanie raportów w dowolny sposób, bez konieczności programowania.

3. Udostępnione.

System OLAP musi działać w trybie wielu użytkowników, co szczególnie rodzi kwestię zapewnienia poufności informacji i dostępności środków bezpieczeństwa informacji w takich systemach (prawa dostępu, autoryzacja dostępu itp.).

4. Wielowymiarowy.

System OLAP musi zapewniać wielowymiarowy widok danych. Nie mówimy o liczbie wymiarów wielowymiarowego modelu danych ani o rozmiarze każdego wymiaru. Zależy to od konkretnego obszaru zastosowania i rozwiązywanych problemów analitycznych.

5. Informacje.

System OLAP musi dostarczać niezbędnych informacji w rzeczywistej aplikacji.

Moc systemu OLAP zależy od ilości danych wejściowych, które może przetworzyć. Zdolność systemów OLAP do przetwarzania informacji różni się 1000-krotnie, na co wpływa wiele czynników, w tym wymagane Baran, wykorzystanie miejsca na dysku, integracja z hurtowniami danych i innymi komponentami analitycznymi.

Tym samym test FASMI koncentruje się na tak istotnych cechach systemów OLAP, jak szybkość przetwarzania, dostęp wielu użytkowników, istotność informacji, dostępność narzędzi analizy statystycznej oraz wielowymiarowość, tj. przedstawienie analizowanych faktów jako funkcji dużej liczby ich parametrów charakteryzujących.