Trendy w analizie danych

Tworząc podwaliny analizy danych i koncepcji Business Intelligence zaczynaliśmy od pojedynczych źródeł danych. Początkowo mieliśmy do czynienia ze small data, czyli niewielkimi ilościami informacji podlegającymi przetworzeniu i badaniom. Tego rodzaju analizy często tworzone były w oparciu o dane historyczne: z wczoraj, sprzed tygodnia, czy sprzed miesiąca. Od tego czasu przeszliśmy jednak długą drogę. Analizy dostępne są obecnie w każdym momencie i z każdego urządzenia, a dane i raporty przechowywane są w bezpieczny sposób w chmurze.

We współczesnym świecie biznesu wciąż jeszcze popularne jest raportowanie offline, w którym wydruki raportów  przekazywane są za pośrednictwem e-mail. W rozwiązaniach tych infrastruktura lokalna, czyli sprzęt  przechowywane są w obrębie danej firmy.

Ewolucja potrzeb użytkowników

To tradycyjne podejście jednak w większości przedsiębiorstw uległo zmianie. Obecnie, analitycy mają dostęp do wielu źródeł danych. Są to dane z wewnątrz firmy, ale są to także źródła zewnętrzne np. pochodzące z portali społecznościowych. Dzięki tak dużej ilości informacji, czyli Big Data, możemy analizować znacznie więcej i formułować bardziej złożone tezy na podstawie tych danych. Wchodzimy w szczegóły lub badamy dane pochodzące np. z dużej liczby czujników, sterowników maszyn, jak ma to miejsce w przemyśle wytwórczym.

Współcześnie, danych produkuje się dużo, dużo więcej niż jeszcze dekadę temu. Pojawiają się też inne potrzeby. Dążymy do tego, by jak najszybciej od momentu wytworzenia danych uzyskać rezultaty analiz, chcemy mieć też do nich dostęp w dowolnej chwili. Coraz częściej stosowane są rozwiązania czasu rzeczywistego, realizujące wszystkie procesy: od pozyskania do analizy danych.

Jeżeli raportowanie i analizy wykonywane są w trybie on-line to zazwyczaj zyskujemy dostęp do nich także poprzez urządzenia mobilne. Jednocześnie, pojawiają się narzędzia, dzięki którym użytkownicy mają możliwość budowania własnych raportów i przechowywania analiz w infrastrukturze chmurowej.

W efekcie opisanych procesów, obserwowanych na rynku BI, bardziej uniwersalna i funkcjonalna infrastruktura chmurowa coraz częściej wypiera lokalną.

EWOLUCJA BUSINESS INTELIGENCE >>>
Pojedyncze źródła danychWiele źródeł danych (wewnętrzne i zewnętrzne)
Small dataBig data
Analiza danych historycznychAnaliza danych near real-time
Raportowanie onlineRaportowanie online (także urządzenia mobilne)
Infrastruktura lokalnaInfrastruktura chmurowa

Zalety i wady zastosowania chmury w rozwiązaniach BI w porównaniu do infrastruktury lokalnej

1. Przetwarzanie danych

W lokalnej infrastrukturze przetwarzanie danych odbywa się najczęściej  sekwencyjnie.  Oznacza to, że jeżeli mamy np. duży plik z danymi i chcemy go wczytać do naszego systemu, to robimy to „kawałek po kawałku”, tak długo aż go wczytamy.

W chmurze proces ten opiera się głównie na dystrybucji. Plik z danymi możemy podzielić na mniejsze fragmenty i przetwarzać te dane równolegle, dzięki czemu przyspieszamy ten proces.

2. Skalowalność

W infrastrukturze lokalnej rozwiązania są mniej skalowane i wymagają dodatkowych nakładów na sprzęt. Podejście to wymaga stałego zaangażowania ze strony IT, co sprawia, że procesy wydłużają się w czasie i trudniej jest osiągnąć wysoką wydajność.

W chmurze skalowanie zrealizowane jest efektywniej, dzięki czemu możliwa jest wydajniejsza obsługa skoków zapotrzebowania na zasoby wymagane do analiz BI.  Cechą rozwiązań cloud jest możliwość skalowania zasobów zarówno w górę, jak i w dół, w zależności od chwilowego zapotrzebowania. Oznacza to, że w momencie zaistnienia potrzeby zwiększamy zasoby, z których możemy korzystać, a następnie „oddajemy je”, kiedy nie są już potrzebne (skalujemy w dół). Zmniejszamy w ten sposób koszty utrzymania systemu. Zamiast ponosić stałe wydatki, płacimy jedynie za dodatkowo użyte zasoby, wyłącznie w okresie zapotrzebowania na nie.

3. Koszty zamiast inwestycji, implikacje dla Proof of Concept systemu BI

W infrastrukturze lokalnej za wszystko najczęściej płacimy z góry. Musimy dokonać inwestycji w postaci zakupu sprzętu oraz licencji i dopiero wtedy zacząć implementować nasze rozwiązanie.

W infrastrukturze chmurowej nie mamy tej bariery wejścia, bo płacimy wyłącznie za zużycie, czyli za to, z czego korzystamy. Dotyczy to m.in. kosztów licencji za oprogramowanie, które ponosimy tylko w trakcie korzystania z wybranego rozwiązania.

Często w infrastrukturze lokalnej wyzwaniem jest stworzenie środowiska koniecznego do wykonania prac koncepcyjnych. Żeby w ogóle zacząć tworzyć proof of concept (PoC) konieczne jest posiadanie całej infrastruktury.

Z kolej w chmurze, zbudowanie środowiska potrzebnego do prowadzenia prac koncepcyjnych kosztuje nas wyłącznie tyle, ile zapłacimy za zużywane zasoby podczas trwania fazy PoC. Dlatego korzystając z chmury łatwiej jest zrealizować PoC i podjąć na koniec decyzję o dalszym losie projektu. Jeżeli stworzone rozwiązanie spełnia wymogi biznesowe może nastąpić jego kontynuacja. W przeciwnym wypadku zamykamy projekt nie generując niepotrzebnych kosztów. Dzięki takiemu podejściu firma unika pułapki stania się „zakładnikami” inwestycji, ale także łatwiej jest jej podjąć ryzyko rozpoczęcia takiego projektu, bowiem nie wiąże się on ze znaczącymi kosztami.

4. Przewidywalność kosztów

Zaletą posiadania infrastruktury lokalnej jest łatwość przewidywania kosztów, które są w tym przypadku stałe. Dzięki temu łatwiej jest zaplanować budżet.

W chmurze mamy do czynienia z wieloma czynnikami, które wpływają na koszty, często są one trudne do określenia i łatwo może dojść do niedoszacowania. Budowanie infrastruktury chmurowej wymaga posiadania specjalistycznej wiedzy. Dotyczy ona między innymi znajomości sposobu powstawania kosztów. Brak tej wiedzy może nieświadomie doprowadzić do wygenerowania niepotrzebnych kosztów, np. poprzez utrzymywanie wysoko wyskalowanych serwisów bez realnej potrzeby biznesowej. Serwisy te pochłaniają zasoby w chmurze, za które płaci przedsiębiorstwo, podczas gdy użytkownicy albo z nich nie korzystają, albo korzyści z ich działania nie są w stanie zrekompensować ponoszonych kosztów.

INFRASTRUKTURA LOKALNA

  • Procesowanie sekwencyjne (single node)
  • Rozwiązania mało skalowalne
  • Wszystko płatne z góry (sprzęt, licencje)
  • Budowa środowiska na potrzeby prac koncepcyjnych (PoC) jest wyzwaniem
  • Stałe, dobrze przewidywalne koszty
INFRASTRUKTURA CHMUROWA

  • Procesowanie równoległe (distributed nodes)
  • Rozwiązania dobrze skalowalne
  • Opłaty wg użycia (w tym sprzęt, licencje)
  • Łatwo zbudować środowisko do prac koncepcyjnych (PoC)
  • Koszty zmienne, trudne do oszacowania

Podsumowując wszystkie zalety i wady podejścia opartego na technologiach cloud oraz infrastrukturze lokalnej nie trudno dostrzec, że więcej korzyści uzyskujemy stosując podejście chmurowe. Z tego też powodu rozwiązania BI  w chmurze stają się coraz popularniejsze.

Marek Czachorowski

Szef działu Business Intelligence Practice w Inetum Polska. Od 10 lat zajmuje się obszarem BI oraz szeroko pojętą analizą danych i sposobami ich przetwarzania. Od początku związany głównie z rozwiązaniami i narzędziami firmy Microsoft. Od 2017 roku certyfikowany specjalista w obszarze projektowania hurtowni danych oraz zarządzania platformą SQL Server. Obecnie rozwija się przede wszystkim w obszarze analityki w chmurze. Jako konsultant pomaga klientom definiować procesy w firmie, ustalać zasady przetwarzania oraz dostępu do danych.