Zachowanie najwyższej jakości danych to warunek konieczny wzrostu każdej organizacji. Nie bez powodu coraz większą popularność zdobywa pojęcie firmy opartej na danych – Data Driven Company. Bez pewnych informacji i dobrej jakości danych trudno oczekiwać od menedżerów i analityków, by wyciągali poprawne logicznie wnioski, pozwalające im na rozwijanie firmy i usprawnianie codziennej pracy.
W ramach naszych wcześniejszych publikacji mogliście już poznać zasady, które kształtują firmy oparte na danych. Dbałość o właściwą jakość danych zdecydowanie się do nich zalicza. Warto zatem znać odpowiedź na pytanie: jak uzyskać wysoką jakość danych? Sposobów jest naprawdę wiele i w tym materiale przedstawiamy najważniejsze oraz najciekawsze metody walki z niedostateczną jakością danych. Podstawowym narzędziem, przydatnym w tym obszarze, są metryki danych pozwalające śledzić na bieżąco stan, z jakim mamy do czynienia. W zależności od wyników możemy ukierunkować dalsze działania na szybką naprawę, akceptację obecnego stanu lub wzbogacenie.
1. Na dobry początek: klasyczne metryki jakości danych
Na wstępie zweryfikujmy jakość danych, z którymi przychodzi nam pracować. Odpowiedzmy najpierw na pytanie: kiedy tak właściwie wiemy, że mamy do czynienia z danymi dobrej jakości? Mamy tę pewność, tylko wówczas, kiedy są one aktualne, kompletne oraz gdy właściwie odzwierciedlają stan faktyczny. Dodatkowo, jeżeli pochodzą one z wielu źródeł, powinny być wzajemnie spójne. Równolegle należy rozpatrywać indywidualne przypadki, które cechują konkretny zbiór danych.
Posiadając wymienione informacje, jesteśmy o krok od dokonania oceny jakości danych. Teraz wystarczy regularnie weryfikować wcześniej ustalone atrybuty, aby mieć pewność, że wszelkie analizy, u samego źródła, bazują na właściwych i pewnych informacjach.
2. Automatyzacja metryk – wyciągnij przed nawias powtarzalne problemy
Naturalnie, tworzenie metryk to proces mozolny i czasochłonny, który wymaga dodatkowego nakładu pracy. Jednak nic nie stoi na przeszkodzie, aby ułatwić go sobie i wspomóc ogólnymi regułami. Analiza wymienionych wcześniej atrybutów jakości danych sprowadza się dla większości zbiorów do podobnych czynności, umożliwiających badanie jakości „u podstaw”. W takim razie, dlaczego nie stworzyć mechanizmu, który uprości rejestrację metryk do minimum? Po jego opracowaniu, docelowe rozwiązania mogą wymagać podania wyłącznie podstawowych informacji, pozwalających szybko stworzyć kompletny proces weryfikacji jakości danych. Dzięki takiemu podejściu, proces weryfikacji jakości danych nie wymaga dodatkowego przetwarzania.
Mimo wszystko, każda organizacja rządzi się swoimi prawami, dlatego warto dokładnie analizować, z jakimi przypadkami najczęściej się spotykamy. To wszystko sprawi, że automatyzacja przyjdzie naturalnie i sam proces badania jakości danych znacząco przyspieszy.
3. Sztuczna inteligencja – każde odchylenie od normy powinno zostać uwzględnione
Wcześniej omawiane przypadki mierzenia jakości danych odnoszą się do ewidentnych błędów lub braków w danych, których zasadność nie może być podważana. Wystarczy zatem poprawić lub uzupełnić dane. Są to elementarne problemy, których występowanie trzeba ograniczać. Dodatkowo, warto badać trendy i na ich podstawie zidentyfikować anomalie. W tym wypadku bardzo użyteczna okazuje się sztuczna inteligencja i algorytmy służące do wykrywania odchyleń. Wartości „odstające od normy” bardzo często mogą zwiastować problemy, ale wcale nie muszą. Równie dobrze mogą okazać się interesującym punktem wyjścia do dalszych analiz.
Zastosowanie sztucznej inteligencji wymaga uwzględnienia kilku istotnych czynników, takich jak: dobór odpowiedniego algorytmu, właściwe nauczenie modelu, wzięcie pod uwagę specyfiki danych oraz zaangażowanie właściwych osób do ostatecznej oceny anomalii i dalszego strojenia modelu. Niemniej jednak, efekty często mogą być więcej niż zaskakujące i zadowalające.
4. Profilowanie danych – wiedza o danych to kluczowy czynnik
Skupmy się jeszcze na upraszczaniu samego procesu mierzenia jakości danych. Wcześniejsze punkty w dużej mierze bazowały na wiedzy interesariuszy. Jeżeli pominiemy ich zaangażowanie w proces, możemy spodziewać się gorszego zaopiekowania się danym obszarem, ale w zamian, w znaczącym stopniu zyskujemy na automatyzacji. Wystarczy, że uwzględnimy profilowanie danych. W dużym uproszczeniu, pozwoli nam to automatycznie aplikować ustalone wcześniej reguły. Przykładowo, dzięki takiemu podejściu, jesteśmy w stanie zaprząc algorytmy do wykrywania, czy mamy do czynienia z imionami i nazwiskami, a zatem ich weryfikacja może odbywać się samoczynnie.
Zastosowań profilowania danych jest znacznie więcej, ale niewątpliwie głównym czynnikiem, który zachęca do korzystania z tego typu rozwiązań jest wspomniane upraszczanie i wspomaganie automatyzacji.
5. Wzbogacanie i czyszczenie danych – czemu nie wspomóc się różnymi źródłami?
Ostatni punkt sprowadza się tak naprawdę do sytuacji, gdy nie możemy uzupełnić lub poprawić danych, z których przyszło nam korzystać. Czy w takim wypadku zbiór i powiązane obiekty powinny być ignorowane? Zdecydowanie nie – w żadnym aspekcie nie ma to sensu. Dlatego w tym miejscu do gry wkracza pojęcie Data Cleansing, czyli proces oczyszczania danych, który polega na wykrywaniu i usuwaniu lub poprawianiu błędnych informacji. Często zdarza się, że konkretne dane powiązane z innymi danymi, pochodzącymi z innego źródła, nabierają więcej sensu i stają się odpowiednio dobrej jakości. Dzięki takiemu połączeniu będziemy w stanie przygotowywać odpowiednie analizy.
Na koniec warto pamiętać, że raz zainwestowany czas i fundusze w rozwój i badania nad jakością danych, może zwrócić się już w momencie wykrycia pierwszych problemów z nimi. Korzyści są jednak przeogromne. Dzięki takiemu podejściu, o niedostępności lub braku kompletności danych dowiemy się na samym początku, po zauważeniu błędów, czyli tuż po ich załadowaniu, zamiast w końcowych raportach, gdzie mogą nawet przejść niezauważone i powodować wyciągnięcie błędnych wniosków.
Łukasz Pająk, Senior Programmer / Designer
Od początku swojej kariery zawodowej bezpośrednio pracuje z danymi. Ściśle związany z branżą telekomunikacyjną, gdzie dba o Data Quality & Data Governance, a przy okazji o dobrą atmosferę pracy. Prywatnie przede wszystkim ogromny fan nowych technologii, motoryzacji i nieszablonowych rozwiązań.