Pobierz informator

(Big) Data Science. Jak przewidzieć przyszłość?

15 lutego 2017

(Big) Data Science. Jak przewidzieć przyszłość?

Data Science, czy sam, niemal mityczny, Data Scientist, są pojęciami bardzo obecne popularnymi lecz nadal mało zdefiniowanymi. Szybkie przeszukiwanie źródeł internetowych pokazjue, że definicja w Wikipedii (https://en.wikipedia.org/wiki/Data_science), czy liczne źródła opisujące temat (http://datascience.nyu.edu/what-is-data-science/, https://datascience.berkeley.edu/about/what-is-data-science/), definiują zakres obowiązków stanowiska dość szeroko. Czy jest to związane z naturalną tendencją Internetu do definiowania świata za pomocą sloganów? Nie do końca. Wynika to z szerokich potrzeb rynku, nie tylko wysokich technologii, bo dane w 2017 roku obecne są wszędzie.

Kim jest (Big) Data Scientist?

Nie ma jasnej, preskryptywnej definicji kim jest Data Scientist; nie ma nawet w języku polskim rozsądnego tłumaczenia tego terminu. Najbliższym tłumaczeniem tej angielskiej nazwy funkcjonującej na rynku nie jest naukowiec, jest to raczej badacz danych. Większość definicji korzysta z diagramu Venna, gdzie Data Scientist znajduje się na przecięciu trzech zbiorów umiejętności: matematyki i statystyki, technologii i programowania oraz szeroko interpretowanego biznesu.

Istotnie, pierwsza umiejętność, czyli znajomość matematyki i statystyki wykraczająca poza standardy nawet dość ściśle wykształconych programistów, wydaje się być wymagana. Trzeba pamiętać jednak, że Data Scientist traktuje te narzędzia pragmatycznie i raczej wykorzystuje je do rozwiązywania problemów, a rzadziej tworzy nowe. Ponadto, poza zimną wiedzą ścisłą, potrzebna jest dociekliwość, chęć do pracy z żywymi danymi i odkrywania ich tajemnic.

Umiejętność programowania i ogólnego zorientowania technicznego w świecie zdominowanym przez dane cyfrowe jest dość istotna. Nie można jednak mylić poziomu wymaganego od Data Scientist z inżynierem oprogramowania, czy danych (Data Engineer); to ci drudzy tworzą systemy produkcyjne od których wymaga się niezawodności i szybkości działania. Data Scientist musi czuć się dobrze programując w celu tworzenia nowych, nie zawsze predefiniowanych rozwiązań i ścieżek w trakcie wyciągania wartości z danych. Niemniej, jest to raczej praca badawcza, która może być potem przekuta w element ciągłego systemu analizy danych. Ponadto, duża ilość danych, znana również jako Big Data, staje się w dzisiejszym czasie faktem a nie nowym zjawiskiem, co stawia przed Data Scientistem dodatowe wymagania techniczne.

Ostatnią cechą, choć jedną z najważniejszych i często nieco zaniedbanych, są umiejętności biznesowe. Ten zbiór można podzielić na dwie podstawowe kategorie: znajomość domeny biznesowej i umiejętności komunikacyjne. Ta pierwsza, czyli znajomość domeny, jest często stawiana na dość wysokim miejscu w wielu dziedzinach. Niemniej, bardzo trudno znaleźć osoby spełniające szerokie wymagania postawione powyżej i dodatkowo znające nasz biznes. Zatem ważne jest, aby Data Scientist chciał się uczyć i pragnął zrozumieć biznes słuchając ludzi w nim już doświadczonych, ale niekoniecznie był ekspertem w danej dziedzinie.

Do tego kluczowa jest też komunikacja. Data Scientist opowiada historię danych, przez co buduje wartość w biznesie. Nie da się tej wartości zbudować tylko poprzez raporty i wizualizację, ale potrzebne jest też odpowiednie komunikowanie wyników badań decydentom. Jest to szalenie ważne, gdyż słaba komunikacja może pogrążyć nawet najlepszy wynik czy model, przez niezrozumienie jego przesłanek i brak wykorzystania w procesie biznesowym.

Czego szuka rynek?

Tak jak definicja, zakres obowiązków Data Scientistów w firmach bywa różny. Trzeba zacząć od tego, że pojęcie jest dość często nadużywane, ze względu na jego chwytliwość. Często pod nazwą Data Scientist kryje się praca statystyka, analityka danych, czy osoby do pracy w środowiskach bazodanowych, związana bardziej z klasycznym raportowaniem i szeroko pojętym Business Intelligence. Oczywiście zadania te są związane z analizą danych, ale brakuje im wolności i eksploracji, które charakterystyczne są dla Data Science. Ponadto, dużo rzadziej w tych przypadkach opowiada się historię danych, a raczej skupia bardziej na suchych metrykach, które są już samodzielnie interpretowane przez biznes.

Wiele ofert pracy pozornie dla Data Scientistów, jest bardziej skierowana do inżynierów danych (Data Engineer). Są to osoby, które najczęściej posiadają większą część cech typowych dla Data Scientista, ale ich praca kładzie większy nacisk na aspekt techniczny. Osoby takie projektują i wdrażają produkcyjne systemy analizy danych, które mają być przede wszystkim stabilne i wiarygodne. Używają oni często narzędzi statystycznych ale raczej w formie metryk i analizy jakości systemy, a nieco mniejszy nacisk kładą na eksplorację danych. Dodatkowo, element wiedzy biznesowej w tym przypadku nie jest taki istotny, gdyż z reguły biznes podczas decyzji o budowie systemu przetwarzania danych, rozumie, przynajmniej częściowo, swoje potrzeby.

Modelowy Data Scientist analizuje dane, tworzy wizualizacje i raporty oraz komunikuje wyniki biznesowi, mając do pomocy zespół stricte techniczny. Niemniej, w wielu firmach potrzebne są osoby o szerokim spektrum umiejętności. Często Data Scientist musi zamieniać się również w inżyniera i uczestniczyć w budowie systemów produkcyjnych, mając do pomocy programistów i administratorów. Dodatkowo, Big Data, które jest od wielu lat zjawiskiem samym w sobie, staje się w dzisiejszych czasach faktem. Wiele firm ma coraz więcej danych, z którymi nie są w stanie poradzić sobie systemy tradycyjne. To właśnie Data Science czyni Big Data wartym inwestycji poprzez wyciądanie z niego wartości (http://www.kdnuggets.com/2017/01/big-data-iot-business-smarter-analytics-data-science.html); bez tego są to tylko drogie systemy do zbierania zróżnicowanych danych. Big Data Scientist musi wówczas często zejść na poziom techniczny analizy danych, co skutkuje na przykład koniecznością korzystania z wielu środowisk przetwarzania danych i języków programowania (koncepcja polyglot programmer). Poza dość standardowymi językami typu R, Python czy SQL, pojawiają się dodatkowe, jak Java i Scala czy dialekty NoSQL.

Potrzeby rynku są szerokie, zatem też szeroki jest wybór dróg jakimi można podążyć w karierze w Data Science. Najważniejsze to dopasowanie swoich umiejętności do stawianych wymagań, ciągła chęć nauki, ale też dobre odnajdywanie się wewnątrz danej firmy. Bo wartość w biznesie tworzy połączenie analizy, technologii i komunikacji; żaden z tych elementów w izolacji nie pozwoli na osiągnięcie sukcesu.

Artykuł stworzony dla MamStartup.pl