· stepien · 8 min
Data Scientist od kuchni [wywiad]
Z roku na rok rośnie zapotrzebowanie na przetwarzanie i analizę danych, a co za tym idzie – na profesjonalistów, którzy potrafią te dane zrozumieć i wykorzystać w projektowaniu nowoczesnych rozwiązań biznesowych. Jak to wygląda w praktyce? – na to i inne pytania odpowiada Michał Mikołajewicz, Data Scientist w Integration Alpha.
Jak wcześnie zacząłeś się interesować tematyką Data Science?
Temat poznałem dopiero na Uniwersytecie Ekonomicznym w Poznaniu. Studiowałem tam Inżynierię finansową, a jedną ze specjalizacji tego kierunku była analityka i przetwarzanie danych. Jej wykładowcy podkreślali, że analitycy będą w przyszłości bardzo przydatni, ponieważ statystyka i umiejętność odpowiedniej analizy wniosków z badanych danych będą ogromnie użyteczne. Wtedy podchodziłem do tego nieco sceptycznie i byłem jednak bardziej ukierunkowany na finanse, aczkolwiek już wtedy zdawałem sobie sprawę, że jedno z drugim niejako się łączy, ponieważ i tu i tu analizuje się pewne trendy oraz wzorce w danych i na ich podstawie wyciąga wnioski. Po jakimś czasie natrafiłem na kilka artykułów na temat data science i powoli zacząłem się tym interesować. Z czystej ciekawości skończyłem kilka kursów z tym związanych, spodobało mi się to i postanowiłem kontynuować.
Wróćmy na chwilę do początku Twoich studiów. Skąd pomysł na Inżynierię Finansową?
Właściwie od zawsze interesowałem się oszczędzaniem pieniędzy oraz ich inwestowaniem. Ciekawiło mnie londyńskie City, kusiła wizja szklanych biurowców i ogromnych jak na polskie realia zarobków. Chciałem wiedzieć, jak wygląda praca na giełdzie i jak tworzyć algorytmy, które mogłyby same inwestować. W pewnym momencie postanowiłem związać swoją przyszłość właśnie z tym tematem, więc inżynieria finansowa to był niejako oczywisty wybór.
Z perspektywy czasu – wolałbyś zostać w tamtym sektorze, czy jednak to, co robisz teraz jest ciekawsze?
W zasadzie trudno mi jednoznacznie odpowiedzieć na to pytanie, ponieważ obie dziedziny mocno się przenikają. W obu z nich wykorzystuje się dane do sporządzania pewnego rodzaju analiz, z tym, że inny jest ich cel. W inżynierii finansowej przykładowym zadaniem może być zbudowanie modelu zarządzania ryzykiem finansowym, który można wykorzystać do inwestowania. Data science to z kolei problemy bardziej biznesowe, które w mniejszym bądź większym stopniu, ale jednak odbiegają od finansów. Dodatkowo branża finansowa jest często uregulowana rozmaitymi umowami, jak na przykład bazylejska, które w pewnym stopniu wymuszają zastosowania pewnych rozwiązań. Rozwiązując problem biznesowy w większości przypadków takich wielkich ograniczeń nie ma.
Wróćmy zatem do Data Science. Co się działo po ukończeniu kursów?
Gdy wchodziłem na rynek pracy te 5-6 lat temu, to temat Data Science w Polsce był mało znany. Jedni w ogóle o tym nie słyszeli, inni się nie interesowali. Ofert pracy było bardzo mało i trudno było gdziekolwiek się dostać. Pojedyncze, ciekawsze oferty trafiały się tylko w większych firmach, takich jak na przykład Allegro. Jednak po pewnym czasie trend się odwrócił i od tamtej pory mamy prawdziwy boom na Data Scientistów na całym świecie.
Data Science jest dość szerokim pojęciem. Jaka jest Twoja specjalizacja?
Specjalizuję się w uczeniu maszynowym (Machine Learning) i sztucznej inteligencji (Artificial Intelligence/ Deep Learning). Na co dzień używam głównie języków R czy Python i oraz Scala.
Na jakim stanowisku pracujesz?
Na co dzień pracuję w szwajcarskim startupie jako oczywiście Data Scientist, ale w wolnym czasie staram tworzyć swój produkt oraz prowadzę szkolenia w tym zakresie [Data Science – przyp.].
Czym się konkretnie zajmujesz w codziennej pracy?
Po przyjściu do pracy, jak wszyscy, piję kawę i sprawdzam maile (śmiech). Potem oczywiście zabieram się za właściwą pracę. Zwykle dzielimy się obowiązkami z resztą zespołu, jednak to mi zazwyczaj przypadają zadania znalezienia odpowiedniego podejścia do różnych problemów, jakie natrafiamy tworząc swój produkt. Często wiąże się to z mnóstwem główkowania, jak podejść do problemu, aby jego rozwiązanie ucieszyło Klienta. Zdarza się, że więcej jest pracy „operacyjnej”, gdzie trzeba odpowiednio zastanowić się i zaprojektować rozwiązanie od jego samej implementacji. Gdy już jednak uda nam się to zrobić i jesteśmy zadowoleni z rezultatów, czeka nas kolejny etap, czyli przeniesienie naszego rozwiązania na poziom biznesowy, czyli opakowanie tego w odpowiednią wizualizację, czym też się zajmuję. Na końcu oczywiście trzeba też opowiedzieć o swoich wynikach.
Jednym słowem – Data Scientist nigdy się nie nudzi?
Dokładnie. Moja praca jest bardzo urozmaicona. Raz muszę usunąć zduplikowane wartości z bazy danych, innym razem na podstawie danych historycznych robię predykcję szeregów czasowych na przyszłość, kiedy indziej pracuję nad stworzeniem silnika rekomendacyjnego dla klientów naszej firmy. Cały czas dzieje się coś innego.
Jakie kompetencje powinny cechować kandydata na Data Scientist?
Szczerze mówiąc dobrze byłoby mieć wiedzę z wielu obszarów. Ktoś kiedy nawet powiedział, że Data Scientist jest kimś, kto ma większą wiedzę ze statystyki niż programista i lepiej programuje od matematyka. Do tego dołożyłbym jeszcze umiejętności z ogólnej obsługi komputera czy wiedzę biznesową.
W praktyce wygląda to tak, że Data Scientist powinien znać jakieś 2-3 języki programowania, umieć poruszać się w konsoli linuxowej i dobrze znać bazy danych oraz orientować się w technologiach Big Data.
Czy jest coś jeszcze, co mógłbyś polecić kandydatom na Data Scientsta?
Myślę, że poza tym, co wymieniłem, ważne są również umiejętności miękkie, takie jak: komunikatywność, storytelling czy umiejętność przekonania członków zespołu do swojego rozwiązania.
Wbrew pozorom to również ważne umiejętności. Wiadomo, tona handlu jest lżejsza od kilograma pracy [śmiech]. Jednak tutaj chodzi o coś zupełnie innego. W przypadku, gdy stworzysz model, który nawet będzie w 100% skuteczny, ale nie będziesz potrafił tego przenieść na realia biznesowe, bo nikt nie będzie widział w tym sensu, to musisz liczyć się z tym, że Twoje rozwiązanie nigdy nie będzie zaimplementowane i w rezultacie wyląduje w koszu. Tym właśnie jest tzw. storytelling, czyli umiejętność opowiadania o swoim rozwiązaniu innym. O dobrej znajomości angielskiego chyba nie muszę wspominać [uśmiech]?
Jak wygląda praca w zespole Data Scientist?
Tak jak już wspominałem wcześniej, na początku zwykle identyfikujemy problem, o ile sam się nie rozwiązał [śmiech]. Tak naprawdę zawsze jest coś do zrobienia, bo ciągle można ulepszać dane rozwiązanie. Następnie robimy burzę mózgów, każdy zastanawia się nad tym, jak można do tego podejść i na końcu, gdy wszystko jest jasne, rozdzielamy zadania i każdy siada do swojej części. Tak to działa w start upach. W korporacjach zwykle zadania przydziela ktoś na stanowisku seniora.
Czy ktoś, kto nigdy wcześniej nie miał styczności z tą dziedziną, ma szansę na to, by się przekwalifikować? I w jakim czasie?
Według mnie na pewno nie trzeba kończyć studiów, by móc zostać Data Scientist. Dużo ważniejsza jest praca własna i samozaparcie. Dzisiaj istnieje również wiele firm i instytucji, które prowadzą szkolenia w tym zakresie. Na pewno jest łatwiej wejść do branży niż jeszcze kilka lat temu. W swojej pracy nie wykorzystuję większości wiedzy której nabyłem na studiach, chociaż zdecydowanie się to przydaje. Często mam inną wizję rozwiązania, niż ktoś np. po mechanice. Wbrew pozorom znam przypadki, gdzie na podobnych stanowiskach pracowali ludzie po filozofii i innych „egzotycznych” kierunkach i wcale nie byli gorsi od tak zwanych umysłów ścisłych.
Ja osobiście w większości bazuję na wiedzy, którą zdobyłem na kursach. Trzeba pamiętać, że Data Science to dziedzina, która cały czas się rozwija, dlatego trzeba ciągle starać się poszerzać nabytą wiedzę. Według mnie już po kilku miesiącach wytężonej pracy można spróbować szukać stażu. Wręcz powinno się to zrobić, ponieważ zdobywanie wiedzy czysto teoretycznej jest niewspółmierne do praktyki, a przy dzisiejszym stanie rynku pracy jest duża szansa, że uda się gdzieś załapać.
Kilka miesięcy to znaczy ile?
Jeśli ja zaczynałbym teraz od zera, to myślę, że spokojnie mógłbym wejść do branży po 3-4 miesiącach. Cała idea Data Science opiera się na samodzielnej nauce. Dlatego podkreślam, jak ważna jest praktyka. W tej branży nikt nikogo nie prowadzi za rączkę. Oczywiście, nikt nie oczekuje od stażysty wiedzy na poziomie doświadczonego specjalisty z 10-letnim stażem, ale z drugiej strony nie w tym rzecz, żeby zatrudnić kogoś i uczyć go wszystkiego od podstaw. Zawsze, gdy ktoś nowy przychodzi do zespołu, to oczekuje się od niego, żeby wniósł pewną energię, zapał i rozruszał pozostałych [śmiech].
Jak w takim razie przekuć teorię na praktykę, jeśli nikt nam nie powie konkretnie, jak coś zrobić?
Wiele rzeczy można znaleźć w sieci. Jest naprawdę dużo materiałów na ten temat. Dodatkowo jest też wiele konkursów Data Science, do których każdy może przystąpić. Różne firmy organizują kursy i bootcampy, istnieją fora tematyczne, na przykład Stackoverflow, gdzie ludzie dzielą się problemami na jakie napotykają podczas pracy i tym, jak je rozwiązać. Można tak wymieniać w nieskończoność.
Implementacja gotowych rozwiązań jest w porządku?
Nie do końca o to mi chodziło. Mój profesor na studiach mawiał: „nie próbujcie wynaleźć koła na nowo, tylko poszukajcie rozwiązania”. Chodzi o to, że pewne problemy są już dawno rozwiązane i nie ma potrzeby dochodzić do tych samych wniosków od nowa. Przykładowo, możemy poświęcić kilka dni na to, żeby dojść do pewnego rozwiązania, które ktoś już kiedyś przerobił i nie sprawdziło się w praktyce. W rezultacie stracimy tylko czas, a praca nadal nie będzie wykonana. Czyli nie chodzi o to żeby, nie siedzieć godzinami nad czymś, co nie działa, tylko spróbować poszukać pomocy. Data Science to bardzo duża społeczność.
Gdzie Twoim zdaniem Data Scientists mogą szukać pracy?
Wszędzie tam, gdzie zachodzi potrzeba analizowania danych. Osobiście nie znam branży, w której się tego nie robi. Może poza małymi manufakturami. Jednak wszędzie tam, gdzie występuje potrzeba automatyzacji pewnych procesów, czy ich optymalizacji zachodzi również potrzeba zatrudnienia Data Scientista. Przykładowo w wspomnianej przeze mnie branży finansowej, banki bardzo często zmagają się z problemem kradzieży kart kredytowych.
W branży motoryzacyjnej, Audi, Volkswagen czy BMW pracują nad autonomicznymi pojazdami. Netflix, Amazon czy Allegro rekomendują swoje produkty na podstawie naszych preferencji.
Coraz częściej giganci z tej branży otwierają swoje oddziały w Polsce. Warto też dodać, że obecnie powstaje bardzo dużo innowacyjnych start-upów, w których ludzie z takim profilem bardzo dobrze się sprawdzają.