Sztuczna inteligencja może pomóc w złagodzeniu niedoboru naukowców budujących modele danych, które wyjaśniają i przewidują pewne wzorce w zalewie danych cyfrowych reprezentujących dzisiejszy świat. Jak się okazało oprogramowanie komputerowe startupu MIT było w stanie zbudować lepsze modele predykcyjne aniżeli większość naukowców, którzy rywalizowali z nim w kilku ostatnich konkursach naukowych opartych o przetwarzanie danych. Do tej pory, dobrze opłacani naukowcy polegali na własnej, ludzkiej intuicji w tworzeniu i testowaniu modeli komputerowych, które mogą wyjaśnić i przewidzieć wzorce danych. Ale oprogramowanie MIT “Data Science Machine” oznacza w pełni zautomatyzowany proces będący w stanie wygenerować predykcyjne modele komputerowe poprzez wytypowanie odpowiednich danych z ich surowego nadmiaru. Narzędzie to może uczynić naukowca zajmującego się takimi danymi jeszcze bardziej skutecznym, pozwalając budować i testować modele predykcyjne w znacznie krótszym czasie. Może to również pomóc osobom i firmom w wykorzystaniu zalewu danych bez pomocy kwalifikowanych ku temu zadaniu naukowców. „Myślę, że największy potencjał tkwi w zwiększeniu puli osób, które tworzą naukę o opracowaniu danych”, stwierdził Max Kanter, naukowiec w MIT Computer Science i AI Lab oraz współtwórca oprogramowania “Data Science Machine”. “Jeśli spojrzeć na wzrost zapotrzebowania na specjalistów z naukowymi umiejętności analizy danych, to przekracza ono znacznie liczbę ludzi, którzy je posiadają”. “Data Science Machine” może automatycznie tworzyć dokładne modele predykcyjne oparte na surowych zbiorach danych w ciągu dwóch do 12 godzin, podczas gdy nawet dla zespołu naukowców może to wymagać miesięcy. Dobrze wyszkoleni naukowcy, specjaliści analizy danych, którzy zazwyczaj opłacani są średnio powyżej 100,000USD, nadal są pożądanym i cennym zasobem dla firm, tak różnych, jak Facebook czy Walmart. W 2011 roku McKinsey Global Institute szacował, że same Stany Zjednoczone mogą stanąć w obliczu braku 140.000 do 190.000 pracowników z umiejętnościami analitycznymi niezbędnych do analizy danych naukowych. Przyczyna tak wysokiego popytu na ten rodzaj naukowców pochodzi z „Big Data”, rewolucyjnej obietnicy sięgania do ogromnych zbiorów danych – zbiorów zachowania użytkowników mediów społecznych, ruchów rynków finansowych wartych biliony dolarów, czy miliardów obiektów niebieskich zauważonych przez teleskopy, które należy wyjaśnić i przewidzieć w oparciu o wzorce wynikające z ich analizy. Takie modele mogą pomóc firmom przewidzieć przyszłe zachowania klientów indywidualnych lub pomóc astronomom w automatycznej identyfikacji obiektów na rozgwieżdżonym nocnym niebie. Ale w jaki sposób przekształcić morze surowych danych w informacje, które mogą pomóc przedsiębiorstwom i naukowcom w identyfikacji i przewidywaniu trendów? Analitycy danych zwykle spędzają kilka tygodni lub miesięcy pracy nad predykcyjnymi algorytmami komputerowymi. Po pierwsze, identyfikują z surowych danych kluczowe zmienne, które mogą pomóc w przewidywaniu zachowania powiązanych w czasie obserwacji. Następnie muszą stale testować i udoskonalać te zmienne w serii modeli komputerowych, często korzystając z technik uczenia maszynowego. Taka czasochłonna część opisu stanowiska analityków danych naukowych, inspirowała Kanter’a, absolwenta MIT i w tym samym czasie Kalyan’a Veeramachaneni, naukowca informatyki na MIT Computer Science i AI Lab, który był również doradcą pracy magisterskiej Kanter’a, by spróbować napisać program komputerowy, który zautomatyzuje najistotniejsze wąskie gardło w analizie danych naukowych. Poprzednie programy komputerowe mające na celu rozwiązywanie takich problemów mają tendencję do jednowymiarowości , koncentrując się na problemach poszczególnych dziedzin czy branż. Ale Kanter i Veeramachaneni chcieli, by ich oprogramowanie urządzenia “Data Science Machine” było zdolne do rozwiązywania każdego interdyscyplinarnego problemu analizy danych naukowych. Doświadczenie z dotychczasowej pracy inspirowały pierwszą i największą część triumfu “Data Science Machine”; automatyzacja “inżynierii cech” procesu identyfikacji istotnych zmiennych z zalewu surowych danych. Druga część nowego oprogramowania MIT skupia się na auto-tuningu: identyfikacji zestawu najlepszych parametrów do generowania trafnych prognoz z napływających danych. W takim przypadku, program wybiera zarówno podzbiór najbardziej istotnych zmiennych jak i optymalną metodę uczenia się urządzenia poprzez określanie zależności między zmiennymi, a modelem. Gdy urządzenie było gotowe, Kanter i Veeramachaneni przetestowali oprogramowanie na zbiorach danych z trzech oddzielnych konkursów naukowych. Wyniki analizy maszynowej były lepsze w 615 z 906 przypadków od ludzkich zespołów analitycznych konkurujących w tym teście. Osiągnięto również prognozy, które były w 94, 96 i 87 procentach tak dokładne jak zwycięskie modele złożone w każdej z 3 konkurencji. Oznacza to, że sztuczna inteligencja maszyny jeszcze nie pokonała górnej kondygnacji zdolności ludzkich, ale stosunkowo łatwo dorównała poziomowi większości wysiłków wielu naukowców. Generalnie wyniki “Data Science Machine” przewyższają trafnością rezultaty bardzo wielu naukowców, ale niektórzy z nich są znacznie lepsi od maszyny – wyjaśnił Kanter. Naiwnością byłoby więc stwierdzenie, że naukowcy z tej dziedziny powoli odchodzą do lamusa. Kanter i Veeramachaneni postrzegają “Data Science Machine” jako zautomatyzowane narzędzie, które może uczynić naukowców bardziej wydajnymi i rozpoczęli już poprawianie oprogramowania w kierunku większej kontroli człowieka aniżeli zwiększenia automatyzacji całego procesu predykcji. Na przykład, naukowiec może uruchomić “Data Science Machine” i wykorzystać wyniki jako podstawę do budowania lepszego modelu predykcyjnego, lub skupić się bardziej na funkcji inżynierii cech pozostawiając optymalizację uczenia maszynowego oprogramowaniu. Potencjalnie jednak korzystniejszym aspektem Data Science Machine może być oddanie tego narzędzia różnorodnym firmom i instytucjom, które nie posiadają wyszkolonych analityków na liście płac. Wiele firm, zarówno dużych jak i małych, wprawdzie ma dostęp do dużej ilości danych, ale nie posiada wyszkolonych zespołów naukowców takich jak w znanych firmach technologicznych typu Google czy Amazon. Wyniki danych naukowych maszyn mogą być wystarczająco dobre dla astronomów pracujących w laboratorium uniwersyteckim lub gałęzi marketingu tradycyjnego handlu, które nie posiadają zespołów naukowej analizy danych. Zmierzamy w kierunku świata , gdzie firmy podejmować będą decyzje oparte na analizie olbrzymiej ilości danych. Jednak nie można po prostu uczynić naukowców czy analityków bardziej wydajnymi – trzeba także zwiększyć pulę osób które posiadają predyspozycje do tej pracy oraz zbudować nowe narzędzia, które umożliwią automatyczne zrobienie podstawy badania – tego co maszyny robią najlepiej, pozwalając ludziom robić to, co również robią najlepiej – twórczą pracę. W pewnym sensie, “Data Science Machine” może przekształcić prawie każdą firmę w “technologiczną” przez umożliwienie podejmowania kluczowych decyzji biznesowych i budowania nowych produktów w oparciu o analizę przy pomocy “Data Science Machine” olbrzymiej ilości danych. Oprogramowanie może rozprzestrzenić wpływ tego rodzaju usług w sektorach tak różnych, jak e-commerce, crowdfunding, handel, edukacja, usługi finansowe czy kierowanie państwem. W tym celu, Kanter i Veeramachaneni już zaczęli zabiegać o klientów poprzez startup o nazwie „FeatureLab”, a strona firmy wita gości komunikatem: “Do more with your data, without more data scientists.”
Źródło: MIT