Menu Close

Sztuczna inteligencja – “Data Science Machine”

Sztuczna inteligencja może pomóc w złagodzeniu niedoboru naukowców budujących modele danych, które wyjaśniają i przewidują pewne wzorce w zalewie danych cyfrowych reprezentujących dzisiejszy świat. Jak się okazało oprogramowanie komputerowe startupu MIT było w stanie zbudować lepsze modele predykcyjne aniżeli większość naukowców, którzy rywalizowali z nim w kilku ostatnich konkursach naukowych opartych o przetwarzanie danych. Do tej pory, dobrze opłacani naukowcy polegali na własnej, ludzkiej intuicji w tworzeniu i testowaniu modeli komputerowych, które mogą wyjaśnić i przewidzieć wzorce danych. Ale oprogramowanie MIT “Data Science Machine” oznacza w pełni zautomatyzowany proces będący w stanie wygenerować  predykcyjne modele komputerowe poprzez wytypowanie odpowiednich danych z ich surowego nadmiaru. Narzędzie to może uczynić naukowca zajmującego się takimi  danymi jeszcze bardziej skutecznym, pozwalając budować i testować modele predykcyjne w znacznie krótszym czasie. Może to również pomóc osobom i firmom w  wykorzystaniu  zalewu danych bez pomocy kwalifikowanych ku temu zadaniu naukowców. „Myślę, że największy potencjał tkwi w zwiększeniu puli osób, które tworzą naukę o opracowaniu danych”, stwierdził Max Kanter, naukowiec w MIT Computer Science i AI Lab oraz współtwórca oprogramowania “Data Science Machine”. “Jeśli spojrzeć na wzrost zapotrzebowania na specjalistów z BrainChip650-TOPnaukowymi umiejętności analizy danych, to przekracza ono znacznie liczbę ludzi, którzy je posiadają”. “Data Science Machine” może automatycznie tworzyć dokładne modele predykcyjne oparte na surowych zbiorach danych w ciągu dwóch do 12 godzin, podczas gdy nawet dla zespołu naukowców może to wymagać miesięcy. Dobrze wyszkoleni naukowcy, specjaliści analizy danych, którzy zazwyczaj opłacani są średnio  powyżej 100,000USD, nadal są pożądanym i cennym zasobem dla firm, tak różnych, jak Facebook czy Walmart. W 2011 roku McKinsey Global Institute szacował, że same Stany Zjednoczone mogą  stanąć w obliczu braku 140.000 do 190.000 pracowników z umiejętnościami  analitycznymi  niezbędnych do analizy danych naukowych. Przyczyna tak wysokiego popytu na ten rodzaj naukowców pochodzi z „Big Data”, rewolucyjnej obietnicy sięgania do ogromnych zbiorów danych – zbiorów zachowania użytkowników mediów społecznych, ruchów rynków finansowych wartych biliony dolarów, czy miliardów obiektów niebieskich zauważonych  przez teleskopy, które należy wyjaśnić i przewidzieć w oparciu o wzorce wynikające z ich analizy. Takie modele mogą pomóc firmom przewidzieć przyszłe zachowania klientów indywidualnych lub pomóc astronomom w automatycznej identyfikacji obiektów na rozgwieżdżonym  nocnym niebie. Ale w jaki sposób przekształcić morze surowych danych w informacje, które mogą pomóc przedsiębiorstwom i naukowcom w identyfikacji  i przewidywaniu trendów? Analitycy danych zwykle spędzają kilka tygodni lub miesięcy pracy nad predykcyjnymi algorytmami komputerowymi. Po pierwsze, identyfikują z surowych danych kluczowe zmienne, które mogą pomóc w przewidywaniu zachowania powiązanych w czasie obserwacji. Następnie muszą stale testować i udoskonalać te zmienne w serii modeli komputerowych, często korzystając  z technik uczenia maszynowego. Taka czasochłonna część opisu stanowiska analityków danych naukowych, inspirowała Kanter’a, absolwenta MIT i w tym samym czasie Kalyan’a Veeramachaneni, naukowca informatyki na MIT  Computer Science i AI Lab, który był również doradcą pracy magisterskiej Kanter’a, by spróbować napisać program komputerowy, który zautomatyzuje najistotniejsze wąskie gardło w analizie danych naukowych. Poprzednie programy komputerowe mające na celu rozwiązywanie takich problemów mają tendencję do jednowymiarowości , koncentrując się na problemach poszczególnych dziedzin czy  branż. Ale Kanter i Veeramachaneni chcieli, by ich oprogramowanie urządzenia “Data Science Machine” było zdolne do rozwiązywania każdego interdyscyplinarnego problemu analizy danych naukowych. Doświadczenie z dotychczasowej pracy inspirowały pierwszą i największą część triumfu “Data Science Machine”; automatyzacja “inżynierii cech” procesu identyfikacji istotnych zmiennych z zalewu surowych danych. Druga część nowego oprogramowania MIT skupia się na auto-tuningu: identyfikacji zestawu najlepszych parametrów do generowania trafnych prognoz z napływających danych. W takim przypadku, program wybiera zarówno podzbiór najbardziej istotnych zmiennych jak  i optymalną metodę uczenia się urządzenia poprzez określanie zależności między zmiennymi, a modelem. Gdy urządzenie było gotowe, Kanter i Veeramachaneni przetestowali oprogramowanie na zbiorach danych z trzech oddzielnych konkursów naukowych. Wyniki analizy maszynowej były lepsze w  615 z 906 przypadków od  ludzkich zespołów analitycznych konkurujących w tym teście. Osiągnięto również prognozy, które były w 94, 96 i 87 procentach tak dokładne jak zwycięskie modele złożone w każdej z 3 konkurencji. Oznacza to, że sztuczna inteligencja maszyny jeszcze nie pokonała górnej kondygnacji zdolności ludzkich, ale stosunkowo łatwo dorównała poziomowi większości wysiłków wielu naukowców. Generalnie wyniki “Data Science Machine” przewyższają trafnością rezultaty bardzo wielu naukowców, ale niektórzy z nich są znacznie lepsi od maszyny – wyjaśnił Kanter. Naiwnością byłoby więc stwierdzenie, że naukowcy z tej dziedziny powoli odchodzą do lamusa. Kanter i Veeramachaneni  postrzegają “Data Science Machine” jako zautomatyzowane narzędzie, które może uczynić naukowców bardziej wydajnymi i rozpoczęli już poprawianie oprogramowania w kierunku większej kontroli człowieka aniżeli  zwiększenia automatyzacji  całego procesu predykcji. Na przykład, naukowiec może uruchomić “Data Science Machine” i wykorzystać  wyniki  jako podstawę do budowania lepszego modelu predykcyjnego, lub skupić się bardziej na funkcji  inżynierii cech pozostawiając optymalizację uczenia maszynowego oprogramowaniu. Potencjalnie jednak korzystniejszym aspektem  Data Science Machine może być oddanie tego narzędzia różnorodnym firmom i instytucjom, które nie posiadają wyszkolonych analityków na liście płac. Wiele firm, zarówno dużych jak i małych, wprawdzie ma dostęp do dużej ilości danych, ale nie posiada wyszkolonych zespołów naukowców takich jak  w znanych firmach technologicznych typu Google czy Amazon. Wyniki danych naukowych maszyn mogą być wystarczająco dobre dla astronomów pracujących w laboratorium uniwersyteckim lub gałęzi marketingu tradycyjnego handlu, które nie posiadają zespołów naukowej analizy danych. Zmierzamy w kierunku świata , gdzie firmy podejmować będą  decyzje oparte na analizie olbrzymiej ilości danych. Jednak  nie można po prostu uczynić naukowców czy analityków bardziej wydajnymi  – trzeba także zwiększyć pulę osób które posiadają predyspozycje do tej pracy oraz zbudować nowe narzędzia, które umożliwią automatyczne zrobienie podstawy badania – tego co maszyny robią najlepiej,  pozwalając ludziom robić to, co również robią najlepiej – twórczą pracę. W pewnym sensie, “Data Science Machine” może przekształcić  prawie każdą firmę w “technologiczną” przez umożliwienie podejmowania kluczowych decyzji  biznesowych i budowania nowych produktów w oparciu o analizę przy pomocy “Data Science Machine” olbrzymiej ilości danych. Oprogramowanie może rozprzestrzenić wpływ tego rodzaju usług  w sektorach tak różnych, jak e-commerce, crowdfunding, handel, edukacja, usługi finansowe  czy kierowanie państwem. W tym celu, Kanter i Veeramachaneni  już zaczęli zabiegać o klientów poprzez startup o nazwie „FeatureLab”, a strona firmy wita gości komunikatem: “Do more with your data, without more data scientists.”

Źródło: MIT

Leave a Reply

Your email address will not be published.