For noen uker siden var jeg i London for å lære meg DataRobot, et verktøy som automatiserer store deler av jobben rundt avansert dataanalyse. Det eneste DataRobot (og lignende verktøy) trenger, er masse data i et rad-og-kolonneformat (Excel, CSV, SQL, Hadoop, etc), og dermed kan man bare sette i gang: Dataene leses inn, hver kolonne tolkes og kategoriseres (dvs. som tekst, numeriske data, kategorier, boolsk, etc.). Deretter spør DataRobot hva som skal være den uavhengige variabelen (det vil si, hva det er man skal prøve å predikere), hva det er som skal være grunnlag for å vurdere hvilken modell som er best (forklart varians, logloss, etc.). Så kan man trykke Start og dermed setter DataRobot i gang og kjører alle analyser den vet om. Modellene listes opp med de som gir best resultat på toppen, og deretter er det bare å sette i gang og forbedre dem – for eksempel ved å finne mer data, kombinerer datapunkter, og så videre.
Med andre ord, masse av det man tidligere måtte ha spesialister til å gjøre, kan man nå gjøre selv.
Som min kollega Chandler Johnson sa: For fire-fem år siden måtte han programmere opp hver metode i Python. Så kom SciKit-Learn og andre programmeringsbiblioteker (XGBoost, R, TensorFlow, Wowpal Wabbit) som gjorde at man bare kunne hente inn de metodene man ville bruke. Nå kommer grafiske verktøy som DataRobot, som velger ut og tester modeller for deg – og fjerner mye av behovet for programmering i det hele tatt. Selskapet reklamerer med at man kan redusere antallet data scientists man trenger, og det er jo gode nyheter der man må lete med lys og lykte og bruke ganske mye penger for å finne folk som kan gjøre slikt.
En stor del av jobben man trenger data scientists til, er å gjøre dataene klar for analyse. De fleste bedrifter vet at de har endel data, men når man først skal bruke dem, finner man kjapt at de har masse feil, er mangelfulle, og ofte ikke har de variablene man trodde man hadde. (For en liste av mange vanlige feil, se The Quartz Guide to Bad Data.) Også her begynner det å komme gode verktøy som reduserer behovet for programmering, som for eksempel Alteryx. Som en av våre studenter fra Analytics for Strategic Management sa: «DataRobot is soooo September…!
(Og skulle du ha lyst til å lære mer om dette: Sjekk ut dette kurset, 5-7 desember.)
Dette systemet har i hvert fall høy «Face value», men hvodan stå det til med de andre values slik Cook and Camble beskriver dem. Ellers khenner du vel arikkelen:
Tim Harford: «Big data: are we making a big mistake?», Financial Times, March 28, 2014 11:38 am
Cook and Campbell: «Quasi-Experimentation: Design & Analysis Issues for Field Settings», 1979.