Hvorfor ser man de samme annonsene om igjen og om igjen?

veksthusFor noen uker siden kjøpte jeg en motorsag på Biltema (elektrisk, kr. 699, fungerer utmerket), etter å ha søkt litt på nettet. Siden har Facebook og mange andre sider vært nedluset med annonser for motorsager i alle farger og fasonger. I forigårs diskuterte fruen og jeg om vi skulle kjøpe oss et veksthus, og Googlet litt for å finne noen alternativer og hva de kostet. Siden har det blitt mye veksthus….

Nå er ikke jeg den første som har denne erfaringen, men hvorfor velger annonsører i mange situasjoner å vise deg annonser, av og til i ukevis, for produkter du allerede har kjøpt?

Årsaken er ganske enkel: De vet ikke så mye om deg. Det eneste annonsørene vet om meg, er at jeg har søkt på motorsag eller veksthus eller hotell i Venezia eller noe annet, nokså spesifikt. I fravær av mer spesifikk informasjon (inkludert om jeg har kjøpt dette produktet eller ikke) er den beste strategien å vise meg det jeg har sett på før. Faktisk er det slik at selv om jeg har kjøpt produktet, er det beste strategien å vise meg annonser for det jeg nettopp har kjøpt, siden man likevel ikke vet (i hvert fall ikke presist nok, siden man ikke ser helheten) hvilke andre produkter man er ute etter.

(Det er også slik at Facebook faktisk ikke har så mye informasjon om deg som man skulle tro. Informasjonen om deg og dine venner har Facebook, men informasjonen om hva du har sett på og hva du har kjøpt finnes i mange firma med navn som DoubleClick (nå eid av Google). Når du går inn på Facebook, startes en komplisert auksjonsprosess der annonsører går inn og byr på muligheten til å vise deg en annonse.2000px-adservingfull-svg

Disse auksjonene er over på millisekunder (fra du har klikket på noe i Facebook til siden kommer opp i webleseren) og dermed må man bruke ganske enkle kriterier for hva som skal vises, samtidig som kostnaden ved å ta feil er svært liten. I en slik situasjon blir det mange annonser for ting folk har kjøpt før.

Men det er bedre enn å skyte i blinde.

(Og vil du lese mer om dette og andre algoritmer som brukes til alle de beslutningene vi lurer på på Internett og andre steder, anbefaler jeg sterkt Algorithms to Live By: The Computer Science of Human Decisions av Brian Christian og Tom Griffiths. Morsom og lærerik.)

Er du smart nok for smarte organisasjoner?

dn-09272018-smart-nok-til-acc8a-lede-intelligente-organisasjoner_pdfLiten artikkel i DN i dag, bygget på en artikkel i BI Business Review (kommer etterhvert), som igjen bygger på dette kapittelet i BIs jubileumsbok. (Og stor takk til Audun Farbrot for en formidabel innsats i forskningskommunikasjonens tjeneste i denne sammenheng.)

Og artikkelen? Vel, jeg vedlegger en PDF, lenken (betalingsmur) finner du nedenfor, og som så meget annet handler denne artikkelen om at man ikke kan innføre nye teknologier (i dette tilfelle dataanalyse) uten samtidig å endre organisasjonen (i dette tilfelle ledelsesrollen.) Dataanalyse og den datadrevne organisasjonen må forholde seg til et faktabasert verdensbilde, noe som krever evne til å sanse, forstå, handle, lære og forklare – kontinuerlig, og i stor skala.

Lenke til DN: https://www.dn.no/innlegg/ledelse/digitalisering/smart-nok-for-smarte-organisasjoner/2-1-424362

PDF: DN 09272018 Smart nok til å lede intelligente organisasjoner

(Og nei, jeg har ikke begynt å jobbe for Accenture. Fire forfattere ble tydeligvis litt for vanskelig for DN…)

Odd Erik om replikering av AI-forskning

file (1)

Syntes jeg dro kjensel på fotografiet – og jammen var det ikke Odd Erik Gundersen (som jeg sitter i styret i SmartHelp sammen med) som ble intervjuet og har skrevet en glimrende (og tilgjengelig) kronikk i Morgenbladet om diskusjonen om forskningskvalitet. Det er et stendig problem innen forskning (også innen informatikk) at forskningsresultater ikke lar seg replikere.

Innenfor kunstig intelligens (eller, vel, maskinlæring som jeg regner med at det er snakk om her) er dette ekstra viktig fordi utviklingen av maskinlæringsalgoritmer i motsetning til vanlig vitenskapelig metode er teoriløs – man har masse data, kjører en søkealgoritme over mange modeller og modellvarianter, og så ender man opp med et eller annet resultat, gjerne uttrykket ved en confusion matrix eller en validation curve (også kalt learning curve).

Ofte finner man at når folk snakker om at de har en modell som er «94% nøyaktig» så snakker de om nøyaktigheten på treningsdataene (der modellen er utviklet) og ikke på testdataene (som er de dataene man holder til side for å se om modellen, utviklet på treningsdataene, er nøyaktig.) Dermed får man modeller som har svært høy nøyaktighet (ikke noe problem å komme til 100% hvis man bare er villig til å ta med nok variable) men som brukbare til noe som helst.

Og det er et problem ikke bare i maskinlæring, men i all forskning. Det er bare det at i maskinlæring finnes dataene og programmene lett tilgjengelige, problemet er synlig, og det er sjelden noen grunn til å skjule det.

Bortsett fra at noen trenger å publisere noe, heller enn å bygge en god modell.

Norsk Tipping – hvem skal de ringe til?

tanjadenne reportasjen i Aftenposten i dag, om hvordan Norsk Tipping kontakter folk som taper mye penger og gjør dem oppmerksom på at de kanskje har et spilleavhengighetsproblem. Og årsaken til at jeg blogger om det er at a) en av studentene mine fra kurset Analytics for Strategic Management, Tanja Sveen (se foto, fra Aftenposten) er omtalt (når jeg tenker meg om, har studentene eksamen i dag), og b) et av prosjektene i kurset (som jeg faktisk kan snakke om, de fleste er konfidensielle) er Norsk Tippings analyseprosjekt for å finne ut av hvem de skal ringe til.

Norsk Tipping har begrenset kapasitet for telefonsamtaler, så de må bestemme seg for hvem de skal ringe til, ikke bare ut fra hvem som spiller mest, men også ut fra faktorer som hvem som vil ha mest nytte av en slik samtale.

Prosessen Norsk Tipping må gå gjennom, er svært lik mange andre maskinlæringsprosjekter: Man har en historikk (folk som spiller (mange), folk man ringer til (færre), og hva som skjer etter at man har ringt (f.eks. om de slutter med eller reduserer spillevirksomheten eller ei.) Man identifiserer (basert på historikk og andre kriterier) hvem som står i fare for å utvikle spilleavhengighet, og lar maskinen se på historikken og lage en modell for hvem i utvalget man skal ringe til, basert på en rangering av sannsynligheten for positiv effekt.

Det er mange problemer med slike modeller, både før man spesifiserer den – hva er kriteriene for å bli valgt ut, for eksempel, siden det er vanskelig å avgjøre om folk er spilleavhengige eller bare har god råd, og hvordan man skal måle hva som er ønsket effekt eller ikke – og mer tekniske problemer – for eksempel ubalanserte datasett (man har mange observasjoner av spillere, men relativt få av folk med utviklet spilleavhenighet, for eksempel. Hvis du skal lete etter terrorister blant flypassasjerer, er ikke problemet at du har for få passasjerer – du har for få eksempler på terrorister…).

Alt dette lærer man om på kurset. Det som er interessant med Norsk Tipping, er at de tar en forskningsbasert tilnærming til dette: De tar utgangspunkt i det de vet, setter opp en modell for å vurdere om ting virker eller ikke, og hvordan de kan justere det de gjør, og så kommer de til å gjøre dette en stund og lære av erfaringene. Prosessen er i utgangspunktet teori-fri, hvilket vil si at man ikke (i hvert fall i prinsippet) skal ha forhåndsteorier om hva som virker eller ikke.

Og akkurat den utfordringen – å la dataene, heller enn intuisjonen, avgjøre hva man skal gjøre – er en av de vanskelige overgangene man må gjennom for å få en data-dreven organisasjon til å fungere.

Det skal bli spennende å se om Norsk Tipping får det til – så langt ser det lovende ut.

Rask teknologiutvikling innen Big Data

DataRobot-screenFor noen uker siden var jeg i London for å lære meg DataRobot, et verktøy som automatiserer store deler av jobben rundt avansert dataanalyse. Det eneste DataRobot (og lignende verktøy) trenger, er masse data i et rad-og-kolonneformat (Excel, CSV, SQL, Hadoop, etc), og dermed kan man bare sette i gang: Dataene leses inn, hver kolonne tolkes og kategoriseres (dvs. som tekst, numeriske data, kategorier, boolsk, etc.). Deretter spør DataRobot hva som skal være den uavhengige variabelen (det vil si, hva det er man skal prøve å predikere), hva det er som skal være grunnlag for å vurdere hvilken modell som er best (forklart varians, logloss, etc.). Så kan man trykke Start og dermed setter DataRobot i gang og kjører alle analyser den vet om. Modellene listes opp med de som gir best resultat på toppen, og deretter er det bare å sette i gang og forbedre dem – for eksempel ved å finne mer data, kombinerer datapunkter, og så videre.

Med andre ord, masse av det man tidligere måtte ha spesialister til å gjøre, kan man nå gjøre selv.

Som min kollega Chandler Johnson sa: For fire-fem år siden måtte han programmere opp hver metode i Python. Så kom SciKit-Learn og andre programmeringsbiblioteker (XGBoost, RTensorFlow, Wowpal Wabbit) som gjorde at man bare kunne hente inn de metodene man ville bruke. Nå kommer grafiske verktøy som DataRobot, som velger ut og tester modeller for deg – og fjerner mye av behovet for programmering i det hele tatt. Selskapet reklamerer med at man kan redusere antallet data scientists man trenger, og det er jo gode nyheter der man må lete med lys og lykte og bruke ganske mye penger for å finne folk som kan gjøre slikt.

En stor del av jobben man trenger data scientists til, er å gjøre dataene klar for analyse. De fleste bedrifter vet at de har endel data, men når man først skal bruke dem, finner man kjapt at de har masse feil, er mangelfulle, og ofte ikke har de variablene man trodde man hadde. (For en liste av mange vanlige feil, se The Quartz Guide to Bad Data.) Også her begynner det å komme gode verktøy som reduserer behovet for programmering, som for eksempel Alteryx. Som en av våre studenter fra Analytics for Strategic Management sa: «DataRobot is soooo September…!

(Og skulle du ha lyst til å lære mer om dette: Sjekk ut dette kurset, 5-7 desember.)

Kortfattet: Big Data og analytics

DFDDODData og dataanalyse blir mer og mer viktig for mange bransjer og organisasjoner. Er du interessert i dataanalyse og hva det kan gjøre med din bedrift? Velkommen til et tredagers seminar (executive short program) på BI med tittelen: Decisions from Data: Driving an Organization with Analytics. Datoene er 5-7 desember i år, og kurset har vokst ut som en kortversjon av våre executive-kurs Analytics for Strategic Management, som har blitt meget populære og er fulltegnet. (Sjekk denne listen for en smakebit av hva studentene på disse programmene holder på med.)

Seminaret er beregnet på ledere som er nysgjerrig på stordata og dataanalyse og ønsker seg en innføring, uten å måtte ta et fullt kurs om emnet. Vi kommer til å snakke om og vise ulike former for dataanalyse, diskutere de viktigste utfordringene organisasjoner har med å forholde seg både til data og til dataanalytikere – og naturligvis gi masse eksempler på hvordan man kan bruke dataanalyse til å styrke sin konkurransekraft. Det blir ikke mye teknologi, men vi skal ta og føle litt på noen verktøy også, bare for å vite litt om hva som er mulig og hva slags arbeid vi egentlig ber disse dataekspertene om å ta på seg.

Presentasjoner og diskusjon går på engelsk – siden, vel, de beste foreleserne vi har på dette (Chandler Johnson og Alessandra Luzzi) er fra henholdsvis USA og Italia, og dermed blir betydelig mer presise enn om de skulle snakke norsk. Selv henger jeg med så godt jeg kan…

Velkommen til datarevolusjonen!