Vil du lære litt om Big Data og Data Science?

Data og dataanalyse blir mer og mer viktig for mange bransjer og organisasjoner. Er du interessert i dataanalyse og hva det kan gjøre med din bedrift? Velkommen til et tredagers seminar (executive short program) på BI med tittelen: Decisions from Data: Driving an Organization with Analytics. Datoene er 21-23 mai i år, og det haster derfor litt med påmelding! (Kontakt meg eller Kristin Røthe Søbakk (464 10 255, kristin.r.sobakk@bi.no) om du har spørsmål).

Kurset har vokst ut som en kortversjon av våre executive-kurs Analytics for Strategic Management, som har blitt meget populære og fort blir fulltegnet. (Sjekk denne listen for en smakebit av hva studentene på disse programmene holder på med.)

Seminaret er beregnet på ledere som er nysgjerrig på stordata og dataanalyse og ønsker seg en innføring, uten å måtte ta et fullt kurs om emnet. Vi kommer til å snakke om og vise ulike former for dataanalyse, diskutere de viktigste utfordringene organisasjoner har med å forholde seg både til data og til dataanalytikere – og naturligvis gi masse eksempler på hvordan man kan bruke dataanalyse til å styrke sin konkurransekraft. Det blir ikke mye teknologi, men vi skal ta og føle litt på noen verktøy også, bare for å vite litt om hva som er mulig og hva slags arbeid vi egentlig ber disse dataekspertene om å ta på seg.

Presentasjoner og diskusjon går på engelsk – siden, vel, de beste foreleserne vi har på dette (Chandler Johnson og Alessandra Luzzi) er fra henholdsvis USA og Italia, og dermed blir betydelig mer presise enn om de skulle snakke norsk. Selv henger jeg med så godt jeg kan…

Velkommen til tre dager med data og, etterhvert, strategi!

Oppgaver i maskinlæring

Sammen med Chandler Johnson og Alessandra Luzzi underviser jeg nå tredje iterasjon av kurset Analytics for Strategic Management. I løpet av kurset jobber studenter med reelle prosjekter for ordentlige selskaper, og bruker ulike former for maskinlæring (stordata, analytics, AI, hva du vil kalle det) til å løse forretningsproblemer. Her er en (for det meste anonymisert, bortsett fra offentlig eide selskaper) liste med resultatene så langt:

  • Et IT-serviceselskap som leverer data og analyser, ønsker å forutsi kundenes bruk av sine elektroniske produkter, for å kunne tilby bedre produkter og skreddersy dem mer til de mest aktive kundene. Resultat: Bedre salgsprediksjoner enn den eksisterende metoden (reduserte feilmodellering med 86%) – men modellen fungerer ikke langt frem i tid. Men den vil bli implementert.
  • En bensinstasjonskjede ønsker å beregne churn hos sine forretningskunder, for å finne måter å holde dem på (eller om nødvendig, endre noen av sine tilbud). Resultat: Fant en modell som identifiserer kunder som vil forlate dem, med en treffrate på 50% vil modellen forbedre resultatet med 25m kroner, og det er rom for å øke bruken av modellen utenfor de opprinnelige segmentene.
  • En frisørkjede ønsker å forutsi hvilke kunder som vil sette opp en ny avtale når de har klippet seg, for å bygge kundelojalitet. Resultat: Fant en modell som predikerte hvilke frisører som har problemer med å bygge opp en gruppe stamkunder (med omtrent 85% nøyaktighet), har klart å få en bedre forståelse av hva som driver kundelojalitet og dermed hvordan de kan hjelpe frisører med å få flere kunder.
  • En stor finansinstitusjon ønsker å finne ansatte som ser etter informasjon om kunder (for eksempel kjendiser), for å styrke personvern og datakonfidensialitet. Resultat: Slet med å få tak i nok og riktige data, men bygget en spesifikasjon av hva slags data som er nødvendig, hva det vil koste, og hva resultatet vil være – og fant at innenfor dette området finnes det svært få modeller, noe som er en mulighet. Og man fant noen lovende startpunkter for å bygge en slik modell. Vanskelig, men viktig område.
  • En stor offentlig IT-avdeling ønsker å forutsi hvilke ansatte som sannsynligvis vil forlate selskapet, for bedre å planlegge for rekruttering og kompetansebygging. Resultat: Bygget en prediksjonsmodell og en prosess som reduserer ledetiden for å ansette en ny person fra 9 til 8 måneder (en 10m innsparing) og dermed reduserer behovet for å utsette prosjekter på grunn av kapasitetsmangel, samt forbedre planleggingen av fremtidige kompetansebehov og øke sjansen for å beholde viktige ansatte.
  • OSL Gardermoen vil finne ut hvilke flypassasjerer som vil ønske å bruke taxfree-butikken etter at de har landet, for å øke salget (og ikke bry dem som ikke vil kjøpe taxfree). Resultat: Fant at noen variable man trodde ville øke taxfree-andelen ikke gjorde det, lærte mye om hva som gjør forskjell – og at modellen, hvis man klarer å bygge den, vil være mye verdt (en økning i taxfree-bruk på under en prosent vil øke Avinors inntekter med mer enn 100m). Samt at eksperimentering, ikke store prosjekter, er veien å gå videre.
  • En mindre bank ønsker å finne ut hvilke av sine yngre kunder som snart trenger et boliglån, for å øke sin markedsandel. Resultat: Bygget en modell som øker sannsynligheten for å identifisere førstegangs boliglånskunder, til en merverdi av 6,9 millioner kroner – samt at bruken av denne modellen introduserer datadrevne beslutninger for organisasjonen.
  • Et internasjonalt TV-selskap vil finne ut hvilke kunder som sannsynligvis vil si opp abonnementet sitt innen en bestemt tidsramme, for å bedre skreddersy sitt tilbud og markedsføring. Resultat: Bygget en modell med en kortsiktig beregnet merverdi på 500000 kroner per år, som treffer seks ganger bedre enn tilfeldige utvalg. I løpet av arbeidet har man funnet en rekke aktiviteter som kan øke kundelojaliteten uten store kostnader – og funnet inspirasjon for mer bruk av maskinlæring.
  • En leverandør av administrerte datasentre ønsker å forutsi sine kunders energibehov, for å kunne skrive og oppfylle konktrakter om sertifisert grønne datasentertjenester. Resultat: Bygget en modell basert på historiske sensordata for eksisterende kunder, for å forutsi forbruk for en ny kunde, og deretter en modell som inkluderer den nye kunden for å overvåke resultatet og forbedre modellen for alle kundene. En korrekt modell (som implementert) vil forbedre månedlig inntekt med 47% for en ny klient og redusere sjansen for kontraktsterminering.
  • Ruter (paraplyfirmaet for offentlig transport for Oslo-området) ønsker å bygge en modell for å bedre forutsi trengsel på busser, for å, vel, unngå trengsel. Resultat: Bygget en modell og et forslag til en tjeneste for å kunne fortelle Ruters kunder om det (sannsynligvis) er ledige seter på bussen eller ikke, går nå til testing.
  • Barnevernet ønsker å bygge en modell for å bedre forutsi hvilke familier som mest sannsynlig vil bli godkjent som fosterforeldre, for å kunne prioritere saksbehandling og redusere ventelister. Resultat: Tross mye manglende data klarte man å finne gode indikatorer på godkjente fosterforeldre og har lagt en plan for videreutvikling av modellen etterhvert som man får bedre data. Området er lovende, siden behovet for fosterforeldre er stort og selv en liten forbedring vil hjelpe.
  • Et strømproduksjonsselskap vil bygge en modell for å bedre forutsi strømforbruket i deres marked for å kunne planlegge produksjonsprosessen bedre. Resultat: Testet mange modeller og har funnet at å forutsi spot-priser er vanskelig, men har klart å finne indikatorer på økt volatilitet, noe som gjør at man kan produsere noe mer presist. Kortsiktig effekt av en liten modell er 100-200 tusen euro per år for hver produksjonsenhet, et tall som forventes å øke siden volatiliteten i markedet vil øke fremover.

Alt i alt er vi svært fornøyd – vi har klart å øke verdien, samlet sett, for disse selskapene adskillig mer enn kurset koster (I hvert fall 10-gangen, konservativt anslått). Flere av deltakerne har fått nye stillinger og flere av dem har bestemt seg for at data science er en retning de skal fortsette å utvikle seg i, og ønsket seg flere slike «tekniske» kurs. Og gitt at vi også har produsert en masse kunnskap og generelt økt deltakernes evne til å bygge bro mellom analytikere og forretningsfolk, tror jeg vi kan erklære dette prosjektet for en suksess…

Og her er (de fleste) av denne gjengen:

Hvorfor ser man de samme annonsene om igjen og om igjen?

veksthusFor noen uker siden kjøpte jeg en motorsag på Biltema (elektrisk, kr. 699, fungerer utmerket), etter å ha søkt litt på nettet. Siden har Facebook og mange andre sider vært nedluset med annonser for motorsager i alle farger og fasonger. I forigårs diskuterte fruen og jeg om vi skulle kjøpe oss et veksthus, og Googlet litt for å finne noen alternativer og hva de kostet. Siden har det blitt mye veksthus….

Nå er ikke jeg den første som har denne erfaringen, men hvorfor velger annonsører i mange situasjoner å vise deg annonser, av og til i ukevis, for produkter du allerede har kjøpt?

Årsaken er ganske enkel: De vet ikke så mye om deg. Det eneste annonsørene vet om meg, er at jeg har søkt på motorsag eller veksthus eller hotell i Venezia eller noe annet, nokså spesifikt. I fravær av mer spesifikk informasjon (inkludert om jeg har kjøpt dette produktet eller ikke) er den beste strategien å vise meg det jeg har sett på før. Faktisk er det slik at selv om jeg har kjøpt produktet, er det beste strategien å vise meg annonser for det jeg nettopp har kjøpt, siden man likevel ikke vet (i hvert fall ikke presist nok, siden man ikke ser helheten) hvilke andre produkter man er ute etter.

(Det er også slik at Facebook faktisk ikke har så mye informasjon om deg som man skulle tro. Informasjonen om deg og dine venner har Facebook, men informasjonen om hva du har sett på og hva du har kjøpt finnes i mange firma med navn som DoubleClick (nå eid av Google). Når du går inn på Facebook, startes en komplisert auksjonsprosess der annonsører går inn og byr på muligheten til å vise deg en annonse.2000px-adservingfull-svg

Disse auksjonene er over på millisekunder (fra du har klikket på noe i Facebook til siden kommer opp i webleseren) og dermed må man bruke ganske enkle kriterier for hva som skal vises, samtidig som kostnaden ved å ta feil er svært liten. I en slik situasjon blir det mange annonser for ting folk har kjøpt før.

Men det er bedre enn å skyte i blinde.

(Og vil du lese mer om dette og andre algoritmer som brukes til alle de beslutningene vi lurer på på Internett og andre steder, anbefaler jeg sterkt Algorithms to Live By: The Computer Science of Human Decisions av Brian Christian og Tom Griffiths. Morsom og lærerik.)

Er du smart nok for smarte organisasjoner?

dn-09272018-smart-nok-til-acc8a-lede-intelligente-organisasjoner_pdfLiten artikkel i DN i dag, bygget på en artikkel i BI Business Review (kommer etterhvert), som igjen bygger på dette kapittelet i BIs jubileumsbok. (Og stor takk til Audun Farbrot for en formidabel innsats i forskningskommunikasjonens tjeneste i denne sammenheng.)

Og artikkelen? Vel, jeg vedlegger en PDF, lenken (betalingsmur) finner du nedenfor, og som så meget annet handler denne artikkelen om at man ikke kan innføre nye teknologier (i dette tilfelle dataanalyse) uten samtidig å endre organisasjonen (i dette tilfelle ledelsesrollen.) Dataanalyse og den datadrevne organisasjonen må forholde seg til et faktabasert verdensbilde, noe som krever evne til å sanse, forstå, handle, lære og forklare – kontinuerlig, og i stor skala.

Lenke til DN: https://www.dn.no/innlegg/ledelse/digitalisering/smart-nok-for-smarte-organisasjoner/2-1-424362

PDF: DN 09272018 Smart nok til å lede intelligente organisasjoner

(Og nei, jeg har ikke begynt å jobbe for Accenture. Fire forfattere ble tydeligvis litt for vanskelig for DN…)

Odd Erik om replikering av AI-forskning

file (1)

Syntes jeg dro kjensel på fotografiet – og jammen var det ikke Odd Erik Gundersen (som jeg sitter i styret i SmartHelp sammen med) som ble intervjuet og har skrevet en glimrende (og tilgjengelig) kronikk i Morgenbladet om diskusjonen om forskningskvalitet. Det er et stendig problem innen forskning (også innen informatikk) at forskningsresultater ikke lar seg replikere.

Innenfor kunstig intelligens (eller, vel, maskinlæring som jeg regner med at det er snakk om her) er dette ekstra viktig fordi utviklingen av maskinlæringsalgoritmer i motsetning til vanlig vitenskapelig metode er teoriløs – man har masse data, kjører en søkealgoritme over mange modeller og modellvarianter, og så ender man opp med et eller annet resultat, gjerne uttrykket ved en confusion matrix eller en validation curve (også kalt learning curve).

Ofte finner man at når folk snakker om at de har en modell som er «94% nøyaktig» så snakker de om nøyaktigheten på treningsdataene (der modellen er utviklet) og ikke på testdataene (som er de dataene man holder til side for å se om modellen, utviklet på treningsdataene, er nøyaktig.) Dermed får man modeller som har svært høy nøyaktighet (ikke noe problem å komme til 100% hvis man bare er villig til å ta med nok variable) men som brukbare til noe som helst.

Og det er et problem ikke bare i maskinlæring, men i all forskning. Det er bare det at i maskinlæring finnes dataene og programmene lett tilgjengelige, problemet er synlig, og det er sjelden noen grunn til å skjule det.

Bortsett fra at noen trenger å publisere noe, heller enn å bygge en god modell.

Norsk Tipping – hvem skal de ringe til?

tanjadenne reportasjen i Aftenposten i dag, om hvordan Norsk Tipping kontakter folk som taper mye penger og gjør dem oppmerksom på at de kanskje har et spilleavhengighetsproblem. Og årsaken til at jeg blogger om det er at a) en av studentene mine fra kurset Analytics for Strategic Management, Tanja Sveen (se foto, fra Aftenposten) er omtalt (når jeg tenker meg om, har studentene eksamen i dag), og b) et av prosjektene i kurset (som jeg faktisk kan snakke om, de fleste er konfidensielle) er Norsk Tippings analyseprosjekt for å finne ut av hvem de skal ringe til.

Norsk Tipping har begrenset kapasitet for telefonsamtaler, så de må bestemme seg for hvem de skal ringe til, ikke bare ut fra hvem som spiller mest, men også ut fra faktorer som hvem som vil ha mest nytte av en slik samtale.

Prosessen Norsk Tipping må gå gjennom, er svært lik mange andre maskinlæringsprosjekter: Man har en historikk (folk som spiller (mange), folk man ringer til (færre), og hva som skjer etter at man har ringt (f.eks. om de slutter med eller reduserer spillevirksomheten eller ei.) Man identifiserer (basert på historikk og andre kriterier) hvem som står i fare for å utvikle spilleavhengighet, og lar maskinen se på historikken og lage en modell for hvem i utvalget man skal ringe til, basert på en rangering av sannsynligheten for positiv effekt.

Det er mange problemer med slike modeller, både før man spesifiserer den – hva er kriteriene for å bli valgt ut, for eksempel, siden det er vanskelig å avgjøre om folk er spilleavhengige eller bare har god råd, og hvordan man skal måle hva som er ønsket effekt eller ikke – og mer tekniske problemer – for eksempel ubalanserte datasett (man har mange observasjoner av spillere, men relativt få av folk med utviklet spilleavhenighet, for eksempel. Hvis du skal lete etter terrorister blant flypassasjerer, er ikke problemet at du har for få passasjerer – du har for få eksempler på terrorister…).

Alt dette lærer man om på kurset. Det som er interessant med Norsk Tipping, er at de tar en forskningsbasert tilnærming til dette: De tar utgangspunkt i det de vet, setter opp en modell for å vurdere om ting virker eller ikke, og hvordan de kan justere det de gjør, og så kommer de til å gjøre dette en stund og lære av erfaringene. Prosessen er i utgangspunktet teori-fri, hvilket vil si at man ikke (i hvert fall i prinsippet) skal ha forhåndsteorier om hva som virker eller ikke.

Og akkurat den utfordringen – å la dataene, heller enn intuisjonen, avgjøre hva man skal gjøre – er en av de vanskelige overgangene man må gjennom for å få en data-dreven organisasjon til å fungere.

Det skal bli spennende å se om Norsk Tipping får det til – så langt ser det lovende ut.