Big Data og Bad Data

«Big data» er stort om dagen, litt vel stort muligens, og selv om det er spennende hva man kan gjøre med data, både innen forskning og journalistikk, så er det ikke bare å laste ned kjempemengder med digitale lekkasjer og sette i gang. Som Tom Davenport har påpekt en rekke ganger, er det mange problemer med dataanalyse. Her er noen jeg selv har erfart:

  • Dataene er dårlige, og dermed må analytikerne bruke mesteparten av tiden sin på å rette opp feil og formater og gjøre dataene analyserbare.
  • Analytikerne er få og dyre. Det er mangel på smarte analytikere og utdanningssystemet, i Norge i hvert fall, følger ikke opp. Gode analytikere er dyre. Billige analytikere… vel, du får det du betaler for. Og muligens den analysen du liker, men ikke den du burde få.
  • Modeller mangler. Selv om du har data og analytikere, betyr det ikke at du har gode modeller. Det er faktisk et problem at data – spesielt tall – har en tendens til å bli altoppslukende for beslutningstakere, som sjelden setter spørsmålstegn ved hvor de kommer fra, hva de faktisk betyr, og hvordan man har konstruert de modellene som ligger bak.
luzzi20alessandra

Alessandra Luzzi

Dette kommer jeg til å følge opp som et nytt tema her på bloggen og som en aktivitet under BIs Senter for Digitalisering. En av aktivitetene er et nytt kurs, Analytics for Strategic Management, som jeg har ansvaret for sammen med Alessandra Luzzi og Chandler Johnson, to unge og meget smarte kolleger på Institutt for Strategi. Kurset er beregnet på ledere som ønsker å bli smarte konsumenter av analyse, og vil sette deg i stand til å forstå hva analytikerne kan og ikke kan gjøre, gi deg nok analyseerfaring til å forstå arbeidet deres og hvordan du kan få mest mulig ut av det, og eksponere deg for en rekke gode eksempler av både analyse og bedrifters bruk av den. Mer om dette siden.

I mellomtiden – skulle du stå overfor et datasett og en analyse og lure på om dette er Big Data eller Bad Data – ta en titt på The Quartz guide to bad data. Her finner du masse tips om hvordan du kjenner igjen feil og mangler, og hva du skal gjøre med dem. To av mine favoritteksempler er regneark med akkurat 65536 rader og data som er altfor presise. Tro meg, dette er ikke uvanlig!