(Dette innlegget er høyttenking rundt dataåpenhet. Jeg sitter i en ekspertgruppe for Teknologirådet, som skal avgi en rapport om dataåpenhet. Dette er mine meninger og ikke nødvendigvis noe som Teknologirådet er enig i.)
Det skrives og snakkes mye om dataåpenhet for tiden, fra Sverre Andreas Lunde-Danbolts spissfindige kronikk i Aftenposten, der han foreslår et Altut til å komplementere Altinn, til Vox Publicas kampanje for å finne og synliggjøre offentlige datakilder. Dataåpenhet er viktig, for, som Hans Rosling sier, med skikkelige data endres debatten fra ideologi til pragmatisme, fra "vi mener" til "dataene sier".
Krav om åpenhet og tilgjengelighet til offentlige data kommer til å møte motstand fra de som har dataene, av mange årsaker. Her er tre motforestillinger jeg tror vil komme, og mitt forslag til hvordan man skal møte dem:
Motforestilling 1: Sluttbrukeren kan ikke forstå våre rådata, så det er ikke noe poeng i å publisere dem.
En enkelt sluttbruker, som meg selv, kan ikke bruke f.eks. offentlige kartdata direkte. Jeg vet ikke hvordan kartdata lagres, men regner med at det er en eller annen form for svært knappe koder satt inn i et posisjoneringssystem (bro krysser elv i posisjon x y) eller i en eller annen vektorform (grense starter i posisjon x y og fortsetter rett sørover z meter). Det er klart at jeg som sluttbruker ikke vil kunne nyttiggjøre meg denne informasjonen direkte.
Men det samme gjelder den websiden du leser akkurat nå. Prøv å se på denne siden i kildekodeformat (i Internet Explorer og Firefox, velg "View" fra menyen, deretter "Source" eller "Page Source"). Du får da opp en side med (for de fleste) uforståelig kode.
Vi har weblesere, og dermed kan vi lett nyttiggjøre oss koden. Det samme gjelder andre grunnlagsdata: Blir det tilgang, vil noen (kommersielle eller ikke-kommersielle aktører) lage verktøy som gjør at vi kan bruke dem. Da skapes det innovasjon og muligens nye arbeidsplasser (helt sikkert nye bruksområder) – samtidig som det faktum at rådataene til enhver tid skal publiseres sikrer at vi alle jobber ut fra det samme, forhåpentligvis korrekte utgangspunktet.
Motforestilling 2: Det er feil i dataene, så derfor kan vi ikke publisere
Publisering av data kan være skremmende – vi gjør alle feil, og det mangehodede trollet som heter publikum har en tendens til å finne dem. Det er
flaut, men enda flauere er det om feilen ikke blir funnet.
Et eksempel: På Aftenposten akkurat nå (8. november 2009 kl 1000) står det en lenke til en e24-artikkel om en inder som saksøker deodorantprodusenten AXE fordi han fremdeles ikke har draget på damene, trass i at reklamen sier de kommer til kaste seg over ham. Denne historien er oppspinn fra ende til annen, publisert på en indisk humorside.
På samme forside står en lenke til min Aftenposten-blogg, der jeg påpeker feilen og gjør meg morsom over at e24 kunne være så naive og at Aftenposten ("Solid bakgrunn for egne meninger") fremdeles har den oppe på forsiden sin. (Og på mitt innlegg påpeker en kommentator at jeg gjør narr av journalistens engelskkunnskaper, for så å begå en engelsk stavefeil selv. Akk ja.)
Det er ikke så lett når man gjør feil. Og feil gjør man. Men ved å publisere dem, blir de rettet opp. Det er faktisk den eneste fornuftige grunnen til å publisere skattelistene jeg kan tenke meg, skjønt feilene ville i stor grad blitt funnet hvis bare den enkelte skattyter hadde kunnet se sine skattedata også.
Med andre ord – hvis det er feil i dataene, er det en grunn til å publisere, ikke mot. Offentlige registre inneholder mye feil – publisering finner dem, synliggjør dem, og retter dem. Og byråkratene vil ta bedre beslutninger, om enn med noe høyere ansiktstemperatur.
Vitenskaplig metode, heter det faktisk.
Motforestilling 3: Vi skal publisere, men på vårt eget nettsted og med eget grensesnitt
Alle organisasjoner liker å kontrollere tilgangen til den informasjonen de besitter, ikke minst offentlige institusjoner. Ta f.eks. Utdanningsdirektoratet, som gjør data tilgjengelig på sine websider. Der kan man klikke seg vei nedover og se hvordan gjennomsnittkarakterer og eksamenskarakterer fordelte seg på de enkelte skoler – men man kan ikke gjøre egne sammenstillinger eller se på resultatene over tid. Det finnes ingen lenke (i hvert fall ikke som jeg kan finne) som sier "last ned hele datasettet".
Byråkratiet publiserer, men kontrollerer nøye hva man kan se.
Hele poenget med å publisere rådata (eller rettere sagt, data i analyserbar form) er at brukerne kan nyttiggjøre seg dataene inn i sine beslutninger eller aktiviteter. Her er et eksempel: For noen år siden var jeg Telenor-kunde, jobbet som konsulent, og hadde svært høye telefonregninger (timevis med konferansesamtaler til USA hjemmefra). Jeg fikk detaljert utskrift av telefonregningen, på papir, og det var slitsomt å gå gjennom disse manuelt for å fordele kostnadene på mine klienter. Derfor brukte jeg enhver anledning til å mase på Telenor om at de skulle lage en tjeneste der de sendte ut den detaljerte telefonregningen som et Excel regneark, på epost. Dermed ville jeg ha kunnet automatisere min fakturering, i stor grad.
I stedet laget Telenor en web-tjeneste der man kunne logge seg inn og se den månedlige telefonregningen på skjermen. Det var forsåvidt nyttig for meg ved at jeg fikk regningen tidligere og ikke trengte å arkivere den selv – men det gjorde ikke fordelingsjobben noe enklere. (Det er mulig Telenor nå sender ut telefonregningene pr. epost, jeg vet ikke.) Hele poenget er at hadde jeg fått dataene i et standardisert format, ville jeg kunnet lage et eget system på toppen av dem, og dermed gjort livet mitt enklere. I stedet forsøkte Telenor å gjøre jobben for meg – og lyktes ikke.
Tilgjengeliggjøring av e
n visningstjeneste skal ikke frita ikke fra plikt til å publisere rådataene. Som Vox Publica sier, data er fakta vi kan bruke. Publisering gjennom egenkontrollerte visningstjenester tillater ikke at man bygger nye bruksmønstre og nye applikasjoner ut fra et definert grunnlagsmateriale. Og det er nettopp nye måter å bruke dataene på som er i samfunnets og vår alles interesse.
Til slutt…
Debatten om åpenhet rundt offentlige data er komplisert og involverer spørsmål om opphavsrett, kommersialisering (forbausende mange byråkrater synes det er festlig å leke butikk med godsakene, uten at det blir så mye butikk av det) og personvern. Dette innlegget er ment som høyttenking – jeg ser frem til debatten.
9.11.09: Oppdatering: Harald Groven har lagt til 6 nye grunner til å nekte publisering i kommentarene. Glimrende! Noen som kommer på grunn nr. 10?
9.11.09: Oppdatering II: Også publisert på e24.no (som, jeg må si, tar påpekning av bommerter pent.)