Dataåpenhet og motforestillinger

Postet den november 8, 2009 av Espen

(Dette innlegget er høyttenking rundt dataåpenhet. Jeg sitter i en ekspertgruppe for Teknologirådet, som skal avgi en rapport om dataåpenhet. Dette er mine meninger og ikke nødvendigvis noe som Teknologirådet er enig i.)

Det skrives og snakkes mye om dataåpenhet for tiden, fra Sverre Andreas Lunde-Danbolts spissfindige kronikk i Aftenposten, der han foreslår et Altut til å komplementere Altinn, til Vox Publicas kampanje for å finne og synliggjøre offentlige datakilder. Dataåpenhet er viktig, for, som Hans Rosling sier, med skikkelige data endres debatten fra ideologi til pragmatisme, fra "vi mener" til "dataene sier".

Krav om åpenhet og tilgjengelighet til offentlige data kommer til å møte motstand fra de som har dataene, av mange årsaker. Her er tre motforestillinger jeg tror vil komme, og mitt forslag til hvordan man skal møte dem:

Motforestilling 1: Sluttbrukeren kan ikke forstå våre rådata, så det er ikke noe poeng i å publisere dem.

En enkelt sluttbruker, som meg selv, kan ikke bruke f.eks. offentlige kartdata direkte. Jeg vet ikke hvordan kartdata lagres, men regner med at det er en eller annen form for svært knappe koder satt inn i et posisjoneringssystem (bro krysser elv i posisjon x y) eller i en eller annen vektorform (grense starter i posisjon x y og fortsetter rett sørover z meter). Det er klart at jeg som sluttbruker ikke vil kunne nyttiggjøre meg denne informasjonen direkte.

Men det samme gjelder den websiden du leser akkurat nå. Prøv å se på denne siden i kildekodeformat (i Internet Explorer og Firefox, velg "View" fra menyen, deretter "Source" eller "Page Source"). Du får da opp en side med (for de fleste) uforståelig kode.

Vi har weblesere, og dermed kan vi lett nyttiggjøre oss koden. Det samme gjelder andre grunnlagsdata: Blir det tilgang, vil noen (kommersielle eller ikke-kommersielle aktører) lage verktøy som gjør at vi kan bruke dem. Da skapes det innovasjon og muligens nye arbeidsplasser (helt sikkert nye bruksområder) – samtidig som det faktum at rådataene til enhver tid skal publiseres sikrer at vi alle jobber ut fra det samme, forhåpentligvis korrekte utgangspunktet.

Motforestilling 2: Det er feil i dataene, så derfor kan vi ikke publisere

Publisering av data kan være skremmende – vi gjør alle feil, og det mangehodede trollet som heter publikum har en tendens til å finne dem. Det er flaut, men enda flauere er det om feilen ikke blir funnet.

Et eksempel: På Aftenposten akkurat nå (8. november 2009 kl 1000) står det en lenke til en e24-artikkel om en inder som saksøker deodorantprodusenten AXE fordi han fremdeles ikke har draget på damene, trass i at reklamen sier de kommer til kaste seg over ham. Denne historien er oppspinn fra ende til annen, publisert på en indisk humorside.

På samme forside står en lenke til min Aftenposten-blogg, der jeg påpeker feilen og gjør meg morsom over at e24 kunne være så naive og at Aftenposten ("Solid bakgrunn for egne meninger") fremdeles har den oppe på forsiden sin. (Og på mitt innlegg påpeker en kommentator at jeg gjør narr av journalistens engelskkunnskaper, for så å begå en engelsk stavefeil selv. Akk ja.)

Det er ikke så lett når man gjør feil. Og feil gjør man. Men ved å publisere dem, blir de rettet opp. Det er faktisk den eneste fornuftige grunnen til å publisere skattelistene jeg kan tenke meg, skjønt feilene ville i stor grad blitt funnet hvis bare den enkelte skattyter hadde kunnet se sine skattedata også.

Med andre ord – hvis det er feil i dataene, er det en grunn til å publisere, ikke mot. Offentlige registre inneholder mye feil – publisering finner dem, synliggjør dem, og retter dem. Og byråkratene vil ta bedre beslutninger, om enn med noe høyere ansiktstemperatur.

Vitenskaplig metode, heter det faktisk.

Motforestilling 3: Vi skal publisere, men på vårt eget nettsted og med eget grensesnitt

Alle organisasjoner liker å kontrollere tilgangen til den informasjonen de besitter, ikke minst offentlige institusjoner. Ta f.eks. Utdanningsdirektoratet, som gjør data tilgjengelig på sine websider. Der kan man klikke seg vei nedover og se hvordan gjennomsnittkarakterer og eksamenskarakterer fordelte seg på de enkelte skoler – men man kan ikke gjøre egne sammenstillinger eller se på resultatene over tid. Det finnes ingen lenke (i hvert fall ikke som jeg kan finne) som sier "last ned hele datasettet".

Byråkratiet publiserer, men kontrollerer nøye hva man kan se.

Hele poenget med å publisere rådata (eller rettere sagt, data i analyserbar form) er at brukerne kan nyttiggjøre seg dataene inn i sine beslutninger eller aktiviteter. Her er et eksempel: For noen år siden var jeg Telenor-kunde, jobbet som konsulent, og hadde svært høye telefonregninger (timevis med konferansesamtaler til USA hjemmefra). Jeg fikk detaljert utskrift av telefonregningen, på papir, og det var slitsomt å gå gjennom disse manuelt for å fordele kostnadene på mine klienter. Derfor brukte jeg enhver anledning til å mase på Telenor om at de skulle lage en tjeneste der de sendte ut den detaljerte telefonregningen som et Excel regneark, på epost. Dermed ville jeg ha kunnet automatisere min fakturering, i stor grad.

I stedet laget Telenor en web-tjeneste der man kunne logge seg inn og se den månedlige telefonregningen på skjermen. Det var forsåvidt nyttig for meg ved at jeg fikk regningen tidligere og ikke trengte å arkivere den selv – men det gjorde ikke fordelingsjobben noe enklere. (Det er mulig Telenor nå sender ut telefonregningene pr. epost, jeg vet ikke.) Hele poenget er at hadde jeg fått dataene i et standardisert format, ville jeg kunnet lage et eget system på toppen av dem, og dermed gjort livet mitt enklere. I stedet forsøkte Telenor å gjøre jobben for meg – og lyktes ikke.

Tilgjengeliggjøring av e
n visningstjeneste skal ikke frita ikke fra plikt til å publisere rådataene. Som Vox Publica sier, data er fakta vi kan bruke. Publisering gjennom egenkontrollerte visningstjenester tillater ikke at man bygger nye bruksmønstre og nye applikasjoner ut fra et definert grunnlagsmateriale. Og det er nettopp nye måter å bruke dataene på som er i samfunnets og vår alles interesse.

Til slutt…

Debatten om åpenhet rundt offentlige data er komplisert og involverer spørsmål om opphavsrett, kommersialisering (forbausende mange byråkrater synes det er festlig å leke butikk med godsakene, uten at det blir så mye butikk av det) og personvern. Dette innlegget er ment som høyttenking – jeg ser frem til debatten.

9.11.09: Oppdatering: Harald Groven har lagt til 6 nye grunner til å nekte publisering i kommentarene. Glimrende! Noen som kommer på grunn nr. 10?

9.11.09: Oppdatering II: Også publisert på e24.no (som, jeg må si, tar påpekning av bommerter pent.)

Technorati Tags: statistikk,Teknologirådet,offentlig informasjon,dataåpenhet,kartdata,innovasjon

16 tanker på “Dataåpenhet og motforestillinger”

kamikaze på november 8, 2009, kl. 12:15 sa:

Jeg er litt skeptisk til nummer tre her (hvis jeg forstår deg rett); at man skal ha plikt til å publisere rådata. Så lenge man selv kontrollerer publikasjonsformen så kontrollerer man også tilgjengeligheten — desto mer rådata man har, desto lettere vil det være for noen å gjøre disse søkbare og samle dem i store registre, for eksempel.
Eller hvis vi tenker i forbindelse med forskningsdata, ville det bety at grupper med stor kapasitet ville kunne utnytte innsamlet materiale fra grupper med mindre kapasitet.
Det jeg sier, er at publikasjonsplikt raskt kan komme til å bety at informasjon (og dermed makt) flyttes til dem som er best til å samle inn og katalogisere den. Og det synes jeg vi burde begrense, ikke legge til rette for.
Espen på november 8, 2009, kl. 12:29 sa:

Hmmmm…jeg bør kanskje bruke et annet uttrykk enn «rådata» her. Alt som skal publiseres, må naturligvis filtreres gjennom et personvernperspektiv. Men når det er gjort, bør alt legges ut i en form som tilllater alternative analyser. Hvis vi tar Utdanningsdirektoratet som eksempel: Ved kun å legge ut oversiktstabeller, og ikke legge dem ut i nedlastbar form, betyr det at man må bruke masse tid på å skrape dataene ut fra websider heller enn å kunne analysere dem direkte.
Dette vanskeliggjør analyser utført av andre enn Utdanningsdirektoratet. Uten at jeg skal si at det akkurat er slik i dette eksemplet, så er dette en måte å beholde makt på – og ikke en måte jeg synes skal fortsette.
Det er dataene som inneholder sannheten, ikke analysene. Og da skal dataene tilgjengeliggjøres slik at folk med andre meninger skal kunne komme opp med sine analyser, uansett om de som eier dataene liker disse analysene eller ikke. Noe annet ville rett og slett vært udemokratisk.
gamsjo på november 8, 2009, kl. 13:18 sa:

Veldig gode refleksjoner rundt åpenhet! Jeg tror graden av åpenhet reflekterer graden av modenhet i et demokrati. Dataåpenhet vil alltid oppleves som ubehagelig av enkelte, men det betyr ikke at vi skal la være.
Jeg har stor sans for punkt 2 – dette er antageligvis den eneste måten å sikre god datakvalitet på!
Til slutt: jeg har gjennom nær familie erfaring med NAV som presterer å bruke snart 2 år på å behandle en søknad om rehabelitering. Saksgangen er horribel og helt systematisk ineffektiv. Ansvarsfraskrivelse florerer. Mange lignende tilfeller gjør at dette må kunne kalles systemfeil. Ledere i NAV glatter over og uttaler seg som om vi her har noen beklagelige enkelttilfeller. De slipper for lett unna med slike påstander! Tenk om dette systemet hadde vært transparent og saksbehandlingstider og annen relevant data kunne vært tilgjengelig!
Harald Groven på november 8, 2009, kl. 13:47 sa:

Jeg kan dessverre fylle på listen din ytterligere hindre basert på erfaringer jeg har gjort med å drive forskning og folkeopplysning med offentlige data som dessverre er nesten utilgjengelige.
Her er selvopplevde avvisningsgrunner til å få tilgang til nedlasting av offentlige datasett som det verken var fornuftige økonomiske, personvern- eller statistikkfaglige grunner til å låse ned. Har anonymisert historiene for å unngå å forpurre videre samarbeid med etatene og saksbehandlerne som har sagt gitt avslag.
Motforestilling 4: Konvoiprinsippet, sakteste skip bestemmer farten for alle skipene
Datasettet vi har lyst å legge ut er en sammensetting av data vi har innhentet fra organisasjon X, Y og Z. Ledelsen i X og Y vil gjerne dele dataene, men siden organisasjon Z ville ha restriktive lisensvilkår som sikret at dataene ikke ble brukt på en måte som Z mislikte, måtte vi lage en standardkontrakt som var spiselig for Z og som hindrer ethvert ethvert gjenbruk, også for data fra X og Y.
Motforestilling 5: Eget datasystem, andres data
Vi forvalter bare data innsamlet fra etat Xs fagsystem. Vi må ha godkjenning fra etat X sitt styre, og de er skeptiske. For oss er det fint om dataene offentliggjøres, men X var ikke like begeistret.
Motforestilling 6: Om 100 år er allting glemt
Dataene er grunnlagsdata samlet inn av SSB. Disse er uansett begrunnelse ikke lov til å publisere før i år 2109! Fordi hjemmelen Statistikklovens § 2-7 forbyr bruk av statistiske opplysninger til annet enn aggregert statistikk.
Motforestilling 7: Butikk
Vi har lovet selskap S en kontrakt med å lage et nettløsning med dataene. Hvis vi gir bort grunnlagsdataene (slik at noen lager en bedre tjeneste av dem) vil det være dårlig butikk for S og dessuten få anbudsrunden og kontrakten mellom det offentlige og S til å fremstå som sløsing. [Denne begrunnelsen sies ikke eksplisitt, men er opplagt]
Motforestilling 8: Personvernkvalitetssikring
Rådataene inneholder klausulerte personopplysninger. Først når vi utleverer data til forskningsformål, sjekker vi at dataene er anonymiserte og at enkeltpersoner ikke kan spores i dataene. Hvis vi skal gi tilgang til rådatene til alle, forsvinner denne sjekken, og vi må bygge et abstraksjonslag oppå vårt datasystem som filtrerer det for å oppnå anonymisering. Det er dyrt.
Motforestilling 9: Undergjennomsnittlighetsangst
Nettløsningen som er laget på dataene muliggjør å se på dataene, men ikke å sammenligne enhetene som har rapportert disse. Hvis dataene leveres ut, vil det bli lagt til rette for komparasjon (noe som er en konspirasjon:-). Hvis noen organisasjoner får vite at de scorer dårligere enn andre, basert på at sammenligninger blir mulige, vil de vil slutte å rapportere inn dataene siden rapporteringen er frivillig.
Paul Chaffey på november 8, 2009, kl. 13:50 sa:

Meget bra bloggpost, Espen.
I dette foredraget til Hans Rosling for US State Department i sommer om utviklingsland og utviklede land (som er et glimrende foredrag av mange andre grunner også) er det etter ca 12 minutter en helt strålende argumentasjon for hvorfor offetnlige data skal deles på nettet og ikke selges i bøker fra Verdensbanken som bare noen ytterst få byråkrater og forskere kjøper:
Hans Nordhaug på november 9, 2009, kl. 01:35 sa:

Bra innlegg! Når du skrev om Utdanningsdirektoratet, kom jeg på et annet relatert eksempel – utdanning.no. I 2005/2006 var jeg på et møte hvor man diskuterte CDM (Course Description Metadata) som er et format for datautveksling av studieinformasjon med utdanning.no. Det visste seg fort at det kun var ment en vei – fra utdanningsinstitusjonene og inn til utdanning.no. Fortsatt tilbyr de bare søk til noen få aktører basert på iframe … Ref https://bak.utdanning.no/wiki/Partnere#Studieinformasjon
Harald Groven på november 9, 2009, kl. 09:58 sa:

@Hans Nordhaug
Studiedata er stengt ned pga det jeg har beskrevet ovenfor i min kommentar som: «Motforestilling 4: Konvoiprinsippet». Et universitet vil ikke dele sine studiedata, de fleste andre læresteder er positive til å dele.
Disclaimer: Jeg jobber i utdanning.no
Øyvind på november 9, 2009, kl. 16:22 sa:

Meget bra at du tar opp dette på din blog og gir det dekning på e24.no. Du føyer deg inn i rekken av personer som allerede har påpekt dette. Det kom flere bemerkninger til Offentlighetsloven da den var ute på høring nylig, bl.a fra Norwegian Unix User Group og Håkon Wium Lie som gikk på akkurat det samme som du poengterer, nemlig at man bør åpne opp kartdata. Vil gjerne gjøre deg oppmerksom på at det finnes de som allerede er i gang med å lage et gratis kart, openstreetmap.org, slik at vi kan få tilgang til kartdata gratis.
Espen på november 9, 2009, kl. 17:36 sa:

Øyvind – jepp, HWL er medlem av den samme ekspertgruppen. Jeg er imidlertid litt forsiktig med å snakke bare om kartdata – det er en gammel diskusjon, og det er mange andre former for offentlig informasjon som også bør frigis.
Kjetil Kjernsmo på november 9, 2009, kl. 23:40 sa:

Jeg vil varmt anbefale Tim Berners-Lees meget gode foredrag for TED om emnet:

Han påpeker at det også spiller en rolle om hvordan det publiseres, ikke bare at man dytter det ut et et eller annet proprietært XML-format, men at man gjør klart hva dataene faktisk betyr. Et eksempel: Jeg har musikksamlingen min på to forskjellige datamaskiner med to forskjellige systemer. På begge har jeg en database som inneholder noe som heter «rating», og på den ene maskinen gir jeg en rating. Problemet er at ordet «rating» sier ikke maskinene noen ting så dette kan ikke utveksles. Irriterende. Dette problemet løses elegant vha. Semantic Web-teknologi. Det er dette TimBL snakker om, her kan systemet vokse organisk og ikke ved at noen ovenfra trer standarder for alt mulig ned over hodet på folk.
Jeg tok initiativet til Community Projects når jeg satt i Semantic Web Education and Outreach Working Group. Et av prosjektene som kom ut av dette er Linked Open Data, der prinsippene allerede var knesatt av TimBL, og også beskrevet i foredraget. Nå har dette allerede vokst seg enormt stort, med milliarder på milliarder av datapunkter:
http://esw.w3.org/topic/SweoIG/TaskForces/CommunityProjects/LinkingOpenData
Her bør ikke Norge stå igjen på plattformen!
Kjetil Kjernsmo på november 9, 2009, kl. 23:45 sa:

@kamikaze: Det er så mye fint i fri programvareverdenen at jeg ikke tror bekymringen din trenger å være særlig reell i praksis.
Du kan f.eks. installere 4store: http://4store.org/ og lære deg SPARQL: http://www.w3.org/TR/rdf-sparql-query/ (som slett ikke er så vanskelig som det ser ut til), og så er du igang med analyse av enorme datamengder. Det vokser, og det blir bare bedre og bedre verktøy i fri-programvareverdenen. Jeg håper å involvere meg i forskningsprosjekter om dette, og vi har allerede skrevet under på at alle data blir frie og all programvare blir fri.
Share and enjoy! 🙂
chwlund på november 10, 2009, kl. 15:57 sa:

viktig og spennende tema. Så at FAD nå utlyser en rådgivningsstilling for endel av disse utfordringene. Men er det ikke et problem at man kanskje må halvere lønnen ift det private næringsliv for å begynne å jobbe med slike viktige problemstillinger i det offentlige? De som jobber i FAD, Difi, osv burde jo bli lønnet minst som de beste i det private. Tror samfunnsøkonomisk at man raskt tjener inn de lønningene hvis vi får fylt på med de smarteste menneskene i disse stillingene.
https://www.webcruiter.no/wcmain/advertviewpublic.aspx?oppdragsnr=547555108&culture_id=NB-NO&company_id=400150&Link_source_id=
Jarle Nerland på november 12, 2009, kl. 13:15 sa:

Statens Kartverk åpner sine web-tjenester slik at andre kan bruke deres kart i sine app. Foreløbig bare for private og ideele org, men det er bare et spm. om tid før det blir åpent for alle.
Det viktige her er at slike karttjenester kan hentes ut med standard web-service teknologi – krever bare kunnskap om html og web-service.
Og slik skal det være!
Benjamin på november 12, 2009, kl. 13:26 sa:

Men man skulle nesten tro Statens Kartverk hadde lest pkt 1, i sin begrunnelse for å slippe kun kartene, ikke de underliggende dataene (hvis jeg forstår det riktig) :
– For å kunne behandle våre grunndata må du ha kompetanse og GIS-verktøy [geografiske informasjonssystemer] som kun de store systemleverandørene og profesjonelle sitter på, sier Hadler.
Informasjonssjef Åge Hadler i Statens Kartverk i flg. http://www.digi.no/828341/statens-kartverk-aapner-opp
Carsten Pihl på november 16, 2009, kl. 15:59 sa:

God kommentar som alltid, Espen.
Høyesterett behandlet i sin til tilgang til sykehusjournaler. Spørsmålet var om pasienter skal få innsyn i egne journaler. En av motforestillingene mot offentliggjøring (fra sykehuset og legenes side) var at pasienten ikke skjønte hva som stod der.
Dette ble feid til side i en meget prinsippiell uttalelse fra Høysesterett. En parallell til det du skriver om pkt 1.
Og som et apropos: Får ikke linket til denne domsteksten, iom at den ligger bak lukkede dører hos Lovdata!
Joachim på november 19, 2009, kl. 22:14 sa:

Også knyttes frie data til denne teknologien. http://www.ted.com/talks/pranav_mistry_the_thrilling_potential_of_sixthsense_technology.html
Som i tillegg er open source.
Dette er «Google» i 2015.