Informasjonsmengdejusteringer

Hva er “mye” informasjon?
For en stund siden var jeg i en diskusjon rundt Store Norske vs. Wikipedia. En eller annen snakket om Store Norske som “en fantastisk mengde informasjon” og jeg tok meg i å tenke at, vel, det er det egentlig ikke. Det er snakk om ca. 20 bind med tekst og noen mindre bilder, noe som glatt og greit får plass på en minnepinne (en 16Gb-versjon koster nå kr. 299 279 hos Clas Ohlson).
Det siste Wikileaks-slippet (også kalt Cablegate) inneholder 257000 rapporter fra USAs mange utenriksstasjoner. Dette, sammen med litt annet smått og godt, (som ble sendt inn på en minnepinne) utgjør 1,6 Gb. Med andre ord kan man nå rusle rundt med 10 ganger denne informasjonsmengden i lommen til en pris av under en halv tank bensin. Og ikke bare rusle rundt med – analysere også. På FAST Forward i fjor så jeg demonstrert en ny lagringsmåte (column store) som tillater Excel-regneark med 100m linjer, der en gjennomsnittsberegning av en kolonne tok under et sekund.
Vi må rett og slett redefinere hva som er “mye” informasjon (eller, for den saks skyld, data.)
Cablegate er et resultat av SIPRnet – Secret Internet Protocol Router Network – et slags internt Internett innen de amerikanske utenriks- og etteretningstjenester. Dette nettverket har en lang historie – det ble faktisk startet i 1994, i et samarbeid mellom CIA og CSC, og var en implementering av WWW-protokollen som faktisk kom før det egentlige Internett. Folk fra CSC reiste opp til University of Minnesota Illinois (Urbana-Champlain) og fikk en beta-versjon av Mosaic fra Mark Andreessen, laget et nettverk kalt Intelink som forbandt CIA, andre deler av amerikansk etterretningstjeneste, og konsumenter av denne informasjonen, bl.a. det hvite hus. Hensikten var å tillate de ca. 50.000 analytikerne innen de ulike organisasjonene å utveksle informasjon – man hadde i kjølvannet av Gulfkrigen innsett at amerikanske etteretning ikke visste hva de selv visste, og at dette var et større problem enn den øket risikoen for informasjonslekkasje et nettverk innebar. En øyeblikkelig effekt av nettverket var at man sluttet å kjøre en daglig lastebil med dokumenter (kalt “the pizza truck”) mellom CIAs hovedkvarter i Langley og det Hvite Hus.
Da dette nettverket ble satt opp, var netthastigheten liten (.5Mbit) og harddisker typisk på ca. 100 Mb. Søkemotorer var primitive og det å laste ned et bilde noe som tok mange minutter. Den underforståtte sikkerhetsmekanismen var at hvis noen skulle laste ned noe, ville de bare får tak i deler av helheten – og dessuten ville man se en så stor nedlasting.
eksperimenterer Google med gigabit-nettverk og en 2-terabyte ekstern harddisk koster kr. 1095. 1,6 Gb vil man altså kunne laste ned i løpet av noen sekunder, informasjonsmengden er mindre enn en spillefilm, og utgør bare en brøkdel av hva en enkeltperson kan sitte med hjemme. Dette betyr at sentralt lagret innhold må betraktes som nedlastet i det øyeblikket det lagres – og man kan ikke lenger regne med at noe kan holdes innsperret så lenge det kan deles.
Egentlig er det rart ikke mer har lekket ut allerede – i følge The Guardian har millioner av mennesker tilgang til SIPRnet. Det skulle ikke forundre meg om det ikke finnes mange kopier av innholdet der ute – av folk som er nysgjerrige, kan tenke seg å skrive en bok om noen år, eller som rett og slett tar en lokal kopi for å kunne jobbe med informasjonen uforstyrret og uten å måtte forholde seg til nettverksproblemer og sikkerhetskoder. Produktivt – men skummelt.
Kanskje det største konsekvensen av Wikileaks og Cablegate for amerikanerne (og alle andre etterretningsorganisasjoner) ikke er hemmelighetene som blir kjent, men den reduksjonen i produktivitet som kommer som et resultat av at man legger nye lag med sikkerhetsrutiner på all informasjon, samt at man blir mindre villig til å dele informasjon med andre.
Datasikkerhet har alltid vært en avveining mellom produktivitet og hemmelighold – for mange koder og låser fører til at folk tar en lokal kopi eller skriver passordet på en PostIt-Note under tastaturet. Dagens sikkerhetseksperter må redefinere datasikkerhet ut fra en forståelse av at “mye” informasjon begynner å bli et meningsløst begrep – og spørsmålet blir hva man egentlig skal holde hemmelig, om noe.
Jeg misunner dem ikke den jobben.
(Se forøvrig min gamle artikkel The cucumber season: Reflections on the nature of information when there isn’t any. Denne bloggposten er også publisert på min Aftenposten-blogg.)

About these ads

4 tanker om “Informasjonsmengdejusteringer

  1. Interessant post, det var god lesing! Stusset dog ved dette:
    «Folk fra CSC reiste opp til University of Minnesota og fikk en beta-versjon av Mosaic fra Mark Andreessen…»
    Skulle gjerne sett en kilde for dette. Andreesen var student ved University of Illinois (Urbana Champaign), og utviklet Mosaic ved NCSA, som er en del av UIUC. Klarer ikke å finne noe informasjon som skulle tilsi at han hadde noe på UofM å gjøre, dessverre.

  2. Du har helt rett, skal fikse etterhvert. Det var UIUC og Urbana, naturligvis. Der har man igjen for å skrive ting fort…

Det er stengt for kommentarer.