New York Times hadde 4Tb med TIFF-bilder som skulle konverteres til PDF – en kjempejobb. En enkelt utvikler, Derek Gottfrid, bestemte seg så for å gjøre dette på egen hånd, og sydde sammen en løsning basert på tilgjengelig software og Amazon’s S3 og EC2-tjenester. Historien forteller han her, og Nick Carr forteller litt mer, inkludert at hele greia kostet (bortsett da fra Gottfrids tid) $240, eller omtrent kr 1600 etter dagens kurs. Med til historien hører at det var en feil første gang dette ble gjort, så alt sammen måtte kjøres en gang til.
Med andre ord, for en pris tilsvarende to jobbmiddager kan man nå bruke alment tilgjengelig infrastruktur til å gjøre en jobb man tidligere måtte ha datautstyr for millioner av kroner for.
Her er det store muligheter – tenk på alle mulige konverteringsjobber, generering av videoer, akademiske eksperimenter, backup under systemoppgraderinger, større prosesseringsjobber som skjer noen få ganger i året – mulighetene er legio.
Superdata til folket. Med kredittkort…..
I løpet av de siste par årene har det vært store diskusjoner rundt konvertering av offentlige dokumenter fra Microsofts gamle binærformater til ODF, med tanke på vedtaket som trer i kraft 1. januar 2009.
I denne prosessen har det blant annet vært diskutert hvor store kostnader dette vil medføre, både til utvikling, testing og datakraft. I denne sammenheng ser jeg din artikkel som svært spennende og aktuell for hvordan en tilsvarende prosess kan gjennomføres for dokumentkonvertering. Det trenger verken være vanskelig, komplekst eller dyrt, gitt at man faktisk løser de reelle utfordringene en slik konverteringsprosess byr på.
Kan være er NYT sitt TIFF-arkiv mer homogent enn offentlige dokumenter, men dog.
Så kan man jo spørre seg hvorvidt man faktisk trenger å konvertere disse dokumentene.
Jeg syntes det hørtes voldsomt enkelt ut sjøl, helt til jeg leste artikkelen. Normalt er det nok å bare
foreach *.tiff
do convert $f `basename $ .tiff`.pdf
done
og så bare vente til det var ferdig … men vil man det skal gå fort blir det mer komplisert. for ikke å snakke om at man vil ta vare på metadata.
odf garanterer nemlig ikke åpenhet. det garanterer, i prinsippet, at man kan åpne dokumentet om mange år siden formatet er lett å finne, men det er fortsatt mulig å kryptere dokumentene, legge informasjon i proprietære formater inn i dem –
og det mest interessante fra et åpenhetsperspektiv er jo metainformasjonen som gjør dokumentene lettere å søke etter. dersom word-dokumentene inneholder lite metainformasjon, får man lite gratis av å konvertere til odf, medmindre noen sitter og legger inn informasjonen manuelt, eller man kan bruke ai for å trekke informasjon fra dokumentene, noe som gitt originalformatet virker litt håpløst