Google Translate har lagt til 10 nye språk, deriblant norsk. La meg se, hvis vi tar noe velskrevet norsk, som for eksempel noen paragrafer fra dagens leder i Aftenposten:
Med en overlegen seier i demokratenes nominasjonsvalg i West Virginia har Hillary Clinton enda en gang satt fingeren på Barack Obamas mest sårbare punkt – hans påfallende svake oppslutning hos hvite velgere med inntekt og utdannelse under gjennomsnittet. […]
Obamas nederlag i West Virginia endrer uansett ikke det faktum at han er meget nær ved å sikre seg nominasjonen som Det demokratiske partis presidentkandidat. Han leder i antall delegater til landsmøtet i Denver i august, har en velfylt valgkampkasse og får støtte fra stadig flere innflytelsesrike personer i partiet.
Og likevel ligger en nagende tvil på lur. Obama er en karismatisk skikkelse og har talegaver langt utover det vanlige, men han klarer fremdeles ikke å overbevise mange av sitt eget partis tradisjonelle arbeidervelgere. Det kan fort ende med at de havner i armene på republikaneren John McCain.
Her er oversettelsen til engelsk:
With a superior win in the Democrats nominasjonsvalg in West Virginia have Hillary Clinton yet again put his finger on Barack Obama’s most vulnerable point – his striking weak support among white voters with income and education is below average. […]
Obama defeat in West Virginia does not change regardless of the fact that he is very close to securing nominasjonen as the Democratic partis presidentkandidat. He leads in the number of delegates to a natural choice in Denver in august, has a velfylt valgkampkasse and receive support from an increasing number of influential people in the party.
And still there is a sting doubt on the sly. Obama is a charismatic figure and has talegaver far beyond the ordinary, but he can still unable to convince many of his own partis traditional arbeidervelgere. It could easily end in that they end up in the arms of the Republican John McCain.
Her er det masse feil, både grammatikalske ("striking" skal være "strikingly" i første paragraf, for eksempel) og semantiske ("defeat […] does not change"). Dessuten har Google Translate trøbbel med norske sammensatte ord som valgkampkasse, noe man burde forvente, men jeg hadde jo trodd "nominasjonen" skulle gå greit.)
La oss så se hva vi får hvis vi går tilbake igjen:
Med en overlegen seier i Democrats nominasjonsvalg i Vest-Virginia har Hillary Clinton enda en gang sette fingeren på Barack Obama er mest sårbare punkt – hans slående svak støtte blant hvite velgere med inntekt og utdanning er under gjennomsnittet. […]
Obama tap i West Virginia ikke endres uavhengig av det faktum at han er svært nær å sikre nominasjonen som demokratiske aksje presidentkandidat. Han leder i antall delegater til et naturlig valg i Denver i august, har en velfylt valgkampkasse og får støtte fra et økende antall innflytelsesrike personer i partiet.
Og likevel er det en brodd tviler på lur. Obama er en karismatisk figur og har talegaver langt utover det vanlige, men han kan fortsatt ikke klarer å overbevise mange av sine egne aksjer tradisjonelle arbeidervelgere. Det kan lett ende med at de ender opp i armene av det republikanske John McCain.
Her kommer hovedbudskapet og mesteparten av detaljene bra gjennom. "Skikkelse" har blitt "figur" og man klarte ikke overgangen fra "Democrats" til "demokratene", for eksempel. Men mesteparten av språk og innhold kommer tilbake igjen.
Dette er faktisk ikke dårlig. Jeg bruker automatisk oversettelse (Babelfish hittil) når jeg av og til får noe på tysk eller spansk, har en vag idé om hva som står der, og gjerne kjapt vil forstå det. (En gang tok jeg en sjanse, skrev et svar på svært enkel engelsk, oversatte det til spansk og sendte det ut. Mottakeren trodde jeg kunne spansk.) Med forsiktighet kan man bruke dette, men ikke basere seg på det – omtrent som store deler av Wikipedia.
Med litt bruk av crowdsourcing burde det la seg gjøre å finjustere (f.eks. kan man oversette "valgkampkasse" med "war chest", men ikke den andre veien). Og det åpner jo nye muligheter for studenter og alle som ønsker å søke litt utenfor kjente veier. Og en rekke bruksanvisninger ser ut til å ha vært kjørt gjennom automatisk oversettelse.
Hva blir effekten av dette? Jeg pleier å si at som regel vet jeg om teknologiske og andre Internett-pregede nyheter 5-10 dager før de kommer i norske medier. Nå blir vel den tiden kortet ned, muligens med en dag eller to.
Great knock.
Jeg liker hvordan West Viginia har blitt til både Vest-Virgina og West Virginia i den siste oversettelsen. Hvordan har det gått til, mon tro?
Det er ganske enkelt: Originalteksten «fornorsker» ikke West Virginia, oversettelsesprogrammet gjør det. Jeg mener det er mest korrekt å gjøre som Aftenposten gjør opprinnelig (siden «West» er en del av delstatsnavnet, men som regel stemmer ikke dette, og da er en fornorsking korrekt. Så kan man argumentere for at siden «West» er kapitalisert, bør det ikke fornorskes, men da får du problemer i de tilfellene der ordet kommer i begynnelsen av en setning.
Oversettelsesprogrammer er nødt til å ta noen snarveier, delvis fordi de ellers ville blitt for trege, men mest fordi det ville tatt så lang tid å få semantikken på plass. Hvilket er grunnen til at en «crowdsourcing»-tilnærming er en mulighet – man kan rett og slett «lære opp» programmet enten ved å ha brukere som skriver inn regler (eller bedre oversettelser) direkte, eller man kan finne tekster som har blitt oversatt og lære av dem.
(Og som vanlig er det ikke enten-eller): Alle disse teknikkene fungerer og kan brukes samtidig.
Hmmm….der var jeg litt kjapp – det er to forskjellige versjoner i samme tekst, ja. Hmmmm….. ingen god forklaring på det, bortsett fra at man kanskje opererer med sannsynlighetsberegninger og West-vs-Vest ligger svært nær 50%.
En annen sak er jo at «endrer ikke det faktum at» blir til «ikke endres» og at betydningen av hva som endres blir endret…..