Siirry sisältöön
Kaksi ihmistä keskustelee, välissä kirjaimia, piirroskuva.
Juttutyyppi  Kielitohtorin diagnoosit

”Konehan se kääntää” – tarvitaanko kielen asiantuntijoita enää? (Osa 1)

Google-kääntäjä on opiskelijoille ja opettajille tuttu työkalu. Opettajien kokemukset kääntäjästä ovat vaihtelevia, sen mukaan, kuinka suoraan vieraskielinen teksti on työkalulla tuotettu. On esitetty sellaisiakin arvioita, että kielenopettajan työpanos tulee vähitellen merkityksettömäksi Googlen hoitaessa kääntämisen. Kuinka hyvä Google-kääntäjä siis on?

Google-kääntäjän pohja on tilastollinen. Opetusaineistona toimii valtava luonnollisen kielen tietokanta (tekstimassa), ja algoritmi oppii millaiset sanat ja sanajonot (lauseet, virkkeet) vastaavat toisiaan kielten välillä. Google-kääntäjä lanseerattiin vuonna 2006, ja alkuvaiheessa tietokantana toimi YK:n ja EU:n dokumenteista ja puheiden transkriptiosta koostuva datapankki.

Kyse on numeronmurskauksesta: suunnattoman kielitietokannan ja laskentatehon avulla ilmauksien vastaavuuksille kielten välillä saadaan todennäköisyyksiä. Kun todennäköisyyden arvioidaan ylittävän asetetun raja-arvon, saadaan konekäännös. Saatu käännös on usein aivan tai riittävän oikea, ainakin siinä mielessä, että viestin ydinsisältö välittyy.

On selvää, että hyvin taiteellisen tekstin luotettava kääntäminen on haaste, koska vastaavuuksia ei suurestakaan kielitietokannasta välttämättä löydy. Ad hoc -asiayhteyksien ja monitulkintaisuuden havaitseminen on ihmisen vahvaa aluetta, eikä oikeaa vastaavuutta tilastollisesti ole useinkaan mahdollista löytää.

Google-kääntäjä  hyödyntänyt vuodesta 2016 lähtien vahvasti neuroverkkoja. Kansainvälisesti merkittävä neuroverkkotutkimuksen ja koneoppimisen uranuurtaja oli suomalainen Teuvo Kohonen (1934–2021).

On selvää, että hyvin taiteellisen tekstin luotettava kääntäminen on haaste, koska vastaavuuksia ei suurestakaan kielitietokannasta välttämättä löydy.

Neuroverkot ovat matemaattisia malleja, jotka tavallaan simuloivat (ihmisen) luonnollisia hermoverkkoja, mutta lopputulokseen päästään kehittyneiden signaalinkäsittelyn mallien avulla. Tavoitteena on, että algoritmi oppii muuttujat ja niiden kompleksit suhteet suoraan havaintoaineistosta. Syväoppimisessa neuroverkot luokittelevat automaattisesti syötettä ilman ohjausta tai esiluokittelua. Neuroverkkojen matematiikka on monimutkaista, mutta intuitiivisesti on selvää, että valtavien aineistojen hyödyntäminen käännösvastineiden määrittelyssä edellyttää automaattista ja syväoppivaa luokittelua. Opetustietokannat ovat niin laajoja, että ihmisen intervention tulee olla prosessissa olematon tai minimaalinen.

Toiminnallisuutta

Google-kääntäjä on toimiva työkalu. Tenttivastauksen sillä voi saada kielententissä käännettyä, jos on valmis ottamaan kiinnijäämisen riskin. Seuraava voisi olla esimerkki:

Rintakipu on aina syytä ottaa vakavasti. Taustalla voi olla vakava sydänoire. Pistävä kipu on usein tukielinperäinen mutta laaja-alainen puristava kipu voi olla merkki sydänkohtauksesta. Kammiovärinä on hengenvaarallinen, ja eteisvärinäkin pitää hoitaa.

Englanniksi tämä Google-kääntyy ongelmitta:

Chest pain should always be taken seriously. The background may be a serious heart condition. The stabbing pain is often of musculoskeletal origin, but widespread squeezing pain can be a sign of a heart attack. Ventricular fibrillation is life-threatening, and atrial fibrillation must also be treated.

Tilanne on sama Google-ruotsinnoksen osalta:

Bröstsmärtor ska alltid tas på allvar. Bakgrunden kan vara en allvarlig hjärtsjukdom. Den stickande smärtan är ofta                av muskuloskeletalt ursprung, men utbredd klämsmärta kan vara ett tecken på hjärtinfarkt. Ventrikelflimmer är livshotande och även förmaksflimmer måste behandlas.

Google-kääntäjä toimii arkipäivän käännöstarpeissa yleensä hyvin. Esimerkkinä seuraava viesti:

Haluaisin varata Stalin 1200 GL -autolleni viidenkymmenentuhannen kilometrin huollon. Olisiko vapaita aikoja? Mikä on huollon kustannusarvio?

Tämä kääntyy ruotsiin seuraavasti:

Jag skulle vilja boka en service på femtiotusen kilometer för min Stalin 1200 GL-bil. Skulle det finnas lediga tider? Vad är uppskattningen av underhållskostnaden?

Englantiin ruotsinkielinen käännös kääntyy seuraavasti:

I would like to book a fifty thousand kilometer service for my Stalin 1200 GL car. Would there be free times? What is the maintenance cost estimate?

Viesti pyörähtää ruotsin kautta englantiin aivan oikein; sisältöhävikkiä ei tule matkalla. Suuri osa ”tavallisten ihmisten” käännöstarpeista olisi oletetusti tämän tyyppisiä. Asiantuntijat kirjoittavat tekstinsä suoraan kohdekielellä (käytännössä englanniksi), ja tarvitsevat käännösapua satunnaisesti lähinnä sanatasolla.

Tilanne muuttuu, jos käännöstä kaipaava haluaa ilmaista itseään erikoisemmin:

Haluaisin varata Stalin 1200 GL -autolleni viidentuhannen peninkulman huollon.

Algoritmi kääntää seuraavasti:

I would like to book a five-thousand penny service for my Stalin 1200 GL car.

Jag skulle vilja boka en tjänst på fem tusen öre för min Stalin 1200 GL-bil.

Todettakoon, että pelkkä sana peninkulma kääntyy Googlella hiukan säädyttömästi. Google-kääntäjä näyttää sopivan toisiin teksteihin paremmin kuin toisiin. Tekstin tavallisuus on valttia, luovuus ei.

Google-kääntäjän jälki on siis hyvää, muttei täydellistä. Minkälaisia käännöshaasteita työkaluun liittyy? Niihin perehdymme tämän blogisarjan toisessa osassa.

Pysyvä osoite: http://urn.fi/URN:NBN:fi-fe202301021069