Tekoäly suullisen kielitaidon arvioinnissa
Tekoälyn käyttöön ammattikorkeakoulun kielenopetuksessa ja suullisen kielitaidon arvioinnissa liittyy niin mahdollisuuksia kuin rajoitteita. Erityisen tärkeää on valita parametrit huolellisesti ja ottaa huomioon tekoälyn käytön eettiset ongelmat.
Tekoäly on arkipäiväistymässä nopeasti useilla elämänalueilla. Puhe tekoälystä näyttää lisääntyvän vielä nopeammin; usein saa käsityksen, että algoritmeihin perustuva yleismaailmallinen ”äly” on jo tosiasia ja käyttäjälle jää sen hyödyntäminen sopivissa tilanteissa – ja sen vaikutusten ja eettisyyden pohdiskelu. Jäsentymätön keskustelu johtuu suurelta osin siitä, että loppukäyttäjä ei osaa yleensä arvioida tekoälysovelluksen perusteita, rajoitteita tai mahdollisuuksia.
Klassinen esimerkki on seepran ja aasin automaattinen tunnistaminen: neuroverkkoa opetetaan esimerkkien avulla aineistossa, jossa on eri-ikäisiä seeproja ja aaseja. Tavoitteena on, että neuroverkko oppii muuttujien riippuvuussuhteet suoraan havaintoaineistosta: tässä tapauksessa kriittiset parametrit eli ominaisuudet liittyvät eläinten korvien muotoon ja värin kuvioihin, eivät esimerkiksi jalkojen pituuteen.
Joku voisi väittää, että koska tekoäly oppii helposti tämänkaltaisen luokittelutehtävän, meille jää vain tunnistuksen hyödynnettävyyden ja eettisyyden pohdinta – vaikkapa aasin ja seepran kannalta. Ennen kuin voimme arvioida tekoälyn eettisyyttä, meidän on kuitenkin ymmärrettävä mitä tekoäly on. Termit ”tekoäly”, ”algoritmi” ja ”luokitin” ovat seuraavassa suunnilleen samaa tarkoittavia käsitteitä; termi ”parametri” tarkoittaa mitattavaa ominaisuutta.
Tekoälypohjainen kielenopetus on vasta visioasteella
Digitaalinen oppimis- ja opetusalusta on standardiratkaisu lähes jokaisessa oppiaineessa ja lähes jokaisessa oppilaitoksessa. Oppimisalustalla toimii sovelluksia, joiden oletetaan palvelevan oppimista. Kielenopetuksen digitaalinen strategia näyttää nykyään kiteytyvän Moodle-oppimisalustaan, johon upotetaan oppimissovelluksia.
Ihmisen tekemä arviointi on edelleen opiskelijoiden arvosanojen perustana.
Tekoälypohjainen kielenopetus ja -oppiminen on tällä hetkellä vasta visioasteella. Vaikka opintomateriaali ja opiskeluympäristöt ovat digitaalisia, digitaalisesta, tekoälyalgoritmeihin perustuvasta arvioinnista ei vielä voida puhua. Ihmisen tekemä arviointi on edelleen opiskelijoiden arvosanojen perustana, sekä vieraissa kielissä että muissa aineissa.
Kielitaidon arvioinnissa standardimalli, jota käytetään myös ammattikorkeakoulussa, on nykyään Euroopan neuvoston kehittämä Kielten oppimisen, opettamisen ja arvioinnin eurooppalainen viitekehys. Viitekehyksessä kuvataan taitotasoja kuullun ymmärtämisessä, puhumisessa, luetun ymmärtämisessä ja kirjoittamisessa. Taitotasot vaihtelevat suppeasta viestinnästä tutuimmissa tilanteissa aina selviytymiseen vaativissa kielenkäyttötilanteissa. (Opetushallitus. Kehittyvän kielitaidon tasojen kuvausasteikko.)
Tulevaisuudessa eurooppalainen viitekehys tullee arvosana-asteikoksi kaikessa kielenopetuksessa ja arvioinnissa. Digitaalisen opetusmateriaalin sekä opiskelijoiden tuottaman materiaalin yleistyessä mielenkiintoinen kysymys tulee olemaan, voidaanko kielitaidon arviointia automatisoida nimenomaan eurooppalaista viitekehystä hyödyntämällä.
Ilmiö on kuvattava numeroina
Kun mietitään tekoälyä ja sen toimintaa, on ymmärrettävä syvällisesti ilmiö, jolle tekoäly tekee jotain: analysoi, arvioi tai luokittelee. Tekoälyalgoritmien perustana on ilmiön, vaikkapa englannin suullisen kielitaidon tai spesifimmin ääntämisen, kuvaaminen koneen ymmärtämällä tavalla.
Kone ei ymmärrä ennen kuin se laskee.
Ilmiö kuvataan tällöin numeeristien muuttujien avulla. Opettaja voi arvioida puheen sujuvuutta osana kielitaidon taitotasoa: opettajan on helppo tunnistaa sujuva puhe ja erottaa se sujumattomasta. Koneelle tai tekoälylle tehtävä on mahdoton, jos sujuvan puheen parametrejä ei ole määritelty laskettavassa muodossa: kone ei ymmärrä ennen kuin se laskee.
Tekoäly on täsmälleen niin hyvä kuin sen taustalla oleva tutkimus: mitä parametrejä käytetään arvioitavan ilmiön mallintamisessa sekä miten ja millaisella aineistolla tekoäly on opetettu? Tekoälyn tekemä arviointi ja luokittelu pyrkii jäljittelemään ihmisen tekemää arviointia ja luokittelua.
Käytännössä tarvitaan suuri määrä ihmiskoehenkilöiden tekemää arviointia ja luokittelua esimerkiksi sen suhteen, onko puhe hyvin sujuvaa, melko sujuvaa vai sujumatonta. Tällä ns. opetusaineistolla voidaan sitoa tietyt parametrit ihmisten havaitsemiin sujuvuuden asteisiin. Tämän opetusprosessin jälkeen tekoälyalgoritmilla on valmius tietyn tasoiseen kohdeilmiön luokitteluun ja arviointiin uudessa aineistossa.
Yksi puheen mitattava parametri on sävelkorkeus ja puhenopeus; usein käytetään termiä puheen prosodiikka. Puheen sävelkorkeus eli intonaatio, kuuluvuus eli intensiteetti sekä puhenopeus ja tauotus eli taukojen suhde hiljaisuuteen tietyllä ajanjaksolla ovat taustamuuttujia, joiden vaihtelu määrittää, kuinka sujuvalta tai eloisalta puhe kuulostaa. Nämä muuttujat esiintyvät luonnollisesti myös kielen oppijan tai opiskelijan puheessa ja ovat tekijöitä, joiden avulla opettaja arvioi tuotosta; on huomattava, että opettaja ei välttämättä mitenkään tietoisesti tarkkaile akustisia muuttujia vaan tekee kokonaisarvion.
Tekoäly kielitaidon arvioinnissa: näin se rakentuu
Alkuperäistutkimuksessa ”Automatic Classification of Segmental Second Language Speech Quality Using Prosodic Features” (Väyrynen ym. 2009) luokittelukriteerinä käytettiin puheen akustista signaalia, ja automaattisen luokittelun opetusaineistona toimi opettajien eurooppalaiseen viitekehykseen perustunut arvio puhemateriaalista. Toisin sanoen tutkittiin, pystyykö tilastollinen luokittelu ”oppimaan” opettajien tekemän luokittelun ja soveltamaan sitä uudessa puhemateriaalissa.
Puhemateriaali koostui Yle Areenan videoaineistoista, jossa keskustellaan ruotsin asemasta suomessa ja puhujina on suomalaisia poliitikkoja. Kaksi ammattikorkeakoulun ruotsin opettajaa arvioi ruotsin ääntämisen taitotason eurooppalaista viitekehystä hyödyntäen. Arvio oli konsensusarvio: yksi yhteinen ruotsin ääntämisen taitotasoarvio kullekin puhujalle.
Puhemateriaali analysoitiin akustisesti seuraavien parametrien osalta: taukojen suhde puheeseen, tietyn mittaisten taukojen osuus, soinnillisen signaalin suhde soinnittomaan, perustaajuus, intensiteetti ja energian määrä eri taajuuksilla.
Luokittelussa opetusaineisto koostui 16 puhenäytteestä, jotka olivat 10 sekunnin pituisia. Testiaineisto koostui myös 16 samanpituisesta puhenäytteestä. Luokittelun tavoitteena oli löytää parametrit, jotka yhtäältä parhaiten korreloivat havaittujen taitotasojen kanssa ja toisaalta parhaiten erottelevat taitotasoja toisistaan.
Parametrien valitsemiseksi suoritettiin diskriminanttianalyysi, joka automaattisesti jättää huonoimmat suureet pois vektorista. Tulosten perusteella tehtiin automaattinen taitotasoluokitin, joka luokittelee annetun puhenäytteen johonkin etukäteen määritellyistä taitotasoista.
Kuudella parametrilla yli 90 prosenttia näytteistä voidaan luokitella edellä mainittuihin taitotasoihin. Taitotasojen luokittelu onnistuu jokaisen luokan osalta hyvin, eikä mitään luokkaa ”sotketa” muuhun luokkaan mainittavassa määrin. Soinnillisuuden osuus kokonaiskestosta parametri yksin mahdollistaa jo 70 prosentin automaattisen luokittelun, ja taukojen lukumäärä parametri lisättynä edelliseen 75 prosentin.
On todennäköistä, että joillakin puhujilla selvästi havaittavaissa oleva soinnillisuuden puuttuminen esimerkiksi äänteistä /b/, /d/ ja /g/ alensi taitotasoarviota. Samoin runsaat epäröintitauot, joita oli selvästi havaittavissa tietyillä puhujilla, todennäköisesti antoivat mielikuvan epävarmasta tai takeltelevasta puhujasta.
Nämä havainnot eivät ole järin yllättäviä; periaatteessa olisi mahdollista, että suurempaa akustisten parametrien määrää hyödyntävä luokitin toisi esiin yllättäviä parametreja, vaikkapa perustaajuuden nousun jyrkkyyden tai sen ”kulmakertoimen”. On mahdollista, että eräät äänenlaadun ominaisuudet liittyvät myös havaittuun ääntämisen taitotasoon; ns. supralaryngaaliset asetukset voivat heijastaa esimerkiksi sosiaalista murretta tai spesifiä puhetilannetta. Voisivatko henkäyssoinnillinen tahi narinainen ääni liittyä, ainakin epäsuorasti, arvioon henkilön ääntämistaidoista?
Puhutun kielen taitotasojen automaattinen luokittelu on tietyssä kontekstissa mahdollista.
Automaattisen luokittelun tulokset ovat sinällään, numerojen valossa, erinomaisia. Yli 90 prosenttia on vaikuttava tulos. Voidaan todeta, että luokittelutulokset ovat lupaavia ja että puhutun kielen taitotasojen automaattinen luokittelu on tietyssä kontekstissa mahdollista. Tulosten osalta on kuitenkin painokkaasti todettava, että ne ovat alustavia.
Tekoäly ja kielitaidon arviointi
Edellä kuvattu koe on melko tyypillinen tekoälyn tai luokittelualgoritmin sovellustilanne. Aineistosta mitataan suuri määrä parametrejä ja luokittelu opetetaan ihmisarvioijien tekemän luokittelun perusteella: pyritään siis simuloimaan ihmisten tekemää arviointia tai luokittelua sellaisten parametrien avulla, joita kone voi hyödyntää – jotka ovat siis mitattavia.
Edellä kuvattu koe on teknisesti melko triviaali, mutta potentiaali on merkittävä. ”Hyvin” tai ”oikein” opetettu algoritmi pystyisi käymään läpi vuorokauden ympäri digitaalista puhemateriaalia ja luokittelemaan sitä taitotasoluokkiin. Periaatteessa olisi siis täysin mahdollista, että ammattikorkeakoulun kielten tasokokeissa tuotettu puhemateriaali ajettaisiin läpi algoritmin, joka suorittaisi automaattisesti mittaukset ja luokittelun. Lopputulos olisi opettajalle lähetettävä luokittelutulos, joka voisi suoraan olla arvosana esimerkiksi asteikolla 1–5.
Tekoäly ei vielä arvioi opiskelijan tuottamaa vierasta kieltä; opettajat tekevät arvioinnin. Tähän on hyviä syitä. Toimiakseen luotettavasti tekoälyyn pohjautuva luokitin vaatii intensiivisen tutkimus- ja aineistoresurssin.
Yllä kuvatussa kokeessa puheaineisto on pieni; automaattinen luokittelu edellyttäisi opetusaineistossa sata- tai tuhatkertaista aineistoa luotettavia johtopäätöksiä varten. Asiantuntijaarvioita tekemään tarvittaisiin jopa useampia kymmeniä asiantuntijoita tai opettajia.
Lopullista arviointia tekoäly ei voi tehdä.
Ammattikorkeakoulun kieltenopettajalle tekoäly tarjoaa mahdollisuuksia – varauksin. Tekoälyn vahvuus on siinä, että se analysoi, luokittelee ja arvioi väsymättä ja työajoista välittämättä. Tehdyt luokittelut ja arviot toimisivat ideaalitapauksissa lopullisen arvioinnin tukena: tekoälyn tekemä arviointi kielen taitotasosta olisi suuntaa antava ja epävarma. Lopullista arviointia tekoäly ei voi tehdä.
Opettaja halunnee tietää ennen tekoälysovelluksen käyttöön ottoa, mikä kielivariantti ja formaalisuusaste on ollut opetusaineiston pohjana. Onko opittavasta kielestä jokin yleisesti hyväksytty ideaalimalli, jolla tekoälyluokitin on opetettu? Onko tämä ideaalimalli varauksitta tavoittelemisen arvoinen, muuttuuko se ajan kuluessa ja eri alueilla? Huomioidaanko kielen variaatio, vapaa ja kontekstuaalinen vaihtelu esimerkiksi äänteissä?
Tekoäly kohtaa suuria haasteita, kun siirrytään merkitykseen eli semantiikkaan. Merkitys on asia, jonka laskennallinen mallintaminen läheskään täydellisesti on mahdoton tehtävä: tekstin ja puheen syvä- ja viittausrakenteet, ironia, alluusiot ja kontekstuaalinen merkitys ovat tekoälyn ulottumattomissa. Suullisen kielitaidon analyysissa ei voida sulkea pois tilanteita, joissa näennäisesti asiaankuulumattomat viittaukset ovat merkityksen kannalta olennaisia.
Käytännön ongelma liittyy opettajan tunteeseen, kun tekoäly arvioi opiskelijan kielen taitotason eri arvosanalla kuin hän. Arvosteleeko opettaja ”väärin”, tarkkaileeko tekoäly myös opettajan tekemää arviointia?
Opettajalle voi tulla tunne, että kone antaa jotenkin lopullisen ja objektiivisen arvosanan. Tällaista mielikuvaa voi olla käytännön työssä vaikea vastustaa. Tieto on tässä jälleen avainasemassa; opettajan on kyettävä kyseenalaistamaan tekoälyn suorite. Parhaiten se onnistuu tekoälyn toiminnan ymmärtämisen kautta.
On myös syytä pohtia, onko tarkoituksenmukaista, että opiskelija saa arvion kielen taitotasosta tekoälyluokittimelta? Ymmärtääkö opiskelija arvioinnin luonteen ja sen, että se ei ota huomioon parametriparadigman ulkopuolisia asioita? Osa opiskelijoista voinee hyödyntää algoritmia anonyymina arvioijana esimerkiksi siten, että he testaavat jatkuvasti ja säännöllisesti kielitaitonsa kehittymistä; osaa algoritmin mekaanisuus voinee jopa kauhistuttaa.
Lienee myös mahdollista, että tekoälysovelluksen lisensoinnissa on ehto, että se saa anonyymisti kerätä aineistoa kehitystyötä varten. Opiskelijan tuottama kieliaineisto auttaisi siis algoritmin jatkokehittelyssä.
Kielitaidon automaattinen arviointi ei kehity ilman massiivista opetusaineistoa, mutta tietosuojakysymykset on selvitettävä erityisen huolellisesti. Puhetietokannat ovat globaalisti haluttua aineistoa, ja niillä on useita käyttömahdollisuuksia, pedagogisista tavoitteista aina forensiseen tutkimukseen.
Tekoälyn kehitys tulee vääjäämättä jatkumaan ja tehostumaan; tällä hetkellä tuskin osaamme kuvitella mahdollisuuksia, jotka tekoälyllä on esimerkiksi viidentoista vuoden päästä.
Merkityksen ongelma läpäisee tekoälyn kaikilla alueilla: merkitys ja sen tulkinta on olennaisesti inhimillistä toimintaa. Voidaan ajatella, että merkityksen ongelman täydellinen ratkaisu on tekoälyn kehittämisen viimeinen vaihe. Jos tämä ns. singulariteettiongelma joskus ratkaistaan, maailma muuttuu ratkaisevasti. Mihin suuntaan – tästä on useita käsityksiä.
Lähteet
Opetushallitus. Kehittyvän kielitaidon tasojen kuvausasteikko. Saatavilla 2.10.2019 https://www.oph.fi/fi/koulutus-ja-tutkinnot/kehittyvan-kielitaidon-tasojen-kuvausasteikko
Väyrynen, E., Keränen, H., Toivanen, J. & Seppänen T. (2009). Automatic Classification of Segmental Second Language Speech Quality Using Prosodic Features. Teoksessa P. Branderud & H. Traunmuller (toim.) Proceedings of FONETIK 2009 (s. 146–149). Tukholma: Stockholm University, Department of Linguistics.
Pysyvä osoite: http://urn.fi/URN:NBN:fi-fe2019080123384
Aiheeseen liittyviä termejä
- Forensinen (kielen)tutkimus on soveltavan kielitieteen haara, jota käytetään rikostutkinnan apuna kirjoittajan tunnistamiseksi.
- Intonaatio tarkoittaa puheen havaittua sävelkorkeutta.
- Diskriminanttianalyysi on menetelmä, joka käytössä esimerkiksi tilastollisessa hahmontunnistuksessa.
- Parametri tarkoittaa mitattavaa ominaisuutta.
- Perustaajuus tarkoittaa äänihuulten värähtelytaajuutta.
- Prosodiikka tarkoittaa puheen sävelkorkeuden ja rytmin vaihtelua.
- Supralaryngeaalinen tarkoittaa äänihuulten yläpuolista.