Tekoäly ja data kieltenopettajan työssä
Kieltenopettaja saattaa aprikoida, viekö tekoäly joskus hänen työnsä. Hyödyllisempää voisi olla, jos opettaja pohtisi, miten hän pystyisi hyödyntämään hallitsemaansa arvokasta dataa tekoälyn kehittämisessä.
Tekoälyä mystifioidaan edelleen: kyseessä ei ole ihmisen ajattelun kaltainen tai yli-inhimillinen entiteetti, joka pystyy ratkomaan ongelman kuin ongelman. Tekoäly ei ajattele itsenäisesti tai ole tietoinen itsestään. Toisaalta se ei ole tarpeenkaan. Tekoälyn ei tarvitse olla ihmisen älyn kaltainen, yhtä vähän kuin lentokoneiden tekniikan tulee olla lintujen lentokyvyn kaltainen.
Tekoäly ei ole monoliitti: on olemassa useita koulukuntia ja lähestymistapoja tekoälyn kehittämisessä. Kehitetyistä ratkaisuista muovautuu suotuisissa olosuhteissa kuhunkin käyttötarkoitukseen paras teknologia.
Data ja tekoäly
Tekoäly perustuu matematiikkaan, esimerkiksi tilastolliseen hahmontunnistukseen. Puhutaan algoritmeista, jotka luokittelevat dataa matemaattisin periaattein. Yhtä tärkeä edellytys tekoälylle on data. On ilmeistä, että datan (sen määrän ja laadukkuuden) merkitys on usein suurempi kuin käytetyn algoritmin. Useamman algoritmin suorituskyky voi olla keskimääräisesti sama, mutta tekoälyn käyttäjälle näkyvä kokonaissuorituskyky riippuu datan ominaisuuksista (Kananen & Puolitaival, 2019, s. 65): ”Tekoälyn suorituskykyyn ja toimivuuteen vaikuttaa ratkaisevasti tekoälyn koulutukseen käytetty data. Datan laatu ja ihmisen toiminta datan tuottamisessa vaikuttavat suoraan myös tekoälyn suorituskykyyn.”
Tekoäly on yhtä hyvä kuin sen koulutukseen käytetty opetusaineisto. Tietojenkäsittelytieteessä tunnetaan aksiooma Roskaa sisään, roskaa ulos: virheellinen data tai syöttötieto johtaa virheelliseen lopputulokseen.
Tekoäly on yhtä hyvä kuin sen koulutukseen käytetty opetusaineisto.
Tekoälyn spesifien sovellusten kehittämisessä tarvitaan usein referenssidataa eli ihmisen analysoimaa ja luokittelemaa dataa. On olennaista, että asiantuntijat luokittelevat opetusaineiston: esimerkiksi lääkärit luokittelevat kudosnäytteet hyvä- tai pahalaatuisiksi, työnjohtajainsinöörit luokittelevat hitsauksen jäljen kelvolliseksi tai ei-kelvolliseksi ja turva-alan asiantuntijat luokittelevat sähköpostiviestit uhkaaviksi tai ei-uhkaaviksi. On aivan olennaista, että opetusaineiston luokittelu tehdään huolellisesti ja asiantuntevasti, jotta näin muodostuvaa opetusaineistoa voidaan käyttää tekoälyn opettamisessa uuden data luokittelutehtäviä varten.
Referenssidata tunnetaan nimellä Golden Dataset tai Ground Truth; kyse on siis ajantasaisesta (huippu)asiantuntijoiden luokittelemasta datasta. Referenssidata voi ajan saatossa luonnollisesti muuttua, kun ihmisasiantuntijat päätyvät toimivampaan luokittelumalliin. Tekoäly sertifioidaan ajan tasalla olevan referenssin pohjalta. Miten tämä kaikki liittyy esimerkiksi Diakin kieltenopettajan toimenkuvaan?
Kielidata
Korkeakoulun opiskelijat tuottavat tenttivastausten muodossa vuosittain valtavan määrän dataa. Verkkotenteissä tuotettuja kirjallisia vastauksia erityisesti suomeksi, englanniksi ja ruotsiksi tulee vuosittain yhdessäkin korkeakoulussa satoja, ellei tuhansia. Olennaista on, että aineisto (vaikkapa ruotsinkieliset esseemuotoiset tenttivastaukset) tulee myös arvioiduksi arvosanaa varten asiantuntijoiden toimesta järjestysluokan asteikolla 1–5 (tai hylätty).
Jos tekstin piirteitä analysoidaan, saadaan luettelo datan vaikuttavista ominaisuuksista. Sellaisia voivat olla esimerkiksi virkkeen pituus, sisältö- ja kielioppisanojen suhde, sivulauseen sanajärjestyksen oikeellisuus, pää- ja sivulauseiden suhde, käänteisen sanajärjestyksen ja menneen ajan aikamuotojen suhteellinen osuus sekä luettavuusindeksi. Vaikuttavia piirteitä voivat määrittää asiantuntijat (opettajat) manuaalisesti tai se voidaan tehdä matemaattisesti/kieliteknologisesti (principal component analysis).
Vaikuttavia muuttujia on toivottavaa olla runsaasti, jotta niiden avulla voidaan rakentaa uuden datan luokitteluun kykenevä tekoälypohjainen luokittelija tai ennustemalli. Jos referenssi on hyvää ja riittävää, vaikuttavia piirteitä on löydetty ja tekoälysovelluksen opettaminen on onnistunut, on mahdollista luoda teknologia, joka pystyy antamaan automaattisesti arvosanan opiskelijan kieltenkokeen vastaukselle siten, että annettu arvosana on riittävällä todennäköisyydellä sama kuin opettajan antama. Opettajaa tällainen järjestelmä ei tietenkään korvaisi, mutta tietyn korkeakoulun tietyn alan opiskelijalle se olisi räätälöity väline harjoitella tekstintuottoa. Kaupallistakin merkitystä järjestelmällä voisi olla.
Näkymiä
On luultavaa, että tekoälypohjaiset kielenopetusteknologiajärjestelmät tulevat yleistymään. Pitäisikö opettajien toimia nyt proaktiivisesti? Yhteistyötä tarvittaisiin luonnollisesti tekoälyn kehittäjien kanssa. Olisi myös selvitettävä, olisiko opiskelijoiden tuottama data käytettävissä kehitystyössä. Kaupallisiin tarkoituksiin käyttölupaa ei oletettavasti saisi, mutta talon sisäisessä käytössä opiskelijoiden opetusmenetelmänä datan käyttömahdollisuudet saattaisivat olla laajemmat.
Lähteet
Kananen, H. & Puolitaival, H. (2019). Tekoäly – bisneksen uudet työkalu. Alma Talent.
Pysyvä osoite: http://urn.fi/URN:NBN:fi-fe2023030329533