Siirry sisältöön
Juttutyyppi  Kielitohtorin diagnoosit

Plagioinnin tunnistaminen ja seuraukset

Plagioinnin tunnistamiseen on olemassa monenlaisia välineitä. Kiinnijäämisellä voi olla opiskelijan kannalta vakavia seurauksia.

Opettajan ja opinnäytetyön ohjaajan tehtävä on kertoa opiskelijalle, että plagiointi on kiellettyä, että siitä jää kiinni ja että seuraukset ovat vakavat. Aiheeseensa hyvin perehtynyt opettaja voi usein huomata plagioinnin heti ja usein hän tunnistaa lähteen, mistä teksti on ilman lähdeviittauksia otettu. Plagiointiin syyllistynyt opiskelija voi, oppilaitoksen linjauksesta riippuen, menettää jopa opiskelijaoikeutensa.

Algoritmi paljastaa plagioinnin

Oppilaitoksilla on käytössä plagioinninpaljastusalgoritmeja, esimerkiksi Urkund ja Turnitin. Algoritmit edustavat kieliteknologiaa. Ne ovat mainioita esimerkkejä kielitieteilijöiden ja tilastollisen hahmontunnistuksen asiantuntijoiden yhteistyöstä.

Algoritmien toimintaa ja hyödyllisyyttä voisi verrata nopeasti yleistyvään automatisoituun ajamiseen.

Algoritmien toimintaa ja hyödyllisyyttä voisi verrata nopeasti yleistyvään automatisoituun ajamiseen: koneäly analysoi tekstiä tai liikennettä ja tekee päätöksiä saamansa informaation ja lähdekoodinsa perusteella.

Koneäly voi tehdä myös virheitä: olennainen piirre (liikennemerkki tai suoraan tieteellisestä artikkelista kopioitu virke) jää tunnistamatta, tapahtuu virheellinen tunnistus tai tunnistetaan piirre, jota todellisuudessa (liikenteessä tai tekstissä) ei ole. Voidaan myös pohtia kuinka tarkka tunnistus on.

Samankaltaisuuden mittaus sanaston avulla

Tekstien samankaltaisuuden mittausperuste on tyypillisesti tekstien sanasto. Dokumentista etsitään kaikki sanat ja kaikista tutkituista dokumenteista löydetyt sanat muodostavat vektoriavaruuden, joka mahdollistaa samanlaisuuden mittauksen. Kyseessä on siis matemaattinen tai tilastollinen analyysi, ei vain kahden tekstin rinnakkainen  vertailu.

Analyysi voi tuottaa tarkkojakin tuloksia, mutta virheet ovat aina mahdollisia. Tekstien samankaltaisuus voidaan arvioida liian suureksi (positiivinen virhe) tai liian pieneksi (negatiivinen virhe). Vähäpätöisiltä näyttävät seikat – kieliopilliset sanat, esimerkkeinä suomen alistuskonjunktiot ”että”, ”jotta”, ”koska” jne. – pitää myös mallintaa, koska ne lisäävät automaattisesti tekstien samankaltaisuuden määrää. Plagioinnintunnistusalgoritmien toimintaperiaatteet (lähdekoodi ja sen haavoittuvuudet) ovat luonnollisesti liikesalaisuuksia, eikä rehellisen kirjoittajan olekaan syytä niistä paljon tietää.

Tekstien samankaltaisuuden mittausperuste on tyypillisesti tekstien sanasto.

Plagioinnintunnistusalgoritmia on kuitenkin myös mahdollista huijata. Plagioinnintarkastuksen kiertäminen tosin vaatii hiukan tietoteknisiä taitoja, mutta se on mahdollista myös kielitietoa ja moderneja digitaalisia kirjoittamisen apuvälineitä hyödyntäen.

Plagioinnintarkastuksen ongelmia

Merkittävä ongelma on myös se, että plagioinnintarkastuksen onnistuminen riippuu täysin käytettävistä tietokannoista. Jos algoritmilla ei ole pääsyä tiettyyn olemassa olevaan tekstiaineistoon (esimerkiksi siksi, että aineisto on maksu- tai palomuurin takana tai siksi, että aineisto on vain paperimuodossa varastokirjastossa), plagioinnintunnistin ei voi verrata tutkittavaa tekstiä tähän aineistoon. Se, missä määrin kaupallisilla plagioinnintunnistimilla on rajoittamaton pääsy tieteellisiin tietokantoihin, on liikesalaisuus. Luultavasti pääsy on erittäin kattava, eikä kirjoittajan kannata asiaa kokeilla plagiointimielessä.

Lienee kuitenkin selvä, että plagioinnintarkastuksessa ei voida tehdä vertailua kirjoittajan tekstin ja esimerkiksi potilastietokantojen tekstien välillä, tai kirjoittajan tekstin ja NATO:n huippukokouksen pöytäkirjatekstin välillä. Julkisuuteen tulee silloin tällöin tietoon tilanne, jossa opinnäytetyö on suurimmaksi osaksi kopioitu vanhasta kirjastossa pölyttyvästä pro gradusta tai väitöskirjasta. Ennen digiaikaa tämä oli yleistä jopa tieteenharjoittajien keskuudessa ainakin siinä mielessä, että lähteiden mainitsemissa oltiin varsin suurpiirteisiä.

Epäilys aina paikallaan

Tekstejä lukevan ja niitä kirjoittavan kannattaa pitää mielessä yksi asia: pieni annos epäilyä on aina paikallaan. Hyvinkin arvovaltaiselta tuntuva teksti voi osoittautua tarkemmin tarkasteltuna epämääräiseksi tai sisältää jopa karkeita virheitä tai tietoista plagiointia.

Plagioinnin paljastumisen seurauksia arvioidaan tarkoituksenmukaisuussyiden valossa. Esimerkiksi silloin, kun merkittävässä asemassa oleva henkilö saadaan kiinni sepittelystä opinnäytetyössään seuraukset vaihtelevat: ura voi jatkua ennallaan tai henkilö voi päätyä hyljeksityksi yhteisönsä sisällä. Seuraukset noudattavat poliittisia voimasuhteita ja yleisiä tendenssejä. Seuraukset opiskelijalle määrittelee tutkintosääntö. Tavallinen kansalainen voinee vain toivoa, että sydäntautilääkkeiden kehittelystä ja lujuuslaskennasta julkaistuissa kirjoituksissa ei sorruta sepittelyyn.

Lähteet

Karlsson, F. (2000).  E.N. Setälä vaarallisilla vesillä. Tieteellisen vallankäytön, käyttäytymisen ja perinteen ja analyysi. Suomalaisen Kirjallisuuden Seura.

Riski, T. (2003). Lineaarisen dokumenttien samanlaisuuden mittaaminen. Teknillinen korkeakoulu. Systeemianalyysin laboratorio.

Pysyvä osoite: http://urn.fi/URN:NBN:fi-fe2021082544202