Siirry sisältöön
Kaksi ihmistä keskustelee, välissä leijuu kirjaimia, piirroskuva, vihreä pohjaväri.
Juttutyyppi  Kielitohtorin diagnoosit

Chat GPT 3.5 tilastollisen analyysin tekijänä

Chat GPT 3.5 kirjoittaa tekstejä mistä tahansa aiheesta. Tekstin luotettavuuden ja järkevyyden aste toki vaihtelee huomattavasti. Miten tekoälyltä onnistuu numeraalisen aineiston käsittely?

Huhujen mukaan opiskelijat kirjoituttavat esseensä tekoälyllä. On epävarmaa, kuinka usein näin oikeasti tapahtuu mutta järin harvinaista se ei liene. Entä jos esseessä on numeroaineistoa mukana? Pystyykö tekoäly käsittelemään sitä? Voiko numeraalisen analyysin laajentaa opinnäytetyöksi?

Peruskauraa

Chat GPT 3.5. sai melkoisen yksinkertaisen tehtävän: laske numeroiden 1, 2, 3, 4, 5, 6 keskiarvo.

Vastaus oli odotetun kaltainen:

”Numeroiden 1, 2, 3, 4, 5 ja 6 keskiarvo voidaan laskea yhteen laskemalla näiden numeroiden summa ja jakamalla se lukumäärällä eli kuudella: 3,5” (OpenAI, 2024).

Seuraavaksi pyydettiin määrittämään numeroiden moodi, ja hyvin meni:

”Moodi on tilastollinen käsite, joka viittaa joukon esiintyvimpään arvoon. Koska numeroiden 1, 2, 3, 4, 5 ja 6 välillä ei ole toistuvia arvoja, niiden moodi on joukko itsessään, eli {1, 2, 3, 4, 5, 6}. Kaikki nämä numerot esiintyvät joukossa yhtä usein, joten niitä ei voi erottaa yhtenä selvänä moodina.” (OpenAI, 2024.)

Sitten pyydettiin laskemaan numeroiden keskihajonta:

”Keskihajonta lasketaan joukon lukujen hajonnan perusteella. Hajonta kuvaa, kuinka kaukana joukon lukuarvot ovat keskiarvosta.

  1. Laske keskiarvo (μ) joukon luvuille.
  2. Laske jokaisen luvun poikkeama keskiarvosta.
  3. Nosta jokaisen poikkeaman tulos toiseen potenssiin.
  4. Laske näiden toisen potenssin tulosten keskiarvo.
  5. Ota tämän keskiarvon neliöjuuri.” (OpenAI, 2024.)

Keskihajonta on 1,708.

Chat GPT 3.5 käsittelee numeroaineistoja perustasolla ongelmitta, eikä ole syytä epäillä, etteikö analyysi onnistuisi, vaikka havaintoarvoja olisi satoja tai tuhansia.

Chat GPT 3.5 käsittelee numeroaineistoja perustasolla ongelmitta.

Erojen vertailua

Tutkittava aineisto on yksinkertaisissakin tapauksissa yleensä paljon monimutkaisempaa kuin edellä esitetty. Seuraava tehtävä, tosimaailmaa enemmän heijastava, oli:

”Ryhmän A opiskelijoiden tenttiarvosanat ovat 3, 3, 4, 3, 3, 4, 5, 1, 3, 2, 3, 3, 3, 4. Ryhmän B tenttiarvosanat ovat 3, 3, 3, 3, 3, 4, 3, 4, 3, 3, 3, 3, 5, 3, 3, 1, 1. Kumpi ryhmä on parempi?”

Chat GPT 3.5 totesi:

”Voidaksemme määrittää, kumpi ryhmä suoriutui paremmin tentissä, voimme vertailla ryhmien keskiarvoja ja hajontoja.

  1. Keskiarvojen vertailu:
    • Ryhmä A keskiarvo ​≈3.07
    • Ryhmä B keskiarvo ​≈2.88
  2. Hajontojen vertailu:
    • Ryhmä A: Keskihajonta​≈1.15
    • Ryhmä B: Keskihajonta​≈0.83

Vertailun perusteella ryhmä, jolla on korkeampi keskiarvo ja pienempi hajonta, voi pitää itseään paremmin suoriutuneena. Koska ryhmä A:lla on korkeampi keskiarvo, mutta suurempi hajonta, ja ryhmä B:llä on hieman alhaisempi keskiarvo, mutta pienempi hajonta, päätös ryhmän paremmuudesta voi riippua siitä, mitä arvoa pidetään tärkeämpänä: keskiarvoa vai hajontaa.” (OpenAI, 2024.)

Tehtävä muotoitiin sitten hieman toisin:

”Ryhmän A opiskelijoiden tenttiarvosanat ovat 3, 3, 4, 3, 3, 4, 5, 1, 3, 2, 3, 3, 3, 4. Ryhmän B tenttiarvosanat ovat 3, 3, 3, 3, 3, 4, 3, 4, 3, 3, 3, 3, 5, 3, 3, 1, 1. Eroavatko ryhmät merkittävästi toisistaan?”

Vastaus oli:

”Voimme suorittaa t-testin nähdäksemme, eroavatko ryhmien keskiarvot tilastollisesti merkitsevästi toisistaan. T-testi arvioi, onko kahden ryhmän keskiarvojen välillä tilastollisesti merkitsevää eroa. Tässä tapauksessa käytämme Welchin t-testiä, koska ryhmien hajonnat ovat erilaiset.” (OpenAI, 2024.)

Testi pyydettiin tekemään. Sitä ei tehty:

”Valitettavasti en voi suorittaa koodia tässä ympäristössä, mutta voin selittää, miten Welchin t-testi tehdään ja miten tulokset tulkitaan. Voisin suorittaa koodia, joka käyttää Pythonin scipy.stats.ttest_ind -funktiota ja muita tarvittavia kirjastoja esimerkiksi sellaisissa ympäristöissä, jotka tukevat Pythonia ja tarjoavat mahdollisuuden ajaa koodia. Tämä voisi olla Pythonin kehitysympäristöjä kuten Jupyter Notebook, Spyder tai Visual Studio Code, tai online-kehitysympäristöjä kuten Google Colab tai Jupyter-lab.” (OpenAI, 2024.)

Lienee mahdollista, että testi olisi tehty Chat GPT:n maksullisessa versiossa.

Perustason laskentakykyä

Chat GPT 3.5 ei tämän lyhyen kokeilun perusteella tarjoa laskentakyvyn osalta juuri sen enempää, mitä hyvä peruslaskin tarjoaa. Tilastokielellä voitaneen sanoa, että merkittävää eroa ei ole.

Huhujen mukaan Chat GPT 4.0 on tässäkin suhteessa aivan toista maata: tekeekö Chat GPT 4.0 jo opinnäytetyön tilastoanalyysit? Elämämme ajat ovat tekoälyn tarjoamien mahdollisuuksien suhteen vähintään jossakin määrin mielenkiitoisia.

Lähde

OpenAI. (2024). [Versio 3.5]. ChatGPT. https://openai.com/chatgpt

Pysyvä osoite: http://urn.fi/URN:NBN:fi-fe202402126664