Siirry sisältöön
Juttutyyppi  Blogi

Tilastollisista tunnusluvuista

Tilastolliset tunnusluvut voivat joskus tuntua matemaattisesti monimutkaisilta. Perusasiat niistä on kuitenkin hyvä tietää jokaisen, sillä ne voivat auttaa arvioimaan, milloin tietoa voi pitää luotettavana.

Keskiarvo on tunnetuin tilastollinen muuttuja. Se saadaan, kun lasketaan yhteen havaintojen arvot ja jaetaan tulos havaintojen määrällä. Näin saadaan määriteltyä vaikkapa työpaikan henkilöstön keskimääräinen palkka. Keskiarvo ei kuitenkaan ole aina kovin relevantti muuttuja. Jos pienehkön työpaikan johtaja ansaitsee viisikymmentä tuhatta euroa kuukaudessa ja muut kahdesta neljään tuhanteen, yksi suuri havaintoarvo vääristää keskiarvoa.

Mediaani olisi tässä tapauksessa käyttökelpoisempi. Mediaani on havaintoarvojen ”tyypillisin” arvo ja suuruusjärjestykseen asetettujen havaintoarvojen keskimmäinen arvo. Työpaikan palkka-aineistossa mediaani olisi siten työpaikan ”tyypillisin” palkka: puolet palkoista on mediaania suurempia ja puolet pienempiä. Huomattava on, että vaikka johtajan viidenkymmenen tuhannen euron palkka nousisi hallituksen päätöksellä sataantuhanteen, mediaani ei muuttuisi, mutta keskiarvo ”räjähtäisi”. Mediaani on poikkeaville arvoille immuunimpi kuin keskiarvo.

Käyrät kertovat

Havaintoaineiston jakauma kertoo, millaiselle välille arvot ovat jakautuneet ja kuinka monta kertaa arvo esiintyy aineistossa. Käyrän ääripäät kertovat vaihtelun ääriarvot ja käyrän korkeus arvon yleisyyden aineistossa.

Tunnetuin jakauma on Gaussin käyrä eli normaalijakauma: käyrä näyttää symmetriseltä ja suurin osa arvoista on keskiarvon lähellä. Positiivisia poikkeamia keskiarvosta on suunnilleen sama määrä kuin negatiivisia, ja keskiarvosta poikkeavia arvoja on sitä vähemmän, mitä enemmän poikkeavasta arvosta on kyse.

Havaintoaineiston jakauma kertoo, millaiselle välille arvot ovat jakautuneet ja kuinka monta kertaa arvo esiintyy aineistossa.

Palkkoja kuvaava käyrä voi vääntyä oikealle, jos työpaikalla on paljon erikoisasiantuntijoita ja johtajia, ja käyrä voi olla kaksihuippuinen, jos työpaikalla on paljon edellä mainittuja sekä suuri määrä esimerkiksi siivousalan henkilöstöä. Suuressa aineistossa keskipalkka oletettavasti noudattaisi Gaussin käyrää: keskivertopalkan ansaitsevia on paljon, hyvin vähätuloisia ja hyvin suurituloisia on vähän. Ei jakauma tietenkään tasainen Gaussin käyrä olisi, sillä nollatuloisia on väestössä suhteellisen paljon, yli miljoonan vuodessa ansaitsevia hyvin vähän.

Todennäköisyyden tutkiminen

Palkkatilastojen ymmärtäminen on hyödyllistä, mutta tilastojen ymmärtäminen on erityisen tärkeää, jos on kyse esimerkiksi rokotetutkimuksesta. Sosiaalisessa mediassa tai uutisissa voi kiertää tieto, että joku on menehtynyt koronarokotteen sivuvaikutuksiin tai väittämä, että rokote ei ole suojannut rokotettua. Aina voi löytyä yksittäinen esimerkki, anekdoottinen tieto, joka esittäjän mielestä todistaa lääkkeen toimimattomaksi tai vaaralliseksi.

Rokotteen tehokkuutta tutkitaan koeryhmällä ja kontrolliryhmällä. Koeryhmään kuuluvat saavat tutkittavaa rokotetta, ja kontrolliryhmään kuuluvat saavat lumerokotetta tai jotain jo käytössä olevaa rokotetta. Satunnaistaminen on tutkimushenkilöiden satunnaista jakamista koe- ja kontrolliryhmään. Tavoitteena on luonnollisesti, että koeryhmään ei valikoituisi selkeästi erilaisia ihmisiä kuin kontrolliryhmään.

Aina voi löytyä yksittäinen esimerkki, anekdoottinen tieto, joka esittäjän mielestä todistaa lääkkeen toimimattomaksi tai vaaralliseksi.

Kokeessa on lähtökohtana nollahypoteesi: koe- ja kontrolliryhmän välillä ei tulla huomaamaan eroja. Tutkimuksessa on selvitettävä p-arvo: kokeellisen tutkimuksen satunnaisvirheen tunnusluku. Satunnaisvirheen tunnuslukuna p-arvo osoittaa todennäköisyyden sille, että koeryhmässä faktisesti havaitut myönteiset vaikutukset ovat sattumaa. Toisin sanoen p-arvo osoittaa nollahypoteesin todennäköisyyden.

Todennäköisyyksillä on väliä

Edellä esitetty on tietysti äärimmäisen yksinkertaistettu kuvaus kokeellisesta tutkimuksesta: eettisiä seikkoja ei tässä huomioida ja eläinmallien ohella vaiheita tutkimuksessa on tietysti useita. Lääketieteessä kaksoissokkotutkimus on standardi: sekä koehenkilö (potilas) että tutkija (hoitaja, lääkäri) ovat tietämättömiä siitä, minkä altisteen (lääkkeen, rokotteen) koehenkilö saa.

Jokaisen olisi hyvä ymmärtää p-arvon merkitys kokeellisessa tutkimuksessa. Yleensä julkaisun abstraktissa kerrotaan p-arvot ja niitä arvioimalla asiaan perehtymätönkin saa jonkinlaisen käsityksen tutkimuksen merkityksestä. Mitä pienempi p-arvo on, sitä todennäköisempää on, että havaittu ero kahden ryhmän välillä – esimerkiksi uuden, tutkittavan rokotteen ansiosta – on relevantti. Pieni p-arvo (esimerkiksi 0,001) kertoo, että on äärimmäisen epätodennäköistä, että havaitut erot koe- ja kontrolliryhmän välillä eivät johtuneet uudesta rokotteesta – vaan sattumasta.

Rokote-epäilijöiden erityisesti tulisi ymmärtää kokeellisen tutkimuksen (ja tilastollisten tunnuslukujen) merkitys.

Pysyvä osoite: http://urn.fi/URN:NBN:fi-fe2022022120053