Maanantaiblogi

Onko tilastollisesti merkitsevillä tutkimustuloksilla käytännön merkitystä?

Viime maanantain blogi herätti Psykologia-lehden Facebook-sivulla tärkeän kysymyksen tutkimustulosten käytännön merkityksestä. Kiitos erinomaisesta ja inspiroivasta kysymyksestä! Puheena ollut tutkimustulos viittaa siihen, että viikko ulkoilmaleirillä ilman elektronisia laitteita parantaa taitoa tunnistaa emootioita. Mutta onko käytännön merkitystä sillä, että leirin jälkeen kasvojen emootioiden tunnistamisessa virheet vähenivät noin 4,5 yksikköä, mutta vertailuryhmässä vain 2,5 yksikköä.

Viime vuosina psykologian alan tutkijat ovat olleet aktiivisia tutkimustulosten luotettavuuden varmistamisessa. Useimmat tieteelliset lehdet vaativat tilastollisten testien merkitsevyystasojen lisäksi raportoimaan myös laskelmia, jotka kertovat siitä, kuinka suuria esiin saadut erot ryhmien tai tilanteiden välillä ovat. Tällaisia efektikokomittoja on monenlaisia. Oma suosikkini on etan osittaisneliö (partial eta squared). Kyseinen luku kertoo, kuinka suuri osa mittausarvojen vaihtelusta voidaan selittää tutkitulla asialla. Esimerkiksi jos tutkitaan jonkin toimenpiteen vaikutusta ja efektikoko on tuolla suureella 0.50, tarkoittaa tulos, että noin 50 % vaihtelusta selittyy kyseisellä toimenpiteellä.

Käytännössähän pienillä aineistoilla voi olla vaikea löytää tilastollisesti merkitseviä tuloksia, kun taas suurilla kyselyillä esiin voi tulla tilastollisesti merkitseviä eroja, vaikka efektin koko olisi alle prosentin luokkaa. Efektikokoa katsomalla voidaan pohtia tuloksen merkitystä ilman että aineiston koko hämää. Efektikokojen tulkitseminen ei kuitenkaan sekään ole itsestään selvää eikä efektikoko suoraan kerro, onko esiin saadulla erolla tai muutoksella käytännön merkitystä. Esimerkiksi joissain terveyskysymyksissä pienikin muutos parempaan voi olla kansanterveydellisesti ja -taloudellisesti suuri asia.

Viime maanantaiblogissa käsitelty tutkimus raportoi efektikokona Cohenin d –arvot. Leirillä olleiden lasten kyky tulkita kasvokuvista tunteita parani alku- ja loppumittauksen välillä merkitsevästi enemmän kuin vertailuryhmässä, efektikoko d oli 0.33. Toisessa tutkitussa emootioiden tunnistamisen tehtävässä efektikoko oli suurempi: leirillä olleiden lasten kyky tunnistaa videoiduista tilanteista näyttelijöiden emootioita sanattoman viestinnän perusteella parani enemmän kuin vertailuryhmässä, d oli 0.66.

Mutta onko näillä tuloksilla käytännön merkitystä? Cohenin d suuruudeltaan 0.3 tarkoittaa, että noin 62 % leirillä olleista lapsista kyky tunnistaa emootioita parani enemmän kuin keskimäärin vertailuryhmässä. Toisaalta validoidussa videotestissä (The Child and Adolescent Social Perception Measure, CASP) efektikoko oli noin 0.6. Tämä tarkoittaa, että yli 72 % leirillä olleista lapsista kyky tunnistaa emootioita parantui enemmän kuin keskimäärin vertailuryhmässä. Jos jälkimmäisen efektikoon pohjalta käytettäisiin lääketieteen tutkimuksissa suosittua suuretta NNT (Number Needed to Treat), tuloksena saataisiin noin 5. Tämä tarkoittaa, että leirille tulisi viedä 5 lasta, jotta yhdellä heistä emootioiden tunnistamisen taito paranisi tavoitellun verran leirin aikana verrattuna siihen, ettei heitä olisi viety leirille. Jos siis leirille vietäisiin 100 lasta, kyky tunnistaa emootioita paranisi noin 20 lapsella verrattuna siihen, ettei heitä olisi viety leirille.

Mitä ajattelette, onko siis kyseessä olevan tutkimuksen tuloksilla käytännön merkitystä? Kannattaako lapset passittaa viideksi päiväksi metsään tietokone- ja älypuhelinpaastolle? Entä miten on ekologisen validiteetin laita? Kertovatko tutkimuksessa käytetyt testit ja tehtävät riittävän hyvin arkielämän kannalta tärkeistä taidoista? Ja mikä siinä tapauksessa olisi merkityksellisen suuruinen muutos emootiotehtävissä, jotta voitaisiin todella sanoa, että kyky tunnistaa emootioita on parantunut?

Näiden kysymysten pohdiskelun lomassa voi vaikka kokeilla vuorovaikutteisella verkkosivulla millä tavalla erisuuruiset Cohenin d:t vaikuttavat yllä kuvattuihin arvoihin ja siihen kuinka päällekkäisiä jakaumat ovat kahdessa eri tilanteessa tai kahdella eri ryhmällä. Oikeassa elämässähän kahden ryhmän tai tilanteen jakaumat jonkin muuttujan suhteen ovat yleensä kovasti päällekkäisiä. Tarvitaan asiantuntijoita punnitsemaan kuinka suuret muutokset, efektit ja erot ryhmien välillä ovat käytännössä merkityksellisiä ja mielekkäitä.

Alkuperäinen tutkimus ja siihen liittyvä maanantaiblogi