Det här innehållet kommer från vår tidigare hemsida och kan därför se annorlunda ut. Vi ber om överseende med detta.

Många studier går inte att upprepa

En rad undersökningar har visat att många vetenskapliga studier inte går att upprepa med samma resultat.
– Det är ju problematiskt. Men det finns tydliga lösningar, säger Anna Dreber Almenberg vid Handelshögskolan i Stockholm.

3 oktober, 2018

Per-Olof Eliasson

Så kallade förregistrerade analysplaner, där man i förväg anger exakt hur studien och analysen kommer att genomföras, kan vara en lösning på problem med bristande replikering. Det säger Anna Dreber Almenberg, professor vid Handelshögskolan i Stockholm, en av forskarna som uppmärksammat problemet. Foto Juliana Wiklund

En internationell forskargrupp har i sitt senaste projekt undersökt samhällsvetenskapliga experiment, inom psykologi och nationalekonomi, publicerade i högstatustidskrifterna Nature och Science. 13 av de 21 studierna gick att upprepa med ett positivt resultat, medan åtta av studierna inte gick att upprepa alls med ett resultat som stämmer med ursprungsstudien.

Forskarna bakom undersökningen räknar med att en studie är sann – replikerar – om den går att upprepa i en replikation med hög statistisk styrka med ett resultat som är i samma riktning som ursprungsstudien.
– Men replikationsresultatet har inte varit lika stort som ursprungsresultatet, i genomsnitt var effekterna 75 procent så stora bland de studier som replikerade, säger Anna Dreber Almenberg, professor i nationalekonomi vid Handelshögskolan i Stockholm och en av forskarna bakom studien som publicerats i tidskriften Nature Human Behaviour.

Även sanna positiva resultat i originalstudierna är alltså överdrivna i storlek i förhållande till det korrekta resultatet.
– Vi har en hög statistisk styrka i våra replikationer, betydligt högre än man haft i tidigare replikationsförsök. Detta eftersom det behövs hög statistisk styrka för att hitta sanna resultat och kunna dra några avgörande slutsatser om falska positiva resultat, säger Anna Dreber Almenberg.

Vad beror den här bristande tillförlitligheten i vetenskapliga studier på?
– Många tidskrifter vill ju ha överraskande resultat, och det innebär i vissa fall att resultatet har låg sannolikhet. Och fram tills nyligen har man tolererat små urval där man ändå försöker dra statistiska slutsatser. Man har en tro att om något är statistiskt signifikant i ett litet urval så måste det gälla i ett större urval. Men det är snarare tvärtom – med låg statistisk styrka är det hög sannolikhet att det är ett falskt positivt resultat.

Har den enskilda forskarens jakt på genomslag någon betydelse?
– Ja, det har den, men det är nog inte alltid så medvetet. Jag tror att man ofta lurar sig själv i lika hög utsträckning som man lurar andra. Man tror att man gjort något bättre än vad man har gjort.

Anna Dreber Almenberg påpekar att forskare kan utforma en statistisk analys på många olika sätt och de kan i olyckliga fall aktivt leta i sin data tills de hittar något som verkar vara ett statistiskt samband.
– Jag tror inte att forskarsamhället inom nationalekonomi och psykologi riktigt har insett vad statistisk signifikans innebär i praktiken.

Men den här svårigheten att upprepa försök är väl besvärande för forskningens trovärdighet?
– Ja det är ju problematiskt. Men det finns tydliga lösningar och jag tycker att många av dem redan nu håller på att implementeras.

Vilka är lösningarna?
– Man kan ha så kallade förregistrerade analysplaner när man gör en studie, där man i förväg anger exakt hur studien och analysen kommer att genomföras. Då undviker man alla de frihetsgrader som gör att man letar i sin data tills man hittar ett samband som i praktiken blir meningslöst.

Anna Dreber Almenberg poängterar att förregistrerade analysplaner används i allt högre utsträckning, främst i psykologi, och hon hoppas att metoden sprider sig till de andra samhällsvetenskaperna.
– En annan lösning är att sänka gränsen för statistisk signifikans, säger hon.

34 författare, bland dem Anna Dreber Almenberg och Magnus Johannesson vid Handelshögskolan i Stockholm, föreslår i en artikel att gränsen för p-värdet ska sänkas från 0,05 till 0,005.
– Det ger mycket starkare stöd för att resultatet faktiskt är sant, säger Anna Dreber Almenberg.

Hon menar att ett intressant problem är att även om en studie inte går att upprepa, och troligen är falsk, verkar folk utanför vetenskapssamhället inte alltid bry sig.
– En av mina käpphästar är det fenomen som kallas power posing. Det är det näst mest sedda av alla TED talks med över 49 miljoner visningar. Studien bygger på få deltagare och ingen kan replikera den, men allmänheten bryr sig inte, och TED som organisation verkar inte heller bry sig.

Vad beror det på?
– Det räcker uppenbarligen inte att komma med nya resultat som säger att det inte är en sanning. Men vad mer kan man göra? Det kanske är ett önsketänkande bland allmänheten som gör att de inte vill släppa till exempel power posing.

Per-Olof Eliasson

Vid hypotesprövning testas ofta en så kallad alternativ hypotes om att det finns en effekt (till exempel att en medicin påverkar ett hälsoutfall) mot en nollhypotes om att det inte finns en effekt. P-värdet är ett mått på sannolikheten att observera ett visst (eller större) resultat om nollhypotesen är sann. Om p-värdet är lågt (vanligen under 5 procent, eller 0,05) sägs det att resultatet är statistiskt signifikant.

Power posing är en psykologisk hypotes som hävdar att om man intar en ”kraftfull” kroppsställning så medför det både en förändrad hormonbalans och ett förändrat handlingssätt i olika situationer.

Universitetsläraren utformas enligt journalistiska principer och följer mediebranschens publicitets- och yrkesetiska regler. Tidningen har en fri och självständig ställning gentemot sin ägare, fackförbundet SULF.