I Psykologtidningen #3 2017 skriver Rebecca Willén och Gustav Nilsonne om replikeringskrisen inom psykologisk (och andra discipliners) forskning. Jag tycker att det är bra att de uppmärksammar detta i Psykologtidningen, men jag vill ändå att även kritiken från främst etablerade psykologiforskare (till vilka jag själv tillhör) får utrymme. Ett symposium “The future direction of psychological science” nyligen anordnat av Association for Psychological Science (APS) bör också uppmärksammas. Bidragen är publicerade 2017 i Perspectives on Psychological Science. Jag refererar nedan till bidragen av Scott Lilienfeld och Ed Diener.
Ett argument är att psykologin har gått före för att åtgärda bristerna. Jag ifrågasätter inte det. Men är det inte främst en del yngre forskare som tycker att det är nödvändigt och därför bra? I artikeln utelämnas referenser till artiklar författade av mer erfarna psykologiforskare. För balansens skull tycker jag att det är angeläget att informera om deras såväl som mina egna (såsom varande ytterligare en erfaren psykologiforskare) kritiska ståndpunkter. Självfallet är jag (och alla andra) emot alla former av medvetet fusk och manipulation av resultat och för transparent rapportering. Men fel är troligen mycket sällan resultatet av medvetet fusk eller manipulation. Psykologisk forskning om bedömningar och beslutsfattande har nu i mer än 50 år på ett reproducerbart sätt påvisat hur lätt det är att bedra sig själv utan onda avsikter. Forskare är därvid knappast annorlunda än andra. Dock utsätter deras kolleger dem för en strikt granskning av deras metoder och resultat. Författarna av inlägget i Psykologtidningen tycks dock mena att så inte är fallet. Men jag tror att det är det. Vi äldre känner till många resultat från psykologisk forskning som inte replikerats till fullo eller inte alls, t ex Hebbs forskning om sensorisk deprivation eller Witkins m fl:s forskning om sambandet mellan fältberoende och personkarakteristiska. Dessa resultat förekom länge i läsoböcker och det hade givetvis varit bättre att de inte gjort det. Det finns även välkända exempel inom andra vetenskaper. Men hur effektiva kommer de förslag som idag genomförs att vara jämfört med tidigare, hur nödvändiga är de och kommer de inte att ha negativa konsekvenser?
Åtminstone förr i tiden på laborationskurserna i psykologi trummades in hur viktigt det är med en transparent och utförlig rapportering för att möjliggöra för andra att fastställa resultatens reproducerbarhet. Har det ändrat sig? Upprepas inte heller undersökningar? Självklart om resultaten är viktiga. Men det leder kanske inte till publikationer. Många forskare inom psykologin (t ex Tversky och Kahneman; se Kahneman, 2003a, b) publicerar inga resultat förrän de själva är övertygade om att de är reproducerbara. Det är ett gott föredöme. Men det finns starkt motverkande faktorer. En viktig faktor är systemen att dela ut forskningsbidrag respektive att tillsätta forskaranställningar (Lilienfeld, 2017) som idag i hög grad påverkas av antalet publikationer i vetenskapliga tidskrifter med hög ”impact”. Främst yngre inte etablerade forskare drabbas. Förhoppningsvis kan långsiktiga forskningsbidrag och forskartjänster reducera denna faktors inflytande. Den allmänna uppfattningen bland forskare om ”top journals” (delvis baserad på invalida mått av ”impact”) är inte heller sund. Någon hävdade (och jag tror att det ofta är rätt) att granskningen av manuskript är mer ingående i specialtidskrifter än i mer prestigefylda, som Science i exemplet. Det är också påvisat att fel är vanligare i ”top journals” än i andra jämförbara tidskrifter.
De som granskat reproducerbarhet av resultaten av social- och kognitionspsykologisk forskning har valt ut och upprepat ett antal experiment publicerade i några av de prestigefyllda vetenskapliga psykologitidskrifterna (Open Science Collaboration, 2015). Dock är upprepningarna av olika skäl inte invändningsfria (Gilbert, King, Pettigrew, & Wilson, 2016; Iso-Ahola, 2017; Stroebe & Strack, 2014). Inom psykologin (till skillnad från inom t ex nationalekonomin) publiceras nästan aldrig endast ett experiment utan flera som antingen är begreppsliga replikat eller delreplikat.[1] Det kan därmed dessutom bli missvisande att endast välja ut ett experiment. Strategin att inte endast publicera en undersökning utan fler i samma artikel borde därför också uppmärksammas. Det har länge varit ett krav i APA tidskrifter, t ex Journal of Experimental Psychology: General. Det motverkar icke-transparent och snedvridande uppdelning (”sandwiching”) av data vid publicering. Frågan kan även ställas varför undersökningsresultat behöver replikeras om de inte har haft eller har något inflytande (Fiedler, 2017; Strack, 2017)?
Ett annat viktigt skäl (kanske särskilt inom socialpsykologin) är att graden av invarians är mindre än vad man har trott (och hoppats) (Klatsky & Creswell, 2014; Schwartz, 2015). Det har jag svårt att se som fusk eller manipulation. Här fyller utan tvivel exakta replikat vid en (långt) senare tidpunkt en viktig roll. Men slutsatsen bör vara den korrekta: Den invarians som antogs gäller inte. Att betrakta det som fusk eller manipulation är därför inte korrekt och åtgärder mot det är resultatlösa. Men givetvis måste ändå konstateras att resultaten inte är reproducerbara (om upprepningen utförts korrekt vilket inte är så enkelt som det verkar, se LeBel m fl, 2017). Det är även viktigt att efter resultat är etablerade undersöka deras giltighetsområden genom begreppsliga replikat. Och även här dra rätt slutsats: Resultatet gäller endast under vissa betingelser. I själva verket antas på goda grunder att många observationer av människors beteende (gäller inte endast psykologisk forskning) har flera orsaker som dessutom interagerar. Att rapportera ”delsanningar” om dessa orsaker är inte fusk eller manipulation. Det är en nödvändig och missförstådd del av forskningsprocessen. Det finns dessutom många välkända exempel på det heuristiska värdet av att tills vidare bortse från andra orsaker.
Det måste ses som ett misslyckande för oss som undervisat doktorander i experimentell metod att de inte tycks förstå principerna för nollhypotes signifikansprövning. Men det kan inte vara ett giltigt skäl att överge denna metod. Och hur viktigt är det att göra det (Fiedler, Kurzner & Kruger, 2012)? Dessutom har flera (Killeen, 2006; Krueger & Heck, 2017) visat hur mått på reproducerbarhet kan beräknas från p-värden för att korrigera den vanliga missuppfattningen av dessa. Det kan dock finnas andra skäl att övergå till t ex Baysianska metoder (t ex Wagenmakers, Morey & Lee, 2016), men det är en diskussion som pågått mycket länge. Ett annan syn framförd av Strack (2017) är att forskningsresultat (observerade invarianser) är argument för att behålla eller förkasta teorier, inte en fråga om de är sanna eller falska. (Men argumentens styrka beror givetvis på forskningsresultatens reliabilitet och validitet.) Denna synpunkt för mig över till Ed Dieners förslag att t ex APS startar en ny form av ”open-acess” tidskrift.
Diener (2017) förespråkar utifrån sin omfattande erfarenhet som redaktör och mottagare av granskningsrapporter av manuskript (och jag instämmer från min något mer begränsade erfarenhet) att dagens publiceringssystem inte fungerar bra. Granskningarna (”peer reviews”) som normalt utförs av 2 till 3 forskare (eller allt oftare på grund av det höga antalet manuskript endast av redaktören) som har ont om tid, kanske är mindre intresserade och inte heller alltid är väl insatta. De tar lång tid från inlämnandet av ett manuskript till publicering. Denna ”publication lag” ökar dessutom eftersom manuskript sällan accepteras i den första tidskriften till vilken de inlämnas (3 till 6 avslag före publicering är vanligt). På grund av för höga kostnader är många uteslutna från tillgång till artiklar att läsa och även att publicera manuskript. Diener föreslår (som komplement) en hemsida där manuskript fritt kan laddas upp av registrerade forskare.[2] Även om alla kan läsa dessa manuskript som blir omedelbart tillgängliga för andra (även allmänheten) inbjuds alla registrerade forskare (”scientific community”) att avge en kvalitetsbedömning och om de önskar även att kommentera. Eftersom det i olika sammanhang (bidragstilldelning, anställningar) krävs kan dessa kvalitetsbedömningar användas. Även granskningarnas kvalitet (överensstämmelse) kan fastställas. Fördelen är en bättre granskning och transparens. Kan systemet missbrukas? Alla system kan missbrukas, men kanske är det dags att sätt tillit till forskares professionalism när de själva får kontroll?
Referenser
Diener, E. (2017). A website system for communicating psychological science. Perspectives on Psychological Science, 12(4), 684-689.
Fiedler, K. (2017). What constitutes strong psychological science? The (neglected) role of diagnosticity and a priori theorizing. Perspectives on Psychological Science, 12(1), 46-61.
Fiedler, K., Kurzner, F., & Kruger, J. I. (2012). The long way from a-control to validity proper: Problems with short-sighted false-positive debate. Perspectives on Psychological Science, 7(6), 661-669.
Gilbert, D., King, G., Pettigrew, S., & Wilson, T. (2016). Comment on “Estimating the reproducibility of psychological science”. Science, 351, #1037.
Iso-Ahola, S. E. (2017). Reproducibility in psychological science: When do psychological phenomena exist? Frontiers in Psychology, 8, #879.
Kahneman, D. (2003a). A perspective on judgment and choice: Mapping bounded rationality. American Psychologist, 58(9), 697-720.
Kahneman, D. (2003b). Experience of collaborative research. American Psychologist, 58(9), 723-730.
Killeen, P.R. (2006). An alternative to null-hypothesis significance tests. Psychological Science, 16(5), 345-353.
Klatsky, R. L., & Creswell, J. D. (2014). An intersensory interaction account of priming effects – and their absence. Perspectives on Psychological Science, 9(1), 49-58.
Krueger, J. I., & Heck, P. R. (2017). The heuristic value of p in inductive statistical inference. Frontiers in Psychology, 8, #903.
LeBel, E. P., Vanpaemel, W., McCarthy, R., Earp, B. D., & Elson, M. (2017). A unified framework for quantifying the reproducibility, robustness, replicability, and generalizability of published scientific findings. Available online at: http://curatescience.org/docs/CurateScience-NewFramework[3.0.1].
Lilienfeld, S. O. (2017). Psychology´s replication crisis the grant culture. Perspectives on Psychological Science, 12(4), 660-664.
Open Science Collaboration (2015). Psychology. Estimating the reproducibility of psychological science. Science, 349, #4716.
Schwartz, B. (2015). On Klatzky and Creswell (2014): Saving social priming effects but losing science as we know it? Perspectives on Psychological Science, 10(3), 404-407.
Strack, F. (2017). From data to truth in psychological science. A personal perspective. Frontiers in Psychology, 8, #702.
Stroebe, W., & Strack, F. (2014). The alleged crisis and the illusion of exact control. Perspectives on Psychological Science, 9(1), 684-689.
Wagenmakers, E.-J., Morey, R. D., & Lee, M. D. (2016). Bayesian benefits for the pragmatic researcher. Psychological Science, 25(3), 169-176.
[1]Antag att en undersökning görs av faktorerna A och B i en faktoriell experimentell design (som egentligen utgörs av två experiment). Om förenklat antas att varje faktor varieras som förekomst/ej förekomst jämförs A med icke-A och B med icke-B samt A med B vid samtidig förekomst. Det senare kan ses som ett replikat av effekten av A (och B) under andra betingelser (begreppsligt replikat). Antag att i nästa experiment varieras A och C i en likadan design. Effekten av A för icke-C är då ett exakt replikat av det förstnämnda experimentet som testar effekten av A för icke-B. Jag har inte undersökt hur vanlig denna strategi är men är övertygad om att den är mycket vanlig. Tesen att psykologiska experiment inte replikeras exakt är nog överdriven.
[2]Det kan förefalla som endast en elit skall ges möjlighet men det är inte meningen. Dock krävs någon form av begränsning, t ex personer som har disputerat, är anställda som forskare eller har forskningsbidrag.