söndag 23 februari 2014

Om statistisk signifikans, epigenetik och de norrbottniska farmödrarna

Dagens Nyheter rapporterade häromdagen om en spännande upptäckt av ett forskarlag på Karolinska Institutet med professor Lars-Olov Bygren i spetsen:1
    Hur din farmor åt som ung kan [...] påverka din hälsa, enligt [en] svensk-brittisk studie publicerad i BMC Genetics.

    Det var i den norrländska byn Överkalix som forskarna gjorde sin upptäckt. Under 1800-talet var byn isolerad och människorna fick klara sig enbart på sina egna förråd. Mattillgången varierade därför kraftigt under året – något som visade sig lämna spår. Forskarna jämförde barnbarnen till människorna som levde då och såg att vissa av dem utmärkte sig: De hade en ökad risk för hjärtsjukdomar. Gemensamt var att de alla var kvinnor och hade en farmor som växt upp under dessa perioder av varierande mattillgång.

    – Det är inte nivån på svälten som spelar roll, utan de stora variationerna. Om det finns gott om mat ena året och sedan dåligt det andra, kan det få effekter, berättar Olle Bygren, verksam vid Karolinska institutet och en av forskarna bakom studien.

    Märkligt nog var det endast sondöttrarna som drabbades. De som hade en mamma, pappa, farfar, mormor eller morfar som växt upp i byn under samma tid, påverkades alltså inte.

Det intressanta med ett resultat som detta är att det tyder på förekomsten av biologisk nedärvning av förvärvade egenskaper. Sådan nedärvning ansågs länge omöjlig och dömdes ut som lamarckism. Denna syn har dock kommit att nyanseras något på senare år genom nya fynd och förklaringsmodeller inom den så kallade epigenetiken - studiet av ärftliga egenskaper som överförs på annat vis än genom DNA. Bygren och hans medförfattare pekar på epigenetiska processer som den troligaste förklaringen till det överraskande sambandet mellan farmödrarnas mattillgång och sondöttrarnas dödlighet i hjärt- och kärlsjukdomar.

Tråkigt nog verkar det dock som att såväl Dagens Nyheter som den vetenskapliga tidskriften BMC Genetics har gått på en rejäl nit. En närmare titt på Bygrens och hans medförfattares artikel, rubricerad Change in paternal grandmothers' early food supply influenced cardiovascular mortality of the female grandchildren, visar nämligen att deras data inte ger något nämnvärt empiriskt stöd för det nedärvningsfenomen de säger sig ha upptäckt.

Varför då denna diskrepans mellan vad Bygren et al påstår, och vad deras data faktiskt säger? För att förklara det behöver jag säga något om begreppen statistisk signifikans och p-värde. Att fullt ut förklara dessa begrepp finns inte utrymme för i denna bloggpost (se emellertid den populärvetenskapliga introduktion Statistisk signifikans och Armageddon jag bjöd på häromåret), men i korthet går de ut på följande. Man utgår från en nollhypotes (i det här fallet att det inte finns något samband mellan farmödrarnas kosttillgång och sondöttrarnas dödlighet i hjärt- och kärlsjukdomar) och ett noga utvalt mått S som sammanfattar de data man har, och jämför det erhållna värdet på S med vad som är att förvänta om nollhypotesen är sann. Med p-värdet menas sannolikheten att få ett värde på S som är minst lika avvikande som det man faktiskt fick, givet att nollhypotesen är sann. Om p-värdet understiger en viss på förhand specificerad gräns (oftast 0,05) säger man att resultatet är statistiskt signifikant. Ett sådant utfall brukar anses tala emot nollhypotesen, grundat i följande logik: att p<0,05 betyder att antingen är nollhypotesen falsk (vilket i detta fall betyder att det faktiskt finns ett samband mellan farmödrarnas kosttillgång och sondöttrarnas dödlighet), eller också har något ganska osannolikt inträffat (specifikt händelsen att p<0,05, vilken under nollhypotesen har sannolikhet högst 0,05).

Bygren et al redovisar ett p-värde på 0,016. Detta skulle indikera en statistiskt signifikant avvikelse från nollhypotesen, och utgöra ett argument för det påstådda sambandet mellan farmödrars kosttillgång och sondöttrars dödlighet, om det inte vore för följande komplikation. Signifikanstestet ifråga är inte det enda Bygren et al gjort, utan endast ett av 24 olika test som de redovisar, svarandes mot fyra olika val av far- eller morförälder (mormor, morfar, farmor, farfar), två olika val av kön på barnbarnet, och tre olika val av mattillgångsmönster under far- eller morförälderns förpubertet (24=4∗2∗3). Om man gör tillräckligt många olika test så blir till slut sannolikheten att få statistisk signifikans i minst ett av testen stor - även om nollhypotesen genomgående är sann. I det här fallet blir det i genomsnitt förväntade antalet p-värden om 0,016 eller mindre 24∗0,016=0,384. Med andra ord: i genomsnitt ett sådant p-värde i drygt var tredje studie av detta slag. Bygren et al fick ett sådant p-värde. Inte mycket att skriva hem om, och absolut inget som berättigar formuleringar som "Change in paternal grandmothers' early food supply influenced cardiovascular mortality of the female grandchildren".2,3,4

Det bygrenska tillvägagångssättet är i allt väsentligt detsamma som det som xkcd-tecknaren Randall Munroe illustrerar i följande stripp, vilken jag härmed återanvänder från en tidigare bloggpost:

Jag ser detta karolinska debacle som ännu en i raden av illustrationer till min käpphäst om "de empiriska vetenskapernas desperata behov av statistisk kompetens".

Fotnoter

1) Även Svenska Dagbladets hälsobloggare Henrik Ennart rapporterar om samma forskningsstudie.

2) Det är inte något fel i sig att testa många hypoteser, men i tolkningen av sina resultat behöver man ta hänsyn till att man gjort det. Det finns etablerade statistiska metoder för det.

3) När jag påtalade detta för Lars-Olov Bygren visade han inga tecken på att förstå eller vilja bry sig om problematiken med multipla signifikanstest. Här är mitt ebrev till honom den 20 februari kl 08:25:
    Hej Lars Olov

    Jag har läst din och dina medförfattares studie i BMC Genetics (http://www.biomedcentral.com/content/pdf/1471-2156-15-12.pdf) som DN rapporterar om idag, och undrar lite över statistiken. Tacksam om du kan svara.

    Av Tabell 1 och 2 framgår att ni gjort 24 olika signifikanstest. Det bästa p-värde ni rapporterar om är p=0.016. Under nollhypotesen att någon epigenetisk effekt av det slag ni söker inte föreligger är det förväntade (genomsnittliga) antalet minst så bra p-värden 24*0.016=0.384, dvs i genomsnitt ett sådant p-värde drygt var tredje gång man gör en sådan studie. Har ni vidtagit några åtgärder för att hantera detta problem, som vi statistiker kallar massignifikansproblemet och som innebär att om blott man testar tillräckligt många hypoteser så kan man vänta sig att få signifikans i något eller några av testen även om ingen verklig effekt föreligger?

    Vänliga hälsningar

    Olle Häggström
    professor i matematisk statistik, Chalmers
    http://www.math.chalmers.se/~olleh/

Bygrens svar till mig den 21 februari kl 10:23:
    Hej igen!
    Tack för din fråga.
    Vi menar att frågan om multipeltestning inte gällde i detta fall. Det finns tidigare i forskningsfältet många fynd av könsbunden icke-genetisk ärftlighet som gått olika vägar mellan generationerna, också i denna kohort. Vi försöker därför svara på flera olika frågor i samma artikel och tycker inte att vi ska korrigera.
    Mekanismerna är det intressanta och på människa är de inte utredda.
    Jag hoppas att vi har kommenterat fynden med försiktighet eftersom konfidensintervallen är så breda och överlappar i jämförelserna.
    Vänliga hälsningar
    Olle Bygren
Och avslutningsvis mitt svar till Bygren den 21 februari kl 11:14:
    Tack för rättframt och uppriktigt svar! Vad gäller det här med att ni skulle ha "kommenterat fynden med försiktighet" kan jag inte se att ni gjort det med den grad försiktighet som det bristande evidensläget motiverar.

    Olle H

4) Jag har inte haft tid att titta närmare på de tidigare studier (publicerade 2001, 2002, 2006 och 2007) där samma gruppering av forskare presenterar besläktade slutsatser baserat på samma datamaterial. Möjligen kunde det vara värt besväret att kolla upp om författarna i dessa tidigare arbeten tar problemet med massignifikans på större allvar än i den nu aktuella studien, eller om samma nonchalans tillämpats genomgående.

54 kommentarer:

  1. Bra, herr professor!
    Håll eder till matten och ge fan i klimatet.
    Vad betyder: man utgår en nollhypotes?
    Lite slarvig svenska bara?

    No hard feelings, please...

    SvaraRadera
    Svar
    1. Skrivfelet är korrigerat. Några inskränkningar i vilka vetenskapsområden och samhällsfrågor jag tillåter mig att kommentera accepterar jag emellertid icke.

      Radera
    2. Var dock da medveten om att narhelst man kommenterar pa ett omradet (i detta fallet biologi) som faller utanfor ens expert omrade (i detta fallet statistik), da kommenterar man inte langre som expert och ens asiker ar da minst lika varda (eller vardelosa) som vilken annan lekmans asikter i fragan.

      Jag finner det vidare lite markvardigt att ni sa snabbt avfardar Bygren svar som "rent struntprat" nar hans svar reda i inledningen indikerar att de tagit hansyn till det som ni anmarker pa och dessutom hanvisar till att andra studier inom omradet pekar pa att icke-genetisk arftlighet forekommer.

      Till mig synes da Bygren svar till er vilja gora er uppmarksam pa en mojlighet att det kanske existerar en faktsikt korrelation som det ar var att utreda vidare.

      Radera
    3. Såklart kan det hända att det existerar en faktisk korrelation, och givetvis är Bygren et al i sin fulla rätt att undersöka den saken vidare. Det har jag inte förnekat, jag har bara påpekat att det (av deras redovisning att döma) inte verkar finnas stöd i deras data för existensen av en sådan korrelation.

      Radera
  2. Den här kommentaren har tagits bort av skribenten.

    SvaraRadera
  3. Den här kommentaren har tagits bort av skribenten.

    SvaraRadera
  4. Ah, jag ser nu att jag missförstod vad du räknade ut! Nevermind! ^^'

    SvaraRadera
  5. Fyndet i Bygrens artikel, om ett samband mellan förändringar i födotillgång för farmodern och cirkulationsdödligheten hos sondottern, hade kanske varit mer intressant om de övriga sambanden varit på gränsen till ,05-signifikanta och pekat i samma riktning. Men läser man tabellerna är det svårt att se något mönster överhuvudtaget; det är hela tiden väldigt breda konfidensintervall.

    SvaraRadera
  6. Även vid traditionell vetenskap borde man mer använda sig av metodiken vid kliniska prövningar av läkemedel, dvs att på förhand ange vilka statistiska test man avser att utföra. Om man tänkt sig flera olika test får man ange metoder för att ta hand om multipliciteter. Övriga fynd är närmast att betrakta som hypotesgenererande och får följas upp i senare stdier.

    SvaraRadera
  7. Med ett felaktigt resonemang eller med felaktig utgångspunkt kan man bevisa vad som helst. Ett berömt exempel är att när Bertrand Russel utgick från att 1=2, så kunde han bevisa att han var påven.

    SvaraRadera
  8. Tack, för ett försök att styra forskningen på rätt spår.

    SvaraRadera
  9. Det kan väl tilläggas att de 24 testen i det här fallet inte tycks vara oberoende av varandra: de testar ju dels någon typ av förändring i födomönstret, dels förändring ”good to poor”, dels ”poor to good”. Det första kommer att korrelera med de två senare för ett givet par far/morförälder och barnbarn. Att någon drastisk förändring för en flicka innebär en hazardkvot för hennes sondotter på 2,69 reflekterar att förändring ”good to poor” ger hazard på 21,27. Det är de två samband som finns där konfidensintervallet inte innehåller 1. En ”poor to good”-förändring för flickan ger hazardkvot på 1,62 (KI 0,58–4,62) för sondottern.

    SvaraRadera
  10. Bra artikel! Jag undrar, studieförfattarna hävdar ju att de genom att kombinera parametrar på olika sätt "testar olika saker". Vad är det som avgör vad som räknas som ett nytt experiment/mätning, där ett ytterligare test i så fall skulle vara motiverat? Ta gärna ett exempel :)

    SvaraRadera
    Svar
    1. Se Fotnot 2. Det går an att göra hur många test man vill, bara man tar hänsyn till det i sin analys. Bygrens svar till mig den 21 februari kl 10:23 har jag svårt att förstå som annat än rent struntprat.

      Radera
    2. Jag tror du missförstod Edvins fråga. Som jag uppfattar den är den "När behöver man INTE ta hänsyn till detta?". Vi brukar t.ex. inte ta statistisk hänsyn om det är olika studier på andra individer i samma artikel och för att överdriva rejält vi brukar inte ta hänsyn till att en forskares karriär eller ett forskningsfält består av multipla studier... Har du en uppfattning om var gränsen går? Måste man alltid korrigera för multipla tester om samma data används för två helt olika och oberoende frågeställningar? (Jag tror att du är mycket bättre på att svara på detta än jag.)

      Radera
    3. Ja, du har rätt, Ola, jag smet från Edvins svåra generella frågeställning genom att åter fokusera på Bygren-fallet. Det är givetvis orimligt att hävda att en enskild forskare bara har fem procents signifikansnivå att fördela över hela sin forskarkarriär, så någonstans borde gränsen gå för vad som är acceptabelt, men jag kan inte tvärsäkert identifiera den. Samtidigt tänker kan inte låta existensen av en osäker gråzon hindra mig från att fördöma uppenbara fall av statistikmissbruk, som t.ex. det bygrenska signifikansfisket.

      Radera
    4. Men de här statistiska testerna är väl gjorda för att testa i förväg uppställda hypoteser, som kan tillskrivas någon initial plausibilitet. Problemet med massignifikans aktualiseras väl då om man har evidens på förhand för att det finns någon typ av samband inom ett område ("skiften i far- och morföräldrars kosttillgång som barn påverkar på något sätt barnbarnens kardiovaskulära dödlighet'') men inte någon speciell evidens för ett specifikt samband ("om en flicka med tidigare god kosttillgång råkar ut för svält, kommer hennes sondöttrar att få ökad kardiovaskulär dödlighet''). Om man t.ex. skulle använda Bayes teorem för att bedöma hur trolig den specifika hypotesen är, efter att man hittat ett signifikant samband, skulle man få tillskriva den väldigt låga priors, och den skulle förbli ganska osannolik, om inte p-värdet var extremt lågt. Man skulle ha högre priors för den generella hypotesen, men den förstärks å andra sidan inte mycket om man testar 24 individuella hypoteser och hittar 2 signfikanta samband.

      Radera
  11. If the p-value is significant then the null hypothesis is considered not likely. But that says that there is some correlation between a grandmother's eating habits and the granddaughter's heart disease through some epigenetic process. The most probable mechanism may be the grandmother passed on food preparation patterns and poor eating habits to the granddaughter. My mother went through the Depression and we were often lectured on letting food go to waste at the table.

    SvaraRadera
  12. Sitter inte > åt fel håll i xkcd-strippen?
    Enligt den har exempelvis bruna jelly beans ett p-värde på större än 0.05, och gröna ett p-värde på mindre än 0.05.
    Eller tänker jag fel?

    SvaraRadera
    Svar
    1. Olikheterna ser ut att gå åt rätt håll. Ju lägre p-värde desto mer statistiskt signifikant utfall.

      Radera
  13. "Bygrens svar till mig den 21 februari kl 10:23:

    Hej igen!
    Tack för din fråga.
    Vi menar att frågan om multipeltestning inte gällde i detta fall. "

    "Bygrens svar till mig den 21 februari kl 10:23 har jag svårt att förstå som annat än rent struntprat."

    Vad han sager ar att statestik =!= biologi.

    SvaraRadera
    Svar
    1. Att statistik och biologi inte är samma sak vet jag naturligtvis, men om det var det Bygren menade så uttryckte han sig lite väl kryptiskt, och sagda olikhet duger inte för fem öre som svar på min kritik.

      Bygren et al använder sig i uppsatsen av statistiska metoder för att argumentera för sin tes. Om argumentationen skall kunna anses giltig krävs att de använder de statistiska metoderna rätt, men de använder dem i själva verket (och som jag konstaterar i bloggposten) fel (rentav uppåt väggarna fel), och deras argumentation är därför ogiltig.

      Radera
  14. Snyggt! Du borde skicka det till BMC Genetics. Cheerio Gustaf

    SvaraRadera
  15. Cecilia Balden-Lembke24 februari 2014 kl. 13:48

    Första gången jag såg exempel på detta med massignifikans, var i en undersökning, basunerad i många dagstidningar, om att kvinnor som ville ha en son, skulle äta mycket frukostflingor.

    De hade jämfört ev. intag av 133 livsmedel (i undermåliga enkäter, där gravida kvinnor skulle minnas precis hur de åt månaden före befruktningsögonblicket) med hur många pojkar som föddes. Ett av de 133 livsmedlen var frukostflingor.

    You are what your mother eats.

    Hittade alldeles nyss utförlig kritik mot studien.
    http://www.labtimes.org/labtimes/issues/lt2008/lt04/LT_2008_04_24_27.pdf

    SvaraRadera
  16. Olle H är Sveriges svar på Steven Novella. En encyklopedisk besserwisser som faktiskt har rätt.

    SvaraRadera
  17. Tack för ett bra och intressant inlägg i en viktiga debatt!
    Tycker som en tidigare kommentator att BMC Genetics borde upplysas om massignifikansproblemet. Tidningen är förvisso inte någon kioskvältare rent impact-mässigt (2,8), men på samma vis som att det går att dra höga växlar på enstaka signifikanta korrelationer i en icke signifikant soppa, går det uppenbarligen även att dra samma höga växlar på resultat från tidningar med (förmodad) tveksam peer-review.

    SvaraRadera
  18. Väl rutet, Olle Häggström. Själv är jag en trött epidemiolog som visserligen gjorde samma reflektion som du, men som lät det stanna vid en arg utläggning runt fikabordet.

    I det större vetenskapliga perspektivet så är inte alla belägg för epigenetisk nedärvning lika svaga som just detta fall, men jag skulle säga att de lider av tillräckliga metodologiska problem för att säga att vi faktiskt inte vet om det förekommer i sådan utsträckning att det har någon relevans för vår hälsa. Den färgglada grafiken på DN är helt omotiverad och folk bör inte bryta kontakten med sina farföräldrar i ilska över deras dåliga kost på 1930-talet.

    /Thomas

    SvaraRadera
    Svar
    1. De metodologiska problemen antar jag du menar gäller studier på människans hälsa. Människan är inte den enda organismen där DNA t.ex. kan metyleras, och hälsa är inte den enda "egenskapen" som kan påverkas av detta.

      Radera
  19. SRs vetenskapredaktion om varför de inte rapporterat om studien http://sverigesradio.se/sida/artikel.aspx?programid=415&artikel=5797405

    SvaraRadera
    Svar
    1. Jag inbillar mig att jag satt större avtryck i det där inslaget än vad som explicit framgår. Vetenskapsradion hörde av sig till mig redan i tisdags i förra veckan (alltså några dagar innan DN-artikeln gick i tryck) och bad om min synpunkt på Bygren et al, något jag frikostigt bjöd dem på (och senare utvecklade till bloggposten ovan).

      Radera
  20. Denna DN-artikel kan vara intressant att läsa:

    http://www.dn.se/nyheter/vetenskap/karin-bojs-falsk-matematik-om-farmors-matvanor/

    SvaraRadera
    Svar
    1. Dessvärre skriver hon också att statistisk signifikans "brukar i medicinska sammanhang betyda att det är mindre än en chans på tjugo att det som ser ut som ett samband i själva verket bara är ren slump": det låter som det bygger på missförståndet att p-värdet är nollhypotesens sannolikhet.

      Radera
    2. Karin Bojs är redan underrättad om saken och har utlovat en korrigering i webbversionen. Jag brukar kalla felet hon begår fallacy of the transposed conditional, och oblygt hänvisa till min uppsats Statistisk signifikans och Armageddon, sid 5, pkt 3.

      Radera
    3. Kan ni förklara hur och i så fall hur hon borde uttrycka sig istället? Jag ser inte att hon uttalar sig om nollhypotesen utan det liknar mer "Statistisk signifikans betyder i detta fall att om nollhypotesen är sann så har en händelse med sannolikhet högst 0,05 inträffat (nämligen händelsenatt vi fick statistisk signifikans)". Jag håller med om att "det låter som det bygger på missförståndet att p-värdet är nollhypotesens sannolikhet" men jag ser inte att det faktiskt står så. Vad är det jag missar?

      Förövrigt håller jag inte med om att biologer behöver anlita statistiker i normalfallet. Studier byggs upp utifrån statistiken som behärskas och vi biologer få helt enkelt se till att behärska den statistik vi använder. Alla biologer vid GU får lära sig detta med multipla tester på grundkursen i statistik och det beskrivs tydligt i kursboken att detta måste göras (åtminstone för posthoctest - jag har inte boken här). Refereer kommer definitivt slå ner på det om det inte görs (jag har ingen data på detta, men jag gör det och det är sällan jag läser artiklar där detta inte gjorts åtminstone på data som tas upp i diskussionen). Det är BMC genetics som gjort en tabbe när de missat det.

      Radera
    4. Cecilia Balden-Lembke3 mars 2014 kl. 22:43

      Hon kunde exempelvis skrivit:
      "Statistiskt signifikant, innebär att man ifall slumpen gäller, i endast ungefär vart tjugonde likadant test, erhåller detta resultat."

      Men det Bojs skrev var: "en chans på tjugo att det som ser ut som ett samband i själva verket bara är ren slump"
      dvs
      en chans på tjugo att det som ser ut som ett samband i själva verket bara är nollhypotesen (slumpen)

      vilket är motsatsen.

      Radera
    5. Tack! Självklart! Det var jag som vimsade till det och läste fel.

      Radera
  21. Bojs gör ju dock bort sig i DN. Att epigenetiken har en mörk historia genom Lysenko är ju inget skäl till att vara misstänksam till alla moderna rön på området. Lika lite som den vanliga anti-Lamarckistiska genetikens koppling till fascistiska ideologier förr i tiden ger skäl att förkasta moderna genetiska rön. Varje studie måste bedömas på sina vetenskapliga meriter, inte utifrån ideologiska avarter i det förflutna.

    SvaraRadera
  22. Olle,

    du är fortfarande Edvin svaret skyldig! Varför är Bygrens artikel ett "uppenbart fall av statistikmissbruk" och varför faller den inte inom den "osäkra gråzonen"? Antag att Bygren skriver en ny artikel i morgon där han testar förekomsten av epigenetiska effekter i 10 nya grupper. Ska han då "justera" för de test han redan gjort i den förra artikeln? Eller om Bygren hade fördelat de test han redan har gjort över 10 artiklar istället för en, skulle han då "justerat" resultaten? Jag utmanar dig att formulera en någorlunda logisk koherent princip för när man ska justera för multipla test, som inte inbjuder till bisarra motexempel.

    Mvh
    Arvid Sjölander

    SvaraRadera
    Svar
    1. Det är lite oklart, Arvid, huruvida din kommentar är avsedd som ett försvar för Bygren et al, eller om du spelar djävulens advokat i syfte att försöka provocera fram lite klarare distinktioner på detta lite svåra område. Med tanke på vad din KI-hemsida säger om doktorsexamen i biostatistik och att du "bistår med statistisk expertis inom flera forskningsfält" tror jag och hoppas på det senare.

      Hur som helst, vetenskap är komplext och knappast möjligt att reducera till enkla och svart-vita regler som kan följas robotaktigt för att dra rätt slutsats i varje enskild situation. Särskilt svårt tycker jag det är på multipelsignifikanssområdet att formulera principer som inte uppmuntrar cyniska karriäristforskare till enkla undanmanövrar, t.ex. genom möjligheten du nämner att sprida sina resultat över fler publikationer.

      Ändå skall jag gå dig till mötes och formulera en princip jag hoppas du kan instämma i, och som tydligt dömer ut Bygrens et al artikel bortom allt som kan kallas gråzon. Principen är denna:

      Ett vetenskapligt arbete som (a) bekänner sig till det frekventistiska hypotestestningsparadigmet, och (b) gör anspråk på att förkasta en nollhypotes H, är tvungen att påvisa (eller åtminstone troliggöra) att om H vore sann så skulle sannolikheten att förkasta den med den brukade metoden vara låg.

      Del (a) är ingalunda obligatorisk för ett empiriskt vetnskapligt arbete (t.ex. kan man ju välja att istället använda bayesianska metoder), men Bygrens et al artikel är så genomsyrad av p-värdesexcersis att vi utan vidare kan konstatera att (a) gäller. Det är också helt klart att (b) gäller, med H={det finns inga samband mellan mor- och farföräldrars mattillgång under förpuberteten och deras barnbarns dödlighet i hjärt- och kärlsjukdomar}, dvs de gör anspråk på att ha stark evidens mot denna hypotes. Emellertid är sannolikheten att förkasta H (om den är sann) med deras metod alls inte låg. Med den orimligt välvilliga tolkningen att de utropar "Vi har stark evidens mot H!" endast om något av deras 24 p-värden blir högst 0,016, så ger Bonferronis metod att sannolikheten att förkasta H blir högst 0,384, vilket alls icke är någon låg sannolikhet. (Möjligen går Bonferroniskattningen att pressa ned något, men det förefaller som ett intrikat problem då testen (som Karl 21:12 ovan påpekar) inte är oberoende, och författarna gör hur som helst ingen ansats i den riktningen.) Troligare förefaller dock, för den som läser artikeln, att författarna hade utropat "Vi har stark evidens mot H!" så snart något av deras 24 p-värden blir högst 0,05. Bonferronis övre skattning av sannolikheten att förkasta H (om H är sann) blir då 24*0,05=1,2, vilket förvisso kan trunkeras ned till 1, men 1 är likväl inte någon låg sannolikhet.

      Bygrens at al arbete bryter alltså mot den kursiverade principen ovan, och kan därför dömas ut som dålig vetenskap - dålig bortom varje gråzon.

      Radera
    2. Olle,

      du ”tror och hoppas” att min kommentar inte var ”avsedd som ett försvar för Bygren et al”, eftersom jag ju har en ”doktorsexamen i biostatistik”. Själv tror och hoppas jag på att vi kan ha en diskussion där vi bemöter varandras argument utan att värdera den underliggande avsikten, och utan insinuationer om vad man borde eller inte borde veta om man är doktor/professor.

      Visst skriver jag under på din kursiverade princip. Tyvärr sopar denna princip problemet under mattan eftersom den inte definierar vad som menas med den ”brukade metoden” (sista meningen i del (b)). Notera att den ”brukade metoden” är synonymt med det ”upprepade försök” till vilket sannolikheten att förkasta H relaterar. Olika definitioner av den ”brukade metoden” ger olika sannolikheter. I ditt räkneexempel definierar du den ”brukade metoden” som beräkningen av 24 p-värden. Med denna definition stämmer det att vi inte kan förkasta H utan att bryta mot den kurviserade principen, eftersom minst 1 p-värde av 24 kommer ofta att falla under signifikansnivån även om H är sann, skulle vi upprepa försöket (dvs räkna om alla 24 p-värden upprepade gånger för olika data). Bygren kan sägas ha definierat den ”brukade metoden” som beräkningen av 1 p-värde, för 24 separata test. Med denna definition kan vi förkasta H* (H består av unionen av 24 delhypoteser, jag låter H*beteckna den delhypotes för vilken p-värdet föll under signifikansnivån) utan att bryta mot den kursiverade principen eftersom p-värdet för H* kommer sällan att falla under signifikansnivån om H* är sann, skulle vi upprepa försöket (dvs räkna om p-värdet för H* upprepade gånger för olika data). Vi kan invända att Bygrens definition ter sig orimlig, givet att han faktiskt har beräknat 24 p-värden i en och samma artikel. Men om nu Bygren hade skrivit 24 artiklar istället för en, med 1 p-värde i varje, så ter sig hans definition helt rimlig, i alla fall för mig.

      Och detta är kärnan i problemet; genom att låta mer eller mindre godtyckliga faktorer styra hur vi definierar det upprepade försöket (den ”brukade metoden”) kommer vi till olika slutsatser. Och jag omformulerar alltså min utmaning till dig som presentera en någorlunda logisk koherent princip för hur det upprepade försöket ska definieras, som tydligt dömer ut Bygrens arbete som ”dålig vetenskap bortom varje gråzon”.

      Jag vill nämna att jag brottas själv med detta problem dagligen. Som statistiker gör jag ett stort antal hypotestest varje dag, i samarbete med olika tillämpade forskare. Ofta gör jag ”preliminära” test för att försöka finna en statistisk modell som beskriver data väl, och som kanske inte presenteras i den slutliga artikeln. Ingår dessa i det upprepade försöket? Ofta växer ett projekt som ursprungligen var tänkt för en artikel till två artiklar, ska dessa två artiklar betraktas som ett upprepat försök eller som två upprepade försök? Ibland vill man undersöka samma hypotes från två olika infallsvinklar, t ex med två olika definitioner av utfallet. Ett eller två försök? Jag har tyvärr själv ingen bra lösning på problemet, inte ens någon lösning som jag tycker är rimlig som ”tumregel”.

      Mvh
      Arvid

      Radera
    3. H* skulle väl i det här fallet kunna vara negationen av det jag (24/2 17:22) kallade den "specifika" hypotesen "om en flicka med tidigare god kosttillgång råkar ut för svält, kommer hennes sondöttrar att få ökad kardiovaskulär dödlighet'' (och det är ju detta specifika resultat forskarna gått ut med i media)? Jag var inne på att man skulle hänvisa att H* ter sig så sannolik på förhand, att vi inte borde förkasta den bara för ett ,05-signifikant resultat, men då är vi väl som sagt inne på bayeisanska resonemang.

      I övrigt är väl den generella nollhypotesen H snittet av 24 delhypoteser, snarare än unionen? Det räcker väl med att en av de 24 delhypoteserna är falsk (det existerar minst ett samband) för att H skall vara falsk?

      Radera
    4. Jag beklagar, Arvid, om jag förolämpade dig med första stycket i min förra kommentar 17:42 ovan. Det är bara det att om det visar sig att det finns professionella biostatistiker som på allvar tycker att Bygrens et al statistiska hantering är försvarlig, då är den alarmerande situation jag skisserar i min uppsats Why the Empirical Sciences Need Statistics So Desperately ännu värre än jag anat. Därför vore det en stor lättnad för mig om du klart och utan omsvep deklarerade att du anser Bygrens et al hantering av den statistiska analysen klandervärd, och att den empiri de redovisar inte verkar ge någon nämnvärd evidens för att nollhypotesen H definierad 17:42 ovan skulle vara falsk. Eventuellt skulle det också underlätta fortsatt teoretisk diskussion att slippa ha det orosmolnet hängande över oss.

      Du fortsätter att efterlysa klara entydiga regler för hur man får göra - regler som inte öppnar för illasinnade tolkningar och perverterade motexempel som t.ex. förslaget att Bygren et al delar upp sin studie i 24 separata publikationer. Jag tror dessvärre inte att frekventistisk inferensteori (till skillnad mot t.ex. satslogik) är tillräckligt robust för att medge något sådant vattentätt regelsystem, och jag avböjer därför din fortsatta utmaning att formulerat ett sådant.

      Ditt motexempel med de 24 separata Bygren-artiklarna tycker jag dock visar något väsentligt, nämligen att det inte är uppdelningen av resultat i publikationer som skall styra hur vi hanterar massignifikansproblematiken. Ett p-värde i sig säger inte mycket, utan behöver förstås i sitt relevanta sammanhang, och det är nog där någonstans - relevanta sammanhang - som du bör leta om du är på jakt efter goda tumregler för hantering av massignifikansoprobematiken. Om Bygren et al försökte sig på den föreslagna 24-artikelskonceptet, och i den artikel där de erhöll p=0,016 förteg de övriga 23 testen och underlät att inkludera dem i sin analys, så skulle de fallera i sin redovisning av det relevanta sammanhanget, och de skulle bryta mot en annan viktig regel jag på annat håll formulerat:

      Forskarens enda acceptabla förhållningssätt är att söka efter de sanna svaren på det problem hon studerar – oavsett vad dessa svar råkar vara. När hon redovisar sina slutsatser måste hon lägga lika stor kraft på de argument som talar emot slutsatserna som dem som talar för dessa. Att undanhålla läsaren de förstnämnda, för att enbart lägga fram de argument som stödjer de egna slutsatserna, är en vetenskaplig dödssynd, och den forskare som gör sig skyldig till detta befinner sig långt ute på det sluttande plan som vetter mot pseudovetenskapen.

      Radera
    5. Grunkursens enkla regel är att signifikanstest ska utföras på unika data. Helst ska olika test göras på unika replikat (tex individer), men åtminstone olika mätningar (tex hjärtsjukdom och fetma hos samma individer). Görs fler än en jämförelse ska justeringar för detta göras. Därmed är de 24 artiklarna på samma dataset förkastliga, likaså Bygrens artikel.

      Arvids gråzon dyker upp först när man fiskar efter det test som fungerar bäst. Att leta efter ett test som pressar ner p-värdet från 0.053 till 0.045 är tvivelaktigt, men däremot att leta efter den modell som bäst beskriver data bör vara ok. Man kan testa att inkludera olika covariater mm och för att hitta bästa modellen, minsta residualen mm. Där får man vara pragmatisk men ärlig mot sig själv.

      Arvids delning av en artikel till två påverkar inte tumregeln om unika data. Det är på fel sida om gränsen om flera tester utförs på samma data utan kompensation, oavsett hur många artiklar som sedan publiceras.

      Biolog

      Radera
    6. Karl, tack för rättelsen, visst ska det vara ”snittet” och inte ”unionen”.

      Biolog, jag kan inte se att behovet att korrigera för multipla test skulle vara större om testen görs på samma data, möjligen tvärtom. I extremfallet är teststatistikorna perfekt korrelerade, och då har vi inte något multiplicitetsproblem eftersom testen då alltid kommer att ge samma resultat. Missar jag något uppenbart här?

      Olle, jag börjar tro att vi är mer överens än vad jag först fick intrycket av. Jag skriver helt under på det du säger om ”relevanta sammanhang”. När en forskare presenterar signifikanta samband bör hen alltid relatera till vad övrig forskning indikerar. Här använder jag ”övrig forskning” i en generiska form, det kan vara både forskning (läs hypotestest) som presenteras inom samma artikel, och forskning som är presenterad i andra artiklar, oavsett om författaren är densamma eller ej. Om övrig forskning inte har påvisat några signifikanta samband så bör det presenterade fyndet tolkas med stor försiktighet. Jag tror dock inte att det är möjligt att formalisera denna ”försiktighetsprincip” matematiskt/statistiskt på något tillfredsställande sätt (e.g. genom Bonferronikorrektion.). Här verkar vi också vara överens.

      Rekommendationen blir alltså att presentera varje hypotestest och tillhörande p-värde/konfidensintervall vart och ett för sig, utan några ”korrektioner” för multipla test, men att erbjuda läsaren en informell diskussion om hur trovärdigt ett eventuellt fynd är, med avseende på vad man i övrigt funnit eller inte funnit. Och att inte övertolka resultaten.

      Nu till Bygrens artikel. Tabell 1 och 2 presenterar 24 separata analyser, med varsitt konfidensintervall. Endast 2 är signifikanta. Så långt allt väl, och in enlighet med rekommendationen ovan. Dock, att 2 test av 24 faller ut signifikanta är naturligtvis inte övertygande bevis för hypotesen, och jag håller med om att Bygren et al tenderar att övertolka. Specifikt, i sammanfattningen skriver de ”Conclusion: The shock of change in food availability seems to give specific transgenerational responses”. Jag hade inte vågat sammanfatta resultaten på det sättet. Jag noterar dock att diskussionsdelen av artikeln är aningen mer försiktig (e.g. ”The sample size was however small and confidence intervals large.”, ”Our results raise a suggestion ...”). Dessutom erbjuder författarna ett långt biologiskt resonemang för att förklara de signifikanta resultaten. Jag kan inte bedöma om detta resonemang är rimligt, men om så är fallet så är naturligtvis också den sammanfattande slutsatsen mer rimlig (och tvärtom; orimligt biologiskt resonemang ger orimliga slutsatser).

      Så sammanfattningsvis: nej, jag tycker inte att Bygrens artikel är helt bra. Men jag tycker inte heller att den är tillräckligt dålig för att motivera kraftuttryck som ”Falsk matematik” (Karin Bojs, DN 2/3), och ”dålig bortom varje gråzon” (Häggström ovan).

      Mvh
      Arvid

      Radera
    7. OK Arvid, då vet vi var vi har varandra i alla fall. Dina allmänna reonemang i denna din senaste kommentar 09:13 är i mina ögon tämligen förnuftiga (och ett klart fall framåt jämfört med dina tidigare kommentarer), men din bedömning av Bygren et al tycks mig fortsatt orimlig: Jag vidhåller att om man skriver "Conclusion: The shock of change in food availability seems to give specific transgenerational responses" trots att data inte ger stöd för en sådan slutsats, då begår man en evidensförvrängning som gör arbetet dåligt bortom varje gråzon, oavsett hur mycket kvasiödmjukhet man sedan tillfogar om att "confidence intervals [are] large" etc.

      Radera
    8. Arvid. Jag har fortsatt grubbla över hur en intelligent och statistiskt literat person som du kan ta Bygren et al i försvar. För mig ter sig detta som ett mysterium, som inte blir mindre av att du säger dig acceptera den kursiverade metodregeln (i det följande kallad metodregel M 17:42) i min kommentar 17:42 ovan.

      Min bästa gissning så här långt är den som följer nedan. Den kan vara helt fel, vilket vore i så fall vore intressant att få veta, och hur som helst vore det intressant att få höra din reaktion.

      Mycket grovt förenklat och idealiserat finns två sätt (1) och (2) att se på vetenskapen.

      (1) Vetenskapen som opartiskt sanningssökande. Vetenskap handlar om att ställa frågor till Verkligheten om hur den är beskaffad - frågor som om de är skickligt valda ger evidens i ena eller andra riktningen om hur Verkligheten är beskaffad. Denna evidens tar man till sig oavsett i vilken riktning den pekar, och den forskare som avsiktligt ger en vrångbild av vartåt evidensen pekar förtjänar inte att kallas riktig vetenskapsman (förlåt, vetenskapsperson) utan blott en dålig imitatör.

      (2) Vetenskapen som socialt spel. Vetenskap går för den enskilde vetenskapspersonen ut på att med alla medel som inte explicit förbjudits, inklusive paragrafryttreri och kreativt regelböjande, söka skaka fram så karriärbefrämjande p-värden som möjligt.

      Sett som beskrivning av hur vetenskap faktiskt går till tror jag att det ofta ligger en hel del i (2), men normativt (dvs, hur bör vetenskap gå till?) ligger mina sympatier helt och hållet hos (1).

      För en person som (likt mig) tagit (1) till sitt hjärta och fördömer (2), är det omöjligt att ha läst och begripit både M 17:42 och Bygren et al, och ändå tycka att Bygren et al utgör godtagbar vetenskap.

      Men kanske är du inte en sådan person? Kan det vara att du är mer pragmatisk till ditt sinnelag, att du konstaterat att det i praktiken är (2) som regerar inom vetenskapen, och att du därför (en smula cyniskt, men ändå begripligt) valt agera utifrån vetenskapsidealet (2)?

      För en person som på detta vis tagit ställning för (2) är det möjligt att betrakta Bygren et al i ljuset av M 17:42, och tänka ungefär som så att "Aha, M 17:42 preciserar inte vad som menas med 'metod'. Då gäller det att hitta ett sätt att tolka 'metod' så att Bygren et al kommer undan med sina slutsatser. Låt oss säga att deras metod är att utföra ett test av nollhypotesen H, och att de sedan upprepar denna metod 24 gånger. Om vi sedan envist insisterar på att upprepandet av denna metod 24 gånger inte i sig utgör en 'metod', då har vi faktiskt konstruerat ett försvar för att Bygren et al hållit sig inom spelreglerna, vilket ju är kanonbra eftersom de därmed kan stoltsera med ett hyggligt p-värde för något riktigt sensationellt, vilket är karriärbefrämjande."

      Som sagt, jag känner ingen sympati med vetenskapssyn (2) och dess här skisserade tillämpning på Bygren et al, men den är i alla fall begriplig.

      Radera
    9. Olle,

      09.13 skrev jag ”...jag håller med om att Bygren et al tenderar att övertolka. … Jag hade inte vågat sammanfatta resultaten på det sättet.” Jag torde därmed ha klargjort att jag delar din uppfattning om att Bygrens artikel inte presenterar övertygande bevis för existensen av TGR. När du skriver att jag ”försvarar” Bygren et al antar jag därför att du syftar på min avslutande mening; ”Men jag tycker inte heller att den [Bygrens artikel] är tillräckligt dålig för att motivera kraftuttryck som … ”dålig bortom varje gråzon””. Du gissar att min ovilja att kategorisera Bygrens artikel som ”dålig bortom varje gråzon” beror på att jag anser att ”Vetenskap går för den enskilde vetenskapspersonen ut på att med ... paragrafryttreri och kreativt regelböjande, söka skaka fram så karriärbefrämjande p-värden som möjligt.” Detta är enligt egen din utsago din ”bästa gissning”.

      Din ”bästa gissning” ligger tyvärr väldigt långt ifrån sanningen. Så här ser jag på saken. En epidemiologisk studie består av många olika moment. Tidigare litteratur ska plöjas igenom. Relevanta hypoteser ska formuleras. Etiska tillstånd ska ansökas om (vilket är en vetenskap i sig). Eventuell poweranalys ska genomföras och lämplig studiedesign ska bestämmas. Data ska samlas in. Lämpliga statistiska metoder ska identifieras. Data ska analyseras. Resultat ska tolkas och slutsatser ska dras. Alla dessa moment kräver mycket tid och stor expertkunskap från olika vetenskapsfält (e.g. medicin, biologi, registerkunskap, programmering, statistik). Såvitt jag kan bedöma (mer precist, jag ser åtminstone inga övertygande bevis för motsatsen) har Bygren genomfört alla dessa moment klanderfritt, utom just det sista momentet som rör tolkningen av resultaten. Det betyder att Bygrens artikel skulle kunna ha god potential att bidra positivt till den ”allmänna kunskapsbanken”, bara man ser till de faktiska resultaten och bortser från Bygrens (över)tolkning av dessa. Och därför tycker jag också att det är lite väl orimligt att döma ut hela artikeln/arbetet som ”dålig bortom varje gråzon”. Ungefär lika orimligt som att döma ut en professor som en dålig och ovetenskaplig människa för att han har lite svårt att uppfatta och förhålla sig till nyanser.

      Mvh
      Arvid

      Radera
    10. OK Arvid, tack för nytt klargörande! Att döma av detta får jag nu ompröva vari skillnaden i hur vi ser på fallet Bygren ligger. Nu verkar skillnaden inte primärt ligga i någon grundläggande meningsskiljaktighet i vetenskapssyn (av typen (1) vs (2) i min kommentar 18:55 ovan) eller i hur det går an att tillämpa frekventistisk hypotesprövningmetodik, utan helt enkelt i att du verkar ha ett positivare kynne än jag, och en mer generös syn på andras arbeten. Jag, å ena sidan, anser att en artikel som redan i titeln trumpetar ut ett påstående ("Change in paternal grandmothers' early food supply influenced cardiovascular mortality of the female grandchildren") som visar sig sakna empiriskt stöd i de data som åberopas och som författarna bara når fram till genom grovt statistikmissbruk - en sådan artikel kan direkt stämplas som usel och som ett kontraproduktivt bidrag till vetenskapen. Du, å andra sidan, intar ett mer förlåtande förhållningssätt: visserligen, verkar du mena, har författarna inte täckning för sina slutsatser, men i kraft av deras snillrika datainsamling och deras klanderfria hantering av etikprövningsbyråkratin förtjänar artikeln ändå totalt sett ett relativt gott betyg, eller i alla fall inte något underbetyg. Här visar du helt klart prov på nyansering och generositet på en nivå som jag själv inte förmår uppbåda.

      Radera
    11. Jag tänkte inte kommentera denna diskussion överhuvudtaget, men kunde ändå inte hålla inne med mina reflektioner.

      För mig förefaller det motsägelsefullt om insamlandet av data mm har gjorts på ett vederhäftigt, och i alla avseenden korrekt sätt (jag vet förstås inte med säkerhet om så är fallet, men skribenten skapar ett intryck av att så ändå skulle vara fallet). Då förvånar det mig om man i det allra viktigaste och sista faserna, som vi kan kalla resultat och slutsatser, varit mindre noggrann.

      Detta förefaller inte vara seriöst. Sedan kan korrelationen finnas där i alla fall, men vetenskap handlar väl om att överyga sig om detta med kända vetenskapliga metoder. Jag tror fõ det var Olles bloggranne Björn Bengtsson som hade en utmärkt bloggpost om "korrelation och kausalitet" . Att övertyga sig om en korrelation handlar om att undvika många tänkbara fällor, och får inte förväxlas med kausalitet.

      Jag håller helt med om att vetenskap handlar om att söka sanningen om verkligheten, och detta gäller oavsett hur verkligheten råkar på att se ut. Vetenskap är inga beställningsarbeten, och skulle detta vara fallet är "vetenskapen" ute på oerhört farliga vägar.
      Kjell Eriksson

      Radera
  23. Jag tycker att Olle Häggström gör en Mycket viktig insats! Det är naturligt att det inträffar enstaka, smärre fel. Att det blir Stora fel är dock allvarligt och måste åtgärdas!

    Det publiceras alldeles för mycket som är mer eller mindre fel - och man vet om i förväg att det troligen är fel.
    Ett känt exempel är "Öbergs peak" - dvs. den topp i Riksbankens ränta som fanns alldeles innan finanskrisen bröt ut! Felräknad BNP på SCB - som visste om att programmen "troligen ej var helt korrekta".
    Mvh Anders Sköllermo

    SvaraRadera
  24. Mycket intressant och givande diskussion, tack.
    Om jag får komma med en praktisk fråga hur man undviker massignifikansproblemet, jag vill göra en kvantitativ analys av 100 fall, och har många hypoteser som jag vill testa, som antingen är sanna eller osanna. Hur räknar man ut hur många hypoteser jag kan testa, utan att det sammanlagda p-värdet överstiger 0,05?
    Mvh Erik

    SvaraRadera
  25. Scrolla ner lite i den här länken till verktyget "Hack your way to scientific glory" http://fivethirtyeight.com/features/science-isnt-broken/
    Väldigt illustrativt om hur lätt man kan få signifikans med tillräckligt många frihetsgrader!

    SvaraRadera