Statistisk testing

Statistisk testing er når vi bruker matematiske modeller på datamaterialet for å si noe om sannsynlighet, sammenhenger og variasjon. Det er i denne grenen det mulig å bruke et kvantitativt datamateriale om et utvalg for å si noe om en populasjon, og samtidig vite noe om sannsynligheten rundt denne generaliseringen. Det er dette de fleste meningsmålinger og spørreundersøkelser bygger på. Om man stiller samme sett med spørsmål til mellom 1 000 og 1 500 tilfeldig utvalgte personer kan man si noe om hva «alle» i Norge mener.

På en enkel måte kan vi si at statistisk testing gir oss muligheten til å tallfeste hvor usikre vi er på noe. For å gjøre det er vi nødt til å forsikre oss om at innsamlingen, datamaterialet og analysemetodene oppfyller visse forventninger om sannsynlighet og tilfeldigheter. Om man for eksempel begynner å lese seg opp på utvalgsmetoder (eller sampling som det heter på engelsk), finner man fort ut hvor komplisert det kan bli. Mye av grunnen til at det kan bli komplisert, er at i hvert ledd av prosessen, finnes det mange måter å kontrollere og sjekke datamaterialet på.

Det er også mange, og ganske ofte forskere, som glemmer at statistikk også er en egen fagdisiplin med faglige uenigheter, men hvor det også skjer utviklinger. Ofte presenteres statistiske metoder som faste oppskrifter på hvordan man analysere noe. Selv om slike oppskrifter som dere finner i bøker for kvantitative metode som oftest er korrekte, så diskuterer de sjelden bakgrunnen og tolkningsmulighetene innenfor metodene.

Et ganske godt eksempel på det er p-verdien. Dersom dere noen gang har kommet over en tabell i en forskningsrapport og sett bruk av en eller to stjerner (*) bak ett tall, så er det meget sannsynlig at forskerne her har oppgitt p-verdien for den statistiske analysen. Under tabellen finner man gjerne * > 0,05, som betyr at «p-verdien er under 0,05». Da kan forskningsjournalisten skrive at «funnene var statistisk signifikante». Med andre ord: Sammenhengen eller forskjellen mellom de to variablene er så stor at det ikke bare er tilfeldigheter.

Statistiske tester som ender opp i et resultat med en p-verdi, er kanskje noe av det mest vanlige innenfor kvantitativ forskning. Da er det interessant å vite at det hersker mange misforståelser rundt hva en p-verdi egentlig er. Dersom dere dedikerer en og en halv time av livet til å høre på denne episoden av Udannet, vil dere antagelivis vite mer enn de fleste om p-verdien, men også oppdage at statistikk faktisk er ganske interessant.

Dersom dere har lyst til å sammenligne gjennomsnitt i to grupper, er dere nødt til å se nærmere på statistisk testing.

William S. Gosset (1876–1937). Ølbrygger og statistikk-hipster

Dere trenger egentlig ikke å kunne så mye matematikk for å gjøre statistisk testing. I dag bruker de fleste programvare som tar seg av alle de matematiske kalkulasjonene. I statistikken er det imidlertidig lett å trå feil, og det er en fordel å kjenne til hvilke antagelser man tar om datamaterialet når man tester det statistisk. Viktige tema her er representativitet, normalfordeling og hypotesetesting. Den vanligste statistiske testen er å sammenligne gjennomsnitt i to utvalg. Denne går under navnet Student’s t-test, eller bare t-test, og ble utviklet for rundt 100 år siden av William Sealy Gosset som jobbet i Guiness’ øl-bryggerier. I t-tester sjekker vi om forskjellene i gjennomsnittene hos to utvalg er store nok til at det ikke kan være tilfeldig.

Her er et tenkt eksempel som illustrerer hvorfor dere ikke bare kan sammenligne gjennomsnitt i to grupper uten videre. Dersom dere finner ut at gjennomsnittskarakteren for jentene og guttene i én klasse er omtrent 4, kan dere ikke uten videre anta at det ikke er noen forskjeller mellom disse:.

Guttene: (2 + 3 + 2 + 3 + 6 + 5 + 6 + 5) / 8 = 4
Jentene: (4 + 5 + 3 + 5 + 3 + 5 + 4 + 5 + 4) / 9 ≈ 4.2

Gjennomsnittene for jentene og guttene er nesten det samme, så ser vi at hos guttene er det én gruppe med dårlige og veldig gode karakterer, og hos jentene er det mer jevnt. Med andre ord, selv om gjennomsnittet for gruppene er like, så er ikke nødvendigvis gruppene like når det kommer til karakterer. Prinsipper om gjennomsnitt, varians og standardavik er grunnleggende for statistisk testing.

Korrelasjon og kausalitet

Når dere gjør statistisk testing og kanskje kommer frem til at det er forskjeller i variasjonen mellom to utvalg som er så store at de ikke kan være tilfeldige, så kan det hende dere har funnet det vi kaller en korrelasjon. Altså en sammenheng som til en vis grad kan forutsis gitt de samme omstendighetene.

Når dere i slutten av denne boken bes om å si noe om hvorfor det dere har funnet er tilfelle, er det fristende å omtale denne korrelasjonen for det vi kaller en kausalitet – en sammenheng hvor det ene kan sies å føre til det andre. Om du slår et egg mot bordflaten og det knuser, så kan vi forklare den kausale sammenhengen med at din handling påførte egget så mye kraft at skallet ikke holdt og gikk i stykker.

Dersom vi hadde funnet en signifikant forskjell mellom karakterene for guttene og jentene over, så kunne det vært fristendene å konkludere at noen får bedre karakterer fordi de er av det ene eller andre kjønnet. Men det gir egentlig ikke statistikken i seg selv grunnlag til å konkludere – selv om forskjellen kan være der.

Nettstedet http://tylervigen.com/spurious-correlations understreker at korrelasjon og kausalitet ikke alltid henger sammen.

For å utarbeide teorier om kausalitet og årsakssammenhenger er man avhengig av å trekke inn tidligere forskning på emnet, gjøre ytterliggere studier, tester og analyser som kan utelukke andre faktorer. Det kan med andre ord fort bli komplisert og omfattende.

Det er ikke så farlig om dere ikke får gjort slike konklusjoner. Det kan være vel så interessant å ikke finne noen signifikante forskjeller (spesielt om dere forventet dem), eller prøve å bruke resultatet til å tenke hvordan man burde forsket videre på temaet.

Om dere ønsker å prøve dere på statistiske analyser kan det være lurt å opprette kontakt med en forsker som bruker dette selv.