Apparatus

Vasta-aineita ja ehdollisia todennäköisyyksiä

”Millä todennäköisyydellä taivaalla on pilviä, jos sataa?” on eri kysymys kuin ”Millä todennäköisyydellä sataa, jos taivaalla on pilviä?”. Meille on intuitiivisesti selvää, että pilvet ovat edellytys sateelle, mutta ei toisinpäin. Kun puhutaan ihmiselle vieraampien asioiden todennäköisyyksistä, intuitio saattaa kuitenkin johtaa pahasti harhaan.

Viime viikkojen uutisissa usein käsitellyt koronaviruksen vasta-ainetestit ovat raflaava esimerkki ehdollisista todennäköisyyksistä. Kysymykset ovat tässä tapauksessa: ”Millä todennäköisyydellä koronavirukselle immuunin henkilön vasta-ainetestin tulos on positiivinen?” ja ”Millä todennäköisyydellä positiivisen tuloksen vasta-ainetestissä saanut henkilö on immuuni koronavirukselle?”. Ero on merkittävä ja seuraukset väärinymmärryksestä voivat ovat vakavia.

Korostan, etten ole epidemioiden tai virusten asiantuntija, ja olen vältellyt aiheesta kirjoittamista juuri siitä syystä. Matematiikan opetus ja osaaminen ovat kuitenkin lähellä sydäntäni, joten rohkenen kirjoittaa aiheesta (ehdolliset todennäköisyydet) siitä näkökulmasta.

Koronauutisointia

Vasta-ainetesteistä, joilla on tarkoitus tunnistaa koronatautia sairastaneet, on uutisoitu viime aikoina paljon. Uutisissa on myös kerrottu niiden tuloksen epäluotettavuudesta. Helsingin Sanomat otsikoi, että vasta-ainetesteistä ”ei ole hyötyä” väärien positiivisten suuren riskin vuoksi. Turun Sanomien artikkelissa testien matematiikkaa on käsitelty hiukan syvällisemmin.

(TL;DR; Testitulokset antavat tutkijoille ja päättäjille arvokasta tilastotietoa siitä, kuinka paljon tautia on sairastettu. Yksilön kannalta tuloksista on vähemmän iloa juurikin niiden väärien positiivisten vuoksi.)

Tärkeimmät testin luottavuutta kuvaavat tunnusluvut ovat herkkyys ja tarkkuus. Herkkyys tarkoittaa todennäköisyyttä, jolla koronataudin sairastanut ja sille immuuniksi tullut henkilö saa testistä positiivisen tuloksen. Tarkkuus tarkoittaa todennäköisyyttä, jolla koronatautia sairastamaton saa testistä negatiivisen tuloksen. Toisessa Helsingin Sanomien artikkelissa kerrotaan testeistä, joiden herkkyys ja tarkkuus vaikuttavat ensisilmäyksellä vakuuttavilta: 97,4 % ja 96,2 %.

Herkkyys vastaa tämän kirjoituksen alun kysymykseen ”Millä todennäköisyydellä koronavirukselle immuunin henkilön vasta-ainetestin tulos on positiivinen?”. Sen sijaan vastaus yksilön kannalta kiinnostavaan kysymykseen ”Millä todennäköisyydellä positiivisen tuloksen vasta-ainetestissä saanut henkilö on immuuni koronavirukselle?” voi olla paljon matalampi.

Asiaa voi havainnollistaa visuaalisesti. Alla oleva ruudukko kuvaa populaatiota, jolle tehdään vasta-ainetesti. Keltaiset ruudut ovat ihmisiä, joilla ei ole virustautia vastaan immuniteettia. Siniset ruudut taas ovat ihmisiä, joilla on immuniteetti. Tyhjä ruutu edustaa negatiivista testitulosta (testi ei näytä immuniteettia), kun taas positiivisia tuloksia (testi näyttää immuniteetin) edustaa varoituskolmio tai pallura.

Vasta-ainetestin herkkyys ja tarkkuus ovat molemmat melko lähellä sataa prosenttia. Kummassakin osajoukossa erikseen tarkasteltuna testitulokset ovat suurelta osin oikein. Siitä huolimatta kun immuniteetti on populaatiossa harvinaista, testatuissa on paljon enemmän vääriä positiivisia (varoituskolmiot) kuin todellisia positiivisia (pallurat). Tämä ei tarkoita sitä, etteikö suurin osa virustautua sairastamattomista saisi negatiivista tulosta.

Testin herkkyys:

Testin tarkkuus:

Vasta-aineellisten osuus:

Väärien positiivisten osuus:

Mitä suurempi on immuunien osuus testatuista, sitä enemmän positiivisen tuloksen saanut voi luottaa olevansa immuuni. Tähän perustuu uutisoinnissa usein esitetty väite, että vasta-ainetestit ovat hyödyllisimmillään sairaalahenkilökuntaa tai muuta lähtökohtaisesti paljon koronavirukselle altistunutta populaatiota testattaessa.

Oikea vastaus väärään kysymykseen

Ehdollisia todennäköisyyksiä on usein vaikea hahmottaa intuitiivisesti. Koska vasta-ainetestin herkkyys on 97,4 %, intuitiivisesti tuntuu siltä, että se on vastaus myös kysymykseen ”Millä todennäköisyydellä olen immuuni koronavirukselle saatuani positiivisen tuloksen vasta-ainetestistä?”. Kuten yllä oleva esimerkki osoittaa, 97,4 % on tässä tapauksessa oikea vastaus väärään kysymykseen.

Ehdollisia todennäköisyyksiä ei mainita lukion pitkän matematiikan opetussuunnitelman perusteissa. Se on hiukan sääli, koska niiden laskemiseen on lukiomatematiikalla ymmärrettäviä työkaluja. Ehkäpä käyttökelpoisin niistä on Bayesin kaava. Sen katsoisin kuuluvan melkeinpä matemaattiseen yleissivistykseen.

Bayesin kaavalla yksilön todennäköisyys immuniteetille positiivisen testin jälkeen lasketaan seuraavasti:

\[ P(\textrm{immuniteetti, jos testitulos positiivinen}) = \frac{\textrm{testin herkkyys} \times P(\textrm{immuniteetti})}{P(\textrm{positiivinen tulos})} \]

Tässä \( P(\textrm{immuniteetti}) \) ja \( P(\textrm{positiivinen tulos}) \) tarkoittavat a priori -todennäköisyyksiä, siis todennäköisyyksiä sille, että populaatiosta satunnaisesti valittu henkilö on immuuni tai saa positiivisen tuloksen testistä. Koska vasta-aineiden esiintyvyys populaatiossa on vielä lähtökohtaisesti vähäistä, tämä luku on pieni. Siksi myös a posteriori -todennäköisyys immuniteetille positiivisen tuloksen jälkeen on pieni.

Todistus, että yllä oleva lauseke sievenee muotoon

\[ P(\textrm{immuniteetti, jos testitulos positiivinen}) = \frac{\textrm{oikeiden positiivisten lukumäärä}}{\textrm{oikeiden positiivisten lukumäärä} + \textrm{väärien positiivisten lukumäärä}}, \]

jätetään harjoitustehtäväksi.