Datatarinoiden tappajatakat

Tulipesien aiheuttamat kuolemat on vuotuinen kestojuttu ja viimeisimmän tutkimuksen mukaan ne aiheuttavat Suomessa vuosittain n. 200 “ennenaikaista kuolemaa”. Jotenkin tämä kuulostaa kummalliselta, koska esim. työtapaturmiin kuolee Suomessa vuosittain “vain” 30 henkilöä.

Piha- tai mökkisaunan lämpenemistä odotellessa tämä on mukava small talk -aihe naapureiden kanssa. Kokemusta on – ja koska Talouselämän jutussa on kunnon linkki tuoreeseen tutkimukseen päätin hieman perehtyä asiaan ja samalla kerätä knoppitietoa tulevan kesän keskusteluihin 😉

Väitöskirjatutkimuksen tekninen kieli on aivan liian puuduttavaa, joten keskityn otsikon teemaan: “200 ennenaikaista kuolemaa”.
Kappaleessa 1.4.1. (Impacts on Human Health) kerrotaan:
“Globally air pollution is estimated to cause 7 – 8.8 mil. premature deaths every year. In Finland, air pollution has been estimated to cause 2000 – 4000 annual premature deaths.”
Melkoisia lukuja. Suomessa kuolee vuosittain n. 54 000 ihmistä … voiko 5-8% kuolemista johtua Suomen huonosta ilmanlaadusta?

Mitä tarkoittaa “ennenaikainen kuolema”?

Semantiikka on tärkeää … mitä tarkoittaa “ennenaikainen kuolema”?
Googlaamalla löytyy määritelmä premature death: “Death that occurs before the average age of death in a certain population. In the United States, the average age of death is about 75 years”.

Eli kaikki ennen keskimääräistä kuolinikää kuolevat ihmiset kokevat “ennenaikaisen kuoleman”.
Mielestäni tässä hieman haiskahtaa populismin graalin malja:
* Mitä suurempi lähtöluku, sitä suurempia vaikuttavuuksia (excel -harjoituksilla) voidaan esittää ja
* vaikka kuinka asioita parannetaan, niin “ennenaikaisten kuolemien” määrä ei vähene (ellei kuolemien määrä vähene).

Datatarinoinnin eräs peukalosääntö on miettiä informaation vaikuttavuutta.

Datatarinoinnin eräs peukalosääntö on miettiä informaation vaikuttavuutta … eli mitä tämän informaation perusteella pitää/voi tehdä. Esimerkiksi segmentointi voi olla informatiivista (markkinaa kuvaavaa) tai ohjaavaa (halutaan aikaansaada siirtymiä).
Hieman minulla on hakusassa tämän tutkimuksen & viestinnän haluttu vaikuttavuus.

No, mitä termiä tulisi käyttää?

Jos puhutaan, että “aiheuttaa kuoleman” ja näitä haluttaisiin estää, niin ehkä World Health Organisationin (WHO) käyttämä termi “Preventable causes of death” voisi olla sopiva. Tästä on myös paljon tutkimusdataa [kts. Wiki], jossa kerrotaan “estettävissä olevia kuolemia” olevan vuositasolla kaikkiaan n. 30milj. Lisäksi yleisimmät aiheuttajat on listattu (sairaudet/kohtaukset, viina, tupakka, ylipaino… jne.).
Listalla kahdeksantena on “Indoor air pollution from solid fuels”, eli huono sisäilma – vuotuinen tappavuus on n. 1.8milj. ihmistä. Googlaamalla löytää, että “Indoor air pollution, …, can be up to 10 times worse than outdoor air pollution.” Eli ulkoilmaongelma tappavuus on 1/10 sisäilmaongelman “tehosta”.
=> 0,1 x 1.8milj. = 180 000 kuolemaa (koska ulkoilmaongelma).
Eli voidaan päätellä, että ulkoilman epäpuhtaudet aiheuttavat 0,6% kaikista “ehkäistävissä olevista kuolemista” [180 000 / 30milj. = 0,6%].


Palataan Suomeen.

Suomessa siis kuolee vuosittain noin 54000 ihmistä.
WHO:n mukaan teollisuusmaissa 10% ihmisistä kuolee muuhun kuin “vanhuuteen” => Suomeen saadaan luku 5400, jotka kuolevat “ehkäistävissä olevan kuoleman”.
Käsittääkseni härmäläiset takkasavukuolemat ovat tällaisia ulkoilmaongelmia, joten ehkä myös Suomessa pätee tuo 0,6% kaikista ehkäistävistä kuolemista,
=> 0,006 x 5400 = 32.
Luku (32) pitää sisällään KAIKKI ilmansaastuttajat.
En tähän hätään löydä tulipesien osuutta kaikesta ulkoilman saastuttamisesta, mutta tuskin se 20% tasoa ylittää, joten 0,2 x 32 = 6
=> saadaan päätelmä: Suomessa vuosittain kuusi (6) takkojen/kiukaiden aiheuttamaa estettävissä olevaa kuolemaa.

Summa summarum:

En epäile, etteikö tuolle otsikoissa pyörivälle “200 ennenaikaista kuolemaa” löydy looginen tarina, mutta vähintään yhtä hyvä vaihtoehto-otsikointi voisi olla “kotitalouksien puunpolton päästöt aiheuttavat Suomessa vuosittain kuusi (6) ehkäistävissä olevaa kuolemaa”.

Semantiikka on tärkeää. Samoin oletukset, rajaukset sekä käytettävät tunnusluvut.

Tällaista #datatarinointi on.

Semantiikka on tärkeää. Samoin oletukset ja rajaukset. Kaikkea näitä on mietittävä suhteessa analyysin käyttötarkoitukseen.
Jos haluat vaikkapa lobata tulisijojen hormistojen uudistamisen puolesta, niin 200 (ennenaikaista) on sopivampi kuin kuusi (ehkäistävissä olevaa) kuolemaa 😉

Lukijan on syytä olla tarkkana.

En ole lääkäri enkä takkainsinööri, mutta tilastotaiteilijana tykkään lauseesta:
“Numbers don’t lie, but they can tell many tales”

Numbers don’t lie, but they can tell many tales.

Tämä on myös aina mukavan positiivinen tapa lopettaa keskustelu naapurin kanssa. En minä ole häntä tappamassa, vaikka vanhaa pihasaunaa lämmitänkin.

ps. tutkimuksen Summaryssa käytetään uutta termiä: Attributable = “Jostakin johtuva”.
“Finnish RWC were estimated to cause 200 attributable deaths

Termiä googlaamalla löytyy linkki, jossa kerrotaan tuo alkukappaleessa mainittu: “ilman laatu aiheuttaa välillisesti sairauksia, jotka aiheuttavat nuo 7-8.8milj. kuolemaa”. Tässä mm. sydänkohtaukset niputetaan “ilmanlaadun” alle. Datatarinointia tämäkin (oikeat luokitukset ja ryhmitykset). Tuossa aiemmin viittaamassani “Preventable causes of death” -taulukossa nämä oli eroteltu kahdeksi eri asiaksi.

Top