CASE THL & Henriksson: Datatarinointi ja datalukutaito

1980 -luvulla naureskeltiin suomalaisten ministereiden tankeroenglannille.
2020 -luvun ministereiltä vaaditaan sujuvaa data- ja informaatiokeskustelutaitoa.

Oikeusministeri Anna-Maija Henriksson perusteli kuntavaalien siirtämistä huhtikuulle ennustetuilla todella pahoilla koronalukemilla. En kertaa päätöstä, jonka tarinaa voi lukea vaikkapa YLE:n sivustoilta. Kiinnostavampaa on se, kuinka julkinen dokumentaatio raottaa mielenkiintoisella tavalla organisaatioiden (oikeusministeriö & THL) datajohtamisen kulttuuria.

THL:n raporttia lukiessa voi kuvitella kuinka homma mennyt … mistään mitään tietämättä, uskallan arvailla tapahtumien kulkua:

Perjantai-iltapäivällä (5.3. n. klo 15:30) Oikeusministeriön valtiosihteeri soittaa THL:lle, että “tehkää skenaarioarvio tautitilanteelle vaalipäivänä 18.4. Nyt heti!”.
Pyyntö välitetään viikonloppuun valmistautuvalle analyytikolle, joka soittaa hiihtolomaa viettävälle pomolleen, että “nyt ne haluaa tällaista – miten sä oot näitä tehnyt?”. Pomo ohjeistaa ottamaan sen-ja-sen excelin ja päivitä siihen viimeisen viikon re-arvo + viimeisin tautimäärä => “pyöräytä luvut kolmella eri skenaariolla ja laittakaa luvut liitteeksi. Kirjoittakaa saatekirje, jossa kuvaatte analyysin oletukset ja epävarmuuden”.
Tyypillinen rohkea MVP-vedos (Minimum Viable Product), joka kelpaa “keskustelun avaukseksi” ja iteratiivisesti, käyttötarkoitukseen sopivaksi, tarkennettavaksi.
Sitten viikonlopun viettoon..
ja seuraavana päivän analyytikot näkevät sen maksimiskenaarion luvun otsikoissa 😱: “ai, ne sitten nappas ne luvut liitteestä ja tällaisen päätöksen pohjaksi”.

Sinällään hienoa, että poliittisia päätöksiä perustellaan datalla ja analytiikalla.
Silti – ei tämä ihan putkeen mennyt, kuten jälkikommentoinnista näkyy.
Virheitä molemmissa päissä sekä välillä.

1) Nopeassa tilanteessa analyytikolta tarvitaan rohkeutta, eikä analyysien hieromiseen ole aikaa. Silti analyytikon on osattava arvioida tuloksen heuristisuutta ja omattava kokemusta tunnistaa potentiaaliset vaaran paikat – eli väärät käyttömahdollisuudet.
Tässä tapauksessa analyysin oletuksessa Re -arvo pysyy samana koko jakson ajan, vaikka raportilla olevasta trendikäppyrästä näkee silmälläkin, että nopeaa nousua seuraa tyypillisesti lasku (“kansalaisten kriisitietoisuus & rajoitukset” -vaikutus) – eli Re -arvo menee välillä ykkösen alle. Tätä vaikutusta hieman hankala mallintaa, mutta jotenkin se pitää huomioida. Asiaa voi testata ihan silmämääräisestikin katsomalla skenaarioanalyysia vaikkapa 1.10. ja 1.12. tilanteista. Nyt vakioitu Re -arvo aiheuttaa sen, että luvut “puhkaisevat katon” vaikka esitetäänkin min-max skenaariona.

2) Vastaanottajan tulisi keskutella analyytikon kanssa tuotoksen käyttötarkoituksesta ja käytettävistä määrityksistä & oletuksista (kuten Re -arvon taso/pysyvyys). Nyt on käytetty pelkkiä tuloksia (liitemateriaalin luvut) ja tämä näkyy epäselvänä ja epäluotettavana viestintänä. Ei ole kenellekään yllätys, että media tarttuu tähän ja eskaloi asian.
Kevyelläkin datalukutaidolla ministeriössä olisi osattu kyseenalaistaa yli 11000 päivittäisen tartunnan tasoa, kun nykyisin ollaan 700 tartunnan tasolla. Hyödyntäjä tietysti selittää, että luottavat asiantuntijoihin, mutta ei se pelkästään näin mene.
Tarvitaan aitoa keskustelua analyysin käyttötarkoituksesta sekä käytettävistä määrityksistä & oletuksista <=> teknisen tuotoksen iterointi tähän sopivaksi (oikeat oletukset ja menetelmät). Tämä tietysti vaatii aikaa ja sitä kuuluisaa #yhteistyö‘tä.


Data-driven -kulttuurin puutteita on erittäin hankala korjata perjantai-iltapäivällä kun tilanne on päällä.

“Numbers don’t lie, but they can tell many tales”
…ja tämän tarinankerronta ei ole pelkkää datatekniikkaa.

ps. Lisäys 8.3.: Soininvaaran hyvä kirjoitus analytiikan perusmenetelmistä.
En kuitenkaan heittelisi kiviä tuon analyysin tehneen data-analyytikon suuntaan. THL:n tyyppisessä tutkimuslaitoksessa data-analytiikan asiantuntijat varmasti tietävät nuo Soininvaaran kirjoituksessa kuvatut perusasiat.

Oletettavasti dataporukoita yleensäkin harmittaa, että näitä pyyntöjä aina heitellään, mutta koskaan ei vaivauduta laittaman kivijalkaa kuntoon (datat & prosessit). Asiantuntijoita ei ehkä myöskään aina osallisteta kunnolla vaan tilaukset tulevat komentoketjun kautta.

pps. Lisäys 18.4.: Nyt ennusteen toteutumispäivänä kiitettävää kirjoitusta analyysin syntymisestä eri osapuolten näkökulmista … ja sehän meni melko täsmälleen kuten olin arvellut 🙂 Tässä olisi jollekin konsultille erinomainen tilaisuus puhua data- ja analytiikkakulttuurista konkreettisen ja yleisesti tunnetun casen kautta: millaisista elementeistä se (kulttuuri) muodostuu, miten puutteet näkyvät ja kuinka kulttuuria voisi konkreettisesti rakentaa paremmaksi.

Katseen pitää kohdistua kulttuuriin – ei menetelmiin.

Top