Tilastotiede – datataide.

”Ei tässä tilastotieteilijää tarvita…”

Olen formaalilta koulutukseltani tilastotieteilijä ja koko työurani ajan enemmän tai vähemmän miettinyt tilastotieteen ja (analyyttisen) datataiteen suhdetta. Milloin on tarvetta menetelmälliseen tehokkuuteen ja/tai milloin kommunikoitava yksinkertaisuus on arvokasta?

Tätä pohdin tässä kirjoituksessa ja torstaina 31.1. TDWI:n tilaisuudessa. Tapahtuman teemana on Asiakasdata & analytiikka.

Tervetuloa keskustelemaan.

Yksiselitteistä vastausta aiheeseen ei ole, mutta pyrin avaamaan mietintää kolmen tyypillisen perushaasteen case-esimerkin kautta (segmentointi, NextBestOffer ja potentiaalin määritys). Olen tehnyt näitä ”mallinnuksia” useiden suomalaisten organisaatioiden datoilla ja oma peruslähestymiseni on aina ollut teknistä menetelmällisyyttä yksinkertaistava ja kommunikoitavuutta (datatarinointia) maksimoiva.

Kolme esimerkkiä.

En avaa aitoja asiakas-esimerkkejä, mutta mietitään kuvitteellinen organisaatio, jolla on 100 000 asiakasta ja suurimmasta osasta asiakkaista tiedossa 10-15 kuvaavaa muuttujaa (esim. sukupuoli tai yrityksen liikevaihtoluokka). Asiakaskohtainen tuotetason myynti tunnetaan.

Haaste 1. Next Best Offer. Organisaatiolla on 10 tuoteluokkaa ja jokaisen asiakkaan palvelukäyttö (tuotehistoria) tiedetään. Mallinnettava seuraava potentiaalisin tuoteluokka, joka asiakasta saattaisi kiinnostaa.

Tilastotieteen kautta moniakin tapoja kuten ostoskoriperusteinen sekvenssianalytiikka, k-means ryhmittely, logistinen regressiomallinnus (tästä segmentointiesimerkin yhteydessä).

Peruskuvaukseen perustuvassa menetelmässä valitaan 1-2 tärkeintä muuttujaa, joiden mukaan NBO halutaan ymmärtää & hallita: esim. strateginen segmentti tai muu asiakasta mahdollisimman yleisellä tasolla kuvaava tekijä (ikä, sp, yrityksen toimiala ja/tai koko). Laitetaan kullekin asiakasryhmälle tuotteet/palvelut järjestykseen yleisyyden mukaan (”mitä tuotetta tällaiset asiakkaat tyypillisesti ovat ostaneet”).

  • Asiakaskohtaisesti mitä tuotteita hän/se on ostanut valitulla ajanjaksolla… ja erityisesti mitä EI ole ostanut.
  • Asiakkaan NBO on asiakastyypilleen tyypillisin tuote, jota hän/se ei ole ostanut.

Haaste 2. POTENTIAALI. Mikä on markkinan potentiaali, entä oman kannan realisoimaton potentiaali? Asiakkaat halutaan potentiaalin mukaiseen järjestykseen => myynnin priorisointi.

Tilastotieteen kautta MONENLAISIA TAPOJA regressiomallista erilaisiin monimuuttujamenetelmiin.

Peruskuvaukseen perustuvassa menetelmässä valitaan 1-2 tärkeintä muuttujaa, joiden mukaan potentiaali halutaan ymmärtää. esim. strateginen segmentti tai muu asiakasta mahdollisimman yleisellä tasolla kuvaava tekijä (ikä, sp, yrityksen toimiala ja/tai koko). Lasketaan kullekin asiakasryhmälle asiakaskohtainen 12kk myynnin mediaani (”paljonko tällainen tyypillinen asiakas ostaa?”). Keskiarvolla saa yleensä paljon paljon suuremman luvun.

  • Viedään ryhmän tunnusluku kullekin asiakkaalle kuvaamaan tämän potentiaalia.
  • Lasketaan ryhmän (segmentti, kanta, kunta) kokonaispotentiaali.

Haaste 3. SEGMENTOINTI. 3000 asiakkaalta kysytty asioinnin motiivi (A, B, C tai D). Motiivi tulee estimoida lopuille 97 000 asiakkaalle.

Tilastotieteen kautta LOGISTINEN REGRESSIOMALLI, jossa luodaan kullekin motiiville A, B, C ja D malli => lasketaan jokaiselle asiakkaalle todennäköisyys kuulua ko. segmenttiin ja asiakkaalle valitaan se segmentti, joka saa suurimman todennäköisyyden.

”Datataiteiluun” perustuvassa menetelmässä tutkitaan vastanneiden asiakkaiden segmentti/selittävä muuttuja FREKVENSSIJAKAUMAT. Selittää kuinka mikäkin muuttuja selittää (yli-/aliedustus) kutakin segmenttiä.

  • Luodaan macro, joka käy jokaisen (10-15kpl) frekvenssijakauman ja antaa kullekin arvolle yli-/aliedustusta kuvaavan pisteen (esim. miehet A: 0.95, B: 1.15 (yliedustus), C: 1.05, D: 0.8).
  • Viedään segmenttikohtainen piste kullekin asiakkaalle (esim. jokainen mies saa 1.15 pistettä ryhmälle B).
  • Lasketaan pisteet yhteen. Jokainen asiakas saa segmenttikohtaiset kokonaispisteet ja asiakas estimoidaan kuuluvan siihen segmenttiin, joka saa suurimman pistesumman.

Lisäksi toinen macro, joka antaa kuvauksen segmenteistä (mitkä tekijät kuvaavat ryhmiä A, B, C ja D).

jokainen organisaatio ja tilanne on erillistapaus.

Jokainen tilanne on oma erillinen tapaus ja ”analytiikan pieteettiä” on mietittävä ainakin käyttötarkoitus, asiakaskokemus, organisaation kypsyystaso ja datan laatu huomioiden.

Otsikon raflaava väite ”ei tässä tilastotieteilijää tarvita…”  on siis käytännössä epärelevantti. Tilastotieteilijän ajattelutapaa tarvitaan aina data-analytiikkaa tehtäessä.
Formaali koulutus antaa eväät tunnistaa tilanteet, joissa kovemmille tilastollisille menetelmille on tarvetta ja käytännön kokemus antaa eväät tunnistaa tilanteet, joissa yksinkertaiset menetelmät ovat arvokkampia.

Tilastotieteilijän ajattelutapaa tarvitaan aina data-analytiikkaa tehtäessä.

Formaali koulutus ja kokemus tuovat lisärvolle kerrointa.

Tässä seminaariesityksen (31.1.2019) perusajatus blogimuodossa. Esitys on keskusteluun johdatteleva, joten jos asia kiinnostaa, niin tervetuloa mukaan!

Aihe on mielenkiintoinen ja Arvotiedon tekemisen ydinjuttua, joten mielelläni sparraan asiaa muutoinkin. Ota yhteyttä.

Alla muutama linkki aiheeseen liittyviin teemoihin.

Top