Suoritin. Elements of AI.

Kun vuonna 1994 sain tilastotieteilijän paperit Jyväskylän yliopistolta, päätin etten koskaan enää tenti mitään. Tämä on pitänyt.
Elinikäiseen opiskeluun silti uskon, joten tällä ajatuksella viikonloppuna päätin käydä Helsingin yliopiston ja Reaktorin ”Elements of AI” -verkkokurssin kimppuun. Täytyyhän sitä pystyä keskustella taksikuskin kanssa tekoälystä, koneoppimisesta ja neuroverkoista – tämän päivän termein.

Heti kärkeen: loistava paketti. Kiitos Helsingin Yliopisto ja Reaktor.
Toivottavasti sitä kaikille opiskelijoille pakollista ”tilaston appro” -pakettia opetetaan nykyään tällä tavalla – käytännön liiketoimintasovelluksiin taipuvien esimerkkien kautta. Toisin oli oman opiskelun aikana, jolloin meinasin lopettaa tilasto-opinnot ensimmäisen vuoden teoriaopintojen jälkeen
[olisin varmasti lopettanutkin, jos opinnot olisivat olleet parin ensivuoden pääjuttu].

Anyway, jaan tässä muutaman oman kokemuksen/ajatuksen tästä suositusta pikakurssista.

Kappaleet 1-2: Semantiikka.

Näiden määritysjuttujen kanssa olen skitsoillut pari vuotta. Itselle ollut hankala lukea lehdistä sinällään hienoja DataScience/MachineLearning-juttuja, mutta mielestäni ne ovat pääasiassa olleet ihan perus datamassojen yhdistelyä + hieman soveltavaa data-analytiikkaa. Hype -keskustelun vaarana on terminologinen epäselvyys, yliodotukset ja pettymykset. Näin kävi 2000-luvun vaihteen DataMining -hypessä. En haluaisi nähdä tämän uusiutuvan.

Tässä semantiikkaa koetetaan avata hyvin ja pystyn allekirjoittamaan kaikki tekstiosiossa esitetyt kuvaukset. Silti jäin kaipaamaan selkeämpää kuvausta/määritystä kuinka Machine Learning/DataScience eri osatyypit suhteutuvat termeihin, joita tekemisessä käytettiin 1990-2005 (tietovarastointi ja data-analytiikka).

Semantiikka on tärkeää, mutta siihen tekemisen ei koskaan pidä jumittua – pääasia, että hanketiimi tietää täsmälleen mitä ollaan tekemässä ja millä termeillä tekemistä kutsutaan.

Sanottakoon, että vaikka mielestäni ymmärsin termien määritykset, silti sain oheisen kuvan osajoukkotehtävästä nolla pistettä 😉

Sementiikkamäärityksiä on hauskempi jatkaa tuopin ääressä, joten eteenpäin…
Edelleen tykkään parhaiten David Stephensonin määrityksistä kirjassa BigData Demystified.

Semantiikka on tärkeää, mutta siihen tekemisen ei koskaan pidä jumittua.

Kappale 3: Todennäköisyyslaskenta ja Bayesilaisuus.

Parasta!
Bayesilaisuudesta kertovan kappaleen myötä muistin taas miksi tykkään data-analytiikasta, mutta inhoan (inhosin) tilastoteorian opintoja.

posterior odds = likelihood ratio × prior odds

Täyttä hepreaa! Tai ainakin melkein.
Materiaalin esimerkin kautta tunnistin, että käytännön työssä olen tehnyt näitä juttuja 20 vuotta. Esimerkiksi kampanja-analytiikan lisäarvolaskentaan olen tehnyt tätä kaavaa soveltaen muutamiakin (omasta mielestäni) hienoja ratkaisukokonaisuuksia. Pitänee paremmalla ajalla kaivaa takaraivosta toteutusten periaatteet ja kuvata ne näiden tilastollisten mallien & termien kautta.

Anyway, sunnuntaina soitin parhaalle opiskelukaverillen ja kysyin, että opiskeltiinko me silloin näitä priorty odds ja likelihood ratio -juttuja? Pitäisikö minun muistaa näitä? Kaveri sanoi, että ”joo, nämä olivat todennäköisyyslaskennan ydintä”. Se oli se laudatur-tason kurssi, jonka läpäisin lähinnä opettelemalla kymmenen edellistentin vastaukset ulkoa 😉 [hieman karrikoin, mutta kaveri sai näistä teoriajutuista aina täydet pisteet – ja jatkoi tutkija-uralla].

Juttelimme kaverin kanssa Bayesilaisyyden ideasta ja selitin hänelle, kuinka massadatojen analyyttisen jalostamisen ja analytiikan kautta olen tehnyt ”priority odds” ja ”likelihood ratio” -juttuja käytännön ratkaisuihin, mutta aivan toisenlaisin (sovellusaluetta kuvaavin) termein. Hieman naureskeltiin opintoajoille ja sille kuinka kaukana silloinen opetus oli nykypäivän sovellusmahdollisuuksista.

Muistelin myös, kuinka edesmennyt mummoni kysyi opinnoistani ”mitä se tilastotiede on?”.
Selitin tilastotieteen olevan ”ilmiöiden kuvaamista numeerisin menetelmin” … ”laulajat laulaa, kirjailijat kirjoittaa ja maalarit maalaa”. Tämä riitti kuvaukseksi ja siirryimme pullakahville.

Mummoni kysyi opinnoistani ”mitä se tilastotiede on?”.
”Ilmiöiden kuvaamista numeerisin menetelmin”
… ”laulajat laulaa, kirjailijat kirjoittaa ja maalarit maalaa”.
Tämä riitti kuvaukseksi ja siirryimme pullakahville.

Käytännön datajutut ovat enemmän taidetta kuin tiedettä.

Kappale 4: ”Machine Learning”.

Kiinnostavaa! …mutta samalla hämmentävää, jos halutaan palata semantiikkaan.

Tässä kappaleessa kerrotaan ansiokkaasti regressiomallinnuksen periaatteita.
Ihan siis perinteisen tilastotieteen juttua. Lisäksi hieno esimerkki NextBestOffer (NBO) -mallinnuksesta.

Mutta miksi ”machine learning”?
Miksi ei ihan vaan ”data analytiikka”?

Nopeasti muisteltuna olen vuosina 2003-2017 tehnyt massadataperusteista segmentointia ja/tai NBO-määritystä noin kymmenen eri yrityksen asiakassuhteille.
Sanomattakin on selvää, että en ole kutsunut tätä työtä koneoppimiseksi.

Hype-keskustelun riskinä epäymmärrys, joka johtaa vääränlaisen kokonaisarkkitehtuurin rakentamiseen.

Toisaalta perinteisen data-analytiikan lisäksi kappaleessa avataan esimerkkejä (luokittelusta) kuvatunnistuksen sovellusalueen kautta. Nämä ovat täysin eri juttu!

Juuri tässä ollaan hype-keskustelun ja epäselvän määrityksen ongelman ytimessä: sekoitetaan keskenään perinteisiä data-analytiikan sovellusalueita ja uuden teknologian mahdollistamia sovellusalueita. Tällainen epäymmärrys johtaa helposti siihen, että rakennetaan vääränlainen kokonaisarkkitehtuuri (tekniikka, kompetenssit, menetelmät) => vääränlaiset investoinnit & pettymykset.

Kehitys kehittyy ja semantiikka kuvastaa kehitystä. Ehkä minun pitää päivittää oma terminologiani ja ryhtyä puhumaan koneoppivista ratkaisuista … ja pyytää Jyväskylän yliopistolta päivitetty versio opintotodistuksestani: ”Master of Machine Learning” 😉

Mutta kuten sanoin johdannossa: Semantiikka on tärkeää, mutta siihen tekemisen ei koskaan pidä jumittua – pääasia, että hanketiimi tietää täsmälleen mitä ollaan tekemässä ja millä termeillä tekemistä kutsutaan.

Kappale 5: Neuroverkoista.

Tässä vaiheessa lauantai-iltapäivää kisaväsymys alkoi painamaan päälle.

20v sitten kävin SAS Instituten Data Mining (& neuroverkot) -koulutuksen ja muistan tuolloin päättäneeni, että neuroverkot eivät ole minun juttu. Minun tekemisessä ydinjuttu on aina ratkaisun yksinkertaisuuden ja kommunikoitavuuden maksimointi. Tunnistan kyllä sovellusalueet/tilanteet, joihin hienostuneemmat tilastolliset menetelmät tuovat vaadittavan lisäarvon, mutta tuolloin käytännön toteuttaja saa olla joku muu kuin minä.

Tällä taustalla pikakelasin sinällään hyvän kappaleen yli.
Myöskään taksikuskin kanssa en asiasta aio tämän enempää keskustella 😉

Kappale 6: Tulevaisuus.

Ansiokasta juttua massadatojen jalostamisen eritasoisista vaikutuksista.
Olisi toisen tuopillisen paikka jos pubissa oltaisiin…

tällä tavalla tai näiden termien ja teemojen kautta tulevat pomomme datajuttuja opiskelevat!

Summa summarum.

Suosittelen kaikille jotka, miettivät tekoälyä/koneoppimista tai ketkä ovat teoreettisen tilasto-opetuksen traumatisoimina päättäneet olla koskematta pitkällä tikullakaan datajuttuihin. Tämän kurssin voi suorittaa pelkällä sähköpostiosoitetunnistautumisella 2-35 tunnissa – opiskeluintensiteetin saa valita itse.
Itse olin päättänyt ”läpilukea” kokonaisuuden, mutta mielenkiintoiset tehtävät koukuttivat koneen ääreen miltei kolmeksi tunniksi. Kannattaa siis kuitenkin hieman varata aikaa.

Joka tapauksessa kannattaa muistaa, että tällä tavalla tai näiden termien ja teemojen kautta tulevat pomomme datajuttuja opiskelevat!

ps. peräänkuulutan tässä yhteydessä oppilaitosten perustehtävän kuvausta:
onko korkeakoulujen tehtävä tuottaa data-analytiikan/tilastotieteen tutkijoita vai soveltajia?
Edelleen kuulen sukulaisnuorten juttuja tilastotieteen perusopetuksen ”kauheasta teoriasta” tai kahvipöydässä ihmetellään, että ”oletko sinä opiskellut tilastotiedettä pääaineena!?”. Kerron mummo-jutun ja kannustan olemaan hyvää pataa niiden tyyppien kanssa, jotka ovat tilastojutuista kiinnostuneita 🙂
Tilastotieteilijän tutkijakoulutuspolku on erikseen, mutta tilastotieteen appro on pakollinen miltei kaikille korkeakouluopiskelijoille. Näille sivuaineopiskelijoille tulisi tarjota soveltavaa ja kommunikointipainotteista tulokulmaa massadatojen jalostamisen ja hyödyntämisen perusymmärrykseksi. Liian moni kaupallisen alan opiskelija on saanut elinikäisen trauman data-analytikkaa kohtaan teoriapainotteisilla appro-opinnoilla.

Toivottavasti tämä kurssipaketti avaa myös tätä keskustelua.