Machine Learning – semantiikkaa.

Machine Learning (ML) ja Artificial Intelligence (AI)
tunkevat tajuntaan joka suunnasta.
Kohta varmaan taksikuskin kanssa joutuu näistä juttelemaan.
On siis vanhan tilastotieteilijän syytä selvittää, mistä on kyse.

———————————————————————
Uusin (10/2018) päivitys teemaan kirjasuosituksen kautta.
Kirjassa erinomaiset määritykset ML:lle ja AI:lle!
———————————————————————-
Alla alkuperäinen kirjoitus 11/2017:

 

Machine Learning -esimerkeistä kirjoitetaan (viimeksi TiVi), mutta usein ne kuulostavat ihan perinteisiltä datajalostuksen ja analytiikan ratkaisuilta. Mitä Machine Learning (ML) tai koneoppiminen siis ihan oikeasti on – suhteessa perinteiseen tilastotieteeseen?

Monimuotoisen asian mietinnästä tulee väkisinkin subjektiivinen kuvaus ja omalla taustalla on merkitystä. Teinkin tästä erillisen kirjoituksen: ”Lyhyt omakohtainen kertaus data-analytiikan lähihistoriaan” [kurkkaa, jos ehdit].

Yleensä tykkään laittaa “kädet saveen”, mutta nyt en ole tehnyt koneoppimista käytännössä, enkä edes opiskellut virtuaalikoulutuksia aiheesta. Käytin “KVG”-menetelmää, eli googlasin hieman mitä asiasta kerrotaan. Lopussa on linkki pariin mielenkiintoisaan artikkeliin, mutta mielestäni tämä (Tavish Srivastava, Analytics Vidhya 07/2015) on selkein. https://www.analyticsvidhya.com/blog/2015/07/difference-machine-learning-statistical-modeling/

Referoin artikelia omakohtaisen käsityksen/kokemuksen kommenteilla.

Tunnistin noin neljä (4) ML:n elementtiä:


Perusmääritelmä (1)
:
Machine Learning is an algorithm that can learn from data without relying on rules-based programming.
Statistical Modelling is formalization of relationships between variables in the form of mathematical equations

Itse en pidä itseäni kummoisena tilastotieteilijänä (siten kuten tilastoanalytiikan ymmärrän), mutta mielestäni tein talven aikana asiakkaalle dataperusteisen segmentointimallin, joka muodostuu (päivittyy) joka kerta kun se päivitetään uudella datalla. Eli tämän määritelmän mukaan tekemäni juttu olisi ”koneoppimista”. Tosin tilastolliselta menetelmältään malli oli niin yksinkertainen (=ihmisille kommunikoitava), että jotenkin olisi turhan fiiniä kuvata sitä koneoppimiseksi 😉
Mielenkiintoista. Tutkitaan lisää.

Seuraavaksi puhutaan, että tilastoanalytiikan perusoletukset eivät ole ML:ssa tärkeitä (2). Tällaisia ovat esimerkiksi muuttujien normaalijakautuneisuus ja keskinäinen riippumattomuus, jotka perinteisessä tilastollisessa mallinnuksessa nämä ovat tärkeitä ja siksi niitä opetetaan peruskursseilla.
Tämä on mielenkiintoisempi juttu kuin miltä se kuullostaa. Käsittääkseni perustuu siihen, että ML:n analytiikka ei perustu otoksiin, jonka pohjalta määritetään malli. Toisaalta kaupallisissa, ei-kokeellisesti tutkittavissa, kysymyksenasetelmissa, voidaan “perinteisestikin” soveltaa kuvaavia (descriptive) menetelmiä ja nykykoneilla pystyy käsittelemään satojakin miljoonia havaintoja sellaisenaan. Mutta nyt mennään tilastotieteen periaatteisiin sellaisella syvyydellä, että jatketaan sopivalla porukalla kahvikupin ääressä 😉
Jatketaan.

Seuraava erotteleva tekijä olisi datatyyppi ja teknologia (3).
Kirjoituksessa puhutaan OnLine -järjestelmien reaaliaikaisesta mallinnuskyvystä sekä datan leveydestä (”wide”, number of attributes) ja syvyydestä (”deep”, number of observations) sekä BigDataan liitettyjen teknisten ominaisuuksien (mm. muistinvaraisuus) hyödyntämisestä. Eli ihan oikeasti ISOA DATA ja oikeasti uudenlaisia menetelmiä. [note: parisataa miljoonaa havaintoa (observations) ei ole vielä iso data … sellaisia pyörittelee nykyään kannettavalla tietokoneellakin]
Tällaisia aidosti isoon dataan liittyviä reaaliaiakaisia juttuja en itse ole koskaan ollut tekemässä, mutta nämä teemat varmasti ovat olennaisia.

Lisäksi merkittävä erottelija on tietysti, nimensäkin mukaisestikin, inhimillisen roolin minimointi (4).
Ajatellaan esimerkiksi kohdennetun viestinnän prosessivaiheita: datan keruu, jalostus, kohderyhmäpoiminta, sisällön räätälöinti, viestin toimittaminen, tulosten seuranta ja oppiminen. Jokaista vaihetta voi automatisoida ja jalostaa/personoida analytiikalla ja on ehkä veteen piirretty viiva, milloin ”perinteinen tekeminen” kääntyy ”koneoppimiseksi”, inhimillisen roolin vähentämisen mielessä.
Itse olen työskennellyt perinteisemmin siten, että datasta luodaan informaatiota ensisijaisesti organisaation ihmisille ja ihmisvetoisille prosesseille, mutta kyllä näitä automatisoitiin jo 15v sitten (ainakin perusteknologia oli olemassa). Kehitys tietysti kehittyy ym. menetelmien kautta ja siten tämä ominaisuus on varmasti merkittävä ML:n tunnusmerkki.

Yksi elementti pelkästään ei tee tekemisestä vielä ”koneoppivaa”,
eikä jonkun elementin puuttuminen sulje pois termin käyttöä.

Summa summarum: Koneoppiminen (Machine Learning) on datakäsittelyn tai tilastoanalytiikan muoto, jonka erityispiirteenä on inhimillisen työn minimointi, (aidosti!) suuret datamäärät, reaaliaikaiseen BigDataan liitettävät teknologiat ja koko datan mukaan päivittyvä algoritmi. Yksi elementti pelkästään ei tee tekemisestä vielä ”koneoppivaa”, eikä jonkun elementin puuttuminen sulje pois termin käytön “oikeutta”.

Entäs se Artificial Intelligence (AI)?
Löytyy perusmääritys: ”computer systems able to perform tasks normally requiring human intelligence, such as visual perception, speech recognition, decision-making, and translation between languages”. Eli kun ML-tekeminen kohdentuu selkeästi strukturoimattomaan dataan (ääni, kuva), niin ML kääntyy AI:n suuntaan.

Ei varmasti tullut täydellistä määritystä, mutta
tällä ajatuksella uskallan antautua keskusteluun ainakin taksikuskin kanssa.
Saa haastaa ja tarkentaa.

Itse koen VAU-elämyksiä sellaisten oppivien älyratkaisuiden äärellä, jotka perustuvat useiden laitteiden keräämän datan jalostamiseen siten, että pystytään tarjoamaan reaaliaikaista älykkyyttä asiakaskokemukseen. Helpoiten näitä löytää kännykästä.
Asiakaspoistuman ennustamisessakin, tai muissa asiakassuhteen kehittämiseen liittyvissä BackOffice -ratkaisuissa, saattaa olla paljonkin näitä “koneoppimisen” elementtejä, mutta omalla taustallani edelleen luen näitä juttuja siten, että ovat perinteistä datajalostustyötä.

…mutta mielelläni seuraan alan kehitystä ja tarkennan ajatustani.

 

Onko semantiikka sitten tärkeää?

Ehkä teoreettinen semantiikka ei ole tärkeää, mutta tärkeää on, että organisaatiossa asiat ymmärretään samalla tavalla. Dataperusteisten sovellusten määrä tulee varmasti lisääntymään ja kaikkea datojen analyyttista hallintaa, jalostamista ja hyödyntämistä ei väkisin kannata tunkea yhden otsikon (esim. ML) alle.

Tärkeää on, että organisaatiossa puhutaan yhteistä kieltä eri sidosryhmien kesken.

Hyvin tehty datastrategia on keino hallita datojen keräämisen, hallinnan, jalostamisen ja toiminnallistamisen arkkitehtuuria liiketoimintalähtöisesti. Datastrategian perustehtävä on varmistaa, että data ja siihen liittyvät resurssit tukevat strategisia valintoja optimaalisesti. Datastrategia on myös oikea paikka määrittää terminologia omaan toimintaan soveltuvaksi.

Katso Arvotiedon malli datastrategian laatimiseksi.

Kirjoituksen toinen osio teemalla: ML-mietintää – lyhyt omakohtainen kertaus data-analytiikan lähihistoriaan.

 

 

ps. muita hyviä artikkeleita teemasta.
En löytänyt näistä merkittäviä teemoja, jotka olisivat pahasti ristiriidassa yllä kuvattujen kanssa.

https://www.edvancer.in/machine-learning-vs-statistics/
https://www.datasciencecentral.com/profiles/blogs/machine-learning-vs-traditional-statistics-different-philosophi-1

 

Top