Verkostot ja osaaminen ovat asiantuntijan tärkein pääoma. Yksinyrittäjänä vastuu oman osaamisen kehittämisestä on täysin itsellä ja sitä (omaa työkuntoa) tulee virittää aina kun mahdollista. Syksyllä 2016 itselläni oli sopiva tilanne uusien osa-alueiden opiskelulle, joten päätin ryhtyä perehtymään avoimiin massadatoihin sekä uusiin raportointityökaluihin. Nämä teemat ovat ottaneet jättiharppauksia viimeisen 2-4 vuoden aikana ja kuten tunnettua:
kehitys ei koskaan tule olemaan niin hidasta kuin se nyt on.
Alusta alkaen asetin itselleni rajoitteita: liian syvälliseen opiskeluun ei pidä sortua ja intensiivisempi ”opintovaihe” on vain tämän talven juttu. Nyt kun kevät tekee tuloaan, on aika tehdä itselle pieni välitodistus – jatketaan hommia ja opintoja aitojen asiakasprojektien parissa.
Mutta monenlaista ulottuvuutta tuli opeteltua – tässä siis pieni opintokertaus.
Avointen datojen systemaattinen haltuunotto. Tilastokeskuksen PAAVO-data (postinumeroaluekohtainen laaja statistiikka) on vanhastaan tuttu, joten se oli hyvä lähtökohta. Samalla tietty huomasin, että avoimia massadatoja on tarjolla todella paljon (Tilastokeskuksen lisäksi ainakin Trafi, Kela, kaupungit, mediat, …). Yrittäjä ei tee mitään kertaluonteisesti, joten tietty systematisoin (konseptoin) kaiken tekemisen:
- kun löysin uusia mielenkiintoisia lähdedatoja, otin linkit talteen,
- loin hakemistorakenteen, jotta avointen datojen lähteet pysyvät järjestyksessä ja
- yhtenäistin latausprosessin ja datojen putsauksen sekä peruskäsittelyn (SASilla).
Näin loin itselleni data-alustan, joka mahdollistaa systematiikan tekemiseen.
Analytiikkaa. Perusdatojen haltuunoton lisäksi tein pienimuotoista jalostusharjoitusta eli eri menetelmin postinumeroalueiden tyypityksen 6-8 eri luokkaan. Tässä tuli opeteltua jopa factorianalytiikkaa 😉
Lisää blogissa nimellä: ”Markkinakartta Suomi”
Geokoodausta. Paavo-data postinumerotasolla on ilmaista, mutta tarkemmat karttaruutukuvaukset (250mx250m ja 1kmx1km) ovat maksullisia. Kun sijoittaa kaikki Suomen rakennukset (avoin data) näihin karttaruutuihin ja lisää vielä karttaruutujen tyypityksen ja asiakasrekisterin dataa, niin sovellusmahdollisuudet ovat jo melko laajat. Esimerkki täällä.
Visuaalinen esittäminen. Oma tekninen vahvuuteni on perinteisesti ollut datojen analyyttinen hallinta, jalostaminen ja ”pyörittely” mutta nyt olen tutustunut sekä SASin Visual Analytics sekä MS:n Power BI tuotteisiin. Mahtavaa kuinka helpoksi informaation visualisointi on mahdollistunut. Enää ei tarvitse pylväitä Excelin kautta pyöritellä. Myös aluesidonnaisen informaation esittäminen karttapohjalla on monenlaisia tapoja.
Konseptointia. Nyt kun hallussa on jo melko hyvin avointa dataa ja niiden päälle rakennettuja analytiikka- ja palvelukonsepteja, niin tästähän pitäisi pystyä kertomaan – itselle ja muille. Kertominen vaatii konseptointia ja konseptikuvausta alkaen nimestä. Näin syntyivät Suomen Avointieto ja ARVOTIE10 -konseptit. Näistä lisää sivustolla ARVOTIETO+.
Hauskaa. Kun dataa on hyppysissä, niin ideoita pukkaa ja ne on pakko toteuttaa. Kunnallisvaalien 2012 tulosdatasta sai jo sinällään mielenkiintoista analytiikkaa puolueiden voimasuhteista postinumeroalueittain mutta kun dataan liittää postinumeroalueiden tyypitykset ja muuta statistiikkaa, niin syntyy todellinen ”datajournalismikone”. Pitäisi vaan ehtiä pyöritellä enemmän … lisää esimerkkejä täällä.
Verkostoituminen. Teemojen ympärillä olen aktiivisesti osallistunut alan tapahtumiin, jota esim. Helsinki Region Infoshare, kuuden kaupungin (6AIKA) yhteisöt sekä monet muut järjestävät. Myös Tilastokeskus, Trafi ja eri alojen ministeriöt tekevät kiitettävää työtä tietovarantojen avaamisessa ja toimintamallien kehittämisessä. On ollut hyödyllistä ja erityisen hauska tutustua kymmeniin uusiin ihmisiin talven aikana.
Jatkosta. Ei oppi ojaan kaada, eikä tieto tieltä työnnä, mutta aika on rajallinen.
Siksi nyt on syytä vetää käsijarrua ja siirtyä opiskelusta käytännön toimintaan.
Yllämainitut jutut jalostuvat parhaiten aitojen asiakasprojektien myötä. Erityisesti tuo alueinformaation soveltaminen markkinapotentiaalin tunnistamiseksi on suoraviivaista ja sitä parissa projektissa olenkin päässyt tekemään (jo ennen tätä talveakin). Toinen kiinnostava aluevaltaus on ”faktapohjainen kuntajohtaminen”, eli avoimen aluetiedon tuominen julkisen sektorin päätöksenteon raaka-aineeksi. Tähän liittyen Arvotieto on mukana rakentamassa kestävän kehityksen Suomea. Tervetuloa mukaan!
…ja vaikka yritän laittaa opiskelumoodia paussille, niin jatkuvasti uutta mielenkiintoista avointa dataa julkaistaan. Kuntavaalien vaalikonedatat ovat tällä hetkellä vahvasti esillä – samoin Fingridin avaama avoimen datan portaali.
Uusia avoimia massadatoja julkaistaan jatkuvasti.
Dataholistin on hankala päästä kuiville 😉
ps. talven aikana ensi kertaa yli 20 vuoteen tein tosiaan analytiikkaa siten, kuten tilastotieteen koulutuksen saaneena tilastoanalytiikan ymmärrän. Eli hieman logistista regressiomallinnusta ja myös factorianalytiikkaa. Sen verran analytiikkakärpänen puraisi, että oletettavasti seuraavalla opiskelujaksolla tulen kertaamaan tilasto-opintojen perusteet suhteessa nykyohjelmistojen toteuttamiskonseptit. Youtube on pullollaan itseopiskelumateriaalia 😉