Skip to content

Artkkelin kirjoittaja: Juho Muhonen 3.3.2016

Internet – Avoimen Datan Apaja

Aluksi pari ilmeistä ja tunnettua faktaa Internetistä:

  • Avointa ja julkista dataa on verkossa. Paljon.
  • Dataa syntyy verkkoon koko ajan lisää. Paljon.

Luulisi siis, että datalähtöisiä tuotteitakin syntyy kuin sieniä sateella ja että datavetoinen analytiikka ja johtaminen kukoistaisivat. Todellisuudessa Internetin avoimen ja julkisen datan hyödyntämisessä ollaan kuitenkin vasta lähtökuopissa.

Avointa ja julkista dataa on verkossa. Paljon.

Hieman vähemmän ilmeinen mutta yleisesti hyväksytty fakta:

  • Suurin osa datan analytiikkaan käytetystä ajasta kuluu datan puhdistamiseen

Ne jotka harjoittavat data-analytiikkaa tai ehkä jopa -tiedettä tietävät varsin hyvin, ettei data ole koskaan puhdasta. Usein on niin, että jo datan keräämiseen kuluu hurjasti aikaa. Näin käy etenkin silloin, jos data on haalittava useista eri lähteistä, jotka tarjoavat datan erilaisten rajapintojen kautta tai eri tavoin paketoituna.

Hiharavistukset datan keräämiseen, jäsentämiseen ja puhdistamiseen käytetystä ajasta suhteessa varsinaiseen mallintamiseen tai analyysiin kokonaisuudessaan käytetystä ajasta liikkuvat hiharavistajasta riippuen 50-80%:n akselilla.

Suurin osa datan analytiikkaan käytetystä ajasta kuluu datan keräämiseen ja puhdistamiseen

Yritysten kotisivut ovat oiva esimerkki datalähteestä (lähteistä?), jotka sisältävät paljon yrityksiin liittyvää dataa hyvin pirstaleisesti ja vaikeasti kerättävässä muodossa.

Kotisivuillaan yritykset usein kuvailevat itseään, antavat yhteystietojaan, julkaisevat ajankohtaista tietoa, hakevat työntekijöitä tai myyvät tuotteitaan verkkokaupassa. Usealle hyödyntäjälle erittäin mielenkiintoista tietoa siis.

Kotisivut ovat kuin lumihiutaleita – ei löydy kahta samanlaista. Tämä vaikeuttaa datan keräämistä ja jäsentämistä. Lisäksi kotisivun tieto on usein epätäydellistä ja hyvään lopputulokseen päästään vasta useita tietolähteitä yhdistämällä. Esimerkiksi PRH tarjoaa avoimen rajapinnan yritysdataansa, ja on kiinnostavaa linkittää tämä tieto kotisivuilta löytyvään, yritysten itsensä tuottamaan tietoon.

Avointa ja julkista yritysdataakin siis on. (Paljon.) Data vain odottaa hyödyntäjäänsä. Mistä sitten kiikastaa? Jos tiedossa ei ole valmista maksajaa datan keräys- ja puhdistusprojektille, projekti jää usein tekemättä, koska datan keruu ja jäsentäminen ovat vain harvojen yritysten ydinbisnestä.

Meidän mielestämme on suorastaan hölmöä resurssien haaskausta, jos kaikkien esimerkiksi yritysdatan hyödyntämisestä haaveilevien täytyy kerätä ja puhdistaa data itse. Saman datan keräämiseen ja puhdistamiseen käytetään uudestaan ja uudestaan 80% kokonaisuudessaan projektissa käytetystä ajasta!

Mielestämme on suorastaan hölmöä resurssien haaskausta, jos kaikkien esimerkiksi yritysdatan hyödyntämisestä haaveilevien täytyy kerätä ja puhdistaa data itse.

Futusome on toimittanut kumppaneilleen Suomen parasta some-dataa vuodesta 2013. Nyt noin kaksi vuotta toimintamme aloittamisen jälkeen olemme laajentaneet datatarjontaamme täsmälleen samalla liikeidealla muihin avoimen datan lähteisiin, esimerkiksi yritysten kotisivuilta kerättävään dataan.

Me keräämme datan, jotta kumppaniemme ei tarvitse. Kumppanimme puolestaan rakentavat nopeasti ja kustannustehokkaasti datan avulla uusia tuotteita tai palveluita.

Tarjoilemme datan jalostettuna rajapinnan kautta. Tällöin kumppanimme voivat käyttää datan keräämiseen ja puhdistamiseen normaalisti kuluvan ajan lopputuotteensa ja/tai analytiikkansa hiomiseen.

Kumppanimme voivat käyttää datan keräämiseen ja puhdistamiseen normaalisti kuluvan ajan lopputuotteensa rakentamiseen.

Kumppanoitumalla oikeiden toimijoiden kanssa, voimme jatkossakin satsata Futusomen ydinosaamiseen. Laadukkaan ja kattavan ulkoisen datan keruuseen ja jalostamiseen.

Datamania