Arkisto: ‘Avoin data’ Category

HS julkaisee Käypä hoito -suosituksen laatijoiden sidonnaisuudet

Torstai, Lokakuu 25th, 2012

Mitä?
Helsingin Sanomissa julkaistiin 25.10. artikkeli, jossa kerrotaan Käypä hoito -suositusten laatijoiden sidonnaisuuksista.

Käypä hoito –artikkelin taustalla olevat tiedot on kerätty Duodecimin Käypä hoito –nettisivuilta tietokoneohjelman avulla.

Tampereen teknillisen yliopiston tutkija Jaakko Salonen laati ohjelman, joka kerää suositukset ja tekee niistä Excel-tiedoston. Näistä tiedoista laskettiin se, kenellä on eniten suosituksia.

Jaakko Salonen julkaisee artikkelin tekemiseen käytetyt ohjelmat avoimena lähdekoodina App4Finland kilpailussa.

Missä?
Zip-tiedosto sidonnaisuuksista täällä

Miten tiedot on tarkalleen haettu?
Salosen kirjoittama ohjelma on scraper, eli raapija. Se etsii Käypä hoito -suositusten nettiversiosta sidonnaisuuksia, jotka liittyvät suositusten laatijoihin. Ohjelma käyttää ennalta kerättyä listaa yrityksistä ja yhteisöistä, ja se tunnistaa niitä yhteensä 314.

Ohjelman käyttämä yritys- ja yhteisölista on tuotettu kevään 2012 datajournalismin kurssilla. Aineiston keräämiseen ovat osallistuneet kurssityöryhmän jäsenet Annina Vainio, Esa Koivuranta, Jaakko Salonen, Taina Rinta-Kauhajärvi sekä Tuomas Haakana. Kurssin verkkosivu on täällä.

Aineisto on luonteeltaan käsin syötettyä. Siksi ohjelma saatta tunnistaa vähemmän sidonnaisuuksia kuin niitä todellisuudessa on. Esimerkiksi kirjoitusvirheet ja oudot lyhenteet hämäävät ohjelmaa niin, ettei se tunnista sidonnaisuutta oikein. Joitain sidonnaisuuksia ei ole huomioitu, kuten esimerkiksi yliopistoja.

Yllä olevassa zip-tiedostossa on kaypahoito-yritykset.xls, joka sisältää täydellisen listan etsittävistä sidonnaisuuksista. Siihen voi tutustua yksinkertaistetussa muodossa täällä.

Lisenssi?
Tiedot julkaistaan Creative Commons 3.0 Nimeä -lisenssillä. Tietoja voi lisenssin mukaisesti käyttää melko vapaasti, kunhan niiden lähteeksi mainitaan Jaakko Salonen ja Helsingin Sanomat. Toivomme, että mahdollisten jatkokäyttöjen yhteydessä linkataan tähän blogikirjoitukseen.

Vaalikoneen arvokartan taustatiedot avoimena datana

Sunnuntai, Lokakuu 14th, 2012

Mitä?
Tänään Helsingin Sanomien sunnuntaisivuilla julkaistiin analyysi kuntavaaliehdokkaiden arvoista. Analyysi on tehty HS:n vaalikoneen pohjalta.

Vaalikoneeseen laaditiin kymmenen arvokysymystä yhdessä Helsingin yliopiston tutkijoiden Teemu Kemppaisen ja Tuomas Ylä-Anttilan kanssa. Kysymykset 16-19 mittaavat arvoja talousvasemmisto-talousoikeisto -akselilla. Kysymykset 20-23 mittaavat asenteita arvokonservatiivisuus- ja arvoliberaalius -akselilla. Kysymykset 24-25 mittaavat arvoja vihreä – ei vihreä -akselilla.

Helsingin Sanomat julkaisee nyt arvokartan laatimiseen käytetyn aineiston avoimena tietona. Samalla julkaistaan myös entistä täydempi paketti ehdokkaiden vaalikonevastauksia.

Nyt julkaistavat datat ovat hieman laajemmat kuin sunnuntaisivulla ilmestyneessä artikkelissa käytetyt datat. Sunnuntaisivujen artikkeli perustui 3.10. mennessä jätettyihin vaalikonevastauksiin. Nyt julkaistava data perustuu 12.10. mennessä tulleisiin vastauksiin. Lehdessä olevaan artikkeliin laskelmat tekivät Kemppainen ja Ylä-Anttila. Nyt julkaistavan datan on laskenut Esa Mäkinen samoin perustein kuin lehdessä oleva datan.

Mitä?
- Lataa vaalikoneen datat ja arvomuuttujat täältä Excel-muodossa täältä.
– Lataa Kemppaisen ja Ylä-Anttilan SPSS-ohjelmalla tekemät laskelmat täältä.

Lisenssi?
Tiedot julkaistaan Creative Commons 3.o Nimeä-Epäkaupallinen -lisenssillä. Tulkintamme mukaan lisenssi sallii journalismin tekemisen datan pohjalta. Tietoja käytettäessä on kerrottava, että tietojen lähde on Helsingin Sanomien vaalikone ja linkattava osoitteeseen www.vaalikone.fi

Miten summamuuttuja laskettiin?
Tarkat laskelmat löytyvät täältä. Tiivistettynä niin, että esimerkiksi konservatiivisuutta mittaavien kysymysten 20-23 vastauksille annettiin arvot 1-5. Jos vastaus osoittaa konservatiivisuutta, se sai arvon 5 – liberaalius sai arvon 1. Neljästä kysymyksestä laskettiin keskiarvo, joka ilmentää ehdokkaan konservatiivisuutta. Muuttujassa 1 on liberaalein arvo, 5 on konservatiivisin. Vasemmisto-oikeisto -muuttuja ja vihreysmuuttuja laskettiin samalla periaatteella.

Tein sovelluksen tai analyysin datasta.
Hienoa. Kerro siitä tämän blogin kommenteissa tai lähetä sähköpostia osoitteeseen esa.makinen at hs.fi.

Nato-gallupin tulokset avoimena tietona

Tiistai, Kesäkuu 26th, 2012

Mitä?
TNS Gallup Oy selvitti Helsingin Sanomien tilauksesta 12.-20.6.2012, miten kansalaiset suhtautuvat Suomen jäsenyyteen sotilasliitto Natossa. Kyselyyn vastasi 1004 suomalaista. Tulosten virhemarginaali on kolme prosenttiyksikköä suuntaansa. Tietojen perusteella julkaistiin 26.6.2012 artikkeli “Epävarmuus Natosta kasvoi”.

HS julkaisee gallupin nyt avoimena tietona.

Missä?
Tutkimuksen taustaluvut Microsoft Excel -muodossa täällä.

Lisenssi?
Tiedot julkaistaan Creative Commons 3.o Nimeä -lisenssillä. Tietoja voi lisenssin mukaisesti käyttää melko vapaasti, kunhan niiden lähteeksi mainitaan Helsingin Sanomat ja TNS Gallup Oy. Toivomme, että mahdollisten jatkokäyttöjen yhteydessä linkataan tähän blogikirjoitukseen.

HS julkaisee ministeribarometrin avoimena tietona

Maanantai, Kesäkuu 18th, 2012

Mitä?
TNS Gallup Oy selvitti Helsingin Sanomien tilauksesta 29.5.-19.6.2012, minkälaisen arvosanan kansalaiset antavat ministereiden toiminnasta. Tietojen pohjalta julkaistiin artikkeli, jonka mukaan Alexander Stubb (kok) saa ministereistä parhaan arvosanan.

HS julkaisee barometrin nyt avoimena tietona.

Mitä?
Tutkimuksen taustaluvut Microsoft Excel -muodossa täällä.

Lisenssi?
Tiedot julkaistaan Creative Commons 3.o Nimeä -lisenssillä. Tietoja voi lisenssin mukaisesti käyttää melko vapaasti, kunhan niiden lähteeksi mainitaan Helsingin Sanomat ja TNS Gallup Oy. Toivomme, että mahdollisten jatkokäyttöjen yhteydessä linkataan tähän blogikirjoitukseen.

HS julkaisee hallitusgallupin ja presidenttigallupin avoimena tietona

Keskiviikko, Kesäkuu 6th, 2012

Mitä?
TNS Gallup Oy toteutti Helsingin Sanomien toimeksiannosta 15.-28.5.2012 tutkimuksen, jos­sa selvitet­tiin väestön suhtautumista maan hallituksen ja pääministerin toimintaan. HS julkaisee nämä tiedot nyt avoimena datana.

Samassa yhteydessä kysyttiin myös suhtautumista hallituspuolueiden onnistumiseen maan hallituksessa ja oppositiopuolueiden oppositiopolitiikassa. Tutkimuksessa vastaajat arvioivat myös tasavallan presidentti Niinistön ja eduskunnan puhemies Heinäluoman onnistumista tehtävissään.

Missä?
Tutkimusraportti Microsoft Word -muodossa täällä.

Tutkimuksen taustaluvut Microsoft Excel -muodossa täällä.

Lisenssi?
Tiedot julkaistaan Creative Commons 3.o Nimeä -lisenssillä. Tietoja voi lisenssin mukaisesti käyttää melko vapaasti, kunhan niiden lähteeksi mainitaan Helsingin Sanomat ja TNS Gallup Oy. Toivomme, että mahdollisten jatkokäyttöjen yhteydessä linkataan tähän blogikirjoitukseen.

Muuta?
Jatkossa HS aikoo julkaista enemmän gallupiensa taustatietoja avoimena tietona.  Asia tuli ajankohtaiseksi, kun Pertti Suhonen kirjoitti siitä vieraskynän HS:n 6.6.2012.

Näin kuntalaiset yhdistäisivät kotikuntansa – Kuntakoneen vastaukset avodatana

Torstai, Toukokuu 10th, 2012

Mitä?
Helsingin Sanomat julkaisee Kuntakoneen reilut 11000 käyttäjävastausta avoimena tietona. Data pitää sisällään käyttäjän kotikunnan ja käyttäjän ehdotuksen liitoskunniksi.

Data on kerätty Kuntakoneen käyttäjävastauksista. Kyseessä ei ole edustava otos. Data on tarkoitettu HS Openin materiaaliksi ja kehittäjien käyttöön.

Missä?
Lataa data CSV-tiedostona täältä.

Lisenssi?
Data julkaistaan lisenssillä Creative Commons Nimeä 3.0.

Tein tästä sovelluksen
Hienoa! Kerro siitä kommenteissa, niin muutkin näkevät sen.

Seuraava HS Open järjestetään 21.5.

Tiistai, Huhtikuu 17th, 2012

Seuraava HS Open järjestetään maanantaina 21.5. Sanomatalossa.

Helsingin Sanomat kutsuu toimittajia, graafikoita ja koodaajia keksimään uudenlaisia tapoja käyttää avointa tietoa journalismissa.

Tilaisuuden teema on tällä kertaa “Datavaalit 2012″. Suomen avoimen datan yhteisö on jo jonkin aikaa miettinyt tapoja, miten kuntavaaleissa voisi hyödyntää avointa dataa. HS tuo viidennessä Openissa oman panoksensa datavaali-teemaan.

Datavaaleja varten Helsingin Sanomat avaa kuntavaalien vaalikoneensa käyttäjien ja ehdokkaiden vastaukset avoimena tietona. Lisäksi HS Openia varten hankitaan uutta, kuntiin ja kuntalaisiin liittyvää dataa.

Ilmoittautuminen HS Openiin aukeaa myöhemmin huhtikuussa tässä blogissa.

Tällaista datajournalismia syntyi HS Open 4:ssä

Torstai, Maaliskuu 22nd, 2012

Neljäs HS Open järjestettiin maanantaina 12.3. Ideana oli paketoida dataa: Miten tehdä nettilehden juttuun upotettava mielenkiintoinen grafiikka.

Kaikkien ryhmien ideat löytyvät raakana täältä, ja tässä poimintoja pisimmälle kehitetyistä sovelluksista:

Uutistunne
Idea: Kysytään käyttäjältä yhden sanan mittainen tunnereaktio uutiseen.
Linkki: http://matriisi.ee.tut.fi/~nurmi28/fiilis/
Tekijät: Petri Salmén, Juha Nurmi, Annina Vainio, Tuomas Haakana, Jaakko Salonen

[iframe: src=”http://matriisi.ee.tut.fi/~nurmi28/fiilis/” width=”450″ height=”250″ frameborder=”0″]

Sanojen trendit
Idea: Nykyisessä eduskunnassa pidettyjen puheiden sisällön kehitys ajassa.
Osoite: http://playground.softcon.fi/hsopen4/hsopen.php
Tekijät: Teemo Tebest, Heikki Leppänen, Miska Rantanen, Jarmo Lundgren

Edustajien kuntaviittaukset
Idea: Ketkä kansanedustajat vetävät eniten kotiinpäin?
Linkki: http://informaatiomuotoilu.fi/hsopen4/lappi.html
Tekijät: Juuso Koponen, Jarno Marttila, Anu-Elina Ervasti, Juho Koro

Pirkanmaan puhujat
Idea: Miten paljon pirkanmaalaiset kansanedustajat ovat puhuneet eduskunnassa
Linkki: http://matriisi.ee.tut.fi/~huhtis/demo/2012/03-hsopen/timeline.html
Tekijät: Jukka Huhtamäki ja Ari Heinonen

Aiheesta sanottua
Idea: Yhdistetään Twitter-kommentteja artikkelin lukuintoon
Osoite: http://0c.fi/hsopen/
Tekijät: Heikki Uljas ja Antti Rintala Houston Inc, Vesa Lindqvist HS

Lenkkareita diktatuurista
Idea: Kuluttaja-lehden aineiston perusteella visualisoidaan tuotteiden valmistusmaiden eettisyyttä
Osoite: http://www.cs.helsinki.fi/u/vilileht/toteutus/
Tekijät: Vili Lehtinen, Ville Knuuttila, Sami Koskinen (Helsingin yo), Mervi Itkonen, Elina Ruhanen, Elisa Paavola (Kuluttaja), Heikki Sallinen (Logopolis).

Kuinka valita puisto
Idea: Puistonkäyttäjän selviytymisopas käyttää Omakaupungin ja Helsingin kaupungin dataa ja auttaa valitsemaan parhaan puiston
Osoite: Tiedosto täällä
Tekijät: Juuso Parkkinen, Miska Knapek & Laura Halminen

Työttömyysturva kartogrammeina
Idea: Miten työttömyyskorvauksia maksetaan eri puolella Suomea?
Osoite: http://aut-web.hut.fi/ea/cg/hsopen/
Tekijät: Eemeli Aro, Annikka Mutanen

Liikkuvat laatikot
Idea: Visualisoi dataa EU27-maissa.
Osoite: http://176.34.126.192/media/timeseries.html
Tekijät: Antti Karvanen, Elina Kervinen, Timo Koola ja Janne Peltola

Avodataa: Kansanedustajien puheet muutettuna perusmuotoon

Keskiviikko, Helmikuu 29th, 2012

Mitä?
HS julkaisee keväällä 2011 valitun eduskunnan kansanedustajien puheet muutettuna perusmuotoon. Paketti sisältää kaikki puheet sellaisenaan ja jokaisesta puheesta perusmuotoon muutetun version. Jos puheessa on mainittu sanat  “Suomi, Suomen, Suomesta”, ne on muutettu muotoon “Suomi, Suomi, Suomi”.

Data on tarkoitettu aineistoksi 12.3. järjestettävään HS Open #4 -tapahtumaan. Datasta voi laskea esimerkiksi, kuinka usein termi “Suomi” esiintyy edustajien puheessa.

Missä?
Pakattu tiedosto, jossa puheet ovat CSV- ja Excel-muodossa, löytyy täältä. (Koko: 17 Mt)

Lisenssi
Tiedot julkaistaan lisenssillä Creative Commons Nimeä 3.0. Lähteeksi on mainittava “Kansan Muisti, Helsingin Sanomat ja Eduskunta”.

Eduskunnan nettisivujen käyttöehdoissa määritellään lisäksi, että “Materiaalin käyttäminen on sallittua ilman erillistä lupaa, mutta käyttäjän on mainittava oikeudenhaltijan nimi.”  Eduskunnan käyttöehdot voi tarkistaa täältä.

Lisätietoja datasta
Puheet on koonnut ja muuttanut perusmuotoon Helsingin Sanomien pyynnöstä Kansan Muisti ry. Yhdistys kerää ja jalostaa eduskunnan tuottamaa dataa.

Puheiden kappaleet on erotettu toisistaan rivinvaihdoin, ‘\n’.  “Arvoisa puhemies!”-huudahdukset on poistettu. Jotkut puheenvuorot eivät ole kansanedustajien esittämiä. Niissä kansanedustajaan viittavat kentät ovat tyhjiä.  Perusmuotoalgoritmi ei tunnista kaikkia sanoja (esim. iPad, Facebook, Arhinmäki, ERVV). Ne on pudotettu pois perusmuotolitaniasta.

Tein visualisoinnin datasta, mitä sitten?
Hienoa! Kerro siitä tämän blogin kommenteissa tai twitterissä tägillä #HSOpen. Kannattaa myös tutustua HS Open sovelluskilpailuun.

Ehdotus datajournalismin bisnesmalliksi: X euroa per kertajulkaisu

Tiistai, Helmikuu 28th, 2012

Datajournalismiin keskittyneitä toimittaja-koodaajia on Suomessa vielä vähän, vaikka taitoa ja dataa on runsaasti.

Yksi syy on se, että datajournalismin ostaminen ja myyminen on niin jäsentymätöntä. Kun toimittaja myy Hesarille tekstin ja kuvaaja kuvan, tekstin mitta ja hinta on suunnilleen tiedossa. Datajournalismissa vakiintuneita käytäntöjä ei ole.

Siksi ehdotan, että Datajournalismin perusyksikkö on artikkeli-app: 560×400 pikselin sovellus Iframessa, josta maksetaan X euroa per kertajulkaisu artikkelin yhteydessä.

KOKO
560×400 pikseliä on se koko, jonka pohjalle olemme perustaneet HS Open sovelluskilpailun.

Artikkeli-appseja etsivän kilpailun ideana on, että datajournalismin pitäisi olla upotettuna artikkeleihin, ei erillisenä sivuna. Näin teksti ja grafiikat tukevat toisiaan, ja käyttökokemus on miellyttävämpi.

Artikkeli-appsin leveys 560 pikseliä on HS.fi:n artikkelin leveys. Appsin korkeus voi olla jotain muutakin kuin 400 pikseliä, jos siihen on joku syy.

Ajatuksena koon määrittämisessä on se, että saataisiin keskustelun pohjaksi yksi koko.

HINTA
Ehdotan, että artikkeli-appsin julkaisusta maksetaan X euroa per kertajulkaisu.

Kertajulkaisu on tässä olennainen sana. Se tarkoittaa, että HS:n ostamasta artikkeli-appsista maksettaisiin X euroa aina, kun julkaisemme  sen yhden artikkelin yhteydessä kaikissa kanavissamme (digilehti, mobiili, iPad, HS.fi, jne.). Artikkeli-appsin käyttämä data kuitenkin muuttuisi julkaisujen välillä.

Esimerkki: Artikkeli-apps kuvaa kerran kuussa julkaistavaa työttömyystilastoa. HS maksaa artikkeli-appsin julkaisusta aina, kun teemme uuden artikkelin työttömyystilastosta. Toimitus päivittää appsiin datan, eikä uudelleenjulkaisu vaadi tekijältä työtä.

Korvauksen suuruus on vielä auki, mutta kertajulkaisusta summa tulisi todennäköisesti olemaan melko pieni. Oletuksena on, että yhtä artikkelia ja artikkeli-appsia katsoo noin 20 000 lukijaa.

Kertajulkaisusta korvaus on pieni, mutta toiveena onkin, että tämä malli kannustaisi kehittämään vaadittavalta työmäärältään yksinkertaisia ja uudelleenkäytettäviä grafiikoita.

Kun työttömyystilaston on visualisoinut kerran, uuden datan syöttämisen pitäisi olla todella helppoa – niin helppoa, että toimitus voi sen tehdä sopivalla bäckendillä. Jos grafiikka julkaistaan kymmeniä kertoja, korvaus alkaa olla jo järkevä. Tekijä voisi myydä samaa sovellusta myös muille tiedotusvälineille.

Tämä ehdotus ei tarkoita, etteikö muitakin tapoja ostaa ja myydä datajournalismia olisi. Räätälöidyt diilit ja tilaustyöt ovat yhä olemassa.

Kuulisin mielelläni kehittäjien ajatuksia. Kuulostaako tämä järkevältä ja mahdolliselta mallilta? Kannattaako artikkeli-appsia tarjota julkaistavaksi näillä ehdoilla? Mikä olisi sopiva kertakorvaus, jotta tällaista toimintaa kannattaa tehdä?