Mitä?
Helsingin Sanomat julkaisee vuoden 2011 eduskuntavaalien vaalikoneen tiedot kaikkien käytettäväksi avoimena tietona.
Miksi?
Toiveena on, että datasta löytyisi uutisia ja että siitä syntyisi uusia visualisointeja. Tiedon julkistaminen lisää sen arvoa. Lisää perusteluita täältä.
Missä?
Tiedot voi ladata HS:n palvelimelta näistä linkeistä:
- Vaalikone 2011 csv-tiedostona (merkistökoodaus ISO-8859-1)
- Vaalikone 2011 excel-tiedostona
Mitä se sisältää?
Vaalikoneen sisältö on yhtenä taulukkomuotoisena tiedostona. Ensimmäinen rivi sisältää sarakkeiden otsikot, joiden pitäisi olla melko itsestään selviä. Jos on epäselvyyksiä, vastaan kysymyksiin kommenteissa.
Tiedot on otettu vaalikoneesta 6.4.2011. Jos ehdokkaat tekevät päivityksiä vaalikoneeseen tämän jälkeen, ne eivät näihin tietoihin välity. Vastaajia vaalikoneessa on tällä hetkellä vajaa 1800.
Lisenssi?
Tiedot julkistetaan Creative Commons -lisenssillä Nimeä-epäkaupallinen-tarttuva 3.0.
Creative Commons ei ole paras mahdollinen lisenssi tähän tarkoitukseen. Jos joku toimittaja tai media haluaa tehdä aineistosta artikkelin ja vaikka myydä sen eteenpäin, se on sallittua – normaalien siteeraussääntöjen puitteissa.
Käytin dataa, mitä sitten?
Hienoa! Kerro siitä tämän viestin kommenteissa tai twitterissä tägillä #HSOpen.
Voit myös lähettää sähköpostia minulle hs.fi-osoitteseen. Kerron mielelläni tässä blogissa, mitä datasta on saatu aikaan.



6. huhtikuuta 2011 kello 13.23
Kiitos HS!
Helsingin sanomien avointa dataa (ehdokkaiden tekstimuotoiset vastaukset kysymyksiin) on hyödynnetty keskus-vaalikoneessa http://www.vaali.fi!
Siellä voit arvostelemalla ehdokkaiden tekstimuotoisia vastauksia löytää oman ehdokkaasi. Kyseisessä metavaalikoneessa on myös viiden muun vaalikoneen kysymyksiä ja vastauksia.
6. huhtikuuta 2011 kello 13.26
Kannattaako CC-lisenssissä käyttää mainintaa ”epäkaupallinen” lainkaan, jos kaupallinen jatkokäyttö kuitenkin sallitaan?
Entä vaalikoneen käyttäjien vastaukset? Ovatko ne tulossa julkisiksi?
6. huhtikuuta 2011 kello 14.13
Meillä ei ole liikaa kokemusta avoimesta datasta omassa toiminnassa, ja siksi haluamme edetä varovaisesti. Meillä on kaupallisia intressejä omaan vaalikoneeseemme, ja siksi epäkaupallinen CC-lisenssi tuntui järkevältä.
Tämä ei tarkoita, että suhtautuminen ei voisi myöhemmin muuttua. Mitkä olisivat mielestäsi perustelut esimerkiksi pelkän Nimeä-lisenssin käyttöön? Vai olisiko joku muu kuin CC-lisenssi parempi meidän tarkoitukseen?
6. huhtikuuta 2011 kello 14.17
Merkistökoodaus näyttäisi olevan ISO-8859-1 eikä UTF-8, kuten uutisessa väitetään.
6. huhtikuuta 2011 kello 15.20
Kiitos tiedosta, päivitin sen artikkeliin. UTF-8:na se tuli minulle, mutta ilmeisesti vaihdoin sen vahingossa.
Kannattaa muuten katsoa tuo Juha Mattilan linkittämä http://www.vaali.fi. Erittäin mielenkiintoinen projekti metavaalikoneesta.
6. huhtikuuta 2011 kello 15.23
Tapio kysyi myös käyttäjien vastauksia: Näillä näkymin niitä ei ole tulossa. Julkaisisin ne mielelläni, mutta niitä ei ole edes meillä sisäisessä käytössä.
6. huhtikuuta 2011 kello 18.39
Eikö CC-epäkaupallinen tarkoita vain sitä, että datan kaupallinen jatkokäyttö on kiellettyä? Aika harva datanpyörittelijä on kiinnostunut tekemään sillä mitään, jos dataa saa käyttää vain yleishyödyllisiin tarkoituksiin eikä sitä saa käyttää vaikkapa osana jotain esim mainosrahoitteista mashuppia.
Toistaiseksihan tällaisia tehdään ihan harrastuksena mutta jostainhan se porkkana kehittäjillekin pitäisi löytyä.
HS:llä on oikeus tehdä omalla datallaan rahaa joka tapauksessa eli tämä ei rajaa teidän oikeuksia missään vaihtoehdossa.
Minua paremmin lisenssiasiat tuntee esim Petri Kola.
7. huhtikuuta 2011 kello 9.16
Estääkö nykyinen lisenssi jotain datan jatkokäyttöä tällä hetkellä?
Olen pääosin samaa mieltä kanssasi näistä asioista. Mutta mitä tässä yhteydessä tarkoitetaan kaupallisella?
Lehtien julkaiseminen on kaupallista toimintaa, mutta Journalistin ohjeiden siteeraussäännöt mahdollistavat meidän datan jatkokäytön kaupallisissa tuotteissa. Onko CC-lisenssi ristiriidassa journalistin ohjeiden kanssa? Ei minun mielestä, koska nykyinen kaikki oikeudet pidätetään -lisenssi on vielä tiukempi.
Olen yrittänyt keksiä jotain käyttöä datallemme, jota emme haluaisi sallia. Vielä en ole keksinyt sitä. Silti yritämme edetä varovaisesti: mieluummin avataan dataa vähitellen ja siirrytään vähitellen vapaampiin lisensseihin kuin todetaan myöhemmin, että otetaan rajatumpi lisenssi.
7. huhtikuuta 2011 kello 9.57
Hieno ja ehdottomasti kannatettava idea, mutta epäkaupallinen ehto rajoittaa jatkokäyttöä merkittävästi. Tämän vuoksi tietoja ei voisi hyödyntää esim. Wikipediassa. Kaupallisen ja epäkaupallisen käytön välinen ero on joskus hieno, ja rajaus epäkaupalliseen käyttöön voi aiheuttaa aineiston käyttäjälle odottmattomia ongelmia. Tämän vuoksi julkiseksi tarkoitettu aineisto olisi aina hyvä julkaista lisenssillä, joka sallii käytön riippumatta käyttäjän statuksesta tai tarkoituksesta. Lähteen nimeämisen vaatimus ei yleensä aiheuta samanlaisia ongelmia tai lisenssin tarttuvuus.
7. huhtikuuta 2011 kello 11.32
Tässä lisensointilogiikkaamme Helsinki Region Infoshare -projektista: http://www.hri.fi/fi/ajankohtaista/blogit/kayta-nimea/ http://www.hri.fi/fi/ajankohtaista/lupa-kayttaa/
Minusta HS:n tapa lähteä varovaisesti mutta päättäväisesti kokeilemaan avoimen datan julkaisemista, on juuri oikea tapa edetä. Tämä keskustelu on oleellinen osa sitä.
Epäkaupallisuutta on mahdotonta määritellä selvärajaisesti. Harmaita alueita sisältyy esimerkiksi nettimainontaan, sponsorointiin, pr-toimintaan, konsultointiin, koulutukseen jne. Kaupallisuus-epäkaupallisuus on alue, jota täytyisi koetella useista eri näkökulmista oikeussaleissa, jotta tietäisimme ennakkotapauksien kautta suuremmalla varmuudella missä rajat kulkevat.
Siltikin tilannearvion tekeminen voi muodostua datan käyttäjällä liian vaikeaksi.
Mielestäni julkaisijan kannattaa lähteä omista strategisista tavoitteistaan. Olisi hyvä tunnistaa tavoiteltu positioituminen avoimen datan ekosysteemissä. Sen jälkeen pitäisi miettiä onko ei-toivotun käytön estäminen järkevässä suhteessa mahdollisten positiivisten vaikutuksien kanssa. Miten isoja kaupallisuuden sallimisesta seuraavat rahalliset tappiot voivat HS:lle olla?
Miten muuten muut mediayhtiöt ovat ratkaisseet lisensointikysymykset?
7. huhtikuuta 2011 kello 11.50
Mainiota! Tästä palvelusta on paljon enemmän hyötyä kuin vain mustan laatikon arpomasta käsityksestä ehdokkaiden sopivuudesta.
Mutta laittakaa toki sen itse vaalikoneenkin sivustolle maininta palvelun olemassaolosta, ts. vähintään nämä linkit:
————–
Missä?
Tiedot voi ladata HS:n palvelimelta näistä linkeistä:
- Vaalikone 2011 csv-tiedostona (merkistökoodaus ISO-8859-1)
- Vaalikone 2011 excel-tiedostona
—————
7. huhtikuuta 2011 kello 14.09
Mainoksia sisältävillä verkko/blogisivuilla siis on vain kaikkea julkisista lähteistä saatua dataa koskeva normaali lakisääteinen siteerausoikeus?
Mitä normaali siteerausoikeus ei salli?
Onko niin, että esimerkiksi jonkin vaalipiirin kaikkia 200 vastausta kysymykseen 7 ei saa julkaista mutta keskiarvon, mediaanin ja 5 esimerkkiä saa julkaista?
7. huhtikuuta 2011 kello 14.23
Siteerausoikeus ei journalistisessa mielessä salli koko jutun toistamista sanasta sanaan. Muuten asian rajat ovat epäselvät, ja vähän koetellut. Journalistin ohjeet myös vaativat, että pitää linkittää alkuperäiseen lähteeseen sen mainitsemisen lisäksi.
Petri: olen samaa mieltä, että tilannearvio voi muodostua liian vaikeaksi. Jos joku tuntee olonsa epävarmaksi näillä ehdoilla, niin pyydän kysymään sähköpostilla tai tässä kommenttina. Aika nopeasti pystynen vastaamaan epäselviin tilanteisiin.
Eikö tämä keskustelu kieli jo vähän siitäkin, että CC-lisenssissä on ratkaisemattomia ongelmia?
7. huhtikuuta 2011 kello 14.30
Vastauksena vieraan kysymykseen: Saat julkaista vaikka kaikki vastaukset yksittäiseen kysymykseen, vaikka sivullasi olisi mainoksia. Esimerkiksi Greenpeace on tehnyt näin luvan kanssa ydinvoimaa käsittelevän kysymyksen suhteen.
7. huhtikuuta 2011 kello 16.43
Yksi esimerkki mahdollisesti kaupallisesta käytöstä on tuo Keskusvaalikone. Heillä ei ole sivuillaan ainakaan merkittävästi mainoksia tällä hetkellä, mutta entä jos olisi? Siteerausoikeus tuskin pätee tässä, kun he käyttävät ilmeisesti koko datasettiä.
On vähän epäreilua sanoa että CC-lisenssissä on ratkaisemattomia ongelmia, kun ongelma koskee koko tekijänoikeusjärjestelmää. Ohjelmistojen suhteen avoimia lisenssejä (BSD, MIT, GPL jne) on ollut jo pitkään joten niiden osalta jonkinlainen konsensus ja oikeuskäytäntö on jo muodostunut, mutta muiden sisältöjen osalta nämä asiat ovat vielä niin uusia ettei kunnon rajanvetoja vielä ole olemassa.
CC-lisensseistä vain Nimeä ja Nimeä-Tarttuva edes yrittävät olla aidosti avoimia (esim. FSF:n tai Debianin määritelmien mukaan), kaupallisen kiellon kieltävät CC-lisenssit poikkeavat avolisenssien valtavirrasta ja ovat siksi hankalampia.
7. huhtikuuta 2011 kello 16.44
Kiitos tästä tilastollisen aineiston aarrearkusta! Vaalikonevastauksista irtosi nopeasti kovinkin kiinnostavaa tietoa. Sain mm. sijoitettua puolueet poliittiselle kartalle puhtaasti tilastotieteellisin menetelmin ilman ennakko-oletuksia: http://www.loitto.com/tilastot/hsvaalikone11/
7. huhtikuuta 2011 kello 16.52
Saako aineistoa käyttää tutkimustoiminnassa tai opetuksessa? Esim. jos haluaisin asettaa aineiston opiskelijaryhmän työstettäväksi täällä Aallossa…
7. huhtikuuta 2011 kello 18.53
Kim: Tutkimuksessa ja opetuksessa saa käyttää vapaasti.
Osma: Keskusvaalikone on ok, vaikka julkaisisivat mainoksia. Heidän projektinsa vaikuttaa melko journalistiselta. Mutta: Entä jos joku tekisi mainoksia, joissa he käyttäisivät vaalikoneen vastauksia vaikka hivenen asiasta irroitettuna? Se olisi ainakin meidän kannalta kiusallista, en tiedä kuinka todennäköinen skenaario tämä on. Ei kuitenkaan aivan tavatonta tässä maailmassa, ja tiedän joidenkin kuvien kohdalla tällaista tapahtuneenkin.
HS Openin Tekes-data julkaistiin lisenssillä CC-nimeä. En pidä mahdottomana, että sitä käytettäisiin jatkossa laajemmin. Haluaisin kuitenkin vieläkin kuulla, kenelle nykyinen lisenssi on todella ongelma.
7. huhtikuuta 2011 kello 19.16
Laskeskelin puolueiden vastausjakaumien entropiat.
http://en.wikipedia.org/wiki/Entropy_(information_theory)
Pudotin pois kysymykset #21 ja #31. Tällä kysymyssetillä maksimientropia on 59.6 bittiä (= täysin satunnaiset vastaukset). Minimientropia on 0 bittiä (= kaikki puolueen ehdokkaat vastaavat tismalleen samalla tavalla). Entropiaa voisi siis tässä yhteydessä pitää jonkinlaisena mittarina sille kuinka linjassa ehdokkaiden mielipiteet ovat puolueen sisällä.
Lista puolueista pienimmästä entropiasta suurimpaan:
1. KTP 29.5 bit
2. SKP 31.1 bit
3. VAS 33.1 bit
4. KA 33.3 bit
5. SDP 33.7 bit
6. PS 34.9 bit
7. KESK 35.9 bit
8. VIHR 36.0 bit
9. VP 37.2 bit
10. STP 37.3 bit
11. SEN 37.4 bit
12. KOK 39.1 bit
13. KD 39.1 bit
14. RKP 39.3 bit
15. IPU 41.1 bit
16. M2011 44.1 bit
17. PIR 47.6 bit
8. huhtikuuta 2011 kello 9.58
Hienoa että HS näyttää mallia muille ja julkaisee tämän datasetin!
Muutama kommentti:
Juha Törmänen: Olisi mielenkiintoista tietää mitkä ehdokkaat ovat puoluidensa ääripäitä.
E(I(X)): Olisi mielenkiintoista nähdä jokaisen puolueen kohdalla, mikä puolue sopisi kaveriksi, eli mikä on se puolue, jonka kanssa entropia kasvaisi vähiten.
8. huhtikuuta 2011 kello 13.18
Hienoa, että HS teki vaalikonevastauksista avointa tietoa. Tein datan pohjalta nopean visualisoinnin poliittisesta kentästä vaaleissa 2011 http://www.jussihakala.fi/vaalit2011/
9. huhtikuuta 2011 kello 0.25
Allu Pylynen: Sainkin tänään apua asiassa ja ehdokkaat esille. Tuloksia voi nyt erotella puolueittain ja vaalipiireittäin ja katsoa, mikä piste edustaa mitäkin ehdokasta tässä interaktiivisessa poliitikkokartassa: http://www.loitto.com/tilastot/hsvaalikone11/kartta/
9. huhtikuuta 2011 kello 0.36
[...] Yleisenä huomiona alla olevissa kuvissa ja analyyseissa käytetään kaikkien vaalipiirien ehdokkaita. Törmäsen visualisoinnin pohjana on tilastollinen ryhmittely, joka on sijoittanut ehdokkaat akselien vasemmisto-oikeisto ja konservatiivi-liberaali mukaan. En tiedä, miten nämä akselit on konstruoitu, enkä ovatko ne fiksuja. Kuvat (ja ehkä myös tekstit? kuka näistä lisensseistä tietää.) ovat Creative Commons -lisenssillä Nimeä-epäkaupallinen-tarttuva 3.0 alkuperäisen HS.fi -datan ja Törmäsen visualisoinnin tapaan. Datan julkaiseminen on muuten Hesarilta ja siellä Esalta aivan eeppisen mahtava veto. [...]
9. huhtikuuta 2011 kello 18.28
[...] Sanomien vaalikoneessa on 31 kysymystä. On hienoa että Hesari pisti avoimeen jakoon koko aineiston eduskuntavaaliehdokkaiden vastauksista [...]
9. huhtikuuta 2011 kello 19.25
Kysymysten perusteella ei mielestäni voi sanoa, että akselit olisivat vasemmisto-oikeisto ja liberaali-konservatiivi. Kaksiulotteisissa visualisoinneissa yksinkertaisesti käy ilmi kuinka kaukana puolueet ja ehdokkaat ovat toisistaan näiden kysymysten perusteella projisoituna kahteen ulottuvuuteen.
10. huhtikuuta 2011 kello 12.10
Tein ehdokkaille tilastollisen luokittelun ja katsoin minkälaisia puolueblokkeja siitä syntyy:
http://www.ekvinos.com/luokittelu.html
10. huhtikuuta 2011 kello 18.05
Tämän datan jakaminen on enemmän kun hienoa. Käyttötarkoituksia tulee mieleen vaikka millä mitalla, joten katsotaan mitä niistä saa toteutettua lähitulevaisuudessa.
Itse kuulun Kymen vaalipiiriin ja tein vaalipiiristä sukupuolijakaumaa tarkastelevan infografiikan, joka löytyy blogistani: http://www.varrisalutes.com/notebook/gender-distribution-on-kymi-electoral-district-infographic
10. huhtikuuta 2011 kello 19.12
Minä taas jatkoin E(I(X)):n laskujen ja Allu Pylysen jatkokysymyksen inspiroimana vastausten informaatioteoreettista käsittelyä. Tuloksia: http://users.ics.tkk.fi/svirpioj/hsvaalikone2011/
11. huhtikuuta 2011 kello 3.11
Tein perinteisemmälle puoluekartalle visualisoinnin:
http://puoluekentta.tstm.info/
X-akselilta löytyy perinteinen talousmielen vasemmisto-oikeisto -linja, ja Y-akselilta löytyy konservatiivi-liberaali -arvomaailma.
Visualisoinnissa voi filtteröidä oman vaalipiirinsä ja puolueensa, suurimmat puolueet on myös värjätty. Eroa voi myös etsiä sukupuolista, jos haluaa.
11. huhtikuuta 2011 kello 9.54
Jussi H:lla on tärkeä pointti tässä keskustelussa: akselit näissä puolueiden eroja kuvaavissa analyyseissä eivät todennäköisesti ole ”järkeviä”. Tarkoitan siis, että ne eivät kuvaa vasemmisto-oikeisto tai konservatiivi-liberaali -eroja. Tuo analyysi tuo esiin vain puolueiden erot ja samankaltaisuudet, ei erojen sisältöä.
11. huhtikuuta 2011 kello 13.55
Mielenkiintoisia analyysejä ja mallinnuksia! Kyhäsin omani alunperin kun tsekkailin Juha Törmäsen visualisointia. Muuttujien käyttö siinä ei mielestäni ole ihan ongelmatonta, joten päädyin ryhmittelemään vastaajia kaikkien käypien vastausten avulla. Linkin päästä löytyvä versio palautuu siis latenttien luokkien ryhmittelyanalyysiin, sekä siitä saatavan segmentoinnin profilointiin ja tarkasteluun esim. juuri puoluekannan suhteen. Jutun on tarkoitus toimia lähinnä opetustarkoituksessa, joten käsittely on varsin suppea. Kommentit ja ideat tervetulleita.
http://web.me.com/makenboksi/Sivusto/HSvaalikoneNiemivirta.html
11. huhtikuuta 2011 kello 19.24
[...] Törmänen teki kulttuuriteon: analyysityökalun HS:n julkistaman vaalikonedatan [...]
11. huhtikuuta 2011 kello 21.24
[...] viime viikolla, ennakkoäänestyksen ensimmäisenä päivänä, vuoden 2011 eduskuntavaalien vaalikoneen tiedot kaikkien käytettäväksi avoimena tietona. Tietojen julkaiseminen on kaivattu askel kohti [...]
11. huhtikuuta 2011 kello 23.27
Tarkentaakseni hiukan edellistä kommenttiani, haluaisin painottaa että oma analyysini ei perustu faktorianalyysiin, vaan käsityöhön ja useamman henkilön mielipiteen muodostamaan yhteiseen linjaan, jossa käsin tarkasteltiin jokainen HS:n vaalikoneen kysymys ja vastaus erikseen, ja pisteytettiin kahdelle akselille.
Olen kuvannut hiukan sitä mitä tein täällä: http://tstm.info/blog/2011/04/analyysi-puoluekentan-takana.html
14. huhtikuuta 2011 kello 9.02
Hieno juttu tämä datan esille paneminen. Katselin itsekin puolueiden profiileja noissa 24 (jollain mitalla arvioituna kvantitatiivisessa) osiossa. Raakapisteinä profiilit näyttävät samankaltaisilta. Erot korostuvat, kun profiilit piirtää z-pisteinä. Kuvioihin olen jättänyt vai 5 kiinnostavinta puoluelle – muutoin tulee liian monimutkaista käppyrää.
Katso:
http://www.helsinki.fi/~komulain/Misc1/Aritmeettinen1.jpg
http://www.helsinki.fi/~komulain/Misc1/Z-pisteinä.jpg
Kyllähän puoluiden profiileissa eroja on, kun ne kaivaa esiin.
14. huhtikuuta 2011 kello 12.34
Laitettiin dataan vähän eloa ja vuorovaikutusta palloilla ja pompuilla. http://nypon.fi/Vaalit2011/
Visualisoinnit on kivoja varsinkin silloin kun niiden vulla voi vielä luoda käyttökelpoisia sovelluksia. Tuo linkistä löytyvä sovellus käyttää pohjanaan SOMia (Self-organising map), joka on siis eräänlainen keinotekoinen neuroverkko http://en.wikipedia.org/wiki/Self-organizing_map.
SOMin avulla ja kaikkien kysymysten perusteella ehdokkaat ovat löytäneet paikkansa läheltä toisiaan kun vastaukset ovat samankaltaisia tai kaempana toisistaan jos vastaukset ovat erilaisia. Lisää vaativampaa SOM visualisointia lötyy muuten täältä http://extra.datarangers.fi/vaalit/
Tämä julkistus datan julkistus tuli vähän yllättäen eikä ehditty pohtimaan avointen vastauste visualisointeja ollenkaan. Tehdään se sitten seuraavalla kerralla.
14. huhtikuuta 2011 kello 18.55
Tein jatkotutkimusta liittyen Tuomas Ylä-Anttilaan kirjoitukseen puolueiden konservatiivisuudesta. Uudemmalla datalla ja tarkemmalla arvomaailman jakauman tarkastelulla tehty tutkimus löytyy täältä: http://users.ics.tkk.fi/talonen/vaalit2011/
15. huhtikuuta 2011 kello 9.53
Jaakko: Mielenkiintoinen pohdinta. Tuomas jätti omassa tarkastelussa yksittäiset ehdokkaat vähemmälle huomiolle ja tarkasteli puolueen vastausten keskihajontaa. Sen perusteella valittiin neljä puoluetta lehteen menneen grafiikan kartoiksi. Box plot, joka lehdessäkin tietyssä mielessä oli, valittiin kuitenkin vaalipiirikohtaisten konservatiivisuuksien keskiarvosta. Ajattelimme, että on lukijaystävällisempää käyttää vaalipiirien minimi- ja maksimi-keskiarvoa kuin hyvin tilastotieteellistä keskihajontaa.
15. huhtikuuta 2011 kello 17.22
Tuossa edellisessä postauksessa linkit eivät avaudu. Olen pahoillani.
Helpointa on mennä osoitteeseen:
http://www.helsinki.fi/~komulain/Misc1/
ja avata siellä olevat jpg-tiedostot katseltaviksi.
z-pisteinä piirretyn profiilin referenssiksi on laittanut plus-miinus 0,5 hajonnan yksikköä. Eroja on, mutta ei valtavan suuria. Keskiarvojen taso- ja hajontaerojen tasaaminen tuo paremmin profiilin muodon esiin.
Tein lisäksi hajonnoista vastaavan kuvion. Vihreät ovat erittäin yksimielisiä ydinvoimakannassaan. Kiina/Venäjä ihmisoikeus -kysymys synnyttää hajontaa perussuomalaisten joukossa.
Referenssiviiva on 1:n kohdalla. Se on hajonta koko joukossa puolueisiin katsomatta. Vaikutelmaksi muodostuu, että puolueiden sisällä erot ovat varsin suuria. Puolueiden keskiarvojen erot ovat toki tilastollisesti ottaen kiistattomia.
Viisi puolueita eniten erottavaa asiaa olivat:
25 maahanmuuttopolitiikka
27 kunnan palvelujen ulkoistaminen
17 NATO-jäsenyys
10 rahaliiton kriisimaiden tukeminen
20 kehitysyhteistyö
Vähiten erimielisyyttä oli:
5 ikälaki (hoivatakuu)
18 Venäjä/Kiina ihmisoikeudet
30 kuntien välinen verotulojen tasaus
4 lapsilisä
23 ruotsin kielen asema peruskoulussa
Lopuksi: pahoitteluni pienemmille puolueille. Kuviot menvät sotkuisiksi, jos puolueita lisätään.
Vaalithan ovat erittäin jännittävät. Kiinnostavaa on myös vaalien jälkeisen hallituksen kokoonpano ja toiminta.
16. huhtikuuta 2011 kello 6.44
Esa: Olet varmaan ihan oikeassa tuosta lukijaystävällisyydestä. Kovinkaan moni ei tosiaan tiedä mitä keskihajonta tarkoittaa, joten sen käyttäminen voi olla kyseenalaista. Pyysin myös kavereilta kommentteja. He pitivät boxplottia ja spliniä liian hankalana. Histogrammia pidettiin hyvänä. Kuva on helppo ymmärtää, vaikka ei ymmärtäisi tilastotieteestä mitään. Tarkempi silmäys histogrammiin paljastaa puolueen ehdokkaiden määrän, arvopisteiden minimin, maksimin, moodin, arvion mediaanista ja keskiarvosta, poikeavat arvot, jakauman muodon sekä näiden piirteiden eron muihin puolueisiin. Ongelmana on se, että se vie enemmän tilaa, joten sen julkaiseminen paperilehdessä ei välttämättä ole järkevää. http://users.ics.tkk.fi/talonen/vaalit2011/hs110412/4.pdf
16. huhtikuuta 2011 kello 11.10
Aiemman ryhmittelyn jatkoanalyysejä vielä ennen vaalipäivää: mukana nyt HS:n konservatiivisuusindeksi ja hieman toisenlainen sellainen, impivaaraindeksi (…) riippuvina muuttujina:
http://web.me.com/makenboksi/Sivusto/HSvaalikoneNiemivirta.html
Sunnuntain jälkeen onkin sitten mahdollista tuottaa uuden eduskunnan vaihtoehtoinen puoluekartta…
18. huhtikuuta 2011 kello 12.51
Ketä valittiin kansanedustajiksi?
Mitä mieltä on hallitus ja oppositio, jos tuleva hallitus on KOK+SDP+PS?
Jos et tiedä, niin klikkaa:
http://users.ics.tkk.fi/talonen/vaalit2011/
Kaksi 31 sivun PDF:ää, joissa hyödynnetty tuloksia ja HSopen dataa.
18. huhtikuuta 2011 kello 13.16
[...] tätä järjestämällä ohjelmoijia ja journalisteja yhdistäneen HsOpen -tapaamisen, sekä julkaisemalla vaalikoneensa sisällön avoimena datana jo ennen [...]
26. huhtikuuta 2011 kello 14.34
Liitin vaalitulokset vaalikoneanalyysiin. 3D-visualisointeja suomalaisten arvoista löytyy osoitteesta:
http://users.ics.tkk.fi/talonen/vaalit2011/
13. kesäkuuta 2011 kello 9.03
Olisiko mahdollista saada myös kysymykset nähtäviksi? Nyt ongelmana on se, että meillä on vastaukset mutta ei kysymyksiä. Vai olenko vain etsinyt laiskasti?
Kysymysten näkeminen on olennaista esim. sen arvioimisessa millä perusteella Osmo Soininvaara on tulkittu uuden eduskunnan oikeistolaisimmaksi kansanedustajaksi: http://veikkohuuska.puheenvuoro.uusisuomi.fi/70712-onko-soninvaara-siis-uuden-eduskunnan-oikeistolaisin-edustaja