Google Refine ja Spreadsheet: Kuntavaltuutettujen iän vertaaminen valtakunnalliseen keskiarvoon

Kuntavaaleissa 2012 Oikeusministeriö julkisti tulostiedot csv-muodossa. Data on ladattavissa vaalit.fi-sivuston kautta etsimällä tai suoraan täältä. Muista tutustua tietuekuvaukseen, jotta tiedät, mitä data pitää sisällään.

Tällä kertaa piti katsomani, minkä ikäisiä ihmisiä valtuustoihin tuli keskimäärin valittua mistäkin puolueesta. Sen jälkeen vertasin vielä kotikaupunkini Jyväskylän tilannetta valtakunnalliseen. Tutoriaalissa opetellaan

  • Tuomaan data Google Refine -datansiivoustyökaluun
  • Tekemään poimintoja datasta halutuilla kriteereillä
  • Siirtämään poimittu data Refinestä Google Spreadsheetiin (tai Exceliin ym.)
  • Laskemaan pivot-taulukolla keskiarvo erikseen jollain kriteerillä poimituille ryhmille (tässä ehdokkaiden iän keskiarvo erikseen joka puolueelle)
  • Tehdäänpä vielä simppeli =IF-funktiokin
Datan pyörittelyn seurauksena saadaan tietää, kuka on Suomen vanhin valtuustoon valittu kuntavaaliehdokas, minkä ikäisiä ovat uudet valtuutetut keskimäärin missäkin puolueessa valtakunnallisesti sekä sama tieto Jyväskylän osalta. Lisäksi katsotaan, miten keski-iät eroavat puolueiden sisällä sukupuolen mukaan. Aikaa koko hommaan menee alle 30 minuuttia.

Ensiksi joudut asentamaan Google Refinen. Se on selaimessa pyörivä työkalu. Itse jouduin lisäksi antamaan ohjelman käyttöön lisää muistia asetustiedostoja rukkaamalla (ah 1990-lukua!), että se jaksoi imaista koko ehdokaskohtaisen äänestysdatan (joka ehdokkalle oma rivi jokaista äänestysaluetta kohti ~750 000 riviä dataa). Refinen voit ladata täältä ja muistia sille annetaan näin.

Tutoriaalit on taas kerran tehty Kari Peitsamo -metodilla treenaamatta ja uudelleenäänittämättä, joten änkytystä, virheitä ja muuta riittää. Mutta kyllä niistä sitkeä opiskelija silti pystyy ymmärtämään, miten asiat on tehty.

1) Haetaan ehdokaskohtaiset tulostiedot, ja etsitään Google Refinellä läpimenneet (8:03 min)

  • Google Refine: Import
  • Google Refine: Text Facet
  • Google Refine: Custom tabular exporter

2) Selvitetään ehdokkaiden keski-iät puolueittain Google Spreadsheetissä (5:32 min)

  • Google Spreadsheet: Taulukoiden järjestäminen halutun sarakkeen mukaan
  • Google Spreadsheet: Tiedostojen lisääminen
  • Google Spreadsheet: Pivot-taulukkoraportin luominen ja tietojen analysointi

3) Katsotaan vielä, miten iät eroavat sukupuolittain (1:19 min)

  • Google Spreadsheet: Sarakkeiden lisääminen Pivot-taulukkoon

4) Haetaan vertailun vuoksi keski-iät puolueittain (9:56 min)

  • Google Refine: Import
  • Google Refine: Text Facet
  • Google Refine: Custom tabular exporter ja datan lähettäminen suoraan Google Spreadsheetiin

 

03. marraskuu 2012 by Jarno Liski
Categories: Tutoriaalit | Tags: , , | Leave a comment

Leave a Reply

Required fields are marked *