Screen scrapingia aloittelijoille

Heinä- elokuun vaihde tarjoaa kaksi ilon aihetta screen scrapingista (nimikilpailu pystyyn suomenkielisestä vastineesta?) kiinnostuneille, mutta ohjelmointitaidottomille kansalaisille. Jos ei kiinnosta, niin kokeile vielä lukea tämä (Journalism.co.uk: Two reasons why every journalist should know about scraping).

1) Codecademy aloitti ilmaiset onlinekurssit Python-kielen opettamiseksi

Codecademy on vasta-alkajille suunnattu hauska itseopiskelusivusto ohjelmointikielten oppimiseksi. Aivan äsken Codecademy lisäsi opetettavien ohjelmointikielten valikoimaan Pythonin. Pythonia on kehuttu helposti omaksuttavaksi ohjelmointikieleksi, ja mikä tärkeintä datajournalistin ja muiden avoimen datan aktiivien näkökulmasta: se on hyvin suosittu ohjelmointikieli scrapereiden tekemiseen.

Scraperwikistä löytyy ainakin yksi suomalainen scraper, joka on ohjelmoitu Pythonilla. Sillä voi vielä Lumilapio jäädä voittamatta, sillä se poimii tanssit.net-sivustolta tulevia tansseja. Pienellä mielikuvituksella sen saa varmasti tekemään muutakin hyödyllistä. Rubyä ei vielä voi Codecademyssä opiskella, mutta sillä on Petri Kola screipannut mm. kansanedustajien blogien RSS-syötteet yhteen nippuun.

2) Paul Bradshaw: Scraping for journalists

Brittiläinen toimittaja ja journalismia Birminghamin yliopistossa opettava Paul Bradshaw julkaisi heinäkuussa 2012 e-kirjan, joka auttaa ummikkoja alkuun scrapingissä. Ostin kirjan (ovh. $10.99, eli 9 euroa). Kirja lähtee liikkeelle Google Docsin =importHtml-funktiosta, joka onkin helppo tapa saada tuloksia aikaiseksi. Bradshaw lupaa, että jos (ja kun) ihminen osaa käyttää ko. funktiota, oppii hän myös rakentamaan Pythonilla, Rubylla ja PHP:llä.

Voit ladata näytteen kirjasta täältä (pdf) (via Leanpub.com).

Videosukupolvelle vielä näytteeksi Derek Banasin opetusvideo scraperin rakentamisesta Pythonilla:

03. elokuu 2012 by Jarno Liski
Categories: Tutoriaalit | Tags: , , , , , , | 2 comments

Comments (2)

  1. Pingback: Google Docs scraperina (ImportXML) | Datalysaattori.fi

  2. Todella näppärä ja täysin ilman koodaustaitoakin taittuva Scraper löytyy Google Chrome laajennuksena ja on nimeltään Scraper. Sillä voi yksittäisten sivujen sisällön screenscrapettaa ja tulokset voi viedä Google Docs:iin jatkokäsittelyä varten.

    Monimutkaisempien scrapetusten kohdalla joutuu sitten opettelemaan xPath:a, mutta parhaassa tapauksessa hiiren klikkauksilla saa irti haluamansa.

    Lyhyt Scraperin esittely löytyy blogistani:
    http://datajournalismi.blogspot.fi/2012/07/esittelyssa-datajournalistin-tyokalut.html

Leave a Reply

Required fields are marked *