Blogg / Datajournalistik

Ett forsknings- och utvecklingsprojekt i samverkan

När inget annat funkar: skrapa nätet

Scraping

Internet är en förutsättning för datajournalistiken såsom vi känner den i dag. Enorma mängder data finns därute på nätet, det gäller bara att hitta den. Samt att ladda ner den. Vilket ibland är lättare sagt än gjort.

Web scraping är en finurlig liten datajournalistisk subgenre. Scraping betyder helt enkelt att hämta ner, eller skrapa, information från webbsidor och hälla in i en egen databas.

Janet Roberts från Reuters listar på ett Nicar-seminarium några tillfällen då tekniken kan komma till pass:

1 När ingen har den data du behöver.

2 När myndigheterna inte ger dig den data du vill ha.

3 När du inte vill att myndigheter eller företag ska veta att du vill använda deras data.

Det finns mängder av olika tekniker och trix för scraping. Man ska inte göra saker mer komplicerade än de behöver vara. En egen favorit när jag hittat en fin liten tabell på nätet som jag bara måste ha är Chrome Scraper, ett tillägg för webbläsaren Chrome, som plockar hem tabeller riktigt snyggt.

Men nu är ju inte all information på nätet prydligt ordnad i tabeller. Och hur gör man om materialet inte ligger på en sida, utan på flera tusen? Danska duon Nils Mulvad och Tommy Kaas har byggt en hel karriär på att medelst programmering, företrädesvis i Python, skrapa nätet. Exempelvis har de laddat ner hela den danska motsvarigheten till Platsbanken och gjort journalistik av.

Men som sagt, man ska inte göra det för svårt för sig. Titta noga på hemsidan, råder Janet Roberts på Reuters. Ofta finns en liten knapp där det står något i stil med ”Ladda ner data”. Eller slå en signal och fråga om du kan få en fil mejlad.

– Försök alltid att minimera lidandet, som Janet Roberts uttrycker det.

Det förefaller mig också som behovet av scraping är större i USA. I Sverige erbjuder de flesta myndigheter möjligheten att ladda ner data som lätthanterliga Excel- eller csv-filer. Att det kan vara besvärligt att få ut handlingar som inte ligger på webben alls från myndigheterna är förstås en helt annan fråga.

Tobias Brandel/SvD

Bli först att kommentera på “När inget annat funkar: skrapa nätet

Kommentera

E-postadressen publiceras inte. Obligatoriska fält är märkta *