Blogg / Datajournalistik

Ett forsknings- och utvecklingsprojekt i samverkan

När inget annat funkar: skrapa nätet

Scraping

Internet är en förutsättning för datajournalistiken såsom vi känner den i dag. Enorma mängder data finns därute på nätet, det gäller bara att hitta den. Samt att ladda ner den. Vilket ibland är lättare sagt än gjort.

Web scraping är en finurlig liten datajournalistisk subgenre. Scraping betyder helt enkelt att hämta ner, eller skrapa, information från webbsidor och hälla in i en egen databas.

Janet Roberts från Reuters listar på ett Nicar-seminarium några tillfällen då tekniken kan komma till pass:

1 När ingen har den data du behöver.

2 När myndigheterna inte ger dig den data du vill ha.

3 När du inte vill att myndigheter eller företag ska veta att du vill använda deras data.

Det finns mängder av olika tekniker och trix för scraping. Man ska inte göra saker mer komplicerade än de behöver vara. En egen favorit när jag hittat en fin liten tabell på nätet som jag bara måste ha är Chrome Scraper, ett tillägg för webbläsaren Chrome, som plockar hem tabeller riktigt snyggt.

Men nu är ju inte all information på nätet prydligt ordnad i tabeller. Och hur gör man om materialet inte ligger på en sida, utan på flera tusen? Danska duon Nils Mulvad och Tommy Kaas har byggt en hel karriär på att medelst programmering, företrädesvis i Python, skrapa nätet. Exempelvis har de laddat ner hela den danska motsvarigheten till Platsbanken och gjort journalistik av.

Men som sagt, man ska inte göra det för svårt för sig. Titta noga på hemsidan, råder Janet Roberts på Reuters. Ofta finns en liten knapp där det står något i stil med ”Ladda ner data”. Eller slå en signal och fråga om du kan få en fil mejlad.

– Försök alltid att minimera lidandet, som Janet Roberts uttrycker det.

Det förefaller mig också som behovet av scraping är större i USA. I Sverige erbjuder de flesta myndigheter möjligheten att ladda ner data som lätthanterliga Excel- eller csv-filer. Att det kan vara besvärligt att få ut handlingar som inte ligger på webben alls från myndigheterna är förstås en helt annan fråga.

Tobias Brandel/SvD

Utseende är inte allt – men väldigt mycket…

Utseende är inte allt – men väldigt mycket…

Just nu experimenterar många svenska mediehus med att utveckla de grafiska möjligheterna och formerna för storytelling online.

De flesta har begripit att besökarna ställer allt högre krav på visualisering, funktionalitet och sköna upplevelser när de tar sig an nyhetsrapportering och reportage.

Försöken är av varierande resultat och förebilderna som fungerar mobilt är få. (Förra året såg jag ingen på NICAR 13 – i år har jag sett flera lyckade exempel).

När besökstrafiken rusar från desktop till mobil (för Aftonbladet just nu cirka: 60/40 och ständigt ökande) blir jobbet extra svårt.
För som vi alla vet: ”Funkar det inte i mobilen – så funkar det inte”

Så hur gör man? 

Ja, just nu tycks läget vara att vi tar i för mycket – sannolikt av ren exprimentlust.

Tre föreläsare pratade under rubriken: I´ts not just for looks: Presentation as a storytelling tool

Självklart är alla dessa tre exempel stora mediehus med enorma resurser.

BBC News, New York Times och NPR.

Aaron Pilhofer, redaktör för den interaktiva nyhetsteamet på New York Times har 20 (!) utvecklare till sitt förforgande.

Han drog exemplet med en av de årliga, återkommande stora publikdragarna för NYT,  Oscarsgalan (som sänds i kväll)

Under flera år har det interaktiva nyhetsteamet lagt ner mycket jobb på att bygga storytelling kring världshändelsen.
Besökarna har försetts med live-tv med NYT-profiler, navigeringslistor sida vid sida med  läsar-omröstningar, cover it live-reportrar som rapporterar vad profilerna säger och vad som händer på galan, omodererat twitterflöde, spel, bildspel med hundratals galablåsor och så vidare.

Inte helt lyckad storytelling, medger Aaron Pilhofer

När teamet faktiskt började mäta exakt hur besökarna använder varje moment i det enorma utbudet tvingades man till insikten: de fattar inte vad de ska göra med allt.

(Även om mätningen visade att förvånande fem procent av besökarna faktiskt klickade sig igenom det enorma bildspelet på 500 bilder.)

Inför kvällens Oscarsgala är utbudet rensat och vinkeln tydlig: En live-tv-sändning med de båda NYT:profilerna under rubriken ”David Karr och Tony Scott bevakar Oscarsgalan”.

Kvar finns det  redaktörs-modererade flödet av kommentarer från sociala medier, läsar-omröstningen och så klart bilderna från röda mattan. Snyggt, enkelt och överblickbart för vem som helst att navigera i.

Och i mobilen ser det ut att bli helt okej.

Helene Sears, chefsdesigner för BBC:s interaktiva onlineteam gav konkreta tips för hur processen att bygga lyckad storytelling bör gå till:

1) Sätt rubriken – exakt vad är vinkeln på det som ska byggas.
2) Brainstorma med ALLA inblandade – reportrar, utvecklare, redaktörer – så att alla får klart för sig vad som ska göras och får sitt säg.
3) Kom INTE med skisser på vad du tänkt dig – det dödar all kreativitet i teamet.
4) Ta fram en prototyp och släng den framför så många ögon som möjligt så att du vet att de begriper den.
5) Gå tillbaks och brainstorma. Förfina idén. Gör den perfekt.
6) Leverera. Testa på alla devices.
7) Testa igen. Fungerar det?
8) Testa igen

Helene Sears exempel från bygget krig den brittiska tv-serien Doctor Who.

Alyson Hurt, grafikredaktör på NPR, gav det mest innovativa och roligaste exemplet om hur man byggde storytelling kring hur en helt vanlig t-shirt kommer till. Som fungerar lysande i mobilen, dessutom.

Läs mer om hur och varför:

Läs hela storyn:
/Maria Trägårdh Aftonbladet

Samla in din data själv

Mycket av det som föreläses om här på Car 2014 bygger på att vi som journalister hämtar data som vi sedan sorterar, analyser och gör journalistik utav.

Men vad gör vi när vi i inte har någon data att ladda ned?

Samlar in vår egen, är svaret från John Keefe (NY public radio) och Liza Stark (Parsons The New School for Design).

 

Under sin session visade de upp en hel del enkla saker man själv kan bygga utan att vara ingenjör.

Som plattform använder det uteslutande Arduino som är en minidator, stor som en cigarettask. Den kostar cirka 20-25 dollar att köpa.

 

Arduino

Till den kan man sedan koppla mängder med olika sensorer för att samla in den data man vill ha.

Du kan till exempel mäta temperaturer, rörelser, fuktighet, luftföroreningar mm.

I och med att de är så billiga att köpa kan man snabbt sätta upp ett stort antal mätpunkter i till exempel en stad och får jämförelsebar data från olika stadsdelar.

Arduino kan förses med både gps-positionerare och wifi.

 

I Japan har mängder med privatpersoner byggt strålmätare med Arduiono som bas efter kärnkraftsolyckan 2010. Dessa är sammankopplade i stora nätverk så man snabbt kan se förändringar.

 

Bifogar en länk till hur man bygger sin Arduino för miljöövervakning:

 

http://alejandroquinteros.files.wordpress.com/2012/11/environmental-monitoring-with-arduino.pdf

Thomas Möller

NTM

 

GEO-Tips

Idag blev ytterligare en dag i kartskapandets tjänst för mig. Dagens första två sessioner ägnade jag åt att kika på gratisverktyget QGIS. Jag ska inte försöka förklara alla funktioner som programmet har för det finns alldeles för många ,men jag tänkte att jag skulle tipsa om ett par saker som jag själv hajade till och tänkte att de skulle vara väldigt användbara.

Det första var hur mångsidigt programmet var vad gäller filformat. Det är väldigt enkelt att konvertera olika typer av filer med geografisk information till det man vill ha vilket kan vara shapefiler, kml, eller kanske geoJSON. Väldigt bra om man får tag på filer som kanske inte är det format man behöver, till exempel så vill man kanske ha en kml-fil om man vill jobba vidare i Fusion Tables.

Man kan också trimma väldigt stora filer så att de blir mindre, vilket så klart medför att den geografiska informationen (polygonerna till exempel) blir lite mindre exakta, men du kan även bespara dina läsare väldigt långa laddningstider.

Som jag nämnde så får jag intrycket av att QGIS är ett bra verktyg för att agera lite mellanhand när det gäller att överföra data till en karta och publicera den på webben. Det går inte att bygga mer interaktiva webbkartor direkt i programmet, men du kan väldigt enkelt skapa geoJSON-filer som du sedan kan ta vidare till verktyg som CartoDB eller Leaflet om du kan lite javascript.

Men det kanske mest uppenbara användningsområdet för mig som jobbar inom printmedia (även om vi ska tänka digitalt först) är att det väldigt enkelt går att skapa statiska kartor och exportera dem som ganska högupplösta jpg:s eller pdf-filer som skulle gå att använda i print.

Många gånger så har man ju gjort en webbkarta i något verktyg men så ska man publicera samma artikel i print, och då blir bildlösningen oftast en annan eftersom den karta man gjort inte funkar i print. Det här kändes som en bra lösning på det och jag ska definitivt testa det mer när jag kommer hem!

/Micke Tjernström, Mittmedia

Utmaningar med visualisering – komplexitet vs förenkling

Två målsättningar står mot varann: vi vill göra mer avancerad grafik, men samtidigt behöver vi förenkla grafik för att den ska funka i mobilen. I bästa fall kan man behålla den önskade komplexiteten i mobilen genom att hitta ett smart gränssnitt. I värsta fall måste man plocka bort element som kräver en större skärmyta.
Explosionen i mobiltrafik verkar inte ha gått riktigt lika snabbt i USA som i Sverige, det känns som att de ligger något år efter. Propublica och andra föredragare medgav att de inte (ännu) har mobile first som övergripande tank, utan det görs snarare en anpassning till mobilen på från fall till fall. I vissa fall anpassas webgrafiken i sin helhet, ibland lyfter man bort vissa element, ibland behåller man webvyn också i mobilen och ser bara till så att det funkar (om än otympligt). Ingen av de lösningarna är förstås riktigt bra.
Om man har mobile first som utgångspunkt, som Aftonbladet har, måste steg ett vara att bli riktigt bra på enklare grafik som kan göras snabbt av reportrar och redaktörer. Man kommer långt med lättanvända program som infogr.am, datawrapper och google fusion, och grafiken funkar oftast på både webb och mobil utan specialbearbetning.
Genom att lära vanliga reportrar och redaktörer att använda sadana verktyg, kan datajournalister som har djupare kunskaper fokusera på de avancerade grafiksatsningarna.
Men parallellt med att lära ut verktygen behöver man sprida kunskap om tolkning och utgörning av statistik. Det är inte helt och hållet en myt att journalister är dåliga på matte, eller åtminstone ointresserade. Grundskolematte som skillnaden mellan median/medelvärde och procent/procentenheter borde förstås alla ha koll på. Men sammanblandningar sker redan i dag i text. Det blir förstås ännu mer förödande och pinsamt om samma felaktigheter letar sig in i en grafik. En snabbkurs i att tolka statistik for alla reportrar och redaktorer skulle inte skada.
Även en relativt enkel grafik kräver dessutom att reportern eller redaktören har ordentlig koll på (1.) vilken data som ar mest relevant och intressant och (2.) vilken typ av visualisering som blir mest tydlig och spännande for läsaren. Målet måste alltid vara att visualiseringen ska gripa tag i läsaren direkt: den måste vara lättillgänglig vid första anblicken, även om den kan erbjuda mer for de läsare som vill fordjupa sig i t ex specifika skärningar av statistiken.
sajt med skrackexempel (fel pa statistiken eller visualiseringen): wtfviz.net
Lite väl lite info för en grafik…
 tumblr_n17xqtq7ve1sgh0voo1_500
237% – i ett pajdiagram…
tumblr_n109a6gPMr1sgh0voo1_1280
Joakim Ottosson, Aftonbladet

Sverige på efterkälke kring ekonomidata?

Det är andra gången som jag besöker CAR. Det är nu cirka två år sen som jag börja närma mig området datajournalistiska arbetsmetoder utifrån perspektivet som forskare i företagsekonomi med innovationsprocesser som huvudintresse. Under CAR 2014 första dagar har jag gjort några intressanta observationer.

En proppfull föreläsning jag var på handlade om ekonomijournalisternas möjligheter att arbeta med datajournalistiska metoder. Även om mycket på CAR handlar om den amerikanska kontexten så går det oftast att överföra föreläsningarnas budskap till den svenska kontexten.

När jag som svensk forskare möter amerikanska forskare, så är de oftast extremt avundsjuka på Sveriges långa tradition av offentlighetsprincip och myndigheternas arkiv om företagsdata som samlats om hela företagsbestånd i över hundra år. Jag börjar dock inse att vi ganska kan komma att vara avundsjuka på amerikanska forskarna och ekonomijournalister. Orsaken är att de amerikanska myndigheterna som har till uppgift att samla in och delge marknaden ekonomisk information i högre grad än svenska myndigheter börjar använda ett standardformat XBRL för rådatan som i hög grad underlättar fortsatt bearbetning och analys av tredje part.

I Sverige fördröjs införandet av XBRL, med argumenten att det går emot direktiven att förenkla för företagare att lämna information till myndigheterna. Att underrätta administrativt krångel för företagare låter väl bra men problemet är att man tappat bort orsaken till varför företag överhuvudtaget behöver lämna information till myndigheter.

När man införande aktiebolagslagen vid mitten av 1800-talet så var en av poängen att man begränsade ägarnas ansvar för företagets skulder (på engelska går bolagsformen under just under benämningen ”limited liabilities”). Det innebar att staten med aktiebolagsstiftningen spridit riskerna med företagandet till en rad olika aktörer i samhället vilket visat sig vara gynnsamt för ekonomisk tillväxt. Men det innebär samtidigt att aktiebolag har en rad intressenter utöver sina ägare som behöver få information om företagen. Går aktiebolaget i konkurs så förlorar en rad aktörer sina pengar: leverantörer, finansiärer, kunder som förskottsbetalat, anställda, staten osv.

Staten har med myndigheter som Bolagsverket och Finansinspektionen tagit ansvar för att alla aktörer i samhället ska kunna få information om dessa företags status så att olika intressenter kan ta ekonomiska beslut baserade på den informationen.

Men de senaste åren har statsmakten och myndigheterna i Sverige istället nästan uteslutande haft ägarnas perspektiv på den information de ska lämna in, men även allt mer låst in data med hjälp av betalningsmodeller för att få ut den. Direktiven har varit att det ska vara lätt för ägarna att lämna in data om företagen, inte att underrätta tillgängligheten till informationen. Det innebär att företag får använda format som pdf och jpeg för årsredovisningar och dylikt, vilket är svåra att maskinläsa och därmed bearbeta och analysera.

Bolagsverket tog tidigt initiativ med att börja testa XBRL, men detta initiativ har nu bromsat upp av direktiv som istället har fokus på att förenkla för företagen. I USA har man lyssnat på samhället krav på snabb ekonomisk information och där börjar myndigheter införa gemensam standards för rådata för att underrätta för användarna av informationen.

I Sverige går samverkan mellan myndigheterna som ska hantera ekonomisk information långsamt, samtidigt som man verkar ha glömt bort huvudsakliga syftet med att man samlar in denna information, nämligen att informationen snabbt ska kunna delges och analyseras av olika intressenter i samhället. XBRL sprids nu som standard över världen för ekonomisk information. Varför hänger inte Sverige på det tåget?

Och när ska det också komma standard för rådata för andra myndigheter i Sverige som gör att det är lätt att samla in, bearbeta, analysera och visualisera data för journalister, forskare och våra medborgare?

Tommy Larsson Segerlind – Södertörns högskola

Vad som driver trafik på Facebook

En konferens som CAR 2014 innehåller naturligtvis en massa intressanta och nyttiga seminarier, workshops och föredrag. Men den samlar också en massa intressanta människor, och mötet med dem är lika mycket en anledning att delta.

I går sprang jag till exempel på Sonya Song, som gjort super-intressanta undersökningar av vad som driver trafik på Facebook och hur människor agerar när de besöker sociala medier.
Jag har skrivit om hennes arbete på min blogg på HD.se: http://hd.se/blogg/karlsson/2013/11/20/facebook-ar-var-digitala-lopsedel/ Här finns också länkar till Songs egen blogg, där hela hennes arbete finns. Är du det minsta intresserad av hur Facebook fungerar är det måste-läsning!
Sören Karlsson, Helsingborgs Dagblad

Hatade matematik, älskade statistik

SPSS

I datajournalistikbranschen lär man sig snabbt att slänga sig med vissa identitetsskapande floskler. Som att muttra ”Jag är så trött på alla journalister som säger att de inte kan matte” och himla lite med ögonen.

Och visst är det fascinerande hur ofta det på redaktionerna närmast koketteras med dåliga matematikkunskaper. Vi är ju samhällsvetare gudbevars.

Men tillämpad matematik finns faktiskt också inom samhällsvetenskapen. Då kallar vi den statistik. Och sådan älskar journalister.

Kanske skulle ett större mått av ödmjukhet i journalistkåren vara på sin plats här. För att tala klarspråk: Är man dålig på matematik ska man inte rapportera om statistik.

Lika vanliga som pinsamma fel i nyhetsrapporteringen är statistik gjord på populationer där urvalet är okontrollerat (i allmänhet webbformulär på den egna sajten) och tal om ökningar och minskningar av partisympatier från en månad till en annan när förändringarna ligger inom felmarginalen.

På en yvig konferens av den typ som Nicar är – väldigt mycket ryms inom begreppet datajournalistik – gäller det att försöka hitta någon sorts linje i kryssandet mellan olika seminarier.

Själv har jag främst två mål med min USA-vecka. Den ena är att lära mig programspråket SQL för databashantering. Mer om det här på bloggen senare förhoppningsvis, om jag får plats på de träningssessioner jag hoppas gå på.

Det andra är att lära mig mer om statistik. På Nicar har jag under en förmiddag provat på statistikprogrammet SPSS, standard i universitetsvärlden. Förmodligen var det enda gången i mitt liv eftersom licensavgifterna på SPSS är fullkomligt hiskeliga. Men jag har också lärt mig att mycket går att göra i Excel, eller i gratisprogrammen PSPP och R.

En annan fras att svänga sig med om man vill verka hemmastad inom datajournalistiken är ”Använd för guds skull inte begrepp som p-värde eller linjär regression i en nyhetstext”. Då slutar nämligen en garanterat statistiskt signifikant andel av läsarna att läsa. Däremot måste vi som journalister själva förstå vad vi har gjort med våra siffror.

Bästa rådet för statistikbaserad journalistik kommer från Steven Rich, databasredaktör på The New York Times: Fråga alltid någon som är smartare än du. Och det är faktiskt en väldigt bra sammanfattning av essensen i hela den journalistiska yrkesutövningen.

Tobias Brandel/SvD

 

 

Kan algoritmer vara rasistiska?

Ett av dagens första seminarier – Holding algorithms accountable – väckte en del udda frågeställningar. Som namnet antyder handlade sessionen om vem som har ansvaret för maskiners beteende. Det intuitiva svaret är givetvis: programmeraren, eller programmet/algoritmens skapare. Men hur översätts det svaret till en situation där algoritmer skapar andra algoritmer? När mjukvaran blir så komplex att skaparen av programmet aldrig kunnat förutse vad utfallet skulle bli?

I Chicago har polisen tydligen en lista över potentiella brottslingar. Listan genereras av en algoritm som tar ett antal variabler om enskilda individer som input. Polisen bedyrar att ras inte är en av variablerna. Problemet är att algoritmen är skriven på ett sätt som gör att ras ändå blir en faktor i beräkningen. Den obesvarade frågan är: Om vi går med på att det finns ett rasistiskt element i processen, utan att det var skaparens avsikt, vem ska då hållas ansvarig?

Tung start på dagen. Efter algoritm-seminariet begav jag mig till Grand Ballroom East och lyssnade på panelen Brian Boyer, John Perry, Ben Welsh och Kevin Schaul. Temat var Proper workflows for data projects. För att citera Ben Welsh: ”Om det är någonting du ska ta med dig från den här diskussionen så är det att använda versionshantering”. Paneldeltagarna var rörande överens om nyttan med tjänster som Github, både för att versionshantera kod och för att samarbeta med icke-programmerare. Det var en ganska teknisk session som kanske kan sammanfattas med följande lista:

  • Automatisera alla processer som kan automatiseras.
  • Skriv informativa felmeddelanden.
  • Logga allting.
  • All kod behöver inte testas, men om du påstår något som ingen annan har påstått förut, så är det klokt att testa koden som gör beräkningen.

Den mest konkreta delen av dagen var nog seminariet om sociala medier. Robert Hernandez från USC Annenberg och Mandy Jenkins från Inside Thunderdome gick igenom en rad olika tjänster som kan hjälpa journalister i det dagliga nyhetsarbetet. Ett exempel är Linkedins grupp för journalister. Den som går med i gruppen och deltar på ett av deras ”webinars” får ett gratis premium-konto som ger en flera avancerade sök- och notifieringsfunktioner. Man kan bland annat prenumerera på händelser från specifika företag och få mejl när någon lämnar eller börjar jobba på företaget. Det verkar fiffigt. Jag har precis ansökt om att gå med, men tydligen är söktrycket så hårt att det kan ta upp till två veckor innan ansökan godkänns.

Jag hann skriva ner fyra av fem råd gällande crowdsourcing innan de bytte slide. En sista lista får avsluta det här blogginlägget:

    • Var konkret om vad du vill ha.
    • Se till att ditt insamlingsformulär är lätt att hitta.
    • Förklara hur du kommer att använda läsarnas bidrag (anonymitet kan vara viktigt).
    • Ge incitament, som tuggumin…

/Robin Linderborg

Hur mycket är en karta värd?

Jag var på en mycket intressant föreläsning idag med representanter från ArcGIS ett onlinebaserat verktyg för att bygga interaktiva kartor redo för publicering. Verktyget har många likheter med Google Fusion Tables, men jag skulle vilja påstå att ArcGIS är lite som Fusion Tables på steroider. Mer om det strax.

Det var en grej jag fastnade för på föreläsningen när en av männen från ArcGIS berättade att man gjort studier på hur en interaktiv karta påverkar läsarens beteende. Enligt dem var snittiden en läsare tillbringade på en vanlig artikel två minuter, medan i de fall där det fanns en interaktiv karta så hade det ökat till sex och en halv minut.

Såna studier vill jag (och förmodligen väldigt många med mig) se på svenska läsare. Det är precis den frågan: hur påverkar våra kartor/diagram/webappar läsarna egentligen?

Det är en fråga som vi diskuterat vid flera tillfällen under projektets gång och något som är av största vikt när vi börjar fundera på vad vi ska lägga vår energi och satsa på i framtiden.

Jag hade en väldigt intressant diskussion med en interaktionsdesigner i vår utvecklingsgrupp på Mittmedia. Han menade att vi som journalister borde sikta efter att göra det så enkelt som möjligt för våra läsare och verkligen fundera på om interaktivitet verkligen är något att eftersträva. Enligt honom kan det vara lika bra att använda statisk grafik eller bilder för att förklara saker eftersom för många val kan göra det krångligt och rörigt för läsaren samt att man på så sätt snabbare får läsaren att förstå än om hen ska klicka sig fram ett par steg först.

Jag håller inte riktigt med honom dock. Jag tycker att det kan finnas flera fördelar med att ha grafik som är interaktiv. Jag tror att man kan få läsarna att första grejen lika snabbt med interaktiva visualiseringar, det handlar helt enkelt om att göra det bra. Interaktivitet ger dessutom möjlighet till en djupare förståelse.

Hoppas att någon hänger med i vad jag menar även om det blir lite flummigt.

I alla fall, tillbaka till ArcGIS. Jag blev riktigt imponerad det verktyget faktiskt. Valmöjligheter för utseende med mera kändes betydligt bättre än på Fusion Tables och väldigt enkelt att förstå. Det finns även översatt till svenska ser det ut som men jag har inte testat det ännu.

Det som återstår att utvärdera är vilka begränsningar man kan stöta på. Det finns en radbegränsning i den fria versionen så det kan påverka en del och sen vet man aldrig om man stöter på något mer. Vi som var på sessionen fick dock lämna in våra mailadresser för att få ta del av deras desktopversion av programmet gratis (kostar i vanliga fall) så jag ser verkligen fram emot att få testa det när jag kommer hem.

Mikael Tjernström, Mittmedia

1 2 3 4 11