Blogg / Datajournalistik

Ett forsknings- och utvecklingsprojekt i samverkan

”Go go go! Ni har 90 sekunder kvar, ge mig fakta!”

Att delta i workshoppen In the hotseat with breaking news med Jaimi Dowdell och Megan Luther från IRE, gav en känsla av hur det kan låta på en amerikansk nyhetsredaktion mitt under brinnande nyhetsläge.

Vi hade fått tips om en explosion på en fabrik. 40 minuter senare hade vi med effektiv research uppgifter om tidigare incidenter och om vilka kemikalier som fanns på platsen. Vi hade också en lång lista med källor att kontakta, med allt från nödvändiga myndighetspersoner,
nuvarande och tidigare anställda, till målsägande i tvister med företaget.

Att lägga tiden på research när det smäller till kan vara det som får din redaktion att göra de bästa uppföljningarna och hittar det som de andra inte har, var beskedet från Jaimi Dowdell och Megan Luther.

Are you freaked out yet? är en fråga som flera föreläsare ställt när de presenterat vad vi kan hitta i floden av tweets, uppladdade bilder och inlägg på sociala forum.

Många gånger kan det vara det vi inte hittar som är mest intressant, något ProPublicas granskning How to get censored on Weibo visade. Hundra miljoner inlägg postas på Kinas twitter varje dag, de hittade och byggde en historia på det som raderades.

Med opengraph har Facebook gjort sina användare till en öppen katalog och endast fantasin (och sekretessinställningar) sätter gränserna.

Sökningar på Linked in ger en möjlighet att navigera bland anställda, och tidigare anställda, på de företag du är intresserad av att granska. Och de geokoder som vi delar med oss av i bilder och inlägg på nätet ger redaktioner stora möjligheter att hitta ögonvittnen från
platser där det bränner till.

Men paranoian är din bästa vän, har jag fått lära mig under konferensdagarna. Det är viktigt att kritiskt ifrågasätta uppseendeväckande resultat när du hanterar data. Det är viktigt att
tänka på vad du själv delar med dig av. Och det är viktigt att hantera de källor du hittar på sociala medier med samma skepsis som tipset från den som ringer in till redaktionen.

Samantha Sunne från NPR delade på sin föreläsning How to feel like you’re hacking without really doing it med sig av två verktyg som hjälper dig att undvika de värsta fällorna för bilder.

På sajten fotoforensics.com kan du genom att enkelt klistra in bildens url kontrollera om den blivit redigerad.

Jeffreys EXIF Viewer ger dig lika enkelt tillgång till bildens metadata, med information om allt från plats och tidpunkt till vilken kamera som använts.

Här kan du läsa mer om hur du kan utnyttja webbutvecklarnas verktyg för att undersöka bilders ursprung.

/Hedvig Eriksson, SVT Pejl

Kan algoritmer vara rasistiska?

Ett av dagens första seminarier – Holding algorithms accountable – väckte en del udda frågeställningar. Som namnet antyder handlade sessionen om vem som har ansvaret för maskiners beteende. Det intuitiva svaret är givetvis: programmeraren, eller programmet/algoritmens skapare. Men hur översätts det svaret till en situation där algoritmer skapar andra algoritmer? När mjukvaran blir så komplex att skaparen av programmet aldrig kunnat förutse vad utfallet skulle bli?

I Chicago har polisen tydligen en lista över potentiella brottslingar. Listan genereras av en algoritm som tar ett antal variabler om enskilda individer som input. Polisen bedyrar att ras inte är en av variablerna. Problemet är att algoritmen är skriven på ett sätt som gör att ras ändå blir en faktor i beräkningen. Den obesvarade frågan är: Om vi går med på att det finns ett rasistiskt element i processen, utan att det var skaparens avsikt, vem ska då hållas ansvarig?

Tung start på dagen. Efter algoritm-seminariet begav jag mig till Grand Ballroom East och lyssnade på panelen Brian Boyer, John Perry, Ben Welsh och Kevin Schaul. Temat var Proper workflows for data projects. För att citera Ben Welsh: ”Om det är någonting du ska ta med dig från den här diskussionen så är det att använda versionshantering”. Paneldeltagarna var rörande överens om nyttan med tjänster som Github, både för att versionshantera kod och för att samarbeta med icke-programmerare. Det var en ganska teknisk session som kanske kan sammanfattas med följande lista:

  • Automatisera alla processer som kan automatiseras.
  • Skriv informativa felmeddelanden.
  • Logga allting.
  • All kod behöver inte testas, men om du påstår något som ingen annan har påstått förut, så är det klokt att testa koden som gör beräkningen.

Den mest konkreta delen av dagen var nog seminariet om sociala medier. Robert Hernandez från USC Annenberg och Mandy Jenkins från Inside Thunderdome gick igenom en rad olika tjänster som kan hjälpa journalister i det dagliga nyhetsarbetet. Ett exempel är Linkedins grupp för journalister. Den som går med i gruppen och deltar på ett av deras ”webinars” får ett gratis premium-konto som ger en flera avancerade sök- och notifieringsfunktioner. Man kan bland annat prenumerera på händelser från specifika företag och få mejl när någon lämnar eller börjar jobba på företaget. Det verkar fiffigt. Jag har precis ansökt om att gå med, men tydligen är söktrycket så hårt att det kan ta upp till två veckor innan ansökan godkänns.

Jag hann skriva ner fyra av fem råd gällande crowdsourcing innan de bytte slide. En sista lista får avsluta det här blogginlägget:

    • Var konkret om vad du vill ha.
    • Se till att ditt insamlingsformulär är lätt att hitta.
    • Förklara hur du kommer att använda läsarnas bidrag (anonymitet kan vara viktigt).
    • Ge incitament, som tuggumin…

/Robin Linderborg

Kartor, symboler på döda kroppar och ArcGIS Online – om mapping på NICAR 2014

Det här årets första session på NICAR blev en heldags-bootcamp med ArcMap. Det är ett kraftfullt verktyg för att visa, skapa, ändra och analysera geodata. Och för att göra coola, snygga kartor så klart. Det verkar finnas hur många coola funktioner som helst I det här verktyget. Man kan lägga på lager på lager av information på kartor genom att merga shapefiler med databaser. Själva kursen gick dock väldigt långsamt framåt eftersom många hade svårt att hänga med i även de mest grundläggande funktionerna.

Ett kraftfullt verktyg som sagt, men det är ett ständigt skapande av nya lager och exporterande av desamma för att komma någon vart. När vi till exempel ska räkna antalet utmärkta punkter på en av kartorna vi gör, uppdelat på counties – så måste vi göra ett helt nytt lager för detta. Jag tänker mig att det inte skulle behöva vara fullt så krångligt som det är. Men vad vet jag.

För de som kan programmera kan det vara kul att veta att man också kan skriva egna funktioner i Python. För de som gillar roliga symboler, som jag, kan jag meddela att det finns sjukt många olika symboler att märka ut punkter på kartan med. Varför inte små, döda kroppar, om man tex vill visa de mord som har begåtts i ett geografisk område?
Apropå det så är det både orättvist och lite skönt att vi i Sverige inte får tillgång till samma sorts data som amerikanerna. I en fil över just mord som vi kikade på fanns obehagligt mycket information om mord begångna i Dallas. Allt från gatuadress, till namn på offret, till detaljer om mordet. Tex en man som mördat sin fru och sin dotter, sedan tänt eld på lägenheten och tagit självmord. Det mordet och ett gäng andra placerade vi ut på en karta över Dallas. Vi hade inte koordinater för platserna, utan adresser. Med hjälp av dem och en smart funktion I ArcMap skapade vi en masterfil över alla gator I Dallas. Vi kombinerade en shapefil över gatorna med filen över morden (där det fanns adresser) och geokodade dem med hjälp av en Adress-creator som finns I programmet. Ganska coolt faktiskt.

På slutet av sessionen visade några som jobbar från ESRI – företaget bakom ArcMap – onlineversionen. Det är där alla de visuellt coola grejerna skapas och man gör sina vackra presentationer av data. Störst behållning från dagen var att vi fick en inblick I grunderna, men framförallt en gratis licens av desktop-versionen.

/Linnea Heppling, SVT Pejl

Höjdpunkter på konferensen

Något av det roligaste och mest intressanta på konferenser av detta slag är att titta på vad andra gjort och inspireras av dem när man skall göra egna saker. Därför kan jag verkligen rekommendera att gå alla Best practice från de olika nordiska länderna.

Jag har hyfsad koll på vad som görs på datajournalistik-fronten i Finland där både finska public service bolaget YLE och ledande dagstidningen Helsingin Sanomat gör riktigt bra och intressanta saker. Men i övrigt har jag dålig koll på våra grannländer och är därför nyfiken på vad de har lyckas producera.

På lördag är jag nyfiken på att se vad Hampus Brynolf och Tobias Brandel kommer att visa vad det gäller dataanalyser av sociala medier. Och är ni intresserade av en enkel hands-on övning där ni snabbt kan komma igång med att producera material för egna sajter rekommenderas Timeline.js med Lukas Hansson från Aftonbladet.

I övrigt så kommer SVT Pejls egen Helena Bengtsson att hålla i en lång rad hands-on övningar som är mycket nyttiga för de som vill lära sig något nytt kring avancerad excel eller SQL.

Vi ses på konferensen… Det kommer att bli grymt.

Välkommen att delta i FajkHack 2013 – ett hackathon i datajournalistik

FajkHack är ett 24-timmars hackathon i datajournalistik som föreningen Fajk anordnar tillsammans med detta projekt. Nu upprepar vi förra årets framgångsrika arrangemang och årets tema är miljödata.

Missa inte att anmäla er till årets hackathon som kommer att ske den 4-5 maj 2013 på Södertörns högskola. Naturvårdsverket kommer att vara på plats för att presentera miljödatan de har på sin sajt och sin satsning nya på öppna data.

Här finns mer information om FajkHack 2013.
Här finns en Facebook-sida för arrangemanget.

OBS: deltagare i projektet Datajournalistik som inte bor i Stockholm får resan betald av projektet. Kontakta Ester Appelgren på Södertörn för mer info, ester.appelgren(at)sh.se

FajkHack 2012
Helgen den 5 – 6 maj 2012 anordnade projektet Datajournalistik tillsammans med föreningen Fajk Sveriges första journalistiska hackaton. Omkring 30 journalister, utvecklare och grafiker fick 24 timmar på sig att producera databasjournalistik, utifrån Stockholms stads öppna data.

Alla blogginlägg från FajkHack 2012 hittar du här.

NICAR som ett startskott

Det är sista dagen på NICAR och det är nu det börjar. Jag har försökt gå på så många hands on-sessioner som möjligt, och skallen är full av intryck, information och idéer. Men man kommer tyvärr inte så långt på entimmessessionerna, särskilt när kunskaperna bland journalisterna i lokalen varierar kraftigt, några har med sig egna datorer med olika konfigureringar och andra fastnar och ställer frågor (vilket man förstås ska göra, jag har gjort det med) som gör att genomgången stannar av.

Gänget från Tableau – de var verkligen ett gäng, sex personer i lokalen – hade löst det bäst. Istället för att föreläsaren skulle ta sig tid med att förklara och hjälpa kom snabbt någon av de andra och hjälpte till med problemet. ”Let’s get you up to speed,” hette det sedan, och man fick en snabb viskande dragning av vad föreläsaren gått igenom medan ens egna problem på datorn varit i fokus.
Tableaukursen är också det som givit mest, men så var det också en heldag. Eftersom det var första dagen har jag redan börjat tappa en del grejer, så det gäller verkligen att hålla i det vi lärt oss nu. Att ta sig tid att jobba vidare hemma.

Det gäller inte minst Python. Jag gick på två sammanhängande sessioner som skulle täcka det mest basala, men vi hann bara skrapa väldigt löst på ytan. Det väckte ändå en del mersmak, och jag tror man får se hela NICAR som ett stort smörgåsbord där man plockar lite av varje för att se om man tycker om det. Ska man verkligen lära sig något kan man sedan gå vidare på egen hand med hjälp av till exempel Code Academy eller andra online-resurser.

En bra sak är att sätta upp sig på mejlinglistan NICAR-L. Där kan man ställa frågor och få hjälp av mer erfarna datajournalister. Ska man ge sig in på Python finns också PythonJournos, ”a community of friendly, helpful nerds,” som Tom Meagher uttryckte det.

Annat att jobba vidare med hemma är att kolla upp alla de spännande tjänster och verktyg som nämnts i förbifarten av olika föreläsare. En bra utgångspunkt för den som vill göra detsamma är listorna som sammanställts med tipsheets och resurser här.

Det är intressant att se att det finns en jobbmarknad för datajournalister i USA. Eller vad sägs om de här jobbannonserna? Sarah Cohen sa också att när det skärs ner så skärs det minst på CAR-avdelningarna.

jobbannonser

En värdefull sak jag tar med mig hem är kontakten med de andra deltagarna i det här projektet. Att ha andra svenskar med en gemensam förståelse om vad CAR handlar om är suveränt. Tack för trevliga dagar, och kvällar på stan förstås!

Nu väntar hälsokur efter den fantastiska amerikanska maten…

pannkaka

Lotta Holmström, datajournalist på SVT Pejl (@araneida)

NICAR 2013 – 600 deltagare från 15 olika länder

Årets NICAR-konferens är den största någonsin, med nästan 600 deltagare. Den svenska truppen på över 30 personer märks, men i år finns deltagare med från 15 olika länder. Norrmän, danskar, engelsmän och till och med en deltagare ändå från Australien. En annan glädjande nyhet är att fler och fler faktiskt får åka på tidningen eller organisationens bekostnad. För några år sedan, då NICAR höll sin konferens i Cleveland var deltagandet under 300 personer och många vittnade om att de fick betala själva för att ta sig till konferensen.

Det som genomsyrar NICAR är att det är metoderna som är i centrum:  Vad finns det för olika metoder, hur kan jag lära mig dem och hur kan jag lära andra dem? För att ytterligare bygga på detta har NICAR också inrättat ett mentor-system, där en deltagare som inte varit på NICAR tidigare paras ihop med en som kommer hit för första gången.

Jag blev tilldelad Emily DeMarco, en ung och ganska ny journalist som jobbar på organisationen PublicSource i Pittsburg. PublicSource är ännu en i raden av undersökande journalistiska  organisationer som kommit fram i USA på sistone.

Vi ägnade en timme åt att prata om hur NICAR som organisation är unik på sä sätt att det är väldigt lätt att få hjälp med konkreta problem – i allt från hur man begär ut databaser till hur man hanterar dem och hur man tar hand om arga myndighetspersoner efter att man publicerat. Emily berättade att staden Pittsburg är ganska njugga när det kommer till att lämna ut data – och jag tror att jag kunde inspirera henne till att inte ge sig bara för att myndigheterna säger nej. I Sverige hamnar vi ofta i situationer där vi kanske får en databas utskriven på papper – och jag delade med mig av ett par trick för att kunna överföra dessa dokument tillbaka till en databas.

Skrivet av Helena Bengtsson (@HelenaBengtsson), databasredaktör för SVT Pejl

Ställ frågor till din databas genom att använda statistikprogrammet R

En av torsdagens första sessioner handlade om att vända på begreppen när det gäller databaser. Istället för att ha ett projekt där man tydligt vet varför man vill ha en databas, vilka svar man vill få ut av den – så kan man istället angripa databasen med en mer öppen och utvärderande modell. Chase Davis, som har arbetat på CaliforniaWatch – och som strax ska börja sin anställning på New York Times pratade om skillnaden mellan att förhöra – och intervjua databasen – något man gör när man har en klar bild av vad informationen i databasen kan ge, och att konversera med databasen – för att kanske hitta andra vinklar och idéer.

Enligt Chase Davis gör man detta i fyra steg, de två första något som man alltid bör göra oavsett syftet med databasen: Steg ett och två innefattar kontroll av data på olika sätt – man undersöker om det finns dubletter, var max och min värdena är, om det finns variationer av samma variabelvärde mm. Men det är steg tre och fyra som, är mer prövande och utforskande, som exempelvis att titta på hur alla variabler korrelerar med varandra – hur förhåller de sig till varandra, kan man hitta samband?

Ett verktyg för detta är R, ett statistiskt program som man måste kunna lite programmering för att använda. Men, när man väl har satt sig in i hur det fungerar är det otroligt kraftfullt. Med ett enda kommando, summary, kan man utvärdera samtliga variabler på en gång – få en tabell över medel, median, max och min värden för alla variabler. Genom denna överblick är det lättare att hitta en vinkel eller story som man kanske inte tänkt sig.

Ett annat sätt är att använda visualiseringar som analysmetod – exempelvis boxplot, som ger dig en bild över hur variablernas värden varierar, dvs är alla värden samlade eller är de utspridda, var ligger extremvärdena mm.

Scatterplotts gjorda i R

Scatterplotts gjorda i R.

Man kan också använda en matris av scatterplot som ger en bild över hur alla variabler interagerar med varandra – och på det sättet hitta samband mellan oväntade variabler. Se exempel på detta här:

Inlägget skrivet av Helena Bengtsson (@HelenaBengtsson), databasredaktör på SVT Pejl

Datajournalistik-konferensen CAR 2012 i backspegeln

Imorgon börjar konferensen CAR 2013 i Louisville, Kentucky, USA. Konferensen pågår fram till söndag den 3 mars och är årets höjdpunkt för alla datajournalister världen över (även om fokus fortfarande ligger mycket på USA). CAR står för Computer Assisted Reporting och är termen i USA för det som vi kallar datajournalistik (eller databasjournalistik). För konferensen används även begreppet NICAR som står för National Institute for Computer Assisted Reporting) vilket kan vara lite förvillande.

CAR 2013

Som en del av forskningsprojektet i Datajournalistik kommer alla deltagande parter att besöka årets konferens och de flesta av oss har redan kommit fram till Louisville och börjat ladda inför de kommande fullspäckade dagarna. På denna blogg kommer ni under den närmsta veckan få rapporter dagligen kring konferensen och det som tas upp där. Vill ni följa konferensen på twitter är taggen #nicar13.

Inför konferensen kollade jag lite på de reflektioner som jag hade efter förra årets konferens som var i St Louis, Missouri. Här är de tre saker som jag tyckte var mest intressanta då.

Text som data
Förra året var ett fokusområde ostrukturerad data, dvs texter och dokument som inte från början finns uppdelade i fina och rena datakolumner som i ex Excel eller en SQL-databas. Majoriteten av all data som finns idag finns just som ostrukturerad data och möjligheten att kunna hitta trender, nyheter och scoop i dessa stora mängder data är väldigt intressant.

DocumentCloud

Det kanske allra bästa verktyget som tagits fram för detta ändamål är DocumentCloud som uppstått efter ett samarbete mellan de ledande medieorganisationer som sysslar med datajournalistik i USA och som nu drivs av IRE (Investigative Reporters and Editors, USA:s motsvarighet till Grävande journalister). DocumentCloud är ett gemensamt verktyg för uppladdning, analys och publicering av dokument på webben där man kan strukturera stora textmängder och hitta mönster och samband mellan dem. Ännu finns dock ingen svensk version av DocumentCloud men det är något vi hoppas på i framtiden.

Open Source-alternativ för kartvisualiseringar
Google har under många år varit förstavalet för alla som velat göra kartvisualiseringar och webbtjänster som bygger på geografisk data. Ex har deras verktyg Fusion Table varit ett verktyg som varit mest använt av datajournalister (ex Guardians Data Store m fl).

Open Street Map

Open Street Map är förmodligen är den allra mest intressanta utmanaren. De kan jämföras med ett Wikipedia för geografisk data där man använder fritt tillgänglig kartadata som kombineras med en ”crowdsource” av besökare som på olika sätt kan lägga in geodata i tjänsten. Kombinerat med Javascript-biblioteket Leaflet där man kan skräddarsy utseendet och funktionalitet av kartorna samt hosting-tjänsten Mapbox skapar de ett mycket intressant och kraftfullt open source-alternativ till Google Maps. Bland annat har vi på SVT Pejl använt av oss av detta i våra tjänster Skolpejl och Miljöpejl.

Webbtjänster med med längre livslängd
En tredje trend som diskuterades på förra årets konferens var att många mediesajter satsade mer på journalistiska webbtjänster (i USA kallade ”News applications”) som hade längre livslängd. Ett problem med mycket av de bästa sakerna som gjorts inom datajournalistiken är att de snabbt försvinner från nyhetslöpet på de stora mediesajterna som mycket styr inflödet till innehållet. Så även om man gjort ett stort och bra jobb med att analysera och ta fram unikt datajournalistiskt material och visualiseringar så får de lite exponering eftersom våra nyhetssajter måste vara först med det senaste. Detta gör att det kan vara svårt att få tillbaka pengarna som satsats på den mer avancerade datajournalistiken.

Banktracker

Nu har vissa mediesajter därför börjat tänka om och börjat producera mer långsiktiga webbtjänster som uppdateras löpande eller med ett visst intervall. Exempel som nämdes från USA är Pro Publicas Dollar for Docs och SOPA Opera samt Banktracker från Investigative Reporting Workshop. I Sverige ser vi ju även exempel på detta med exempelvis SvD:s Räntekartan och vår egen Valpejl som gjordes av inför riksdagsvalet 2010

Nu återstår att vilka de nya trender och diskussioner som kommer att prägla NICAR 2013. Är det något speciellt ni vill att vi tittar närmare på kan ni kontakta svara i kommentarsfältet nedan. Konferensschema hittar ni här. Och glöm inte att följa denna blogg om ni är intresserade av vad som som är intressant ur svenskt perspektiv inom datajournalistik.