Blogg / Datajournalistik

Ett forsknings- och utvecklingsprojekt i samverkan

Onödiga appar för sociala medier-research

Någon självklar definition av datajournalistik finns inte. Sociala medier, som jag själv arbetat med journalistiskt i flera år, kan med fördel också räknas hit.

Fler seminarier på Nicar än jag förväntat mig handlade om gammal hederlig research i sociala medier. Mandy Jenkins  och Robert Hernandez höll en på speed och drog i expressfart igenom en mängd coola appar och flashiga tjänster som TwXplorer, Topsy, Banjo och Geofeedia för att hitta tweets, bilder och andra inlägg från personer som befinner sig där något dramatiskt hänt.

Personligen tycker jag att sådana tjänster sällan funkar särskilt bra. Min egen erfarenhet är att det bästa oftast är att använda Twitters, Facebooks och Linkedins egna sökfunktioner, i stället för diverse appar som använder deras API:er.

Det var skönt att även höra föreläsaren Samantha Sunne säga det på sin dragning några dagar senare. Hon dissade till exempel Banjo, som jag verkligen inte fått ut något journalistiskt vettigt av trots flera rekommendationer.

Men Samantha Sunne påminde också att det på Twitter inte är särskilt effektivt att använda advanced search-fältet, utan bättre att i stället använda operators direkt i det vanliga sökfältet, typ: #nicar14 lang:sv near:baltimore since:2014-02-26 until:2014-03-02.

Rent teoretiskt bör du då få upp tweets skrivna på svenska från Nicarkonferensen, dock bara de som aktivt geotaggat sig där, något de flesta tyvärr inte gör. Vilket bevisar att sociala medier-research inte är någon exakt vetenskap (testa att bara skriva #nicar14 lang:sv så får du nog upp några resultat i alla fall).

Att döma av en del utrop i salongen när Mandy Jenkins och Robert Hernandez visade Facebooks nya sökmotor Graph Search är den en väl förborgad hemlighet även bland amerikanska journalister, trots att den är default för alla amerikanska Facebookanvändare.

Det har nämligen varit mitt allra bästa enskilda researchtips i sociala medier det senaste halvåret: Ändra språk i din Facebook under inställningar till US English, och du kommer att kunna göra sökningar av typen ”People from Sweden who live in Kyiv, Ukraine” för att hitta ögonvittnen till dramatiska händelser eller ”Men who are married to men and live in Dalarna” för att hitta case.

Linkedin, underskattad för att göra personresearch bland journalister, togs också upp en del. Här fick jag också lära mig något nytt: Om man går med i gruppen Linkedin for Journalists och medverkar på en halvtimmes webbseminarium får man gratis premiummedlemskap i Linkedin, med utökade sökmöjligheter. Ska genast undersökas!

Tobias Brandel/SvD

Den överskattade inspirationen

En vanlig missuppfattning om datajournalistik är att det rör sig om en genre. Det är en metod. Möjlig att tillämpa på alla journalistiska genrer, från kulturjournalistik (vad sägs om en nätverksanalys av svenska teaterregissörers favoritskådisar) till klassisk kvittogranskningsjournalistik.

Själv har jag med tiden kommit att inse jag är mer intresserad av journalistiska metoder och tillvägagångssätt snarare än de resultat de utmynnar i. En kanske inte helt lyckad egenskap som reporter alla gånger, kanske någon vill invända.

Må så vara. Men om jag en gång till måste genomlida ännu en ”inspirationsdragning” om någon fantastisk artikelserie eller tjänst som The Guardian gjort (ja, i alla fall i Sverige kommer nästan alla inspirationsexempel från The Guardian), utan att få veta HUR de gjort, så stormar jag ur rummet i vredesmod.

Jag upprepar, datajournalistik är en metod. Därför är det fullständigt bortkastad tid att enbart få se det färdiga resultatet om man vill lära sig hur man gör. Tyvärr tror alltför många mediechefer att det räcker med att bjuda in någon cool typ som under en timme visar upp någon läcker journalistisk innovation, och att de egna anställda sedan på något magiskt sätt ska kunna göra samma sak.

Därför är jag mycket positivt överraskad över hur oerhört praktiskt inriktad datajournalistikkonferensen Nicar i Baltimore är, och hur få av dessa rena inspirationsdragningar som hålls här.

Större delen av lördagen tillbringade jag på en rad minikurser i programspråket SQL, där tålmodiga journalistkollegor pedagogiskt och steg för steg lärde oss andra hur vi ställer relevanta frågor till våra databaser.

Datajournalistik är en metod, eller snarare en hel uppsjö av olika metoder som har som minsta gemensamma nämnare att de involverar någon form av databehandling.

I framtiden kommer de flesta journalister (inte bara vi nördar på Nicar) behöva bemästra sådana verktyg – vid sidan av de många andra vi redan har i vår verktygslåda såsom intervjuteknik, formuleringskonst och kunskaper i offentlighetsprincipen.

Tobias Brandel/SvD

 

När inget annat funkar: skrapa nätet

Scraping

Internet är en förutsättning för datajournalistiken såsom vi känner den i dag. Enorma mängder data finns därute på nätet, det gäller bara att hitta den. Samt att ladda ner den. Vilket ibland är lättare sagt än gjort.

Web scraping är en finurlig liten datajournalistisk subgenre. Scraping betyder helt enkelt att hämta ner, eller skrapa, information från webbsidor och hälla in i en egen databas.

Janet Roberts från Reuters listar på ett Nicar-seminarium några tillfällen då tekniken kan komma till pass:

1 När ingen har den data du behöver.

2 När myndigheterna inte ger dig den data du vill ha.

3 När du inte vill att myndigheter eller företag ska veta att du vill använda deras data.

Det finns mängder av olika tekniker och trix för scraping. Man ska inte göra saker mer komplicerade än de behöver vara. En egen favorit när jag hittat en fin liten tabell på nätet som jag bara måste ha är Chrome Scraper, ett tillägg för webbläsaren Chrome, som plockar hem tabeller riktigt snyggt.

Men nu är ju inte all information på nätet prydligt ordnad i tabeller. Och hur gör man om materialet inte ligger på en sida, utan på flera tusen? Danska duon Nils Mulvad och Tommy Kaas har byggt en hel karriär på att medelst programmering, företrädesvis i Python, skrapa nätet. Exempelvis har de laddat ner hela den danska motsvarigheten till Platsbanken och gjort journalistik av.

Men som sagt, man ska inte göra det för svårt för sig. Titta noga på hemsidan, råder Janet Roberts på Reuters. Ofta finns en liten knapp där det står något i stil med ”Ladda ner data”. Eller slå en signal och fråga om du kan få en fil mejlad.

– Försök alltid att minimera lidandet, som Janet Roberts uttrycker det.

Det förefaller mig också som behovet av scraping är större i USA. I Sverige erbjuder de flesta myndigheter möjligheten att ladda ner data som lätthanterliga Excel- eller csv-filer. Att det kan vara besvärligt att få ut handlingar som inte ligger på webben alls från myndigheterna är förstås en helt annan fråga.

Tobias Brandel/SvD

Hatade matematik, älskade statistik

SPSS

I datajournalistikbranschen lär man sig snabbt att slänga sig med vissa identitetsskapande floskler. Som att muttra ”Jag är så trött på alla journalister som säger att de inte kan matte” och himla lite med ögonen.

Och visst är det fascinerande hur ofta det på redaktionerna närmast koketteras med dåliga matematikkunskaper. Vi är ju samhällsvetare gudbevars.

Men tillämpad matematik finns faktiskt också inom samhällsvetenskapen. Då kallar vi den statistik. Och sådan älskar journalister.

Kanske skulle ett större mått av ödmjukhet i journalistkåren vara på sin plats här. För att tala klarspråk: Är man dålig på matematik ska man inte rapportera om statistik.

Lika vanliga som pinsamma fel i nyhetsrapporteringen är statistik gjord på populationer där urvalet är okontrollerat (i allmänhet webbformulär på den egna sajten) och tal om ökningar och minskningar av partisympatier från en månad till en annan när förändringarna ligger inom felmarginalen.

På en yvig konferens av den typ som Nicar är – väldigt mycket ryms inom begreppet datajournalistik – gäller det att försöka hitta någon sorts linje i kryssandet mellan olika seminarier.

Själv har jag främst två mål med min USA-vecka. Den ena är att lära mig programspråket SQL för databashantering. Mer om det här på bloggen senare förhoppningsvis, om jag får plats på de träningssessioner jag hoppas gå på.

Det andra är att lära mig mer om statistik. På Nicar har jag under en förmiddag provat på statistikprogrammet SPSS, standard i universitetsvärlden. Förmodligen var det enda gången i mitt liv eftersom licensavgifterna på SPSS är fullkomligt hiskeliga. Men jag har också lärt mig att mycket går att göra i Excel, eller i gratisprogrammen PSPP och R.

En annan fras att svänga sig med om man vill verka hemmastad inom datajournalistiken är ”Använd för guds skull inte begrepp som p-värde eller linjär regression i en nyhetstext”. Då slutar nämligen en garanterat statistiskt signifikant andel av läsarna att läsa. Däremot måste vi som journalister själva förstå vad vi har gjort med våra siffror.

Bästa rådet för statistikbaserad journalistik kommer från Steven Rich, databasredaktör på The New York Times: Fråga alltid någon som är smartare än du. Och det är faktiskt en väldigt bra sammanfattning av essensen i hela den journalistiska yrkesutövningen.

Tobias Brandel/SvD

 

 

Att granska datorerna

Algoritmsvd

Vad händer med den granskande journalistiken i en värld där allt mer beslutsfattande sköts av datorer? Finns det en ogranskad maktfaktor i samhället i dag är det algoritmerna, dessa små instruktioner som får datorerna att bete sig som de gör.

Har du någonsin sett Janne Josefsson ställa ett dataprogram mot väggen? Själv funderat på att avsluta ett grävprojekt med en ansvarsutkrävande intervju med en algoritm?

Företag använder dem för att kartlägga sina kunders beteenden, myndigheter för att betala ut ersättningar, polisen för att förutsäga brott, och så vidare. Även politiska partier, intressant nog detta valår, använder dem, vilket jag skrev om i somras.

– Journalisternas roll är inte bara att titta på institutionerna som använder olika algoritmer i sin verksamhet, utan också att granska algoritmerna i sig, sade Chase Davis från The New York Times på Nicar 2014, den internationella konferensen för datajournalistik som just nu pågår i Baltimore.

Vem ska ställas till svars när algoritmerna gör fel, om en oskyldig pekas ut som brottsling, om någon får fel medicin på Apoteket, om Stockholmsbörsens datorer börjar ge felaktig information om aktiekurser?

Datorer har ingen ansvarskänsla. Men koders skapas av människor. Således finns minst en person bakom varje algoritm. Om en självkörande Google-bil krockar och krocken beror på programmeringen, är det kanske inte helt orimligt att den som skrev algoritmen hålls ansvarig.

Men när vi ska hitta den ansvariga människan bakom finns en journalistisk fälla. Ett mantra som upprepas gång på gång under snart sagt alla statistikföreläsningar på Nicar är att inte blanda ihop korrelation med kausalitet. Det vill säga att inte dra en massa slutsatser om orsaker bara för att vi hittat ett samband.

Att antalet storkar är högre i områden där det föds många bebisar, betyder det att fler storkar leder till fler bebisar? Nej, det förklaras nog snarare av att där det bor många människor finns det också många platser för storkarna att slå bo. Till exempel.

Motsvarigheten för den som granskar algoritmer skulle kunna lyda ”korrelation är inte detsamma som intention”, enligt Jeremy Singer-Vine på Walls Street Journal.

– Att en algoritm får en viss verkan behöver inte betyda att skaparen av den hade det för avsikt. Vi måste vara försiktiga med att dra sådana slutsatser, säger han.

Så hur ska vi journalister då granska algoritmerna och deras skapare?

Ett första steg är att lära sig att förstå lite mer kring hur internet fungerar, eftersom så många algoritmer i dag är internetbaserade. Till exempel lära sig lite om cookies.

Och, återigen, journalister behöver lära sig att förstå kod. Inte bli experter, men ha en grundläggande kodningskunskap.

– Bara att ifrågasätta algoritmerna skulle göra att finanssektorn fungerade bättre, säger Frank Pasquale vid University of Maryland Law School.

Sedan får vi förstås inte glömma att även vi journalister själva använder oss av algoritmer i vårt eget arbete.

Personligen väntar jag otåligt på ökad personalisering av nyhetssajterna. I dag ser till exempel SvD.se:s startsida likadan ut oavsett vem som går in på den.

Är jag en nyhetsknarkare som varit inne bara en timme tidigare blir jag så klart irriterad av att fortfarande se samma nyheter i topp. Men är jag en läsare som bara går in en gång om dagen vill jag förmodligen se den dagens allra viktigaste nyhet som SvD:s reportrar grävt fram överst, snarare än senaste TT-nytt. Och är jag kulturintresserad vore det förstås att föredra att kulturnyheter hamnade högre upp för mig i stället för ekonominyheter.

Det vill säga, svenska nyhetsmedier bör – och kommer – snart att använda samma tekniker som Google och Facebook använt i flera år för att skräddarsy ett unikt flöde för varje enskild besökare.

Men även här måste vi förstås ha ett kritiskt förhållningssätt. Är det etiskt försvarbart att vi registrerar vilken typ av artiklar en viss läsare brukar klicka på? Ja, skulle jag säga. Är det försvarbart att vi även tittar på vilka sajter besökaren var på innan och efter hen gick in till oss? Kanske mer tveksamt.

En alltför skarp individualisering kan rentav ses som en demokratifara, om folk bara får sina egna uppfattningar bekräftade och ingen plats för debatt finns. Bubbeldebatten har pågått några år, här är en kanske onödigt dystopisk artikel jag skrev 2011.

Men vi bör kunna bli betydligt bättre än i dag på att hjälpa och guida våra läsare till sådant som är intressant och viktigt för just dem utan att det går riktigt så långt. Och då är algoritmerna våra bästa vänner.

Tobias Brandel/SvD

Vem betalar för gratisverktygen?

Infogram

Seminariet med rubriken ”Gratisverktyg för dataanalys” är fyllt till bristningsgränsen på datajournalistikkonferensen Nicar 2014 i Baltimore. Amerikanska nyhetsredaktioner verkar lika fattiga som svenska.

Alla journalister vet att det är ungefär lika utsiktslöst att be chefen att köpa in det där jättecoola dataprogrammet som att föreslå en femveckors reportageresa till Bahamas.

Vi som sitter längst bak på golvet i föreläsningssalen för att stolarna tagit slut knattrar febrilt ner de olika gratistjänster som visas i Powerpointpresentationen: TabulaMr Data ConverterDocument CloudRStudioPSPPFoiamachine, med flera.

Många av dessa är open source-program (öppna källkods-projekt utan ekonomiska vinsintressen). Man kommer långt på dem som journalist, men de täcker inte alla behov. Och inte sällan är program skapade av kommersiella aktörer strået vassare.

Över listan av gratisprogram från företag som jag själv redan använder i mitt jobb som reporter finns Tableau, InfogramOpen Refine (Googleskapat, men nu icke-kommersiellt), Cometdocs och en rad Googletjänster.

Alla gratis för mig och Svenska Dagbladet att ladda ner och använda. Det enda läsarna märker är att företagets logga ofta syns lite diskret i ena hörnet när det handlar om visualiseringsverktyg för att göra grafiker som bäddas in på sajten. Är det dataanalysredskap som används tidigare under arbetsprocessen har läsarna ingen kännedom om dem alls.

Är det ett problem att vi journalister använder sådana gratisverktyg? Nej, anser jag. Den ekonomiska verkligheten är som den är. Bättre att vi får tillgång till gratis analysverktyg än inga alls. Och så länge företagen bakom inte har något som helst inflytande över den journalistik vi gör med hjälp av deras produkter – vilket de inte har – är det inte så mycket att orda om.

Fördelen för företagen i fråga är förstås att synas i ett stort och seriöst sammanhang. Deras affärsidé är att sälja sin mjukvara till företag för olika typer av affärsanalyser. Att få sin logga på en kvalitetssajt med miljonbesök som svd.se är förstås gyllene marknadsföring.

Visualiseringstjänsten Tableau är ett lysande exempel på ett företag som tidigt insåg detta. De har jobbat aktivt med att få journalister som gratiskunder – Guardian, New York Times och Le Monde tillhör flitiga användare – och är i dag ett mycket framgångsrikt företag trots att deras produkt knappast är den bästa i branschen.

Många av de här tjänsterna är inte heller gratis bara för journalister, utan finns i en gratisversion för vem som helst. Sedan finns en premiumversion som kostar pengar, och den går oftast ut på att man kan skydda sina siffror, medan all data i gratisversionen blir offentlig på webben. HM och Swedbank vill förstås inte att deras konkurrenter ska se deras interna försäljningssiffror, varför betalversionen är nödvändig. Men för oss journalister är det inga problem att vår data blir offentlig – tvärtom är det ju just det vi jobbar för, att få ut fakta till allmänheten.

Ändå är det just här som det kan bli problematiskt.

Använder du en tjänst som är gratis är det du som är varan, är en känd aforism i denna Google och sociala medier-era. De siffror och annan information som jag laddar upp i de här gratisprogrammen sparas förstås av företagen bakom dem och blir deras egendom. Återigen, vi journalister arbetar för att sprida fakta. Men vi ska också vara medvetna om att vi gratis ger dem framtidens verkliga hårdvaluta – data.

Och därför är det väldigt viktigt att tänka efter en extra gång vad den där Excelfilen du laddar upp innehåller. Även om vi har transparens som ledord kan en del saker vara känsliga. Personuppgifter måste rensas ur filerna. Och källskyddat material ska överhuvudtaget aldrig befinna sig någonstans i närheten av internet.

Tobias Brandel/SvD

Att hitta meningsfulla mönster i meningslöst brus

Datawrapper

Visualiseringar – eller grafik som det hette i den gamla papperstidningsvärlden – är en av grundpelarna inom datajournalistiken. Användbart dels för att som journalist effektivare kunna analysera insamlad data och hitta nyhetsvinklarna i den. Dels för att presentera resultaten på ett begripligt och lockande sätt för våra läsare.

Framtiden för det senare, alltså visualiseringar att publicera på nyhetssajter, var fokus i en av de storföreläsningar som öppnade Nicar 2014 i Baltimore, USA, av Alberto Cairo, vid Miamis universitet.

Det kommer att komma en hel del inlägg från Nicar  – världens största internationella konferens för datajournalistik – kommande dagar här på bloggen, eftersom en hel delegation från Södertörnsprojektet är på plats.

När vi siar om morgondagens datavisualsieringar är det lätt att fokusera för mycket på det tekniska, på själva verktygen, tycker Alberto Cairo. Det är lätt att hålla med.

Att koda eller inte koda, det är den eviga frågan för reportrar som beslutat sig för att vidareutbilda sig till datajournalister. Jag har själv många gånger sagt att jag inte tänker lära mig att knacka kod, och lika många gånger innerst inne insett att det måste jag visst.

Med de många gratis visualiseringsprogram som i dag finns tillgängliga för att göra interaktiva grafiker som går att bädda in på sin nyhetssajt (Datawraper, Infogram, Tableau och Google Fusion Tables är de jag själv använder på Svenska Dagbladet) klarar man sig rätt långt utan kodning. Samtidigt är det frustrerande när det inte går att få grafikerna att se ut riktigt som man själv vill, eftersom programmen är så hårt mallade, eller när de inte beter sig som man vill.

Därför var det ganska betryggande att höra Alberto Cairos mellanväg i frågan:

– Jag är inte emot att journalister lär sig kod, jag tycker att de flesta journalister ska lära sig lite grundläggande kod. Men vi ska inte fokusera på de tekniska sidorna av visualisering. De verktyg vi använder nu kommer att försvinna förr eller senare och ersättas av andra, säger han.

Vad som däremot är desto viktigare är att journalister och webbdesigners blir bättre på siffror och statistik. Flertalet journalister förstår inte ens skillnaden mellan medelvärde och median, hävdar Cairo (med tillägget att han själv kommer från Spanien).

Överdrivna förenklingar av statistik är en utbredd sjuka på redaktionerna, och det är vårt ansvar som datajournalister  att sätta stopp för den, säger Cairo.

– Vi måste säga till när våra kollegor gör fel.

För att förklara hur det kommer sig att så mycket felaktiga slutsatser når läsare och tittare använder han det svåröversatta begreppet ”patternicity” och hänvisar till författaren Michel Shermers definition: ”Att hitta meningsfulla mönster i meningslöst brus”.

Det vill säga, människan i allmänhet och journalister i synnerhet vill så gärna hitta samband och mönster att vi tolkar in sådana där de egentligen inte finns.

Häri ligger alltså det stora hotet mot datavisualiseringar som journalistiskt verktyg i framtiden, tycks Cairo mena: De dåliga statistiska kunskaperna hos såväl webbdesigners som reportrar.

Botemedel? Att inte glömma grundreglerna för all datavisualisering. De är, enligt Alberto Cairo, att visualiseringar ska vara:

1 Sanningsenliga

2 Funktionella

3 Vackra

4 Insiktsfulla

5 Upplysande

Ungefär, skulle någon kanske vilja påpeka, samma grundregler som bör gälla alla journalistiska genrer.

Tobias Brandel/SvD