Blogg / Datajournalistik

Ett forsknings- och utvecklingsprojekt i samverkan

Att granska datorerna

Algoritmsvd

Vad händer med den granskande journalistiken i en värld där allt mer beslutsfattande sköts av datorer? Finns det en ogranskad maktfaktor i samhället i dag är det algoritmerna, dessa små instruktioner som får datorerna att bete sig som de gör.

Har du någonsin sett Janne Josefsson ställa ett dataprogram mot väggen? Själv funderat på att avsluta ett grävprojekt med en ansvarsutkrävande intervju med en algoritm?

Företag använder dem för att kartlägga sina kunders beteenden, myndigheter för att betala ut ersättningar, polisen för att förutsäga brott, och så vidare. Även politiska partier, intressant nog detta valår, använder dem, vilket jag skrev om i somras.

– Journalisternas roll är inte bara att titta på institutionerna som använder olika algoritmer i sin verksamhet, utan också att granska algoritmerna i sig, sade Chase Davis från The New York Times på Nicar 2014, den internationella konferensen för datajournalistik som just nu pågår i Baltimore.

Vem ska ställas till svars när algoritmerna gör fel, om en oskyldig pekas ut som brottsling, om någon får fel medicin på Apoteket, om Stockholmsbörsens datorer börjar ge felaktig information om aktiekurser?

Datorer har ingen ansvarskänsla. Men koders skapas av människor. Således finns minst en person bakom varje algoritm. Om en självkörande Google-bil krockar och krocken beror på programmeringen, är det kanske inte helt orimligt att den som skrev algoritmen hålls ansvarig.

Men när vi ska hitta den ansvariga människan bakom finns en journalistisk fälla. Ett mantra som upprepas gång på gång under snart sagt alla statistikföreläsningar på Nicar är att inte blanda ihop korrelation med kausalitet. Det vill säga att inte dra en massa slutsatser om orsaker bara för att vi hittat ett samband.

Att antalet storkar är högre i områden där det föds många bebisar, betyder det att fler storkar leder till fler bebisar? Nej, det förklaras nog snarare av att där det bor många människor finns det också många platser för storkarna att slå bo. Till exempel.

Motsvarigheten för den som granskar algoritmer skulle kunna lyda ”korrelation är inte detsamma som intention”, enligt Jeremy Singer-Vine på Walls Street Journal.

– Att en algoritm får en viss verkan behöver inte betyda att skaparen av den hade det för avsikt. Vi måste vara försiktiga med att dra sådana slutsatser, säger han.

Så hur ska vi journalister då granska algoritmerna och deras skapare?

Ett första steg är att lära sig att förstå lite mer kring hur internet fungerar, eftersom så många algoritmer i dag är internetbaserade. Till exempel lära sig lite om cookies.

Och, återigen, journalister behöver lära sig att förstå kod. Inte bli experter, men ha en grundläggande kodningskunskap.

– Bara att ifrågasätta algoritmerna skulle göra att finanssektorn fungerade bättre, säger Frank Pasquale vid University of Maryland Law School.

Sedan får vi förstås inte glömma att även vi journalister själva använder oss av algoritmer i vårt eget arbete.

Personligen väntar jag otåligt på ökad personalisering av nyhetssajterna. I dag ser till exempel SvD.se:s startsida likadan ut oavsett vem som går in på den.

Är jag en nyhetsknarkare som varit inne bara en timme tidigare blir jag så klart irriterad av att fortfarande se samma nyheter i topp. Men är jag en läsare som bara går in en gång om dagen vill jag förmodligen se den dagens allra viktigaste nyhet som SvD:s reportrar grävt fram överst, snarare än senaste TT-nytt. Och är jag kulturintresserad vore det förstås att föredra att kulturnyheter hamnade högre upp för mig i stället för ekonominyheter.

Det vill säga, svenska nyhetsmedier bör – och kommer – snart att använda samma tekniker som Google och Facebook använt i flera år för att skräddarsy ett unikt flöde för varje enskild besökare.

Men även här måste vi förstås ha ett kritiskt förhållningssätt. Är det etiskt försvarbart att vi registrerar vilken typ av artiklar en viss läsare brukar klicka på? Ja, skulle jag säga. Är det försvarbart att vi även tittar på vilka sajter besökaren var på innan och efter hen gick in till oss? Kanske mer tveksamt.

En alltför skarp individualisering kan rentav ses som en demokratifara, om folk bara får sina egna uppfattningar bekräftade och ingen plats för debatt finns. Bubbeldebatten har pågått några år, här är en kanske onödigt dystopisk artikel jag skrev 2011.

Men vi bör kunna bli betydligt bättre än i dag på att hjälpa och guida våra läsare till sådant som är intressant och viktigt för just dem utan att det går riktigt så långt. Och då är algoritmerna våra bästa vänner.

Tobias Brandel/SvD

Vem betalar för gratisverktygen?

Infogram

Seminariet med rubriken ”Gratisverktyg för dataanalys” är fyllt till bristningsgränsen på datajournalistikkonferensen Nicar 2014 i Baltimore. Amerikanska nyhetsredaktioner verkar lika fattiga som svenska.

Alla journalister vet att det är ungefär lika utsiktslöst att be chefen att köpa in det där jättecoola dataprogrammet som att föreslå en femveckors reportageresa till Bahamas.

Vi som sitter längst bak på golvet i föreläsningssalen för att stolarna tagit slut knattrar febrilt ner de olika gratistjänster som visas i Powerpointpresentationen: TabulaMr Data ConverterDocument CloudRStudioPSPPFoiamachine, med flera.

Många av dessa är open source-program (öppna källkods-projekt utan ekonomiska vinsintressen). Man kommer långt på dem som journalist, men de täcker inte alla behov. Och inte sällan är program skapade av kommersiella aktörer strået vassare.

Över listan av gratisprogram från företag som jag själv redan använder i mitt jobb som reporter finns Tableau, InfogramOpen Refine (Googleskapat, men nu icke-kommersiellt), Cometdocs och en rad Googletjänster.

Alla gratis för mig och Svenska Dagbladet att ladda ner och använda. Det enda läsarna märker är att företagets logga ofta syns lite diskret i ena hörnet när det handlar om visualiseringsverktyg för att göra grafiker som bäddas in på sajten. Är det dataanalysredskap som används tidigare under arbetsprocessen har läsarna ingen kännedom om dem alls.

Är det ett problem att vi journalister använder sådana gratisverktyg? Nej, anser jag. Den ekonomiska verkligheten är som den är. Bättre att vi får tillgång till gratis analysverktyg än inga alls. Och så länge företagen bakom inte har något som helst inflytande över den journalistik vi gör med hjälp av deras produkter – vilket de inte har – är det inte så mycket att orda om.

Fördelen för företagen i fråga är förstås att synas i ett stort och seriöst sammanhang. Deras affärsidé är att sälja sin mjukvara till företag för olika typer av affärsanalyser. Att få sin logga på en kvalitetssajt med miljonbesök som svd.se är förstås gyllene marknadsföring.

Visualiseringstjänsten Tableau är ett lysande exempel på ett företag som tidigt insåg detta. De har jobbat aktivt med att få journalister som gratiskunder – Guardian, New York Times och Le Monde tillhör flitiga användare – och är i dag ett mycket framgångsrikt företag trots att deras produkt knappast är den bästa i branschen.

Många av de här tjänsterna är inte heller gratis bara för journalister, utan finns i en gratisversion för vem som helst. Sedan finns en premiumversion som kostar pengar, och den går oftast ut på att man kan skydda sina siffror, medan all data i gratisversionen blir offentlig på webben. HM och Swedbank vill förstås inte att deras konkurrenter ska se deras interna försäljningssiffror, varför betalversionen är nödvändig. Men för oss journalister är det inga problem att vår data blir offentlig – tvärtom är det ju just det vi jobbar för, att få ut fakta till allmänheten.

Ändå är det just här som det kan bli problematiskt.

Använder du en tjänst som är gratis är det du som är varan, är en känd aforism i denna Google och sociala medier-era. De siffror och annan information som jag laddar upp i de här gratisprogrammen sparas förstås av företagen bakom dem och blir deras egendom. Återigen, vi journalister arbetar för att sprida fakta. Men vi ska också vara medvetna om att vi gratis ger dem framtidens verkliga hårdvaluta – data.

Och därför är det väldigt viktigt att tänka efter en extra gång vad den där Excelfilen du laddar upp innehåller. Även om vi har transparens som ledord kan en del saker vara känsliga. Personuppgifter måste rensas ur filerna. Och källskyddat material ska överhuvudtaget aldrig befinna sig någonstans i närheten av internet.

Tobias Brandel/SvD

When data don’t exist – Mikael Tjernström om första dagen på NICAR

Första dagen på nicar gav en hel del intressanta intryck. Men för mig var den klart bästa sessionen om den som handlade om se tillfälle. Då du inte har data att jobba med, utan du måste skapa den själv.
Sarah Cohen, Meghan Hoyer och Matt Waite delade alla med sig av olika erfarenheter på området. Den som gjorde störst intryck på mig var Matt Waite som visade hur man med några enkla handvändningar kan förvandla en enkel mikrofon, ett kretskort och en dator till något enormt kraftfullt att mäta. Eller som han själv uttryckte det ”i don’t like beeing dependent on the government for getting day”. Mycket intressant var det.

datadontexist

Han är ju också känd för att använda sig av så kallade drones. Han visade hur man nu för tiden kan se videon från den som infraröd nu för tiden. Verkligen intressanta diskussioner om cutting-edge tekniker.
I morgon drar fler hands-on sessioner igång då det ska bli riktigt spännande.

Mikael Tjernström, Mittmedia

Tre höjdpunkter från första dagen på NICAR14

En intressant genomgång av de tre verktygen Tabula, Document Cloud och Overview, som tillsammans underlättar hanteringen av pdf-filer.
– Med Tabula kan man på ett smidigt sätt få ut korrekta tabeller och text från pdf-dokument. Det ska även funka på bilder och andra svårhanterliga format.
– Documentcloud verkar vara ett effektivt sätt att hantera pdf-filer internt på redaktionen, så att de blir smidigt åtkomliga för alla reportrar. Man kan också enkelt hightlighta avsnitt i publicerade pdf-dokument och länka direkt dit från t ex en artikel. Mycket användbart vid avslöjanden, när vi vill lyfta fram centrala delar i dokumenten. Läsaren slipper själv leta efter det viktigaste.
– Overview sorterar pdf-filer efter t ex ämnen och nyckelord. Effektivt sätt att snabbt få överblick över innehållet i stora mängder dokument.
Spännande att testa alla dessa tre dokument!
Länkar:
Krimgranskningarna i Norge och Washington DC (Homicide Watch DC) var båda intressanta. VG hade gjort ett mycket bra jobb att få fram och visualisera stora mängder statistik, där läsaren hade stor möjlighet att själv gå på djupet. Homocide.org var mycket tydlig och lättorienterad, även om mycket av den data de publicerar är svårare att hantera publicistiskt i Sverige (t ex namn på personer som bara är misstänkta).
Aftonbladet kan inspireras av båda dessa projekt, till innehåll och form.
Länkar:
Intressanta tankar kring visualisering av Alberto Cairo, med både bra och dåliga exempel.
Aftonbladet har sedan en tid tillbaka börjat komma igång med interaktiv grafik på dagsbasis, men vi har inte alltid kläm på fallgroparna.
Bra tips på hur vi kan göra dem mer funktionella och snygga, välja rätt grafik för rätt data, och – framförallt – göra dem tydliga och lättbegripliga. Det gäller att undvika överdriven förenkling, men det får heller inte bli för komplext att ta till sig.
Bra exempel också på hur man kan göra flera skärningar av samma data, vilket ger den interaktiva grafiken ett helt annat djup.
Joakim Ottosson, Aftonbladet

Vill vi överhuvudtaget se en svensk efterföljare?

Efter förra årets Nicar 13 i Kentucky åkte vi hem laddade med bra idéer att försvenska.

En av dessa var Homicide Watch D.C, http://homicidewatch.org som gav den hårt modifierade idén att digitalisera och tillgängliggöra en helt pappersdokument-baserad, fyraåriga granskning av dödligt våld mot kvinnor i nära relationer, (”219 dödade kvinnor). http://dodadekvinnor.aftonbladet.se/fall/
Då var det journalisten och utvecklaren Chris Amico som berättade om fristående Homicide Watch D.C, ett digitalt verktyg (i grunden baserat på google spreadsheet) som lanserades första gången  för fem år sedan med löftet att nyhetsrapportera om alla mordfall i District of Columbia och följa dem till domslut.
En process på i snitt två år för varje mordfall.
I år är kollegan och partnern Laura Amico på plats för att berätta om projektet som fått flera efterföljare och växer till ett nätverk över USA. Förutom offentliga dokument från domstolar och polis, bidrar allmänheten med bilder och information om mordfall, misstänkta, dömda gärningsmän och offer.
Amico
Någon svensk kopia av Homicide Watch DC finns ännu inte.
Det är tveksamt om Sverige är redo för motsvarande rapportering där misstänkta, dömda och offer namnges, pekas ut med foto, ålder, ras (!), plats för mordet, polisutredares namn och telefonnummer, rättegångsdokument, domar, foton och dessutom med öppna kommentarsfält under varje publicerat mordfall.
(Enligt Amico undantas i stort sett bara offrens, de misstänkta  och dömda gärningsmännens hemadresser och telefonnummer).
Vill vi överhuvudtaget se en svensk efterföljare?
/Maria Trägårdh, Aftonbladet

Kartor, symboler på döda kroppar och ArcGIS Online – om mapping på NICAR 2014

Det här årets första session på NICAR blev en heldags-bootcamp med ArcMap. Det är ett kraftfullt verktyg för att visa, skapa, ändra och analysera geodata. Och för att göra coola, snygga kartor så klart. Det verkar finnas hur många coola funktioner som helst I det här verktyget. Man kan lägga på lager på lager av information på kartor genom att merga shapefiler med databaser. Själva kursen gick dock väldigt långsamt framåt eftersom många hade svårt att hänga med i även de mest grundläggande funktionerna.

Ett kraftfullt verktyg som sagt, men det är ett ständigt skapande av nya lager och exporterande av desamma för att komma någon vart. När vi till exempel ska räkna antalet utmärkta punkter på en av kartorna vi gör, uppdelat på counties – så måste vi göra ett helt nytt lager för detta. Jag tänker mig att det inte skulle behöva vara fullt så krångligt som det är. Men vad vet jag.

För de som kan programmera kan det vara kul att veta att man också kan skriva egna funktioner i Python. För de som gillar roliga symboler, som jag, kan jag meddela att det finns sjukt många olika symboler att märka ut punkter på kartan med. Varför inte små, döda kroppar, om man tex vill visa de mord som har begåtts i ett geografisk område?
Apropå det så är det både orättvist och lite skönt att vi i Sverige inte får tillgång till samma sorts data som amerikanerna. I en fil över just mord som vi kikade på fanns obehagligt mycket information om mord begångna i Dallas. Allt från gatuadress, till namn på offret, till detaljer om mordet. Tex en man som mördat sin fru och sin dotter, sedan tänt eld på lägenheten och tagit självmord. Det mordet och ett gäng andra placerade vi ut på en karta över Dallas. Vi hade inte koordinater för platserna, utan adresser. Med hjälp av dem och en smart funktion I ArcMap skapade vi en masterfil över alla gator I Dallas. Vi kombinerade en shapefil över gatorna med filen över morden (där det fanns adresser) och geokodade dem med hjälp av en Adress-creator som finns I programmet. Ganska coolt faktiskt.

På slutet av sessionen visade några som jobbar från ESRI – företaget bakom ArcMap – onlineversionen. Det är där alla de visuellt coola grejerna skapas och man gör sina vackra presentationer av data. Störst behållning från dagen var att vi fick en inblick I grunderna, men framförallt en gratis licens av desktop-versionen.

/Linnea Heppling, SVT Pejl

Att hitta meningsfulla mönster i meningslöst brus

Datawrapper

Visualiseringar – eller grafik som det hette i den gamla papperstidningsvärlden – är en av grundpelarna inom datajournalistiken. Användbart dels för att som journalist effektivare kunna analysera insamlad data och hitta nyhetsvinklarna i den. Dels för att presentera resultaten på ett begripligt och lockande sätt för våra läsare.

Framtiden för det senare, alltså visualiseringar att publicera på nyhetssajter, var fokus i en av de storföreläsningar som öppnade Nicar 2014 i Baltimore, USA, av Alberto Cairo, vid Miamis universitet.

Det kommer att komma en hel del inlägg från Nicar  – världens största internationella konferens för datajournalistik – kommande dagar här på bloggen, eftersom en hel delegation från Södertörnsprojektet är på plats.

När vi siar om morgondagens datavisualsieringar är det lätt att fokusera för mycket på det tekniska, på själva verktygen, tycker Alberto Cairo. Det är lätt att hålla med.

Att koda eller inte koda, det är den eviga frågan för reportrar som beslutat sig för att vidareutbilda sig till datajournalister. Jag har själv många gånger sagt att jag inte tänker lära mig att knacka kod, och lika många gånger innerst inne insett att det måste jag visst.

Med de många gratis visualiseringsprogram som i dag finns tillgängliga för att göra interaktiva grafiker som går att bädda in på sin nyhetssajt (Datawraper, Infogram, Tableau och Google Fusion Tables är de jag själv använder på Svenska Dagbladet) klarar man sig rätt långt utan kodning. Samtidigt är det frustrerande när det inte går att få grafikerna att se ut riktigt som man själv vill, eftersom programmen är så hårt mallade, eller när de inte beter sig som man vill.

Därför var det ganska betryggande att höra Alberto Cairos mellanväg i frågan:

– Jag är inte emot att journalister lär sig kod, jag tycker att de flesta journalister ska lära sig lite grundläggande kod. Men vi ska inte fokusera på de tekniska sidorna av visualisering. De verktyg vi använder nu kommer att försvinna förr eller senare och ersättas av andra, säger han.

Vad som däremot är desto viktigare är att journalister och webbdesigners blir bättre på siffror och statistik. Flertalet journalister förstår inte ens skillnaden mellan medelvärde och median, hävdar Cairo (med tillägget att han själv kommer från Spanien).

Överdrivna förenklingar av statistik är en utbredd sjuka på redaktionerna, och det är vårt ansvar som datajournalister  att sätta stopp för den, säger Cairo.

– Vi måste säga till när våra kollegor gör fel.

För att förklara hur det kommer sig att så mycket felaktiga slutsatser når läsare och tittare använder han det svåröversatta begreppet ”patternicity” och hänvisar till författaren Michel Shermers definition: ”Att hitta meningsfulla mönster i meningslöst brus”.

Det vill säga, människan i allmänhet och journalister i synnerhet vill så gärna hitta samband och mönster att vi tolkar in sådana där de egentligen inte finns.

Häri ligger alltså det stora hotet mot datavisualiseringar som journalistiskt verktyg i framtiden, tycks Cairo mena: De dåliga statistiska kunskaperna hos såväl webbdesigners som reportrar.

Botemedel? Att inte glömma grundreglerna för all datavisualisering. De är, enligt Alberto Cairo, att visualiseringar ska vara:

1 Sanningsenliga

2 Funktionella

3 Vackra

4 Insiktsfulla

5 Upplysande

Ungefär, skulle någon kanske vilja påpeka, samma grundregler som bör gälla alla journalistiska genrer.

Tobias Brandel/SvD