Blogg / Datajournalistik

Ett forsknings- och utvecklingsprojekt i samverkan

CAR – en löjlig term

Det märks att CAR 2013 lägger in en högre växel i dag, fredag. Det är nu det börjar! Plötsligt uppstår flera krockar och man tvingas välja bort saker som ser mycket intressanta ut. Det är angenäma problem. Men det är fler deltagare här nu också, och de Excel-seminarium som kräver datorer till alla deltagare blir snabbt fullsatta.

likekentucky

Hittills har mycket fokuserat på presentation och visualisering. Nu ser jag fram emot input om hur själva jobbet ska göras. Alltså konkreta tips om journalistiska arbetsmetoder.

Och förutsättningarna finns. Redan före lunch på fredagen finns flera konkreta idéer antecknade att sätta igång med, väl tillbaka i Sverige. De flesta tack vare Inspect this, Janet Roberts och Megan Luthers seminarium om hur vi kan göra databasjournalistik med inspektionsrapporter av olika slag som grund.

Sarah Cohen leder databasreportrar på The New York Times, är styrelseledamot i IRE och medverkar i flera seminarier under CAR 2013. I samband med en lunchmacka fick vi höra hennes tankar om undersökande journalistik i allmänhet och CAR i synnerhet (CAR är en term som hon för övrigt tycker är löjlig.)

sc

Hon höll ett inspirerande tal och det som framför fastnar är hennes varning för tanken att stories kommer från data. Det blir ofta tråkiga stories! Man måste alltså fortfarande ha berörande historier och människor. Men data behövs också.

Hon berättade att alla redaktioner i USA drabbas av besparingar, men att CAR inte drabbats hårdare än annat. Snarare tvärtom. På många håll stärker CAR sin ställning.

Slutsatsen av torsdagen och fredagens seminarier sammantaget är att vi jobbar ungefär likadant i Sverige och USA. Vi har i stort sett samma problem och samma möjligheter. Och en bra story i USA är samma sak som en bra story i Sverige.

Johannes Rosendahl, Sveriges Radio

Inspiration och nördar.

url
”If you´re a nerd you´re gonna feel like home”.
Så inleddes den första föreläsningen jag gick på här.
Och det kanske stämmer, för en del. Det är så klart en hel del teknik, och tekniska lösningar som diskuteras på de olika seminarierna.
Men för mig, som jobbar som reporter har jag duckat lite för den tekniska biten även om jag vet att jag behöver lära mig the basics.

I stället finner jag mig full av inspiration – att se vad som är möjligt att göra – vad andra har gjort – baserat på data är fantastiskt.
Min anteckningsbok (ja, den är analog) är fullklottrad med ideér och uppslag jag vill ge mig i kast med när jag kommer hem till redaktionen.

”Inspect this” var för mig fredagens höjdare, med genomgångar av vad flera av de stora och små amerikanska medierna publicerat utifrån inspektörsrapporter.
Allt från hur motsvarigheterna till Bilprovningen sköter sig, vad som gör igenom på en station kanske får anmärkning på en annan till vad som hänt tio år efter en arbetsplatsolycka – har företaget skärpt rutinerna?
En uppföljning som bör vara enkel att göra, med data från inspektörer.
Det finns oändliga möjligheter till bra och angelägen journalistik i inpektörernas rapporter.
Kolla bara på hästköttsskandalen.
Listan i min bok på vilka inspektioner jag vill titta närmare på är lång.
Hur är säkerheten på lekplatser?
Stämmer vågen i din mataffär eller får du för lite för pengarna?
Hur är det med bakteriehalten i offentliga bassänger?
osv.
Fantastisk konsumentjournalistik.

Alla dessa ideér som dessutom, säger nördarna, kan visualiseras och presenteras snyggt gör datajournalistiken häftig.
Som fler än en föreläsare sagt när innan trycker på länken till den visualiserade datan: ”The cool thing is”.
Och så är det.

Inspirerande. Och lärorikt.

Förutom allt vi lär oss gläds vi i dag åt att de hundratals scouterna som ockuperat hotellet i dag åkt hem.

Eric Tagesson, Aftonbladet

Gamla och nya metoder tillsammans

Det blir många olika exempel under sessionerna på CAR2013. Under rubriken ”data on the fly” berättade Mark Wert på Cincinatti Inquirer om hur man lade upp ett projekt för att bevaka hur presidentvalet 2012 genomfördes, ett projekt som förenade gammal hederlig ”shoe-lether reporting” och datajournalistik.

Bakgrunden var att i tidigare val hade uppåt 200 000 röster från Ohio förklarats ogiltiga av olika skäl, och det drabbade främst röster från lågutbildade och studenter. Under rubriken ”Protect your vote” bygger tidningen upp en bevakning under valdsagen av själva valprocessen: 35 collegestudenter i journalistik skickades ut som reportrar för att bevaka röstningen, genom sociala medier som Facebook och Twitter samlades iaktagelser om röstningen liksom genom e-post och vanliga telefontips. All denna information lades in i ett dataset i realtid under valdagen, detta kopplades till en Googlekarta och det var möjligt att se var i Ohio problemen uppstod och vad de bestod av. Tipsen kollades upp och tillsammans blev det en heltäckande bild av valprocessen. Här är en länk till hans presentation som finns på IREs hemsida: http://ire.org/conferences/nicar-2013/tipsheets/

Under sessionen berättade också kollegan John Keefe från tv-stationen WNYC i New York om hur de använde kartor i realtid i samband med orkanen Sandy. Han betonade att all real-tidsrapportering kräver förberedelser – man måste från början ha tagit fram underlag ( t ex shapefiler) och testat att arbeta med kartor för att man ska klara av den när det gäller. Alla typer av kartor och underlag kan också sparas så man inte behöver göra om jobbet nästa gång.

 

OpenElections Project

OpenElection Project är ett projekt som kommer att löpa under ca 2 år. Det är ett projekt som bland annat har deltagare från New York Times och The Washington Post.

Projektet syftar till att skapa en gemensam databas där i princip alla Amerikanska valresultat skall finnas tillgängliga, från alla delstater.

I USA har man en mängd olika val, samt ibland helt olika valsystem i de olika delstaterna. Att lyckas att få en enhetlig och jämförbar bild, är således mycket svårt.

Just nu är projektet inne i en insamligsfas och man ber allmänheten om hjälp. Med allmänheten menar jag andra journalister från olika delstater.

Problemet med att samla in data i USA är bland annat att delstaterna skiljer sig enormt åt, när det gäller i vilken kvalité data finns tillgängligt i. I exempelvis Ohio och Florida, finns all statistik mer eller mindre i digital, tvättat format. I vissa andra delstater (exempelvis Mississippi) så kan äldre valdata finnas i pappersformat!

Man har byggt ett webinsamlingsformulär där tanken är att man skall dela med sig av data, givet att man har tillgång till det. Det kan röra sig om val av ”State officials”, ”Senate”, ”House”, ”Special elections” ända upp till ”President election”.

Tanken är att när datat har samlats in (man använder sig av data från 2000 och framåt) så skall allmänheten kunna få ta del av allt data. Det kommer sålunda att möjliggöra för journalister att snabbt och enkelt ta fram rapporter och statistik kring valrelaterade frågor i sin hemdelstat.

Mer information finns på http://blog.openelections.net/

 

//Christopher Broxe, SAS Instituteopenelection

Ny app och spännande scoop

Reuters presentation av en helt ny app om Kinas makthavare fick mycket beröm av journalister på CAR 2013. Appen heter Connected China och lanserades på torsdagen. Det har tagit en redaktion på över tio personer 18 månader att bygga appen som vänder sig både till media samt till företag som gör affärer i Kina.

Irene_Liu

I appen kan man bland annat hitta ett omfattande persongalleri med de kinesiska makthavarna och deras kopplingar till varandra. Reuters har också använt sin bildbank för att illustrera stycken ur den kinesiska historien som också ingår i appen. Irene Liu har varit ansvarig för arbetet på Reuters och säger att hon personligen har godkänt alla uppgifterna i appen.

Jaeah_LeeJaeah Lee från den amerikanska nyhetssajten Mother Jones är på CAR för att lära sig mer om databasjournalistik. Mother Jones fick sitt största scoop hittills när de i höstas publicerade ett videoklipp där den republikanska presidentkandidaten Mitt Romney pratar på ett möte hemma hos finansmannen Marc Leder i Florida. I klippet förklarar Romney att 47 procent av väljarna kommer att rösta på president Obama eftersom de är beroende av regeringen och eftersom de ser sig som offer. Klippet fick stor uppmärksamhet över hela USA när det publicerades i september 2012, mitt i den hektiska valrörelsen.

Jaeah Lee berättar att det tog ett par månader att övertala kvinnan som hade spelat in videon att gå med på att publicera den på Mother Jones sajt. Orsaken var att kvinnan trodde att det skulle slå mot hennes person.

Joel Dahlberg, Svenska Dagbladet

NICAR 2013 – 600 deltagare från 15 olika länder

Årets NICAR-konferens är den största någonsin, med nästan 600 deltagare. Den svenska truppen på över 30 personer märks, men i år finns deltagare med från 15 olika länder. Norrmän, danskar, engelsmän och till och med en deltagare ändå från Australien. En annan glädjande nyhet är att fler och fler faktiskt får åka på tidningen eller organisationens bekostnad. För några år sedan, då NICAR höll sin konferens i Cleveland var deltagandet under 300 personer och många vittnade om att de fick betala själva för att ta sig till konferensen.

Det som genomsyrar NICAR är att det är metoderna som är i centrum:  Vad finns det för olika metoder, hur kan jag lära mig dem och hur kan jag lära andra dem? För att ytterligare bygga på detta har NICAR också inrättat ett mentor-system, där en deltagare som inte varit på NICAR tidigare paras ihop med en som kommer hit för första gången.

Jag blev tilldelad Emily DeMarco, en ung och ganska ny journalist som jobbar på organisationen PublicSource i Pittsburg. PublicSource är ännu en i raden av undersökande journalistiska  organisationer som kommit fram i USA på sistone.

Vi ägnade en timme åt att prata om hur NICAR som organisation är unik på sä sätt att det är väldigt lätt att få hjälp med konkreta problem – i allt från hur man begär ut databaser till hur man hanterar dem och hur man tar hand om arga myndighetspersoner efter att man publicerat. Emily berättade att staden Pittsburg är ganska njugga när det kommer till att lämna ut data – och jag tror att jag kunde inspirera henne till att inte ge sig bara för att myndigheterna säger nej. I Sverige hamnar vi ofta i situationer där vi kanske får en databas utskriven på papper – och jag delade med mig av ett par trick för att kunna överföra dessa dokument tillbaka till en databas.

Skrivet av Helena Bengtsson (@HelenaBengtsson), databasredaktör för SVT Pejl

Ställ frågor till din databas genom att använda statistikprogrammet R

En av torsdagens första sessioner handlade om att vända på begreppen när det gäller databaser. Istället för att ha ett projekt där man tydligt vet varför man vill ha en databas, vilka svar man vill få ut av den – så kan man istället angripa databasen med en mer öppen och utvärderande modell. Chase Davis, som har arbetat på CaliforniaWatch – och som strax ska börja sin anställning på New York Times pratade om skillnaden mellan att förhöra – och intervjua databasen – något man gör när man har en klar bild av vad informationen i databasen kan ge, och att konversera med databasen – för att kanske hitta andra vinklar och idéer.

Enligt Chase Davis gör man detta i fyra steg, de två första något som man alltid bör göra oavsett syftet med databasen: Steg ett och två innefattar kontroll av data på olika sätt – man undersöker om det finns dubletter, var max och min värdena är, om det finns variationer av samma variabelvärde mm. Men det är steg tre och fyra som, är mer prövande och utforskande, som exempelvis att titta på hur alla variabler korrelerar med varandra – hur förhåller de sig till varandra, kan man hitta samband?

Ett verktyg för detta är R, ett statistiskt program som man måste kunna lite programmering för att använda. Men, när man väl har satt sig in i hur det fungerar är det otroligt kraftfullt. Med ett enda kommando, summary, kan man utvärdera samtliga variabler på en gång – få en tabell över medel, median, max och min värden för alla variabler. Genom denna överblick är det lättare att hitta en vinkel eller story som man kanske inte tänkt sig.

Ett annat sätt är att använda visualiseringar som analysmetod – exempelvis boxplot, som ger dig en bild över hur variablernas värden varierar, dvs är alla värden samlade eller är de utspridda, var ligger extremvärdena mm.

Scatterplotts gjorda i R

Scatterplotts gjorda i R.

Man kan också använda en matris av scatterplot som ger en bild över hur alla variabler interagerar med varandra – och på det sättet hitta samband mellan oväntade variabler. Se exempel på detta här:

Inlägget skrivet av Helena Bengtsson (@HelenaBengtsson), databasredaktör på SVT Pejl

Mer om Tableau Public

Hela dagen spenderades på att dyka in i visualiseringsverktyget Tableau Public. Ett oerhört kompetent program som kan ”göra allt”.

tableaupublic

Med det kommer också svårigheten att greppa alla funktioner. Men allt eftersom dagen gick så ramlade fler och fler poletter ner och vi lyckades skapa schyst grafik över arbetslöshetsutvecklingen i USA sedan valet 2008, med en del valbara parametrar. Pedagogiken kunde varit bättre men de är oerhört hjälpsamma och verkar ha en grymt bra support online om man kör fast. Dom kan gå in i ens dokument och rätta till det man gjort galet.

/Markus Sandin, MittMedia

Terminator – fast bättre

Först efter att ha sovit några timmar började jag begripa vad en av CAR 2013-föreläsningarna som jag var på i går egentligen handlade om. Polletten trillade ner (åtminstone delvis).

Föreläsningen hette ”Maskininlärning i praktiken: tips, trix och riktiga exempel i maskininlärning på redaktionen”. Jeff Larson från ProPublica och Chase Davis (nu frilans via egna bolaget Hot Type Consulting, men snart på New York Times) berättade om något som verkade hämtat från Terminator – där datorerna blir intelligenta och tar över världen.

terminator

Davis och Larson använder ett datorspråk som rycker ut intressanta fakta ur gigantiska mängder dokument med hjälp av algoritmer och programmering. Ett slags artificiell intelligens nästan, där man får datorn att se samband och olikheter i texter. Nästan som att den börjar hantera texter på samma sätt som den mänskliga hjärnan.

Det jag begrep först efter att sovit några timmar var ungefär följande: om vi tar de hemliga amerikanska ambassadrapporterna som Wikileaks släppte som exempel, så var det ju reportrar som satt och läste igenom dessa tusentals dokument och hittade intressanta vinklar. Vilket givetvis tog väldigt lång tid.

Med maskininlärning går det i stället till så här: du kastar in alla dokumenten i algoritm-programmet och ut kommer dokumenten sorterade i högar. Programmet sorterar nämligen upp dokumenten i buntar som liknar varandra, genom att analysera texten i dokumenten. Själva maskininlärningen handlar om att du efter hand kan justera programmet så att det blir smartare, och sorterar upp dokumenten i bättre högar.

Sen kan man lätt gå in i de avvikande dokument-buntarna och hitta guldkornen utan att behöva leta.

Programmeringsspråket som de båda reportrarna och data-genierna Larson och Davis använder är bland annat Python. Dessutom sade Larson att man inte ens behöver bygga egen kod. Det finns nämligen färdiga koder som man kan använda för fånga in de avvikande dokumenten på följande adress:

http://www.cs.waikato.ac.nz/ml/index.html

Blev detta klarare? Hmm. Men någonstans kände jag att det var väldigt intressant – det pekar i alla fall mot en mycket bättre framtid (för oss journalister) än i Terminator.

Joachim Kerpner, Aftonbladet

Samarbete kring myndighetsdokument

I Sverige har vi offentlighetsprincipen. I USA har de FOIA – Freedom of information act. Och nu har FOIA-maskinen skapats (du hittar den på foiamachine.org).

Skärmavbild 2013-03-01 kl. 06.53.29

Under ett föredrag här på CAR 2013-konferensen berättade Coulter Jones, Shane Shifflett, Djordje Padejski och Chase Davis om ”maskinen”.

Den hjälper journalister och medborgare att få ut viktiga myndighetsdokument runt hela världen, som berörs av Freedom of information-lagarna. FOIA-maskinen är en ny opensource-plattform där man kan göra FOIA-förfrågningar på alla myndighetsnivåer. Den hjälper användarna att förstå FOIA-lagarna och skapar förfrågningar i rätt format. Den gör dokumenten offentligt tillgängliga på webben och använder webben för att samla support när myndigheterna inte lämnar ut dokument eller är långsamma med att lämna ut dem.

Två tankar gav föreläsningen: projektet är i sin linda och det verkar inte finnas så många dokument i FOIA-maskinen än. Men så småningom lär det finnas intressanta dokument att titta på även för oss svenskar, eftersom amerikanerna lägger sina fingrar i blöt i hela världen. Dessutom kan givetvis även svenska journalister använda FOIA-maskinen för att få tillgång till amerikanska dokument med Sverige-koppling.

Den andra tanken: något liknande borde skapas i Sverige för att sätta press på svenska myndigheter. Eller finns det redan? Inte vad jag vet.

Joachim Kerpner, Aftonbladet

1 2 3 4