Blogg / Datajournalistik

Ett forsknings- och utvecklingsprojekt i samverkan

Gräva, städa, sortera

Jag har försökt följa ett spår om hur man skaffar data och gör den användbar.
”Those bastardly PDF:s, and how to deal with them” var temat på en par sessioner som handlade om hur man omvandlar skrivna dokument till något som går att sortera in i spreadsheets för vidare analys.

Jim Miller på The press enterprise gick igenom för- och nackdelar med olika scanningsmetoder och verktyg.
Han listade ett antal gratisprogram:
Pdftotext
Imagemagick
Tesseract
QPDF
Document cloud
Han menar att de alla är ganska bra, men att samtliga får problem när PDF:en är i form av en bild.
Där måste man köpa mer avancerade program:
ABBY fine reader
Omnipage18
Able2extract
CogniviewPDF2XL
Acrobat pro.

Bröderna Carles och Edward Duncan visade upp en betaversion av deras open sourceprojekt DocHive, som verkar lovande för svenska förhållanden med mycket papper från myndigheter.
Deras program kan definiera fasta fält i dokument, och extrahera från dessa till ett spreadsheet. Det återstår en del att fixa innan de är helt klara, men jag kommer att sitta ner med dem på lördagen och snacka vidare med dem om vad som kan vara användbart och vilka features och workflows som skulle vara nyttiga för oss.
Nästa steg handlar om att förstå textfiler och tvätta smutsig data. Där lyssnade jag på flera sessioner med den lysande Liz Lucas från IRE. Vi har ju hunnit lära oss en del av Helena Bengtsson på detta område, men detta gav mig mycket bättre förståelse för systematiken och tänket bakom arbetet.
Tidigare har jag försökt tvätta med Word, men nu fick vi känna på Ultra Editor, och för mig var det ett mycket mer logiskt och rationellt verktyg, hoppas mina chefer är beredda att punga ut med 60 dollar.
Några grundläggande frågor när man står inför en stor och rörig textfil:
Är datan städad?
Hur är den delad – med komma, pipes, tabs, fixerad vidd, eller något annat?
Har den överskrifter, headers?
Har den ”Text qualifiers”, tex ” eller något annat tecken?
Hur många records finns det?
Genom att börja med en sådan överblick sparar man mycket bekymmer längre fram i jobbet.
Vi fick också en duvning i hur ”Regular expressions” kan användas för att identifiera mönster eller karaktärer i en text. Hur man kan använda så kallade Meta-karaktärer i sitt städarbete. Alla dessa kan man hitta på www.Rubular.com
Sessionen Practical document mining såg ut att bli riktigt matnyttig när det gäller att dyka ner i stora dokumentmängder för att suga ut det göttaste snabbt.
Verktygen Document cloud och det mycket lovande Overview skulle visas upp, men på grund av datatekniska problem blev demon något av en flopp. Dessutom finns programmen än så länge inte för svenska språket och är tillsvidare inte så användbart för oss. Men det pågår redan nu ansträngningar för att fixa till detta, och då kommer det att bli mycket nyttigt för oss.
Kolla på www.overview.org
På lördagen var det äntligen dags för mig att lära mig mer om hur man ställer frågor till datan, det är ju trots allt det som det går ut på. Tre hårdkokta sessioner senare har jag äntligen börjat fatta hur det går till, och hur man joinar två databaser för att få spännande svar.

/Peter Jonsson, Mittmedia

Smidiga redaktionella bevakningsskärmar

Ben Welsh berättade under sitt Lightning talk att han drömde om en superalgoritm som crawlade runt på internet och hittade nyheter medan han sov. Ett annat enklare och lite mer jordnära sätt att hitta nyheter är att bygga en redaktionell bevakningsskärm. Under rubriken ”Dashboards for reporting” samtalade Aaron Bycoffe, Jacob Harris och Derek Willis om hur de byggt enkla webbtjänster för att hjälpa reportrar i deras dagliga arbete.

De demonstrerade bland annat interna webbappar som med jämna mellanrum kontrollerade webbsidor efter information som nyligen lagts till på den specifika sidan. Som exempel visades en webbapplikation som letade nya uppladdade dokument om kampanjbidrag eller anteckningar från den som missat omröstningar i senaten. Genom att samla alla länkar till nyligen tillagda dokument i bevakningsskärmen slapp reportrarna själva gå in på sidan för att se om något nytt tillkommit. För att ytterligare hjälpa redaktionen hade de dessutom i flera fall byggt till påminnelsetjänster så att den som önskade kunde få ett mejl när något nytt hände på sidan som bevakades. I fall där reportrarna tidigare behövde surfa in på flera olika sidor med jämna mellanrum räckte det numera med att surfa in på sidan för bevakningsskärmen eller vittja inkorgen efter påminnelser om att ny information tillkommit.

Bevakningsskärmarna har utvecklats i nära samarbete med redaktionen och har bland annat gjort att reporterarbetet blivit mer effektivt och att redaktionerna snabbare kan hitta nyheter som annars ligger djupt inbäddade i olika webbsidor.

Johan Silfversten Bergman, Svenska Dagbladet

Prediktiv analys

Under ett av dagens föredrag fick jag chansen att se hur man i USA arbetar med prediktiv analys inom sportjournalistik. Prediktiv analys skiljer sig från beskrivande analys, eftersom beskrivande statistik enbart svarar på frågan ”hur ser det ut just nu, eller hur såg det ut förut?”. Prediktiv analys kan svara på frågan ”hur kommer någonting se ut i morgon?”. Ofta använder man så kallad regressionsanalys för beräkningar.

Prediktiv analys har länge använts inom en mängd områden, och det är roligt och intressant att se att det även börjar dyka upp inom journalistkåren. Exemplen som vi tittade på under föredraget handlade främst om att räkna ut förväntade resultat inom basket, fotboll o.s.v. Man kan även räkna ut olika index för spelare, baserat på ”home-runs” och andra mätbara variabler inom varje sport. På så sätt kan man redovisa om en spelare eller lag har ”over performed” eller ”under performed”.

Andra exempel som visades var USA TODAYs Diversity Index, som mäter på en skala 0-100 sannolikheten att två slumpmässigt valda personer i ett visst område kommer att ha 2 olika etniska bakgrunder. Det är alltså ett mått framtaget som ger en blid på hur mångkulturellt ett visst område (exempelvis en kommun) är. Denna information kan sedan plottas på olika sätt, bland annat på en karta. (Se bild).

diversity_map

 

/Christopher Broxe, SAS Institute

Avslöjanden och kylslaget utedisco

Sanningen bakom nyheten om djurparkens nyfödda elefantunge och avslöjandet om hur det billiga men livsfarliga metadonet tar liv i rasande takt i fattiga områden. En stor dos inspiration gav seminariet Year in CAR – en rask genomgång av det senaste årets databaserade gräv. Majoriteten av dessa och en mängd andra gräv, finns att se på IRE:s sajt.

Med en snygg, rörlig grafisk presentation slog till exempel Seattle Times hål på myten om djurparkens söta elefantunge och visade hur elefanterna i landets zoo-parker förökat sig, ibland i incestföhållanden – men också hur spädbarnsdödligheten var tre gånger så hög som i naturliga förhållanden. Seattle Times har gjort den uppmärksammade granskningen av hur metadon i större utsträckning ges i fattigare områden – vilket lett till mängder av dödsfall i samma områden. NBC Bay Area visade i sitt avslöjande hur stora företag får bidrag som uteslutande är till för små.

Mer inspiration gavs på ”Inspect this”, om möjligheten att granska inspektionsprotokoll, frekvensen av inspektioner, om böter betalas eller inte etc. Hotell, restauranger, vårdinrättningar och skolor – det mesta inspekteras. Ett nyhetsarbete som lätt kan appliceras på svenska kontrollmyndigheter och inspektörer.

Slående med de projekt som hittills presenterats under CAR-dagarna är att den amerikanska offentlighetsprincipen sträcker sig längre än den svenska. Bara tanken på att vi måste betala ett privat företag för att få en förteckning över svenska postnummer att använda vid ett enstaka tillfälle, känns skrattretande.

Gårdagens chock inföll framåt kvällen när gatan utanför hotellet förvandlats till en pumpande nattklubb, med dånande högtalare, bar, horder av kids, utklädda besökare och obligatorisk legkontroll om de passerande skulle passa på att köpa sig en drink. Allt presenterat i ett nollgradigt och blåsigt Loiusville.

Maria Sundén Jelmini, Svenska Dagbladet

Små tecken som kan ge stora scoop

Ett av fredagens seminarium handlade om möjligheten att använda sig av så kallade ”regular expressions” för att tvätta texter.

Helena Bengtsson visade ju en del av detta på det senaste workshopen i Stockholm men här fanns det alltså fler tips att få.
För snacket stod Jon McClure som är student på University of Missouri och Liz Lucas som är Database Library director på NICAR.

Att komma ihåg vad bakvända snedstreck, små tak och stjärnor i kombination med olika bokstäver och tecken gjorde med en text erkände de var svårt och tipsade därför om sidan rubular.com som både hade en lista över många av uttrycken men också en funktion som gjorde att man direkt kunde se om en sökning man planerar att göra fungerar.

I slutet har jag bifogat ett utdrag från sidan med några av uttrycken.

Det mest slående är att man med smarta sökningar kan hitta exempelvis namn i stora datamängder, även om de är felstavade. Det görs genom att kombinera en sökning på bokstäver man här helt säker finns med tecken som ersätter bokstäver man tror att folk kan ha svavat fel.

Söksträngen ”R\w*fe\w*t” ger exempelvis träff på det korrekta Reinfeldt men också på det felstavade och inte så ovanliga Reinfelt. Däremot sorterar det helt riktigt bort Readford och Reinfraudt.

Men hjälp av uttrycken kan man också få ihop rader att använda i Excel även om grunddokumentet kan sakna den upprepande struktur som normalt krävs. Om en rad växlande avslutas med en eller två eller tre radslut så kan man med uttrycken täcka in det och ändå få det rätt på slutet.

Söksträngen ”g\n*O” hittar till exempel mellanrummen mellan nedanstående poster oavsett hur många radslut det är.

Objekt: Dyrt hus 1, pris: mer än man har råd med, köpare: Göran Moneysson, församling: Finansia församling

Objekt: Ruggigt dyr kåk 2, pris: smaklöst dyrt, köpare: Göran Peng, församling: Dyrelunds församling

Objekt: Skrytbugge 3, pris: ett normalt näringslivsavgångsvederlag, köpare: Göran Saedelprasselh, församling: Vonankien församling

Objekt: Southfork 4, pris: dollar, köpare: Göran Mynthian, församling: Avrundauppåt församling

Alla funktioner fungerar dock inte på alla texteditors så föreläsarna uppmanade oss att kolla i dokumentationen om det stod att de stödde ”regular expressions”.
Deras UltraEdit som kostade pengar, 89 dollar, gjorde det men det fanns också gratisalternativ, exempelvis Notepad++.

Nördigt? Ja, något så fruktansvärt.

Jag tror dock att det kan göra stor skillnad där det finns problem som måste lösas och ibland kan det nog vara enda vägen vidare med ett textmaterial man vill ha in i Excel.

Peter Ferm, Helsingborgs Dagblad.

Här kommer en lista på några av uttrycken. Fler finn på rubular.com.

[abc] A single character of: a, b or c
[^abc] Any single character except: a, b, or c
[a-z] Any single character in the range a-z
[a-zA-Z] Any single character in the range a-z or A-Z
^ Start of line
$ End of line
\A Start of string
\z End of string
. Any single character
\s Any whitespace character
\S Any non-whitespace character
\d Any digit
\D Any non-digit
\w Any word character (letter, number, underscore)
\W Any non-word character
a? Zero or one of a
a* Zero or more of a
a+ One or more of a
a{3} Exactly 3 of a
a{3,} 3 or more of a
a{3,6} Between 3 and 6 of a

Steg för steg

För oss som inte är så erfarna inom datajournalistik och alla programvaror som finns så var fredagen väldigt givande. Själv har jag jobbat en del i Excel, men mycket av det jag gjort har rostat en del på senare tid och många av de kurser jag gick på idag skrapade bort det på ett litet kick.

Därför var hands-on kurser precis vad jag behövde, att få sitta och fräscha upp det lilla jag kan, men framför allt få lära mig sånt jag inte kunnat tidigare.

Något som slagit mig flera gånger under konferensen är hur man kan ha nytta av samma föreläsning trots att man kan ligga på vitt skilda nivåer vad gäller förkunskaper.

En norsk kollega visade ett par gånger i dag var ”skåpet ska stå” och visade till och med en av föreläsarna på plats genom att visa en del funktioner i excel, medan senare på dagen fick jag själv agera hjälp åt en amerikansk kvinna som hade svårt att hänga med på ”Data analysis on the fly with excel”.

Det gäller bara att hitta sin egen nivå för var man vill ligga så klarar man sig ganska fint.

Men den kanske bästa föreläsningen jag var på i dag var med PROPublicas Joe Kokenge . Han kallar sig själv för trippel- och fyrdubbelt paranoid ,vilket han försökte visa att det inte var ett farligt tillstånd om du är datajournalist.

Han började med att säga:

– This class i s about how you avoid wasting a year worth of work because your dataset just isn’t reliable.

Det gör att man hajar till lite extra.  Överlag handlade sessionen mer om att få ut ett tankesätt om att vara extremt kritisk mot din data, för den har oftast fel och säger oftast fel sak, om du inte fixar till den först. Väldigt intressant och nyttigt för en ny datajournalist. Kände igen mig ganska mycket när han pratade om att man antar alldeles för mycket om sin data egentligen, men att ”assuming is always bad”.

Det är heller inte varje dag man får lyssna till en Pulitzer Prize-vinnare, men så var alltså fallet i går. Mycket inspirerande att få höra mer om ett arbetssätt och ett sätt att tänka som jag försöker lära mig från någon som i princip varit med och utveckla vår (än så länge) lilla gren.

Sara Cohen, New York Times

Sara Cohen, New York Times

/Mikael Tjernström, Mittmedia

 

”The data isn’t the journalism”

2003 vann Sarah Cohen en Pulitzer. Scoopet handlade om hur barn, med anknytning till olika delar av den offentliga omsorgen, dött av misshandel eller vanvård och hur sociala myndigheter på olika sätt begått misstag som direkt eller indirekt lett till barnens död. Ett omfattande journalistarbete som satte fokus på de allra svagaste.

Idag hade vi förmånen att ha ett exklusivt lunchseminarium med Sarah Cohen, som är en av datajournalistikens nestorer i USA. En intagande dam med pondus, blixtrande intelligens och charm.

Sarah berättade om hur hon och hennes kollegor gick tillväga för att göra Pulitzer-storyn. Rent krasst handlade det om att gå igenom femton tunga lådor med papper och dokument. På den tiden fanns inga smarta algoritmer online för att scanna av tusentals dokument, så det hela handlade helt enkelt om tålamod och målmedvetenhet.

Enligt Sara Cohen (och jag tror att de flesta håller med henne) så har det hänt mer under de senaste tre åren för datajournalistiken än någonsin. Smarta verktyg för både inhämtning, analys och visualisering av data utvecklas i en rasande fart. På det sättet har journalistkåren en fantastisk möjlighet just nu, att faktiskt göra viktiga journalistiska jobb utifrån data och göra den tillgänglig, både genom spridning och genom att göra den visuellt begriplig.

Ett par saker stannade kvar i mina tankar, saker som jag tror att mediehusen och journalistkåren i Sverige behöver fundera över.

Dels detta med kompetens och uthållighet. Sarah Cohen berättade att de flesta större amerikanska mediehus har någon eller några som är anställda för just datahantering och research. På New York Times, där hon är idag, är dom fem personer. Det är inte många såklart, med tanke på redaktionens storlek. Men ändå. Det finns folk som är dedikerade och har den kunskap och kompetens som krävs. Att lära sig hantera data, att analysera och visualisera den, kräver kompetens. Det är inte realistiskt att tro att alla redaktionsmedlemmar kan göra det på egen hand. För att göra dom här fantastiska scoopen, som ligger därute och väntar på oss, måste medieledningarna i Sverige våga avsätta resurser. Jag tror inte att det behöver handla om horder av folk, men att det måste finnas vissa utvalda som faktiskt får ha detta som specialområde. För egen del, inom vår koncern, ser jag att det kommer att handla mycket om att börja i det lilla. Och att få redaktörer och nyhetschefer att förstå vad det hela går ut på och se till att det publiceras på ett vettigt sätt.

En annan sak hon sa var ungefär såhär: ”We got the methods from social science and took them into journalism”. Det tycker jag är ett väldigt viktigt perspektiv, att det faktiskt handlar om metoder som i grunden är vetenskapliga. Därför måste vi se till att vår data är relevant, att vi har kunskap inte bara om att analysera och visualisera data, utan om datan i sig. Vad står den för? Var kommer den ifrån? Vi behöver vara vaksamma och se till att vi förhåller oss kritiska till själva datan. Ju mer vi har tillgång till offentlig, lättillgänglig data, desto viktigare blir det att vi faktiskt har kunskap om den.

”The data isn’t the journalism”, sa Sarah Cohen också. Alltså, data i sig är inte journalistik. Vi kan berätta hur mycket som helst i staplar, diagram och interaktiva kartor. Men själva journalistiken är ju fortfarande att berätta något viktigt om verkligheten, att sätta fokus på någonting. Utan den inställningen blir det oerhört tråkigt och egentligen bara ett referat i diagram som inte engagerar någon.

Men jag tror att det som mest fastnar i mig är bilden av den femton lådorna med dokument. Av den vilja och uthållighet som låg bakom Sarah Cohens Pulitzer-vinnande knäck. Den viljan och uthålligheten – den behöver vi nog mest av allt.

 

boxes

/Anna Lindberg, NTM

Program för att konvertera PDF-filer

Den lilla ideella nyhetssajten Raleigh Public Record I North Carolina har utvecklat ett eget program för konvertering av PDF-filer till strukturerad text och kommer nu att göra det tillgängligt för andra journalister (open source). Programmet heter DocHive och är anpassat till särskilt besvärliga dokument från de lokala myndigheterna i Raleigh men det kan användas på andra håll, tror skaparna. Tre personer har utvecklat programmet under tre år: de båda bröderna och journalisterna Charles och Edward Duncan och it-ingenjören Damarius Hayes (på bilden syns Edward Duncan till vänster och Damarius Hayes till höger).

DocHive-001

Damarius Hayes berättar att det handlar om att konvertera dokument med många rektangulära rutor, något som är svårt med existerande program.

– Om det till exempel rör sig om dokument för kampanjbidrag så skapar programmet separata sektioner av varje ruta och sedan görs varje sektion om till image-filer, säger han.

Han hoppas att programmet kan bli till nytta för många redaktioner.

– Har du några PDF:er som behöver konverteras är det bara att skicka till mig. Inte tusentals sidor kanske men om det rör sig om 50 eller 100. Det kan jag göra på min fritid, säger Damarius Hayes.

Joel Dahlberg, Svenska Dagbladet

2013 CAR Mini Boot-Camp

Idag inledde jag en så kallad Mini-Boot Camp som kommer att köras i tre halvdagarspass. Normalt sett håller NICAR fyradagars Boot Camps, men av förklarliga skäl erbjuds en kortare variant här i Louisville.

Vår kurs hålls av entusiastiska Jaimi Dowdell/IRE. Eftersom många har olika förkunskaper började hon med att gå igenom Excel från grunden. Kan tyckas lite segt, men alltid är det någon liten detalj som kan komma till nytta vartefter.

Trots allt ramlade det på ganska bra och under den andra halvan av dagens övningar var vi inne på så kallade Pivot-tabeller. De gör det möjligt att sortera upp materialet på helt andra innehåll och värden.

I morgon kommer Boot-Campen att gå vidare till Access-databaser. Det är för mig helt orörd mark, så det ska bli intressant att lära sig.

Jaimi Dowdell gav även en hel den handfasta tips om hur hon gör när hon till exempel får excel-filer från myndigheter skickat till sig. Det första hon gör är att kontrollera att alla summeringar verkligen stämmer. Inte helt ovanligt att det finns fel där. När hon väl har rätt material att utgå från och sedan har gjort sin analys så gör hon

Mini-Boot Camp at CAR2013

Mini-Boot Camp at CAR2013

om hela processen igen om tid finnes. Allt för att utesluta att något fel letar sig in.

– Undvik att ha så mycket siffror med i artikeln som kommer ut av er analys. Låt er analys ge er underlag för att berätta historian med ord, säger Jaimi Dowdell.

För den som gillar att bolla med siffror i excel-ark rekomenderar Jaimi Dowdell boken ”Numbers in the Newsroom” skriven av Sara Cohen (som föreläste för oss på lunchpasset).

/Thomas Möller, Norrköpings Tidningar

Dokumentmolnet på svenska?

Har du femtusen hemliga dokument som någon lämnat på din trappa och en deadline som närmar sig?  Normalt innebär detta en hel del intressanta utmaningar.  Det finns hjälp att få – om dina dokument är på engelska.

Under tredje dagen på ICAR2013 visade Ted Han  och Jonathan Stray två mycket intressanta öppna programvaror som är till för att skapa överblick och göra anteckningar i stora dokumentmängder.  DocumentCloud (www.documentcloud.org) och Overview (http://overview.ap.org).

Overview används för att skapa en snabb överblick av stora mängder av dokument med syftet att visa relationer mellan dokument. Dessa relationer kan  visualiseras på en mängd sätt, allt för att underlätta för journalister att finna de dokument som är intressanta för att skapa en nyhet.

DocumentCloud är ett initiativ för att ge tillgång till stora dokumentmängder. Det är enkelt att ladda upp dokument och göra dem sökbara på en mängd olika sätt. Det spelar inte någon roll om dokumenten är i pdf-format som behöver läsas med hjälp av teckenigenkänning eller om det är twittermeddelanden, epost. Det mesta går att få in i dokumentmolnet.

Programvarorna gör intelligent klassificering av olika saker som kan finnas i dokumentet, namn, företagsnamn, adresser, datum, bara för att nämna några.  Det är sedan möjligt att visualisera dokumentet på olika sätt för att hitta intressanta nyheter i materialet.  Journalister göra anteckningar som visas direkt i dokumentet och publicera på sin webbplats.  Gränssnittet är intuitivt, och presentationen till användare är överskådlig.

Men vad är haken? Jo, eftersom den intelligenta programvaran bara finns för språken engelska, franska och spanska är verktyget inte användbart för svenska dokument.

Svenska är ett minoritetsspråk i världen, något som gör att de tjänster som behövs för att göra nyhetsskapande effektivt och öppet tillgängligt saknas för svenska. Här är ett hål som behöver fyllas.   För att göra en svensk version av DocumentCloud krävs två saker: en svensk teckenigenkännare och en så kallad Named Entity Recognizer (NER), den senare för att kunna tolka en textsnutt till ett namn, ett datum och så vidare.  Här finns det inte en snar lösning. Att tillverka en NER för svenska är något som är fullt möjligt, men det kräver en del resurser för att det ska bli bra.  Det vore dock en allmän nyttighet som skulle gagna fler än journalister.  Exakt hur återstår att undersöka.

Har du några uppslag?  Hör av dig!

/Anders Green, forskare i medieteknik

1 2 3 4