Blogg / Datajournalistik

Ett forsknings- och utvecklingsprojekt i samverkan

Samlade tankar

Så var Nicar över för den här gången. Och för andra året i rad åker jag hem med både hopp och förtvivlan.

Förtvivlan för att det känns som att jag ligger lååångt efter med mina kunskaper i kod då man sett så många som är så otroligt duktiga på det de gör och väldigt kreativa med det.

Men samtidigt också hopp då man har mer inspiration än någonsin att fortsätta lära sig och bli bättre och till slut kunna göra något man faktiskt har nytta av själv. Ser verkligen fram emot att gå igenom en massa tipsheets när jag kommer hem.

Det jag egentligen redan visste men som blev ännu tydligare under konferensen var att hands-on sessionerna var de som verkligen gav någonting som man kommer ha nytta av sedan. Jag tror att vi som utlänningar generellt inte får ut lika mycket av alla paneler då det är så mycket man pratar om och exempel som visas som är väldigt specifika för USA. Men självklart har det funnits några intressanta diskussioner, som till exempel en om vad man gör när det inte finns data. Matt Waite, Meghan Hoyer och Sarah Cohen hade alla lite olika exempel de visade och intressanta idéer att ta med sig. Framför allt Matts tankar kring sensorer tycker jag var intressant.

Mina topp tre saker från konferensen:

  1. ArcGIS – jag hoppas verkligen att jag får tag på en subscription när jag kommer hem, då blir det karta av.
  2. QGIS – Gratisverktyget som jag kommer använda direkt när jag kommer hem.
  3. Twine – Textbaserat verktyg för att bygga interaktiva nyhetsspel. Kan vara riktigt informativt och jag kommer verkligen försöka att få till något i det här verktyget när jag kommer hem.

Mikael Tjernström, Mittmedia

GEO-Tips

Idag blev ytterligare en dag i kartskapandets tjänst för mig. Dagens första två sessioner ägnade jag åt att kika på gratisverktyget QGIS. Jag ska inte försöka förklara alla funktioner som programmet har för det finns alldeles för många ,men jag tänkte att jag skulle tipsa om ett par saker som jag själv hajade till och tänkte att de skulle vara väldigt användbara.

Det första var hur mångsidigt programmet var vad gäller filformat. Det är väldigt enkelt att konvertera olika typer av filer med geografisk information till det man vill ha vilket kan vara shapefiler, kml, eller kanske geoJSON. Väldigt bra om man får tag på filer som kanske inte är det format man behöver, till exempel så vill man kanske ha en kml-fil om man vill jobba vidare i Fusion Tables.

Man kan också trimma väldigt stora filer så att de blir mindre, vilket så klart medför att den geografiska informationen (polygonerna till exempel) blir lite mindre exakta, men du kan även bespara dina läsare väldigt långa laddningstider.

Som jag nämnde så får jag intrycket av att QGIS är ett bra verktyg för att agera lite mellanhand när det gäller att överföra data till en karta och publicera den på webben. Det går inte att bygga mer interaktiva webbkartor direkt i programmet, men du kan väldigt enkelt skapa geoJSON-filer som du sedan kan ta vidare till verktyg som CartoDB eller Leaflet om du kan lite javascript.

Men det kanske mest uppenbara användningsområdet för mig som jobbar inom printmedia (även om vi ska tänka digitalt först) är att det väldigt enkelt går att skapa statiska kartor och exportera dem som ganska högupplösta jpg:s eller pdf-filer som skulle gå att använda i print.

Många gånger så har man ju gjort en webbkarta i något verktyg men så ska man publicera samma artikel i print, och då blir bildlösningen oftast en annan eftersom den karta man gjort inte funkar i print. Det här kändes som en bra lösning på det och jag ska definitivt testa det mer när jag kommer hem!

/Micke Tjernström, Mittmedia

Hur mycket är en karta värd?

Jag var på en mycket intressant föreläsning idag med representanter från ArcGIS ett onlinebaserat verktyg för att bygga interaktiva kartor redo för publicering. Verktyget har många likheter med Google Fusion Tables, men jag skulle vilja påstå att ArcGIS är lite som Fusion Tables på steroider. Mer om det strax.

Det var en grej jag fastnade för på föreläsningen när en av männen från ArcGIS berättade att man gjort studier på hur en interaktiv karta påverkar läsarens beteende. Enligt dem var snittiden en läsare tillbringade på en vanlig artikel två minuter, medan i de fall där det fanns en interaktiv karta så hade det ökat till sex och en halv minut.

Såna studier vill jag (och förmodligen väldigt många med mig) se på svenska läsare. Det är precis den frågan: hur påverkar våra kartor/diagram/webappar läsarna egentligen?

Det är en fråga som vi diskuterat vid flera tillfällen under projektets gång och något som är av största vikt när vi börjar fundera på vad vi ska lägga vår energi och satsa på i framtiden.

Jag hade en väldigt intressant diskussion med en interaktionsdesigner i vår utvecklingsgrupp på Mittmedia. Han menade att vi som journalister borde sikta efter att göra det så enkelt som möjligt för våra läsare och verkligen fundera på om interaktivitet verkligen är något att eftersträva. Enligt honom kan det vara lika bra att använda statisk grafik eller bilder för att förklara saker eftersom för många val kan göra det krångligt och rörigt för läsaren samt att man på så sätt snabbare får läsaren att förstå än om hen ska klicka sig fram ett par steg först.

Jag håller inte riktigt med honom dock. Jag tycker att det kan finnas flera fördelar med att ha grafik som är interaktiv. Jag tror att man kan få läsarna att första grejen lika snabbt med interaktiva visualiseringar, det handlar helt enkelt om att göra det bra. Interaktivitet ger dessutom möjlighet till en djupare förståelse.

Hoppas att någon hänger med i vad jag menar även om det blir lite flummigt.

I alla fall, tillbaka till ArcGIS. Jag blev riktigt imponerad det verktyget faktiskt. Valmöjligheter för utseende med mera kändes betydligt bättre än på Fusion Tables och väldigt enkelt att förstå. Det finns även översatt till svenska ser det ut som men jag har inte testat det ännu.

Det som återstår att utvärdera är vilka begränsningar man kan stöta på. Det finns en radbegränsning i den fria versionen så det kan påverka en del och sen vet man aldrig om man stöter på något mer. Vi som var på sessionen fick dock lämna in våra mailadresser för att få ta del av deras desktopversion av programmet gratis (kostar i vanliga fall) så jag ser verkligen fram emot att få testa det när jag kommer hem.

Mikael Tjernström, Mittmedia

Konferensen ur Mikael Tjernströms (Mittmedia) perspektiv

Är tillbaka på jobbet efter en riktigt bra konferens på Södertörns högskola. Det blev många intressanta diskussioner, man fick mycket inspiration från andras exempel plus att jag plockade en del nyttig kunskap från hands-on-sessioner.

De mest intressanta diskussionerna i mina ögon var den som handlade om hur utvecklare och journalister kan arbeta tillsammans på redaktionerna och den avslutande panelen om datajounralistik i framtiden, där det kändes som att alla i båda panelerna panelen i princip var överens om att samarbete mellan folk  med dessa kompetenser borde förekomma i större utsträckning än vad det gör i dag. Tyckte också att Ben Welsh från LA Times hade en del intressanta synpunkter i egenskap av någon med båda kompetenserna, han uppmanade alla journalister att ta mer ansvar och lära sig till exempel kodning själva för att få saker att hända.

I inspirationsväg så var det flera saker som stack ut i mina ögon. Mest av allt tror jag det var Offshore Leaks-projektet som Mar Cabra presenterade som jag fastnade för. När vi fick sitta och söka i deras databas på hands-on-passet satt jag verkligen och önskade att jag skulle hitta något bekant namn så att jag fick en anledning att få ta del av mer av deras material. Grymt imponerande hur man kan jobba tillsammans över så många landsgränser! Läs mer om det här

Jag passade också på att lära mig lite grunder i SQL med Helena Bengtsson från SVT Pejl på lördagsmorgonen och det tror jag att jag kan ha stor nytt av ju mer avancerade databasprojekt jag ger mig på i framtiden. Jag kommer absolut att fortsätta lära mig mer på egen hand.

För min egen del så tyckte jag att det var lite trist att det kom så lite folk på vår (jag, min kollega Anna Wikner, och Anna Lindberg, NTM) session på fredagen. Jag tror att det hade varit bättre om vi bakat ihop den med panelen innan då det blev sent på dsagen och många kanske passade på att kila hem lite tidigare för att fräscha upp sig inför kvällen.

Men överlag så tror jag konferensen nådde ett stort mål – att man sått fler frön ute på redaktionerna till att börja använda metoderna. Jag tycker att sessionerna överlag låg på rätt nivå för målgruppen och jag tror att intresset bara kommer att öka efter det här och jag hoppas på en repris nästa år.

 

Micke Tjernström, Mittmedia

Datajournalistik i framtiden

Konferensen närmar sig med stormsteg och själv är jag väldigt nyfiken på de diskussioner som kommer hållas kring framtiden för datajournalistiken hos medieföretagen. På fredagen hålls en paneldiskussion på ämnet som jag inte missar.

Strax innan hålls också en session om hur utvecklare och journalister jobbar tillsammans på olika redaktioner, något jag tror är framtidens melodi. Det ska bli riktigt spännande och jag hoppas att det kan göra intryck på beslutsfattarna runt om i mediesverige. Intressant också med lite input från USA i form av Ben Welsh från LA Times.

Annars är konferensen en guldgruva för den som vill lära sig om datajournalistik från grunden. Det finns ett flertal hands-on-kurser båda dagarna som jag egentligen tycker att varenda journalist som inte har kunskaper sedan tidigare borde gå på. Google Fusion Tables med Anna och Thomas från NTM, eller någon av excelkurserna är självklara val, men också Jens Finnäs ”The data journalism toolkit: the essential online tools that everyone should know” lär vara riktigt nyttig och det kommer säkert resultera i många knäck ute i landet från dem som går dit. Sedan måste jag så klart slå ett slag för dubbelpasset med Tableau Public som Peter Grensund håller i där jag och Tobias Brandel från SvD är sidekicks, ett riktigt kraftfullt analysprogram som tillåter även oss som inte kan koda själva att visualisera data interaktivt på webben!

/Micke Tjernström, Mittmedia

Uppsnappat

“Get to the people who actually manage data. PR staffers don’t know anyting about data.” (Tim Eberly, The Atlanta journal-Constitution)

“Always assume there are problems in data” (David Donald, center for Public integrity)

“We make the invisible visible” (Maud Beelman, Dallas Morning news)

“The data looks different after every time I have talked to a person about it” (Jennifer LaFleur, ProPublica).

Gräva, städa, sortera

Jag har försökt följa ett spår om hur man skaffar data och gör den användbar.
”Those bastardly PDF:s, and how to deal with them” var temat på en par sessioner som handlade om hur man omvandlar skrivna dokument till något som går att sortera in i spreadsheets för vidare analys.

Jim Miller på The press enterprise gick igenom för- och nackdelar med olika scanningsmetoder och verktyg.
Han listade ett antal gratisprogram:
Pdftotext
Imagemagick
Tesseract
QPDF
Document cloud
Han menar att de alla är ganska bra, men att samtliga får problem när PDF:en är i form av en bild.
Där måste man köpa mer avancerade program:
ABBY fine reader
Omnipage18
Able2extract
CogniviewPDF2XL
Acrobat pro.

Bröderna Carles och Edward Duncan visade upp en betaversion av deras open sourceprojekt DocHive, som verkar lovande för svenska förhållanden med mycket papper från myndigheter.
Deras program kan definiera fasta fält i dokument, och extrahera från dessa till ett spreadsheet. Det återstår en del att fixa innan de är helt klara, men jag kommer att sitta ner med dem på lördagen och snacka vidare med dem om vad som kan vara användbart och vilka features och workflows som skulle vara nyttiga för oss.
Nästa steg handlar om att förstå textfiler och tvätta smutsig data. Där lyssnade jag på flera sessioner med den lysande Liz Lucas från IRE. Vi har ju hunnit lära oss en del av Helena Bengtsson på detta område, men detta gav mig mycket bättre förståelse för systematiken och tänket bakom arbetet.
Tidigare har jag försökt tvätta med Word, men nu fick vi känna på Ultra Editor, och för mig var det ett mycket mer logiskt och rationellt verktyg, hoppas mina chefer är beredda att punga ut med 60 dollar.
Några grundläggande frågor när man står inför en stor och rörig textfil:
Är datan städad?
Hur är den delad – med komma, pipes, tabs, fixerad vidd, eller något annat?
Har den överskrifter, headers?
Har den ”Text qualifiers”, tex ” eller något annat tecken?
Hur många records finns det?
Genom att börja med en sådan överblick sparar man mycket bekymmer längre fram i jobbet.
Vi fick också en duvning i hur ”Regular expressions” kan användas för att identifiera mönster eller karaktärer i en text. Hur man kan använda så kallade Meta-karaktärer i sitt städarbete. Alla dessa kan man hitta på www.Rubular.com
Sessionen Practical document mining såg ut att bli riktigt matnyttig när det gäller att dyka ner i stora dokumentmängder för att suga ut det göttaste snabbt.
Verktygen Document cloud och det mycket lovande Overview skulle visas upp, men på grund av datatekniska problem blev demon något av en flopp. Dessutom finns programmen än så länge inte för svenska språket och är tillsvidare inte så användbart för oss. Men det pågår redan nu ansträngningar för att fixa till detta, och då kommer det att bli mycket nyttigt för oss.
Kolla på www.overview.org
På lördagen var det äntligen dags för mig att lära mig mer om hur man ställer frågor till datan, det är ju trots allt det som det går ut på. Tre hårdkokta sessioner senare har jag äntligen börjat fatta hur det går till, och hur man joinar två databaser för att få spännande svar.

/Peter Jonsson, Mittmedia

Steg för steg

För oss som inte är så erfarna inom datajournalistik och alla programvaror som finns så var fredagen väldigt givande. Själv har jag jobbat en del i Excel, men mycket av det jag gjort har rostat en del på senare tid och många av de kurser jag gick på idag skrapade bort det på ett litet kick.

Därför var hands-on kurser precis vad jag behövde, att få sitta och fräscha upp det lilla jag kan, men framför allt få lära mig sånt jag inte kunnat tidigare.

Något som slagit mig flera gånger under konferensen är hur man kan ha nytta av samma föreläsning trots att man kan ligga på vitt skilda nivåer vad gäller förkunskaper.

En norsk kollega visade ett par gånger i dag var ”skåpet ska stå” och visade till och med en av föreläsarna på plats genom att visa en del funktioner i excel, medan senare på dagen fick jag själv agera hjälp åt en amerikansk kvinna som hade svårt att hänga med på ”Data analysis on the fly with excel”.

Det gäller bara att hitta sin egen nivå för var man vill ligga så klarar man sig ganska fint.

Men den kanske bästa föreläsningen jag var på i dag var med PROPublicas Joe Kokenge . Han kallar sig själv för trippel- och fyrdubbelt paranoid ,vilket han försökte visa att det inte var ett farligt tillstånd om du är datajournalist.

Han började med att säga:

– This class i s about how you avoid wasting a year worth of work because your dataset just isn’t reliable.

Det gör att man hajar till lite extra.  Överlag handlade sessionen mer om att få ut ett tankesätt om att vara extremt kritisk mot din data, för den har oftast fel och säger oftast fel sak, om du inte fixar till den först. Väldigt intressant och nyttigt för en ny datajournalist. Kände igen mig ganska mycket när han pratade om att man antar alldeles för mycket om sin data egentligen, men att ”assuming is always bad”.

Det är heller inte varje dag man får lyssna till en Pulitzer Prize-vinnare, men så var alltså fallet i går. Mycket inspirerande att få höra mer om ett arbetssätt och ett sätt att tänka som jag försöker lära mig från någon som i princip varit med och utveckla vår (än så länge) lilla gren.

Sara Cohen, New York Times

Sara Cohen, New York Times

/Mikael Tjernström, Mittmedia

 

Hur uttalas det egentligen?

bild

Vi från Mittmedia hoppade ju på ett tåg som redan börjat rulla. Efter en dag i Louisville (hur uttalas det egentligen?) har känslan att vi fortfarande dinglar med benen lite utanför kanten på sista vagnen förstärkts.
Lite som att komma in i en verkstad där alla delarna känns välbekanta, men där det finns en massa nya glänsande verktyg som man kan se vad de är till för, men känner en viss valhänthet inför.
Därför valde vi att ägna det mesta av första dagen åt den tredelade panelföreläseningen ”The Data driven story”. Den gick på ett bra sätt igenom hela processen från idé till publicering.
För oss som alla är vana nyhetsreportrar kändes det inte svårt att förstå delarna som handlade om att skaffa fram data, göra bakgrundsresearch och faktakontrollera. Däremot blev det uppenbart att vi behöver lära oss verktygen för att sortera, strukturera och analysera data. Och det gäller i ännu högre grad tekniken bakom att visualisera data på ett sätt som just driver storyn.
Markus Sandin kan ha några nya idéer om det senaste, efter besök på föreläsningar om Tableau public. Vi andra avslutade dagen med ett högst imponerande exempel. Reuters har jobbat i ett år med att göra en komplett relationsdatabas över hela Kinas ledande skikt. Ett oerhört reporterarbete, sammanställt i en fantastisk grafik skapad i HTML5.
I morgon blir det mer hands on. Vi kommer att proppa i oss allt vi hinner om Excel, Acess och andra analysverktyg,

Till sist funderar vi hur många Västernorrlänningar som varit i Louisville tidigare. Det kan inte vara många. Däremot har vi hittat en Louisvillebo som var i vårt län redan på 60-talet.

Mohammad Alis hemstad är Louisville.

Mohammad Alis hemstad är Louisville.