Blogg / Datajournalistik

Ett forsknings- och utvecklingsprojekt i samverkan

Hej då faktarutan. Välkommen tidslinjen.

15.00 Seminariet borde börjat.
15.02 Seminariet börjar.
15.03 Krista Kjellman Schmidt på ProPublica sjunger tidslinjens lov och radar upp exempel. Alla open source och mycket enkla att använda. Här finns de alla listade: http://lenagroeger.s3.amazonaws.com/timelines/timelines.html
15.04 Först ut är Zach Wise’s TimelineJS. En horisontell tidslinje som går att göra bara genom att skriva text, länkar till klipp, bilder och ljud i ett Google spreadsheet, trycka på publicera-knappen och bädda in. Sällan har jag sett en tjänst som gör så mycket med så lite insats. Dessutom är allt gratis.
15.18 Nästa tidslinje som presenteras är en vertikal sådan. WNYC’s Vertical Timeline. Den bygger också på spreadsheets och är lika enkel att göra.
15.34 Sist ut är ProPublica’s TimelineSetter som är lite krångligare men också väldigt snygg.
15.40 Poängen med tidslinjerna är att bakgrundsfakta blir så väldigt mycket mer intressant i det formatet. Vi kunde direkt tänka ut flera grejer hemma som skulle passa i en tidslinje och den behöver ju inte nödvändigtvis alltid beröra förgången tid utan kan ju också användas för att visa ett kommande skede.
15.47 Sammantaget ett väldigt effektivt och bra seminarium men många direkt omsättningsbara kunskaper. Nedan länkar till tidslinjerna. Det är bara att sätta igång!

/Peter Ferm, HD

Zach Wise’s TimelineJS: http://timeline.verite.co/
WNYC’s Vertical Timeline: http://johnkeefe.net/the-thinking-behind-wnycs-new-vertical-timeli
ProPublica’s TimelineSetter: http://propublica.github.com/timeline-setter/

Svensk-Amerikanska förhandlingar i känsligt läge

Gårdagens mest intressanta samtal ägde rum på kvällen. Jag och Anders Green på Södertörn hamnade i klorna på två lärare/forskare vid Ohio state univeristys journalistutbildning.
De var mycket imponerade av vårt projekt och ville omedelbart börja diskutera olika möjliga samarbeten.
Jag kände att vi kanske inte riktigt hade det mandatet men artigheten krävde ändå fortsatta samtal. En stund senare fanns ett ramverk på plats komplett med studentutbyte och gästföreläsningar av forskare på båda sidor av Atlanten. Dessutom var de beredda att hjälpa oss med feedback och diskussioner om vi körde fast i vårt arbete.
Både jag och Anders kunde väl i proncip stanna och börja jobba/studera i Ohio på måndag.

Skämt åsido. De var verkligen engagerade, både i datajournalistik lokalt men också i att sprida kunskapen om metoder och arbetssätt på ett mycket konkret och aktivt sätt vilket vi blev varse.
Trots att allt som sades i dessa nattmanglingar kanske inte äger giltighet under ljusan dag så finns nog här ändå ett embryo till någonting som skulle kunna utvecklas. Att projektet skulle kunna ha kontakter med universitetet i Ohio i olika frågor är ju en intressant tanke. Den tar vi med oss.
Och ska det hållas fler förhandlingar så räkna med mig och Anders.

/Peter Ferm, Helsingborgs Dagblad.

Små tecken som kan ge stora scoop

Ett av fredagens seminarium handlade om möjligheten att använda sig av så kallade ”regular expressions” för att tvätta texter.

Helena Bengtsson visade ju en del av detta på det senaste workshopen i Stockholm men här fanns det alltså fler tips att få.
För snacket stod Jon McClure som är student på University of Missouri och Liz Lucas som är Database Library director på NICAR.

Att komma ihåg vad bakvända snedstreck, små tak och stjärnor i kombination med olika bokstäver och tecken gjorde med en text erkände de var svårt och tipsade därför om sidan rubular.com som både hade en lista över många av uttrycken men också en funktion som gjorde att man direkt kunde se om en sökning man planerar att göra fungerar.

I slutet har jag bifogat ett utdrag från sidan med några av uttrycken.

Det mest slående är att man med smarta sökningar kan hitta exempelvis namn i stora datamängder, även om de är felstavade. Det görs genom att kombinera en sökning på bokstäver man här helt säker finns med tecken som ersätter bokstäver man tror att folk kan ha svavat fel.

Söksträngen ”R\w*fe\w*t” ger exempelvis träff på det korrekta Reinfeldt men också på det felstavade och inte så ovanliga Reinfelt. Däremot sorterar det helt riktigt bort Readford och Reinfraudt.

Men hjälp av uttrycken kan man också få ihop rader att använda i Excel även om grunddokumentet kan sakna den upprepande struktur som normalt krävs. Om en rad växlande avslutas med en eller två eller tre radslut så kan man med uttrycken täcka in det och ändå få det rätt på slutet.

Söksträngen ”g\n*O” hittar till exempel mellanrummen mellan nedanstående poster oavsett hur många radslut det är.

Objekt: Dyrt hus 1, pris: mer än man har råd med, köpare: Göran Moneysson, församling: Finansia församling

Objekt: Ruggigt dyr kåk 2, pris: smaklöst dyrt, köpare: Göran Peng, församling: Dyrelunds församling

Objekt: Skrytbugge 3, pris: ett normalt näringslivsavgångsvederlag, köpare: Göran Saedelprasselh, församling: Vonankien församling

Objekt: Southfork 4, pris: dollar, köpare: Göran Mynthian, församling: Avrundauppåt församling

Alla funktioner fungerar dock inte på alla texteditors så föreläsarna uppmanade oss att kolla i dokumentationen om det stod att de stödde ”regular expressions”.
Deras UltraEdit som kostade pengar, 89 dollar, gjorde det men det fanns också gratisalternativ, exempelvis Notepad++.

Nördigt? Ja, något så fruktansvärt.

Jag tror dock att det kan göra stor skillnad där det finns problem som måste lösas och ibland kan det nog vara enda vägen vidare med ett textmaterial man vill ha in i Excel.

Peter Ferm, Helsingborgs Dagblad.

Här kommer en lista på några av uttrycken. Fler finn på rubular.com.

[abc] A single character of: a, b or c
[^abc] Any single character except: a, b, or c
[a-z] Any single character in the range a-z
[a-zA-Z] Any single character in the range a-z or A-Z
^ Start of line
$ End of line
\A Start of string
\z End of string
. Any single character
\s Any whitespace character
\S Any non-whitespace character
\d Any digit
\D Any non-digit
\w Any word character (letter, number, underscore)
\W Any non-word character
a? Zero or one of a
a* Zero or more of a
a+ One or more of a
a{3} Exactly 3 of a
a{3,} 3 or more of a
a{3,6} Between 3 and 6 of a