Blogg / Datajournalistik

Ett forsknings- och utvecklingsprojekt i samverkan

En ostrukturerad värld

Om några dagar slår dörrarna upp till den Nordiska konferensen om datajournalistik.

Jag har under ca ett års tid fått en viss insikt i grävande journalistik, och för mig som står lite utanför det rent redaktionella och journalistiska arbetet, har det varit ett spännande år.

Mediaåret 2013 har varit fullt av avslöjande reportage i Radio/TV/Tidningar, där vissa av de avslöjande reportagen har fått följdeffekter långt utanför våra gränser. Jag har fått stor respekt för hur dessa journalister arbetar och hur metodiskt och outtröttligt de går till väga för att hitta en bra och viktig story.

Själv kommer jag från IT-sidan, och har specialiserat mig på ostrukturerad analys. Det är mycket bra att dessa frågor även börjar anammas av journalister.

Ostrukturerad data analys (kallas ibland för Text Analys även om det inte är helt korrekt. Ostrukturerad analys innefattar även analys av röst, bild e.t.c.) används idag för att underlätta för grävande journalister. Det handlar om mycket mer än att bara göra en ”google sökning” eller ta fram ett ”word cloud”. Det kan handla om att automatiskt gå igenom tusentals dokument skrivna på olika språk samt i olika format (pdf,ms word m.m) och sedan extrahera intressanta fakta ur dessa.

Det glädjer mig att konferensens program innehåller en mängd spännande presentationer på ämnet data/ IT stöd.

Vi ses på Fredag!

//Christopher Broxe, SAS Institute AB

Prediktiv analys

Under ett av dagens föredrag fick jag chansen att se hur man i USA arbetar med prediktiv analys inom sportjournalistik. Prediktiv analys skiljer sig från beskrivande analys, eftersom beskrivande statistik enbart svarar på frågan ”hur ser det ut just nu, eller hur såg det ut förut?”. Prediktiv analys kan svara på frågan ”hur kommer någonting se ut i morgon?”. Ofta använder man så kallad regressionsanalys för beräkningar.

Prediktiv analys har länge använts inom en mängd områden, och det är roligt och intressant att se att det även börjar dyka upp inom journalistkåren. Exemplen som vi tittade på under föredraget handlade främst om att räkna ut förväntade resultat inom basket, fotboll o.s.v. Man kan även räkna ut olika index för spelare, baserat på ”home-runs” och andra mätbara variabler inom varje sport. På så sätt kan man redovisa om en spelare eller lag har ”over performed” eller ”under performed”.

Andra exempel som visades var USA TODAYs Diversity Index, som mäter på en skala 0-100 sannolikheten att två slumpmässigt valda personer i ett visst område kommer att ha 2 olika etniska bakgrunder. Det är alltså ett mått framtaget som ger en blid på hur mångkulturellt ett visst område (exempelvis en kommun) är. Denna information kan sedan plottas på olika sätt, bland annat på en karta. (Se bild).

diversity_map

 

/Christopher Broxe, SAS Institute

OpenElections Project

OpenElection Project är ett projekt som kommer att löpa under ca 2 år. Det är ett projekt som bland annat har deltagare från New York Times och The Washington Post.

Projektet syftar till att skapa en gemensam databas där i princip alla Amerikanska valresultat skall finnas tillgängliga, från alla delstater.

I USA har man en mängd olika val, samt ibland helt olika valsystem i de olika delstaterna. Att lyckas att få en enhetlig och jämförbar bild, är således mycket svårt.

Just nu är projektet inne i en insamligsfas och man ber allmänheten om hjälp. Med allmänheten menar jag andra journalister från olika delstater.

Problemet med att samla in data i USA är bland annat att delstaterna skiljer sig enormt åt, när det gäller i vilken kvalité data finns tillgängligt i. I exempelvis Ohio och Florida, finns all statistik mer eller mindre i digital, tvättat format. I vissa andra delstater (exempelvis Mississippi) så kan äldre valdata finnas i pappersformat!

Man har byggt ett webinsamlingsformulär där tanken är att man skall dela med sig av data, givet att man har tillgång till det. Det kan röra sig om val av ”State officials”, ”Senate”, ”House”, ”Special elections” ända upp till ”President election”.

Tanken är att när datat har samlats in (man använder sig av data från 2000 och framåt) så skall allmänheten kunna få ta del av allt data. Det kommer sålunda att möjliggöra för journalister att snabbt och enkelt ta fram rapporter och statistik kring valrelaterade frågor i sin hemdelstat.

Mer information finns på http://blog.openelections.net/

 

//Christopher Broxe, SAS Instituteopenelection

Python boot-camp

Tyvärr fanns det inga lediga platser kvar till denna kurs när jag tittade från Sverige, men jag hoppades” att jag skulle ha tur och få en ledig plats strax innan kursen startade. Som tur var så fanns det några som inte kom, och jag kunde hoppa in i deras ställe.

Python är ett programeringsspråk som växt i popularitet. Ett mycket användbart område är så kallad ”Webscraping”.

Det handlar kort om att ladda ner data från internet, (som i allmänhet har ett format typ html, xml), och sedan konvertera informationen till ett format som passar analyssyftet bättre än html. Det kan exempelvis handla om att ladda ner information fran en websida, sedan tvätta datat och slutligen exportera det till Excel.

Under boot-campet så använde vi en sida på internet som innehåller information om banker som gått i konkurs. Den uppdateras så fort en ny bank har gått under. Vi lärde oss att ladda ner informationen och sedan få denna info i Excel, i ett analyserbart skick.

Mycket nyttig information, och väldigt använbart.

python