Blogg / Datajournalistik

Ett forsknings- och utvecklingsprojekt i samverkan

Ställ frågor till din databas genom att använda statistikprogrammet R

En av torsdagens första sessioner handlade om att vända på begreppen när det gäller databaser. Istället för att ha ett projekt där man tydligt vet varför man vill ha en databas, vilka svar man vill få ut av den – så kan man istället angripa databasen med en mer öppen och utvärderande modell. Chase Davis, som har arbetat på CaliforniaWatch – och som strax ska börja sin anställning på New York Times pratade om skillnaden mellan att förhöra – och intervjua databasen – något man gör när man har en klar bild av vad informationen i databasen kan ge, och att konversera med databasen – för att kanske hitta andra vinklar och idéer.

Enligt Chase Davis gör man detta i fyra steg, de två första något som man alltid bör göra oavsett syftet med databasen: Steg ett och två innefattar kontroll av data på olika sätt – man undersöker om det finns dubletter, var max och min värdena är, om det finns variationer av samma variabelvärde mm. Men det är steg tre och fyra som, är mer prövande och utforskande, som exempelvis att titta på hur alla variabler korrelerar med varandra – hur förhåller de sig till varandra, kan man hitta samband?

Ett verktyg för detta är R, ett statistiskt program som man måste kunna lite programmering för att använda. Men, när man väl har satt sig in i hur det fungerar är det otroligt kraftfullt. Med ett enda kommando, summary, kan man utvärdera samtliga variabler på en gång – få en tabell över medel, median, max och min värden för alla variabler. Genom denna överblick är det lättare att hitta en vinkel eller story som man kanske inte tänkt sig.

Ett annat sätt är att använda visualiseringar som analysmetod – exempelvis boxplot, som ger dig en bild över hur variablernas värden varierar, dvs är alla värden samlade eller är de utspridda, var ligger extremvärdena mm.

Scatterplotts gjorda i R

Scatterplotts gjorda i R.

Man kan också använda en matris av scatterplot som ger en bild över hur alla variabler interagerar med varandra – och på det sättet hitta samband mellan oväntade variabler. Se exempel på detta här:

Inlägget skrivet av Helena Bengtsson (@HelenaBengtsson), databasredaktör på SVT Pejl

Bli först att kommentera på “Ställ frågor till din databas genom att använda statistikprogrammet R

Kommentera

E-postadressen publiceras inte. Obligatoriska fält är märkta *