Blogg / Datajournalistik

Ett forsknings- och utvecklingsprojekt i samverkan

Gräva, städa, sortera

Jag har försökt följa ett spår om hur man skaffar data och gör den användbar.
”Those bastardly PDF:s, and how to deal with them” var temat på en par sessioner som handlade om hur man omvandlar skrivna dokument till något som går att sortera in i spreadsheets för vidare analys.

Jim Miller på The press enterprise gick igenom för- och nackdelar med olika scanningsmetoder och verktyg.
Han listade ett antal gratisprogram:
Pdftotext
Imagemagick
Tesseract
QPDF
Document cloud
Han menar att de alla är ganska bra, men att samtliga får problem när PDF:en är i form av en bild.
Där måste man köpa mer avancerade program:
ABBY fine reader
Omnipage18
Able2extract
CogniviewPDF2XL
Acrobat pro.

Bröderna Carles och Edward Duncan visade upp en betaversion av deras open sourceprojekt DocHive, som verkar lovande för svenska förhållanden med mycket papper från myndigheter.
Deras program kan definiera fasta fält i dokument, och extrahera från dessa till ett spreadsheet. Det återstår en del att fixa innan de är helt klara, men jag kommer att sitta ner med dem på lördagen och snacka vidare med dem om vad som kan vara användbart och vilka features och workflows som skulle vara nyttiga för oss.
Nästa steg handlar om att förstå textfiler och tvätta smutsig data. Där lyssnade jag på flera sessioner med den lysande Liz Lucas från IRE. Vi har ju hunnit lära oss en del av Helena Bengtsson på detta område, men detta gav mig mycket bättre förståelse för systematiken och tänket bakom arbetet.
Tidigare har jag försökt tvätta med Word, men nu fick vi känna på Ultra Editor, och för mig var det ett mycket mer logiskt och rationellt verktyg, hoppas mina chefer är beredda att punga ut med 60 dollar.
Några grundläggande frågor när man står inför en stor och rörig textfil:
Är datan städad?
Hur är den delad – med komma, pipes, tabs, fixerad vidd, eller något annat?
Har den överskrifter, headers?
Har den ”Text qualifiers”, tex ” eller något annat tecken?
Hur många records finns det?
Genom att börja med en sådan överblick sparar man mycket bekymmer längre fram i jobbet.
Vi fick också en duvning i hur ”Regular expressions” kan användas för att identifiera mönster eller karaktärer i en text. Hur man kan använda så kallade Meta-karaktärer i sitt städarbete. Alla dessa kan man hitta på www.Rubular.com
Sessionen Practical document mining såg ut att bli riktigt matnyttig när det gäller att dyka ner i stora dokumentmängder för att suga ut det göttaste snabbt.
Verktygen Document cloud och det mycket lovande Overview skulle visas upp, men på grund av datatekniska problem blev demon något av en flopp. Dessutom finns programmen än så länge inte för svenska språket och är tillsvidare inte så användbart för oss. Men det pågår redan nu ansträngningar för att fixa till detta, och då kommer det att bli mycket nyttigt för oss.
Kolla på www.overview.org
På lördagen var det äntligen dags för mig att lära mig mer om hur man ställer frågor till datan, det är ju trots allt det som det går ut på. Tre hårdkokta sessioner senare har jag äntligen börjat fatta hur det går till, och hur man joinar två databaser för att få spännande svar.

/Peter Jonsson, Mittmedia

Bli först att kommentera på “Gräva, städa, sortera

Kommentera

E-postadressen publiceras inte. Obligatoriska fält är märkta *