Blogg / Datajournalistik

Ett forsknings- och utvecklingsprojekt i samverkan

Program för att konvertera PDF-filer

Den lilla ideella nyhetssajten Raleigh Public Record I North Carolina har utvecklat ett eget program för konvertering av PDF-filer till strukturerad text och kommer nu att göra det tillgängligt för andra journalister (open source). Programmet heter DocHive och är anpassat till särskilt besvärliga dokument från de lokala myndigheterna i Raleigh men det kan användas på andra håll, tror skaparna. Tre personer har utvecklat programmet under tre år: de båda bröderna och journalisterna Charles och Edward Duncan och it-ingenjören Damarius Hayes (på bilden syns Edward Duncan till vänster och Damarius Hayes till höger).

DocHive-001

Damarius Hayes berättar att det handlar om att konvertera dokument med många rektangulära rutor, något som är svårt med existerande program.

– Om det till exempel rör sig om dokument för kampanjbidrag så skapar programmet separata sektioner av varje ruta och sedan görs varje sektion om till image-filer, säger han.

Han hoppas att programmet kan bli till nytta för många redaktioner.

– Har du några PDF:er som behöver konverteras är det bara att skicka till mig. Inte tusentals sidor kanske men om det rör sig om 50 eller 100. Det kan jag göra på min fritid, säger Damarius Hayes.

Joel Dahlberg, Svenska Dagbladet

Bli först att kommentera på “Program för att konvertera PDF-filer

Kommentera

E-postadressen publiceras inte. Obligatoriska fält är märkta *