Blogg / Datajournalistik

Ett forsknings- och utvecklingsprojekt i samverkan

Dokumentmolnet på svenska?

Har du femtusen hemliga dokument som någon lämnat på din trappa och en deadline som närmar sig?  Normalt innebär detta en hel del intressanta utmaningar.  Det finns hjälp att få – om dina dokument är på engelska.

Under tredje dagen på ICAR2013 visade Ted Han  och Jonathan Stray två mycket intressanta öppna programvaror som är till för att skapa överblick och göra anteckningar i stora dokumentmängder.  DocumentCloud (www.documentcloud.org) och Overview (http://overview.ap.org).

Overview används för att skapa en snabb överblick av stora mängder av dokument med syftet att visa relationer mellan dokument. Dessa relationer kan  visualiseras på en mängd sätt, allt för att underlätta för journalister att finna de dokument som är intressanta för att skapa en nyhet.

DocumentCloud är ett initiativ för att ge tillgång till stora dokumentmängder. Det är enkelt att ladda upp dokument och göra dem sökbara på en mängd olika sätt. Det spelar inte någon roll om dokumenten är i pdf-format som behöver läsas med hjälp av teckenigenkänning eller om det är twittermeddelanden, epost. Det mesta går att få in i dokumentmolnet.

Programvarorna gör intelligent klassificering av olika saker som kan finnas i dokumentet, namn, företagsnamn, adresser, datum, bara för att nämna några.  Det är sedan möjligt att visualisera dokumentet på olika sätt för att hitta intressanta nyheter i materialet.  Journalister göra anteckningar som visas direkt i dokumentet och publicera på sin webbplats.  Gränssnittet är intuitivt, och presentationen till användare är överskådlig.

Men vad är haken? Jo, eftersom den intelligenta programvaran bara finns för språken engelska, franska och spanska är verktyget inte användbart för svenska dokument.

Svenska är ett minoritetsspråk i världen, något som gör att de tjänster som behövs för att göra nyhetsskapande effektivt och öppet tillgängligt saknas för svenska. Här är ett hål som behöver fyllas.   För att göra en svensk version av DocumentCloud krävs två saker: en svensk teckenigenkännare och en så kallad Named Entity Recognizer (NER), den senare för att kunna tolka en textsnutt till ett namn, ett datum och så vidare.  Här finns det inte en snar lösning. Att tillverka en NER för svenska är något som är fullt möjligt, men det kräver en del resurser för att det ska bli bra.  Det vore dock en allmän nyttighet som skulle gagna fler än journalister.  Exakt hur återstår att undersöka.

Har du några uppslag?  Hör av dig!

/Anders Green, forskare i medieteknik

Bli först att kommentera på “Dokumentmolnet på svenska?

Kommentera

E-postadressen publiceras inte. Obligatoriska fält är märkta *