Blogg / Datajournalistik

Ett forsknings- och utvecklingsprojekt i samverkan

Små tecken som kan ge stora scoop

Ett av fredagens seminarium handlade om möjligheten att använda sig av så kallade ”regular expressions” för att tvätta texter.

Helena Bengtsson visade ju en del av detta på det senaste workshopen i Stockholm men här fanns det alltså fler tips att få.
För snacket stod Jon McClure som är student på University of Missouri och Liz Lucas som är Database Library director på NICAR.

Att komma ihåg vad bakvända snedstreck, små tak och stjärnor i kombination med olika bokstäver och tecken gjorde med en text erkände de var svårt och tipsade därför om sidan rubular.com som både hade en lista över många av uttrycken men också en funktion som gjorde att man direkt kunde se om en sökning man planerar att göra fungerar.

I slutet har jag bifogat ett utdrag från sidan med några av uttrycken.

Det mest slående är att man med smarta sökningar kan hitta exempelvis namn i stora datamängder, även om de är felstavade. Det görs genom att kombinera en sökning på bokstäver man här helt säker finns med tecken som ersätter bokstäver man tror att folk kan ha svavat fel.

Söksträngen ”R\w*fe\w*t” ger exempelvis träff på det korrekta Reinfeldt men också på det felstavade och inte så ovanliga Reinfelt. Däremot sorterar det helt riktigt bort Readford och Reinfraudt.

Men hjälp av uttrycken kan man också få ihop rader att använda i Excel även om grunddokumentet kan sakna den upprepande struktur som normalt krävs. Om en rad växlande avslutas med en eller två eller tre radslut så kan man med uttrycken täcka in det och ändå få det rätt på slutet.

Söksträngen ”g\n*O” hittar till exempel mellanrummen mellan nedanstående poster oavsett hur många radslut det är.

Objekt: Dyrt hus 1, pris: mer än man har råd med, köpare: Göran Moneysson, församling: Finansia församling

Objekt: Ruggigt dyr kåk 2, pris: smaklöst dyrt, köpare: Göran Peng, församling: Dyrelunds församling

Objekt: Skrytbugge 3, pris: ett normalt näringslivsavgångsvederlag, köpare: Göran Saedelprasselh, församling: Vonankien församling

Objekt: Southfork 4, pris: dollar, köpare: Göran Mynthian, församling: Avrundauppåt församling

Alla funktioner fungerar dock inte på alla texteditors så föreläsarna uppmanade oss att kolla i dokumentationen om det stod att de stödde ”regular expressions”.
Deras UltraEdit som kostade pengar, 89 dollar, gjorde det men det fanns också gratisalternativ, exempelvis Notepad++.

Nördigt? Ja, något så fruktansvärt.

Jag tror dock att det kan göra stor skillnad där det finns problem som måste lösas och ibland kan det nog vara enda vägen vidare med ett textmaterial man vill ha in i Excel.

Peter Ferm, Helsingborgs Dagblad.

Här kommer en lista på några av uttrycken. Fler finn på rubular.com.

[abc] A single character of: a, b or c
[^abc] Any single character except: a, b, or c
[a-z] Any single character in the range a-z
[a-zA-Z] Any single character in the range a-z or A-Z
^ Start of line
$ End of line
\A Start of string
\z End of string
. Any single character
\s Any whitespace character
\S Any non-whitespace character
\d Any digit
\D Any non-digit
\w Any word character (letter, number, underscore)
\W Any non-word character
a? Zero or one of a
a* Zero or more of a
a+ One or more of a
a{3} Exactly 3 of a
a{3,} 3 or more of a
a{3,6} Between 3 and 6 of a

2 reaktioner på “Små tecken som kan ge stora scoop

  1. Magnus Ljadas

    Lär dig vim och regexp och du kan kalla dig textninja. Lär dig sedan sed och awk också och du kan kalla dig för blackbelt.

    Svara
  2. Pingback: Bokmärken för March 3rd från 10:23 till 10:23 « Coverage

Kommentera

E-postadressen publiceras inte. Obligatoriska fält är märkta *