I 1873 kom Ivar Aasen ut med Norsk Ordbog med dansk Forklaring, grunnlaget for det som seinare skulle verta nynorsk. Boka er tilgjengelig i elektronisk form på Aasentunet, i eit noko uhendig format (Microsoft Word). Men med nokre greie verktøy kan me gjera ho om til eit enkelt koda tekstformat, og med litt skripting få Ivar Aasen rett i terminalen.
Sluttresultatet er eit kjapt, lite GNU/Linux-program for oppslag av enkeltord. Slik ser det ut i praksis:
Omgjering av dataformatet
Først må me lasta ned ordboka frå Aasentunet. For å gjera ho om til rett format, treng me desse verktøya:
- OpenOffice.org (eg brukte versjon 3.0.1)
- HTML Tidy (eg brukte versjonen frå 1. september 2005)
Opna ordbokfila i OpenOffice.org, og lagra ho på nytt i HTML-format, med namnet 1873-ordbok.html
. Last så ned og kjør bash-skriptet konverter-norsk-ordbog.sh i same mappa som du lagra ordbokfila. Skriptet masserer HTML-fila, og etter nokre minutt (rundt fem på mi ganske gamle og trege maskin), spyttar det ut fila norsk-ordbog.dat
, som inneheld ordboka i eit enkelt tekstformat.
(Eg skulle gjerne lagt ut fila ferdigkonvertert, men er usikker på om eg har lov til det. Eg sendte ein e-post til Aasentunet med spørsmål om dette, men fekk aldri svar. Derfor må me gjera det på denne meir tungvinte måten.)
Bruk av programmet
Last ned norsk-ordbog.sh og forkortingar.dat i same mappa som før. Førstnemnde er skriptet me brukar til å slå opp ord med, og syntaksen er so enkel som han kan verta:
./norsk-ordbog.sh oppslagsord
Ting å hugsa på:
- Oppslagsorda brukar a-infinitiv – hjelpa, ikkje hjelpe
- Oppslagsorda bruka a-endinga for hokjønn – stjerna, ikkje stjerne
- Stavemåten var noko annleis før – gjenta, ikkje jente
Programmet prøver å ta vare på informasjon frå papirutgåva, ved å gjera kursiv og halvfeit tekst om til farga tekst. Men det har òg nokre særs kjekke funksjonar som me ikkje finn i papirutgåva:
- Automatisk omgjering av «å» til «aa»: Oppslag på ås finn oppslagsordet «Aas».
- Støtta for jokerteikna til Bokmålsordboka og Nynorskordboka på nett: Oppslag på teig% finn alle orda som startar med «teig», og _att finn alle orda som består av ein vilkårlig bokstav etterfølgd av «att» («hatt», «katt», «natt», og so vidare).
- Støtta for regulære uttrykk (meir avanserte jokerteikn): Oppslag på .*[^m]ann finn alle orda som sluttar på «ann» men ikkje på «mann».
- Automatisk utviding av forkortingar. Du treng ikkje lenger bla fram og tilbake til mellom forkortingsoversikta framst i boka og oppslagsorda, eller hugsa at for eksempel «Shl.» står for «Søndhordland» og «Ght.» for «Gammel Høitydsk» lenger. Mykje lettare å lesa!
Andre plattformer
Skriptet er laga for GNU/Linux, men det kan vera du kan få det til å verka på andre plattformer òg. På Mac skal det visstnok fungera nokolunde viss du byter ut sed
med ssed
og fjernar valet -t
frå fmt
-kommandoen. Takk til Kevin Brubeck Unhammer for testing.
Spørsmål og tilbakemeldingar er for øvrig hjertelig velkomne. Legg igjen ein kommentar her, eller send ein e-post direkte til meg.
1 kommentar