Bijlage D. plug-in Tokenizer

1. Introductie
2. Installatie en gebruik

1. Introductie

Tokenizers (of stemmers) verbeteren de kwaliteit van de overeenkomsten door het herkennen va betrokken woorden in de bron en gegevens in de vertaalgeheugens. Zij verbeteren ook de overeenkomsten voor de woordenlijsten.

Een stemmer voor bijvoorbeeld Engels zou de tekenreeks "cats" identificeren (en mogelijk "catlike", "catty" etc.) omdat die is gebaseerd op de stam "cat", en "stemmer", "stemming", "stemmed" omdat die is gebaseerd op "stem". Een stemming algoritme reduceert de woorden "fishing", "fished", "fish", en "fisher" tot de stam van het woord: "fish". Dit is speciaal bijzonder handig in het geval van talen die vormen voor voor- en achtervoegsel voor de stamwoorden gebruiken. Lenen we een voorbeeld uit het Sloveens, hier "good" in alle mogelijke grammaticaal juiste vormen:

  • lep, lepa, lepo - enkelvoud, mannelijk, vrouwelijk, neutraal

  • lepši, lepša, lepše . - comparatief, nominatief, mannelijk, vrouwelijk, neutraal, resp. meervoudsvorm van het bijvoeglijk naamwoord

  • najlepših - superlatief, meervoud, genitief voor M,F,N

2. Installatie en gebruik

Tokenizers zijn opgenomen in OmegaT. OmegaT selecteert automatisch een tokenizer voor de bron- en de doeltaal, overeenkomstig de taalinstellingen van het project. Het is mogelijk om een andere tokenizer te selecteren of een andere versie van de tokenizer in het venster Projecteigenschappen.

Niet compatibel

OmegaT zal niet starten als er tokenizers worden gevonden in de map /plugin. Verwijder alle tokenizers uit de map /plugin vóórdat OmegaT wordt gestart.