Das Indexierungssystem Lingo leistet eine Grundformidentifizierung bzw. Grundformreduktion mit einem Grundformenwörterbuch und einer zugehörigen einfachen Suffixliste. Zusätzlich wurden für Lingo eine algorithmische und eine lexikalische Mehrworterkennung sowie eine allgemeine lexikalische Relationierung von Termen realisiert. Neben diesen linguistischen Kernfunktionen ist es möglich, mit Lingo Termgewichte nach absoluter und relativer Auftretenshäufigkeit zu ermitteln.
Da Lingo primär für Forschung und Lehre eingesetzt wird, wurde bei der Entwicklung großer Wert auf die Transparenz des Programms und seiner Bestandteile, sowie auf die Transparenz der Programmabläufe bei einer Indexierung gelegt. Alle Funktionen des Systems sind umfangreich konfigurierbar und damit für individuelle Einsatzzwecke leicht anzupassen.
Lingo ist in der Programmiersprache Ruby programmiert, benötigt eine Ruby-Umgebung Version 2.0 oder höher und lässt sich als RubyGem installieren (ausführliche Installationshinweise):
gem install lingo
Lingo verfügt über keine grafische Benutzeroberfläche. Sämtliche Programmabläufe werden über die Kommandozeile gestartet. Für die Arbeit mit Lingo kann man sich mit folgendem Befehl eine Arbeitsumgebung einrichten:
lingoctl demo lingo-work
Der Befehl kopiert alle benutzerspezifischen Dateien der Lingo-Installation in das neue Verzeichnis "lingo-work" (das auch anders genannt werden kann). Dieses Verzeichnis hat vier Unterverzeichnisse:
- "config" enthält Konfigurationsdateien für Lingo
- "dict" enthält alle Benutzerwörterbücher in sprachspezifischen Unterverzeichnissen
- "lang" enthält die sprachspezifischen Konfigurationen
- "txt" enthält die von Lingo zu indexierenden Dateien, u.a. Testdateien
lingo -c lingo.cfg txt/artikel.txt
Testet das System mit der Standardkonfiguration und dem Beispieltext deutsch.
lingo -c lir.cfg txt/lir.txt
Testet das System für die lir-Konfiguration.
lingo -c lingo.cfg -l en txt/artikel-en.txt
Testet das System für die englische Sprache.
Die Ergebnisse einer Lingo-Indexierung sind nicht im Kommandozeilen-Fenster zu sehen, sie werden in das Verzeichnis geschrieben, in dem sich die zu indexierende Datei befindet, hier in das Verzeichnis "txt".
Die Funktionen von Lingo werden jeweils von eigenen Programmmodulen (attendees) realisiert, die in einem Indexierungslauf (Lingo-Sitzung) hintereinander geschaltet sind und so aufeinander aufsetzen. Eine Lingo-Sitzung ist aufgebaut wie eine Besprechung mit mehreren Teilnehmern (attendees), die über eine Konfiguration eingeladen werden. Die Fähigkeiten der eingeladenen Teilnehmer bestimmen das Besprechungsergebnis, d. h. die Ergebnisse der Indexierung.
Als linguistisches, wörterbuchgestütztes System ist Lingo von den verfügbaren und eingebundenen Wörterbüchern direkt abhängig. Lingo-Wörterbücher sind als Quelltext reine Textdateien, die mit jedem Editor bearbeitet werden können. Für die Verwendung der Wörterbücher in Indexierungsläufen müssen diese aus Performance-Gründen in Datenbankdateien umgewandelt werden. Lingo prüft bei jedem Programmstart, ob es möglicherweise neue oder geänderte Wörterbuchquellen gibt und wandelt diese, falls noch nicht geschehen, selbstständig in Datenbankdateien um. Die generierten Datenbanken werden im Verzeichnis "store" als jeweils zusammengehörende dir- und pag-Dateien abgelegt.
Eine grundlegende Einführung in die Thematik findet sich im Lehrbuch "Informationserschließung und Automatisches Indexieren".
Keine Kommentare:
Kommentar veröffentlichen