Projekte mit Lingo

Lingo wird häufig in Projekten eingesetzt und dort weiterentwickelt. Die folgende Liste soll die wichtigsten Projekte dokumentieren und laufend fortgeschrieben werden.

Bildung von Komposita-Indextermen auf der Basis einer algorithmischen Mehrwortgruppenanalyse mit Lingo

In der deutschen Sprache lassen sich Begriffe durch Komposita und Mehrwortgruppen ausdrücken. Letztere können dabei aber auch als Kompositum selbst ausgedrückt werden und entsprechend auf den gleichen Begriff verweisen. In der nachfolgenden Studie werden Mehrwortgruppen analysiert, die auch Komposita sein können. Ziel der Untersuchung ist es, diese Wortfolgen über Muster zu identifizieren. Analysiert wurden Daten des Karrieremanagers Placement24 GmbH in Form von Stellenanzeigen. Die Extraktion von Mehrwortgruppen erfolgte algorithmisch und wurde mit der Open-Source Software Lingo durchgeführt. Auf der Basis von Erweiterungen bzw. Anpassungen in Wörterbüchern und den darin getaggten Wörtern, wurden drei- bis fünfstellige Kandidaten analysiert. Aus positiv bewerteten Mehrwortgruppen wurden Komposita gebildet. Diese wurden mit den identifizierten Komposita aus den Stellenanzeigen verglichen. Der Vergleich zeigte, dass ein Großteil der neu generierten Komposita nicht durch eine Kompositaidentifizierung erzeugt wurde.

Grün, Stefan: Bildung von Komposita-Indextermen auf der Basis einer algorithmischen Mehrwortgruppenanalyse mit Lingo. Bachelorarbeit, Fakultät für Informations- und Kommunikationswissenschaften, Fachhochschule Köln 2015.

Terminologieextraktion von Mehrwortgruppen in kunsthistorischen Fachtexten

Mit Hilfe eines algorithmisch arbeitenden Verfahrens können Mehrwortgruppen aus elektronisch vorliegenden Texten identifiziert und extrahiert werden. Als Datengrundlage für diese Arbeit dienen kunsthistorische Lexikonartikel des Reallexikons zur Deutschen Kunstgeschichte. Die linguistisch, wörterbuchbasierte Open-Source-Software Lingo wurde in dieser Studie genutzt. Mit Lingo ist es möglich, auf Basis erstellter Wortmuster, bestimmte Wortfolgen aus elektronisch vorliegenden Daten algorithmisch zu identifizieren und zu extrahieren. Die erstellten Wortmuster basieren auf Wortklassen, mit denen die lexikalisierten Einträge in den Wörterbüchern getaggt sind und dadurch näher definiert werden. So wurden individuelle Wortklassen für Fachterminologie, Eigennamen, oder Adjektive vergeben. In der vorliegenden Arbeit werden zusätzlich Funktionswörter in die Musterbildung mit einbezogen. Dafür wurden neue Wortklassen definiert. Funktionswörter bestimmen Artikel, Konjunktionen und Präpositionen. Ziel war es fachterminologische Mehrwortgruppen mit kunsthistorischen Inhalten zu extrahieren unter der gezielten Einbindung von Funktionswörtern. Anhand selbst gebildeter Kriterien, wurden die extrahierten Mehrwortgruppen qualitativ analysiert. Es konnte festgestellt werden, dass die Verwendung von Funktionswörtern fachterminologische Mehrwortgruppen erzeugt, die als potentielle Indexterme weitere Verwendung im Information Retrieval finden können.

Bredack, Juliane: Terminologieextraktion von Mehrwortgruppen in kunsthistorischen Fachtexten. Bachelorarbeit, Fakultät für Informations- und Kommunikationswissenschaften, Fachhochschule Köln 2013.

Bredack, Juliane und Klaus Lepsky: „Automatische Extraktion von Fachterminologie aus Volltexten“, in: ABI Technik 34/1 (2014), S. 2–8.

Detecting multiword phrases in mathematical text corpora

Ein Projekt, bei dem Lingo für eine algorithmische Mehrworterkennung eingesetzt wurde, um mathematische Fachterminologie aus den Nachweisen des Zentralblatts der Mathematik zu extrahieren.

Gödert, Winfried: Detecting multiword phrases in mathematical text corpora. arXiv:1210.0852 [cs.CL] 2 Oct 2012

Automatische Klassifizierung mit DDC: autoclass/DDC

Der Anwendungskontext für Lingo lag in der Weiterentwicklung einer automatischen DDC-Klassifizierung durch Integration einer automatischen Indexierung. Dazu wurde der Erschließungsprozess durch eine linguistische und semantische Vorverarbeitung der Klassifizierungskomponenten (DDC-basierte Repräsentationen und bibliographische Titeldatensätze) mit dem Ziel ergänzt, die Erschließungsmerkmale sprachlich zu vereinheitlichen und mit zusätzlichen synonymen Bezeichnungen anderer Dokumentationssprachen anzureichern.

Objektdokumentation heterogener musealer Bestände

Auf der Basis des Open Source Indexierungssystems Lingo wurde eine automatische Indexierung entwickelt, die - aufsetzend auf den existierenden Rahmenbedingungen - normierte Beschreibungsmerkmale generiert und als Indexterme für das Retrieval zur Verfügung stellt. Zielvorstellung war es, eine einheitliche Suche über die Objektbeschreibungen anhand der sprachlichen und semantischen Vereinheitlichung der Indexterme zu realisieren.

Automatische Erschließung des digitalen Bildarchivs prometheus

In diesem Projekt wurde Lingo eingesetzt, um die Bildbeschreibungen des prometheus-Bildarchivs mit Titelübersetzungen und Synonymen von Künstlernamen anzureichern. » Projektbeschreibung

Erschließungsstudie Landtag NRW

Anhand der Indexierungssoftware Lingo und einer Testkollektion, die aus den elektronischen Dokumenten der Landtagsdokumentation bestand, wurde eine Ausweitung der bisherigen Funktionalitäten der automatischen Indexierung durchgeführt. Dazu wurden die vorhandenen terminologischen Ressourcen (PARTHES-Thesaurus, Wörterbücher, et al.) analysiert und für die Indexierung optimiert.

RDK-WEB: Erstellung einer WEB-Version des Reallexikons zur Deutschen Kunstgeschichte

Dieses von der Deutschen Forschungsgemeinschaft geförderte Projekt diente der Realisierung einer web-basierten Version des “Reallexikons zur Deutschen Kunstgeschichte” (RDK) mit mehrdimensionalen Zugriffsmöglichkeiten durch automatische Erschließungsverfahren.

Keine Kommentare: