COMUTE – Collation of Multilingual Text: Semi-automatische Kollationierung verschiedensprachiger Fassungen eines Textes
Deutsche Forschungsgemeinschaft (DFG), LIS, e-Research-Technologien (GEPRIS-Eintrag)
Ziel des interdisziplinären Projektvorhabens COMUTE ist die Entwicklung algorithmischer Verfahren zur semi-automatischen Kollationierung mehrsprachiger Textfassungen, die keine wort- oder sinngemäßen Übersetzungen darstellen. Der Bereich Digitale Forschungsinfrastrukturen ist für die Erprobung und Anwendung entlang ausgewählter Einsatzszenarien im Kontext Digitaler Editionen verantwortlich.
Projektbeschreibung
Als anwendungsbezogenes Forschungsvorhaben, welches unterschiedliche Lösungsansätze für die semiautomatische Kollationierung verschiedensprachiger nicht-paralleler Fassungen eines Textes ergebnisoffen untersucht, ist COMUTE in der ersten Phase der Entwicklung von e-Research-Technologien verortet. Als Ergebnis sollen die Unterschiede / Abweichungen zwischen den nur bedingt parallelen Texten auf Abschnitts-, Satz-, Phrasen- und Wortebene durch die Verfahren identifiziert werden. Die errechneten Alignierungsdaten werden in standardisierten Formaten (JSON, XML) über eine Schnittstelle ausgeliefert. Das COMUTE-Projekt baut dabei auf dem bestehenden einsprachigen Kollationierungswerkzeug LERA auf und erweitert dieses um eine mehrsprachige Ebene. Der Fokus liegt in einem ersten Schritt auf dem Sprachpaar Deutsch-Englisch. Die entwickelte e-Research-Technologie soll in exemplarischen Anwendungskontexten aus dem Bereich der Digitalen Edition und der Literaturwissenschaft erprobt werden. Sie wird unter einer freien Lizenz zur Nachnutzung durch Dritte bereitgestellt.
Der Bereich Digitale Forschungsinfrastrukturend ist für die Erprobung und Anwendung entlang ausgewählter Einsatzszenarien im Kontext Digitaler Editionen verantwortlich, und setzt dieses u.a. in Kooperation mit dem an der FU angesiedelten Editionsvorhaben Hannah Arendt. Kritische Gesamtausgabe um. Aufgaben sind u.a. die Untersuchung der Möglichkeiten der selektiven Auswertung und Visualisierung der (semi-)automatisch erzeugten Alignierungsdaten in der Einzeltext-Darstellung, und Ausarbeitung und Implementierung von Konzepten zur Nutzung der Alignierungsdaten in der Editionsarbeit.
Projektpartner
- Prof. Dr. Paul Molitor / Dr. Jörg Ritter, Institut für Informatik, Martin-Luther-Universität Halle-Wittenberg
- Prof. Dr. Manfred Stede, Department für Linguistik, Universität Potsdam
- Prof. Dr. Frank Fischer, Institut für Griechische und Lateinische Philologie, Freie Universität Berlin
Schlagwörter
- E-Research-Technologie, Kollationierung, Alignment, Digitale Edition