Dokumente automatisiert transkribieren – Handschriftenerkennung mit OCR/HTR-Software

Typ	Präsenzseminar
Dozent/in	Julian Helmchen
Anmeldung	→ Online anmelden
Raum	Garystr. 39 Schulungsraum K063
Beginn	02.12.2025 \| 10:00
Ende	02.12.2025 \| 14:00

Zielgruppe

Lehrende, Forschende, Mitarbeitende und Studierende der Freien Universität

Voraussetzungen

Eigener Laptop

Vom Dokument zur Edition (Teil 1): Dokumente automatisiert transkribieren – Handschriftenerkennung mit OCR/HTR-Software

Mit dem Medienwandel zeichnet sich auch im Bereich kritischer Editionen ein Paradigmenwechsel ab: Die Tendenz geht zur „digitalen Edition“, die entweder begleitend zur klassischen Print-Publikation eingesetzt wird oder diese als genuin digitales Produkt immer häufiger vollständig substituiert. Das Internet, sog. neue Medien sowie der verstärkte Einsatz von Informationstechnologie in den Geisteswissenschaften eröffnen dabei neue Möglichkeitsräume für Erfassung, Analyse und Visualisierung von Inhalten. Um diese Potenziale ausschöpfen und in nachhaltige Editionsprodukte umsetzen zu können, gilt es bei Konzeption und Realisierung konsequent einem „digitale Paradigma“ zu folgen. Dies erfordert u. a. ein grundlegendes Verständnis der involvierten Technologien und technischen Prozesse von der Erschließung des zu edierenden Gegenstands bis hin zu dessen Präsentation in ggf. multiplen Wiedergabeszenarien.

Am Anfang eines digitalen Editionsprojekts steht in der Regel das Digitalisat einer historischen Handschrift oder eines Drucks. Kommerzielle KI-Technologien, allen voran Large Language Models, stoßen bei deren Verarbeitung (noch) schnell an ihre Grenzen. Etabliert hat sich in den letzten Jahren hingegen der Einsatz von sog. HTR-Programmen, mit deren Hilfe Digitalisate semiautomatisch segmentiert und Texte transkribiert werden können. Unterstützt durch maschinelles Lernen lassen sich hierzu für das vorliegende Material Modelle trainieren, die z. B. auf das Erkennen bestimmter Schriften spezialisiert sind. Die Nutzung gängiger HTR-Software steht daher im Zentrum dieses Workshops. Es werden anhand von Beispieldokumenten Schritt für Schritt Dokumentimport, Verwaltung von Dokumentkorpora, Layoutanalyse und HTR-Erkennung erprobt. Des Weiteren werden im erkannten Text Annotationen vorgenommen, die beim Datenexport in das Zielformat, z. B. TEI-XML, übernommen werden und als Grundlage für die Weiterverarbeitung, z. B. eine Datenanalyse oder die Überführung der Daten in eine Publikation, dienen können.

Die Veranstaltung ist Teil der Reihe „Vom Dokument zur Edition“, die einen Gesamtüberblick über eine mögliche technische Infrastruktur für die digitale Edition handschriftlicher Dokumente vermittelt. Die Veranstaltungen bauen aufeinander auf, können aber auch als Einzelveranstaltung besucht werden.

Inhalte

Grundlagen der Textauszeichnung
TEI als XML-Anwendung
Einführung in das TEI-Vokabular
Einführung in grundlegende Kodierungs-Konzepte
TEI-Customization
Wiedergabe von TEI-Dokumenten

Lernziele

Sie gewinnen einen Überblick über die grundlegenden Kodierungskonzepte.
Sie erhalten einen Einblick in den Aufbau und die Verwendung der TEI-Guidelines.
Sie lernen auf Grundlage der TEI-Guidelines projektspezifische Anpassungen vorzunehmen und Dokumente zu strukturieren.
Sie können TEI für die Texterschließung sicher anwenden.

Zentraleinrichtung FUB-IT