Dokumente automatisiert transkribieren – Handschriftenerkennung mit OCR/HTR-Software
Typ | Präsenzseminar |
---|---|
Dozent/in | Julian Helmchen |
Anmeldung | → Online anmelden |
Raum | Garystr. 39 Schulungsraum K063 |
Beginn | 02.12.2025 | 10:00 |
Ende | 02.12.2025 | 14:00 |
Zielgruppe
Lehrende, Forschende, Mitarbeitende und Studierende der Freien Universität
Voraussetzungen
- Eigener Laptop
Vom Dokument zur Edition (Teil 1): Dokumente automatisiert transkribieren – Handschriftenerkennung mit OCR/HTR-Software
Mit dem Medienwandel zeichnet sich auch im Bereich kritischer Editionen ein Paradigmenwechsel ab: Die Tendenz geht zur „digitalen Edition“, die entweder begleitend zur klassischen Print-Publikation eingesetzt wird oder diese als genuin digitales Produkt immer häufiger vollständig substituiert. Das Internet, sog. neue Medien sowie der verstärkte Einsatz von Informationstechnologie in den Geisteswissenschaften eröffnen dabei neue Möglichkeitsräume für Erfassung, Analyse und Visualisierung von Inhalten. Um diese Potenziale ausschöpfen und in nachhaltige Editionsprodukte umsetzen zu können, gilt es bei Konzeption und Realisierung konsequent einem „digitale Paradigma“ zu folgen. Dies erfordert u. a. ein grundlegendes Verständnis der involvierten Technologien und technischen Prozesse von der Erschließung des zu edierenden Gegenstands bis hin zu dessen Präsentation in ggf. multiplen Wiedergabeszenarien.
Am Anfang eines digitalen Editionsprojekts steht in der Regel das Digitalisat einer historischen Handschrift oder eines Drucks. Kommerzielle KI-Technologien, allen voran Large Language Models, stoßen bei deren Verarbeitung (noch) schnell an ihre Grenzen. Etabliert hat sich in den letzten Jahren hingegen der Einsatz von sog. HTR-Programmen, mit deren Hilfe Digitalisate semiautomatisch segmentiert und Texte transkribiert werden können. Unterstützt durch maschinelles Lernen lassen sich hierzu für das vorliegende Material Modelle trainieren, die z. B. auf das Erkennen bestimmter Schriften spezialisiert sind. Die Nutzung gängiger HTR-Software steht daher im Zentrum dieses Workshops. Es werden anhand von Beispieldokumenten Schritt für Schritt Dokumentimport, Verwaltung von Dokumentkorpora, Layoutanalyse und HTR-Erkennung erprobt. Des Weiteren werden im erkannten Text Annotationen vorgenommen, die beim Datenexport in das Zielformat, z. B. TEI-XML, übernommen werden und als Grundlage für die Weiterverarbeitung, z. B. eine Datenanalyse oder die Überführung der Daten in eine Publikation, dienen können.
Die Veranstaltung ist Teil der Reihe „Vom Dokument zur Edition“, die einen Gesamtüberblick über eine mögliche technische Infrastruktur für die digitale Edition handschriftlicher Dokumente vermittelt. Die Veranstaltungen bauen aufeinander auf, können aber auch als Einzelveranstaltung besucht werden.
- Teil 2: Textdaten modellieren und kodieren – Einführung in XML und die Arbeit mit dem Oxygen XML Editor
- Teil 3: Textuelle Forschungsdaten standardisieren – Einführung in die Richtlinien und Werkzeuge der Text Encoding Initiative (TEI)
- Teil 4: Editionsdaten semantisch anreichern – XML-Parsing und Named Entity Recognition (NER) mit Python
- Teil 5: Digitale Editionen publizieren – TEI-basierte Textpräsentation mit der TYPED-Infrastruktur
Inhalte
- Grundlagen der Textauszeichnung
- TEI als XML-Anwendung
- Einführung in das TEI-Vokabular
- Einführung in grundlegende Kodierungs-Konzepte
- TEI-Customization
- Wiedergabe von TEI-Dokumenten
Lernziele
- Sie gewinnen einen Überblick über die grundlegenden Kodierungskonzepte.
- Sie erhalten einen Einblick in den Aufbau und die Verwendung der TEI-Guidelines.
- Sie lernen auf Grundlage der TEI-Guidelines projektspezifische Anpassungen vorzunehmen und Dokumente zu strukturieren.
- Sie können TEI für die Texterschließung sicher anwenden.