Springe direkt zu Inhalt

Editionsdaten semantisch anreichern – XML-Parsing und Named Entity Recognition (NER) mit Python

TypPräsenzseminar
Dozent/inSophie Schneider, Catherine Anne Seveke
Anmeldung→ Online anmelden
RaumGarystr. 39 Schulungsraum K063
Beginn27.01.2026 | 10:00
Ende27.01.2026 | 14:00

Zielgruppe

Lehrende, Forschende, Mitarbeitende und Studierende der Freien Universität

Voraussetzungen

Inhaltliche Voraussetzungen:

  • Grundkenntnisse in XML und TEI von Vorteil
  • Grundkenntnisse in Python von Vorteil

Technische Voraussetzungen:

  • eigener Laptop
  • Installation von Python und Jupyter Notebook

Vom Dokument zur Edition (Teil 4): Editionsdaten semantisch anreichern – XML-Parsing und Named Entity Recognition (NER) mit Python

Mit dem Medienwandel zeichnet sich auch im Bereich kritischer Editionen ein Paradigmenwechsel ab: Die Tendenz geht zur „digitalen Edition“, die entweder begleitend zur klassischen Print-Publikation eingesetzt wird oder diese als genuin digitales Produkt immer häufiger vollständig substituiert. Das Internet, sog. neue Medien sowie der verstärkte Einsatz von Informationstechnologie in den Geisteswissenschaften eröffnen dabei neue Möglichkeitsräume für Erfassung, Analyse und Visualisierung von Inhalten. Um diese Potenziale ausschöpfen und in nachhaltige Editionsprodukte umsetzen zu können, gilt es bei Konzeption und Realisierung konsequent einem „digitale Paradigma“ zu folgen. Dies erfordert u. a. ein grundlegendes Verständnis der involvierten Technologien und technischen Prozesse von der Erschließung des zu edierenden Gegenstands bis hin zu dessen Präsentation in ggf. multiplen Wiedergabeszenarien.

Die feingranulare Auszeichnung syntaktischer wie semantischer Merkmale eines Textes konstitutiert einen wesentlichen Schritt bei der Erstellung Digitaler Editionen. An Digitale Editionen herangetragene Forschungsinteressen z. B. aus dem Feld der Digital Humanities orientieren sich oftmals an benannten Entitäten, d. h. beispielsweise bestimmten Orts- oder Personennamen. Die intellektuelle Annotation benannter Entitäten sowie die Erstellung entsprechender Register ist jedoch meist aufwendig und teuer. Computergestützte Verfahren aus dem Bereich der Informationsextraktion wie die Named Entity Recognition können bei der Auszeichnung unterstützen. Da Standardtools aus dem Bereich Natural Language Processing (NLP) oftmals auf der Programmiersprache Python aufbauen, müssen die XML-Dateien damit eingelesen, der enthaltene Text extrahiert, weiterverarbeitet und ins ursprüngliche XML zurückgeführt werden. Der Workshop dient der Erkundung der Möglichkeiten und Grenzen einer Verarbeitung von Editionsdokumenten mit Python und einem ersten Einstieg in die Welt des NLP für geisteswissenschaftliche Fragestellungen.

Die Veranstaltung ist Teil der Reihe „Vom Dokument zur Edition“, die einen Gesamtüberblick über eine mögliche technische Infrastruktur für die digitale Edition handschriftlicher Dokumente vermittelt. Die Veranstaltungen bauen aufeinander auf, können aber auch als Einzelveranstaltung besucht werden.

Inhalte

  • Python und Jupyter Notebooks
  • Einführung in Verfahren zur Erkennung benannter Entitäten
  • Einlesen und Verarbeiten von XML-Dokumenten mit Python
  • Anwendung von NER auf Texten mithilfe ausgewählter NLP-Bibliotheken

Lernziele 

  • Sie lernen Python sowie Jupyter Notebook kennen und können Python-Code ausführen und anpassen.

  • Sie erhalten einen Einblick in die semantische Anreicherung von Texten mittels Verfahren aus dem Bereich der natürlichen Sprachverarbeitung, insbesondere NER.
  • Sie können XML-Dokumente mit Python einlesen und weiter verarbeiten.
  • Sie wissen, welche Tools und Bibliotheken sich für die Anwendung von NER auf textuellen Editionsdaten eignen und üben dies an einem Beispiel.
  • Sie erfahren mehr über Herausforderungen und Potenziale bei der Verarbeitung von XML mit Python.