OCR-Technologien im Vergleich:
Von Handschriften und Altdrucken zu Datenbankenstrukturen und HTR-Modellen

↗︎ Projektseite — ↗︎ Konvertierungstools

Projektleitung

Prof. Dr. Irina Podtergera

Wissenschaftliche Hilfskraft

Walker Thompson, M.St.

Studentische Hilfskräfte

Benjamin Balzer, B.A.
Samuel Innes
Chao Li, B.A.
Dimitrios Syntrivanis

Projektbeschreibung

Das in der digitalen Sprachwissenschaft verankerte Projekt zielt auf die Erarbeitung einer Grundlage für die computergestützte Untersuchung vormoderner lexikographischer Werke und historischer Sprachkontakte im Bereich der Lexik und Begriffsgeschichte ab. Zum Ausbau einer technischen Infrastruktur für die digitale Erfassung mehrsprachiger Wörterbücher (Handschriften und Altdrucke) werden die lexikographischen Daten mit Hinblick auf ihre Verknüpfung in einer Datenbank aufbereitet. Hierzu wird für jede der fraglichen Sprachen (Griechisch, Kirchenslavisch, Lateinisch) ein Lemmatisierer weiterentwickelt und eingesetzt. Gleichzeitig soll der zu untersuchende Datensatz mithilfe der HTR-Tools Transkribus und eScriptorium erweitert werden. In diesem Zusammenhang werden HTR-Modelle trainiert, für weitere automatische Transkriptionen angewandt und im Anschluss veröffentlicht. Parallel werden auch verschiedene OCR-Engines (CITlab HTR+, PyLaia, kraken) evaluiert und ihre Vor- und Nachteile abgewogen. Ein weiteres Ziel bildet das Knüpfen internationaler Kontakte und Kooperationen mit anderen Projekten, die lexikographische Daten sowie ganze Wörterbücher in Datenbanken und Portalen zusammenführen (Gorazd, LiLa, Logeion, Perseus, MLW digital).

Laufzeit: 01.10.2021–31.03.2022

Förderung durch den Heidelberger Research Council (Field of Focus 3: Kulturelle Dynamiken in globalisierten Welten)

Letzte Änderung: 19.10.2022
zum Seitenanfang/up