Transkribus
Transkribus ist eine Texterkennungssoftware, die als Web- oder Desktopapp verfügbar ist, und sowohl gedruckte als auch handschriftliche Texte lesen kann. Ich habe sie hier für das steuerlein-reimbibel.de getestet und die Ergebnisse sind vielversprechend.
Entwickler und Herausgeber der Software ist READ COOP ([1]), eine Kooperation von mehr als 100 institutionellen und privaten Partner, darunter zahlreichen bedeutende Universitäten, Bibliotheken und namhafte Archive, die umfangreiche Bestände an gedrucktem und handschiftlichem Schriftgut besitzen und diese Software zur digitalen Erschließung und Veröffentlichung der Texte anwenden.
Die Software ist KI gestützt und erkennt Text in verschiedenen Schriftarten und -sprachen, auf die eine Reihe von KI-Modellen trainiert wurden, z.B. "The German Giant I" mit über 15 Millionen Worten.
Hochgeladene PDF und Image-Dateien können hochgeladen, in Sammlungen eingeordnet und gegen Credits (1 Credit für eine Seite handschriftlichen Text) vom Programm erkannt werden. Nach Abschluss des Verfahrens (man muss die Seite händisch aktualisieren um den Fortschritt zu sehen), kann man auf einem zweigeteilten Bildschirm das Ergebnis sehen:
Links wird die Originalseite angezeigt, auf der nun der Textraum ("Region", bzw. bei mehreren Spalten oder Randnoten auch mehrere Texträume) und die darin gefundenen Zeilen durchnummeriert angezeigt werden. Nicht immer klappt das so zuverlässig wie in diesem Beispiel, insbesondere wenn die Zeilen eng stehen und die Seite fleckig ist, werden manchmal Zeilen erkannt, wo keine da sind, oder einzelne Zeilen geteilt.
Man kann die Zeilenerkennung auch manuell durch anpassen. Ich habe dies aber noch nicht ausprobiert, weil es für meinen Anwendungsfall jetzt nicht so tragisch ist, wenn da etwas nicht stimmt.
Auf der rechten Seite bekommt man nun den Texte nach Regionen und Zeilen organisiert in transkribierter Form angezeigt.