Transkribus

Aus Johann Steuerleins Reimbibel
Zur Navigation springen Zur Suche springen
Mitmacher gesucht!

Transkribus ist eine Texterkennungssoftware, die als Web- oder Desktopapp verfügbar ist, und sowohl gedruckte als auch handschriftliche Texte lesen kann. Ich habe sie hier für das Wiki-Projekt www.steuerlein-reimbibel.de getestet und die Ergebnisse sind vielversprechend.

Entwickler und Herausgeber der Software ist READ COOP, eine Kooperation von mehr als 100 institutionellen und privaten Partnern, darunter zahlreiche bedeutende Universitäten, Bibliotheken und namhafte Archive, die umfangreiche Bestände an gedrucktem und handschriftlichem Schriftgut besitzen und diese Software zur digitalen Erschließung und Veröffentlichung der Texte anwenden.

Die Software ist KI gestützt und erkennt Text in verschiedenen Schriftarten und -sprachen, auf die eine Reihe von KI-Modellen trainiert wurden, z.B. das Modell "The German Giant I" mit über 15 Millionen Worten.

Arbeiten mit Transkribus (am Beispiel von Steuerleins "Der Prophet Obadja")

Hochgeladene PDF- und Image-Dateien können in Sammlungen eingeordnet und gegen Credits (ein Credit für eine Seite handschriftlichen Text) vom Programm erkannt werden. Nach Abschluss des Verfahrens (man muss die Seite händisch aktualisieren um den Fortschritt zu sehen), kann man auf einem zweigeteilten Bildschirm das Ergebnis sehen:

Links wird die Originalseite angezeigt, auf der nun der Textraum ("Region", bzw. bei mehreren Spalten oder Randnoten auch mehrere Regionen) und die darin gefundenen Zeilen durchnummeriert angezeigt werden. Nicht immer klappt das so zuverlässig wie in diesem Beispiel. Insbesondere wenn die Zeilen eng stehen und die Seite fleckig ist werden manchmal Zeilen erkannt, wo keine da sind, oder einzelne Zeilen geteilt.

Textraum- und Zeilenerkennung

Man kann die Zeilenerkennung auch manuell anpassen. Ich habe dies aber noch nicht ausprobiert, weil es für meinen Anwendungsfall jetzt nicht so tragisch ist, wenn da etwas nicht stimmt.

Auf der rechten Seite bekommt man nun den Text nach Regionen und Zeilen organisiert in transkribierter Form angezeigt.

Erkannter Text

Das Ergebnis ist schon ziemlich gut. Je nachdem wie sauber geschrieben ist sind 95% Zuverlässigkeit durchaus ein Normalwert. Natürlich gibt es auch hier Ausreißer, die die KI nicht hinbekommt. Insbesondere die frühneudeutsche Sprache, was (nicht vorhandene) Rechtschreibung und das Vokabular betrifft, aber auch die dichterische Textgattung machen es wohl schwer, die Worte zu richtig zu interpretieren. Dass hier ausgerechnet die Überschrift "Der Prophet Obadia", die gefühlt am besten lesbar ist, zu einem Kauderwelch verändert wurde, ist kurios.

Schwierig sind insbesondere ansonsten Kleinbuchstaben im Wort, wie c, e, r, n und m, die sich oft wie eine gezackte Linie lesen. Aber hier hat das Programm eigentlich auch keine so schlechte Arbeit geleistet. Großes "G" und "B" sind in dieser Schriftart manchmal sehr ähnlich, weshalb das Programm auch einmal gescheitert ist ("Besendet", statt "Gesendet"), und "a" und "o" können auch schonmal verwechselt werden. Im biblischen Kontext geht es um "Edom" und nicht um das niederländische Käsestädtchen Edam.

Manuelle Korrektur des Textes

Man kann nun den Text Stück für Stück durch anklicken der Zeile frei korrigieren. In der Webapp etwas hinderlich: Die Zeilennummern verdecken links manchmal den Text (ich habe noch nicht herausgefunden, wie man sie verbirgt). Man kann den verbesserten Text dann speichern (wichtig, sonst gehen die Änderungen ohne Warnung verloren) und anschließend auch exportieren.




Fazit

Die Vorteile des Programms sind offensichtlich. Verlassen sollte man sich ohnehin nie zu 100% auf das Programm, aber je nach Qualität der Vorlage spart man sich viel Abtipperei und bekommt einen Text, den man nur gelegentlich mit eigener Lesekompetenz nachkorrigieren muss.

Beim untersten Mitgliedschaftsmodell ("Individual") ist Transkribus kostenlos und man hat jeden Monat 100 Credits frei, so dass man überschaubare Textkorpora also ohne weiteres bearbeiten kann.

"Der Prophet Obadja" (Verse 1-4)

Steuerlein (1611) Luther (1545)
Diß ists Gsicht Obadia fromm: 1 DJs ist das Gesicht ObadJa.
So spricht der Herr Herr, von Edom, So spricht der HErr HERR von Edom /
Wir haben vom Herrn allerley Wir haben vom HERRN
Gehört, das eine Bottschaftt sey gehöret / Das eine Botschafft
Gesendet hin vnter die Heyden vnter die Heiden gesand sey /
Wolauf, last vns wider Sie streiten. Wolauff / vnd last vns wider sie streiten.
Sihe, Jch hab dich gring gemacht, 2 Sihe / Jch hab dich geringe gemacht
Vnter den Heydn, vnd sehr veracht, vnter den Heiden / vnd seer veracht.
Der Hohmut deines Hertzens dich 3 Der hohmut deines Hertzen hat dich
Betrogen hat vermeßentlich, betrogen /
Weil Jn der Felßen Klüfften du weil du in der Felsenklüfften
wohnest, denckstu an kein Vnruh, wonest /
Jn deinen Schlössern vhest vnd hoch, in deinen hohen Schlössern /
Vnd sprichst Jn deinem Hertzen noch, vnd sprichst in deinem hertzen /
Wer wil zu boden stossen mich? Wer wil mich zu boden stossen?
Bochst auf dein Macht gewalttigklich,
Wenn du gleich fürrest Jn die Höh 4 WEnn du denn gleich in die Höhe fürest /
Wie ein Adler, vnd wechst von Gströh wie ein Adeler /
Vnd anderen Gnist dein Nest gar hoch, vnd machtest dein Nest
Zwischen den Sternen, wil dennoch zwisschen den Sternen / Dennoch wil
Ich dich von dann sturtzen herunter, ich dich von dannen herunter stürtzen /
(Spricht der Herr) ohn all kunst vnd wunder. spricht der HERR.


(Das prophetische Buch Obadja hat insgesamt 1 Kapitel mit 21 Versen. Steuerlein hat hiervon lediglich sechs Verse (1-4, 7 und 15) gereimt. Er hat dabei alle diejenigen Teile, die sich explizit und namentlich zum historischen und geographischen Kontext des Königreichs Juda und seiner Nachbarstaaten und Völker äußern ausgelassen (so etwa: Chaldäer, Esau, Teman, Jacob, Jerusalem, Berg Zion, (Haus) Joseph, Philister, Ephraim, Samaria, Benjamin, Gebirge Gilead, Israel, Kanaaniter, Sarepta, Sefarad etc.))