Transkribus: Unterschied zwischen den Versionen

Aus Johann Steuerleins Reimbibel
Zur Navigation springen Zur Suche springen
Keine Bearbeitungszusammenfassung
Keine Bearbeitungszusammenfassung
 
(14 dazwischenliegende Versionen desselben Benutzers werden nicht angezeigt)
Zeile 1: Zeile 1:
Transkribus ist eine Texterkennungssoftware, die als Web- oder Desktopapp verfügbar ist, und sowohl gedruckte als auch handschriftliche Texte lesen kann. Ich habe sie hier für das steuerlein-reimbibel.de getestet und die Ergebnisse sind vielversprechend.
{{Mitmacher}}
<b><i>Transkribus</b></i> ist eine Texterkennungssoftware, die als Web- oder Desktopapp verfügbar ist, und sowohl gedruckte als auch handschriftliche Texte lesen kann. Ich habe sie hier für das Wiki-Projekt www.steuerlein-reimbibel.de getestet und die Ergebnisse sind vielversprechend.


Entwickler und Herausgeber der Software ist [https://www.readcoop.eu READ COOP], eine Kooperation von mehr als 100 institutionellen und privaten Partner, darunter zahlreichen bedeutende Universitäten, Bibliotheken und namhafte Archive, die umfangreiche Bestände an gedrucktem und handschiftlichem Schriftgut besitzen und diese Software zur digitalen Erschließung und Veröffentlichung der Texte anwenden.
Entwickler und Herausgeber der Software ist [https://www.readcoop.eu READ COOP], eine Kooperation von mehr als 100 institutionellen und privaten Partnern, darunter zahlreiche bedeutende Universitäten, Bibliotheken und namhafte Archive, die umfangreiche Bestände an gedrucktem und handschriftlichem Schriftgut besitzen und diese Software zur digitalen Erschließung und Veröffentlichung der Texte anwenden.


Die Software ist KI gestützt und erkennt Text in verschiedenen Schriftarten und -sprachen, auf die eine Reihe von KI-Modellen trainiert wurden, z.B. "The German Giant I" mit über 15 Millionen Worten.
Die Software ist KI gestützt und erkennt Text in verschiedenen Schriftarten und -sprachen, auf die eine Reihe von KI-Modellen trainiert wurden, z.B. das Modell "The German Giant I" mit über 15 Millionen Worten.


Hochgeladene PDF und Image-Dateien können hochgeladen, in Sammlungen eingeordnet und gegen Credits (1 Credit für eine Seite handschriftlichen Text) vom Programm erkannt werden. Nach Abschluss des Verfahrens (man muss die Seite händisch aktualisieren um den Fortschritt zu sehen), kann man auf einem zweigeteilten Bildschirm das Ergebnis sehen:
<div align="center"><youtube>https://www.youtube.com/watch?v=wPv-EB1dkl8</youtube></div>


Links wird die Originalseite angezeigt, auf der nun der Textraum ("Region", bzw. bei mehreren Spalten oder Randnoten auch mehrere Texträume) und die darin gefundenen Zeilen durchnummeriert angezeigt werden. Nicht immer klappt das so zuverlässig wie in diesem Beispiel, insbesondere wenn die Zeilen eng stehen und die Seite fleckig ist, werden manchmal Zeilen erkannt, wo keine da sind, oder einzelne Zeilen geteilt.  
==Arbeiten mit Transkribus (am Beispiel von Steuerleins "Der Prophet Obadja")==
 
Hochgeladene PDF- und Image-Dateien können in Sammlungen eingeordnet und gegen Credits (ein Credit für eine Seite handschriftlichen Text) vom Programm erkannt werden. Nach Abschluss des Verfahrens (man muss die Seite händisch aktualisieren um den Fortschritt zu sehen), kann man auf einem zweigeteilten Bildschirm das Ergebnis sehen:
 
Links wird die Originalseite angezeigt, auf der nun der Textraum ("Region", bzw. bei mehreren Spalten oder Randnoten auch mehrere Regionen) und die darin gefundenen Zeilen durchnummeriert angezeigt werden. Nicht immer klappt das so zuverlässig wie in diesem Beispiel. Insbesondere wenn die Zeilen eng stehen und die Seite fleckig ist werden manchmal Zeilen erkannt, wo keine da sind, oder einzelne Zeilen geteilt.
[[Datei:Obadja Transkribus Zeilen erkannt.png|mini|rechts|Textraum- und Zeilenerkennung]]
[[Datei:Obadja Transkribus Zeilen erkannt.png|mini|rechts|Textraum- und Zeilenerkennung]]


Man kann die Zeilenerkennung auch manuell durch anpassen. Ich habe dies aber noch nicht ausprobiert, weil es für meinen Anwendungsfall jetzt nicht so tragisch ist, wenn da etwas nicht stimmt.
Man kann die Zeilenerkennung auch manuell anpassen. Ich habe dies aber noch nicht ausprobiert, weil es für meinen Anwendungsfall jetzt nicht so tragisch ist, wenn da etwas nicht stimmt.


Auf der rechten Seite bekommt man nun den Texte nach Regionen und Zeilen organisiert in transkribierter Form angezeigt.
Auf der rechten Seite bekommt man nun den Text nach Regionen und Zeilen organisiert in transkribierter Form angezeigt.


[[Datei:Obadja Transkribus Text erkannt.png|mini|rechts|Erkannter Text]]
[[Datei:Obadja Transkribus Text erkannt.png|mini|rechts|Erkannter Text]]


Das Ergebnis ist schon ziemlich gut. Je nachdem wie sauber geschrieben ist, ist 95% Zuverlässigkeit durchaus ein Normalwert. Natürlich gibt es auch hier Ausreißer, die die KI nicht hinbekommt. Insbesondere die frühneudeutsche Sprache, was (nicht vorhandene) Rechtschreibung und das Vokabular betrifft, aber auch die dichterische Textgattung machen es wohl schwer, die Worte zu richtig zu interpretieren. Dass hier ausgerechnet die Überschrift "Der Prophet Obadia", die gefühlt am besten lesbar ist, zu einem Kauderwelch verändert wurde, ist kurios.
Das Ergebnis ist schon ziemlich gut. Je nachdem wie sauber geschrieben ist sind 95% Zuverlässigkeit durchaus ein Normalwert. Natürlich gibt es auch hier Ausreißer, die die KI nicht hinbekommt. Insbesondere die frühneudeutsche Sprache, was (nicht vorhandene) Rechtschreibung und das Vokabular betrifft, aber auch die dichterische Textgattung machen es wohl schwer, die Worte zu richtig zu interpretieren. Dass hier ausgerechnet die Überschrift "Der Prophet Obadia", die gefühlt am besten lesbar ist, zu einem Kauderwelch verändert wurde, ist kurios.


Schwierig sind insbesondere ansonsten Kleinbuchstaben im Wort, wie c, e, r, n und m, die sich oft wie eine gezackte Linie lesen. Aber hier hat das Programm eigentlich auch keine so schlechte Arbeit geleistet. Großes "G" und "B" sind in dieser Schriftart manchmal sehr ähnlich, weshalb das Programm auch einmal gescheitert ist ("Besendet", statt "Gesendet"). Und "a" und "o" können auch schonmal verwechselt werden. Im biblischen Kontext geht es um "Edom" und nicht um das niederländische Käsestädtchen Edam.
Schwierig sind insbesondere ansonsten Kleinbuchstaben im Wort, wie c, e, r, n und m, die sich oft wie eine gezackte Linie lesen. Aber hier hat das Programm eigentlich auch keine so schlechte Arbeit geleistet. Großes "G" und "B" sind in dieser Schriftart manchmal sehr ähnlich, weshalb das Programm auch einmal gescheitert ist ("Besendet", statt "Gesendet"), und "a" und "o" können auch schonmal verwechselt werden. Im biblischen Kontext geht es um "Edom" und nicht um das niederländische Käsestädtchen Edam.


[[Datei:Obadja_Transkribus_Korrekturprozess.png|mini|rechts|Manuelle Korrektur des Textes]]
[[Datei:Obadja_Transkribus_Korrekturprozess.png|mini|rechts|Manuelle Korrektur des Textes]]
Zeile 24: Zeile 29:
Man kann nun den Text Stück für Stück durch anklicken der Zeile frei korrigieren. In der Webapp etwas hinderlich: Die Zeilennummern verdecken links manchmal den Text (ich habe noch nicht herausgefunden, wie man sie verbirgt). Man kann den verbesserten Text dann speichern (wichtig, sonst gehen die Änderungen ohne Warnung verloren) und anschließend auch exportieren.
Man kann nun den Text Stück für Stück durch anklicken der Zeile frei korrigieren. In der Webapp etwas hinderlich: Die Zeilennummern verdecken links manchmal den Text (ich habe noch nicht herausgefunden, wie man sie verbirgt). Man kann den verbesserten Text dann speichern (wichtig, sonst gehen die Änderungen ohne Warnung verloren) und anschließend auch exportieren.


Die Vorteile des Programms sind offensichtlich. Verlassen sollte man sich ohnehin nie zu 100% auf das Programm, aber man je nach Qualität der Vorlage, spart man sich viel Abtipperei und bekommt einen Text, den man nur gelegentlich mit eigener Lesekompetenz nachkorrigieren muss.


Beim untersten Mitgliedschaftsmodell ("Individual") ist Transkribus kostenlos und man hat jeden Monat 100 Credits frei, so dass man überschaubare Textkorpora also ohne weitere bearbeiten kann.
 
 
 
 
==Fazit==
 
Die Vorteile des Programms sind offensichtlich. Verlassen sollte man sich ohnehin nie zu 100% auf das Programm, aber je nach Qualität der Vorlage spart man sich viel Abtipperei und bekommt einen Text, den man nur gelegentlich mit eigener Lesekompetenz nachkorrigieren muss.
 
Beim untersten [https://www.transkribus.org/plans Mitgliedschaftsmodell ("Individual")] ist Transkribus kostenlos und man hat jeden Monat 100 Credits frei, so dass man überschaubare Textkorpora also ohne weiteres bearbeiten kann.
 
=="Der Prophet Obadja" (Verse 1-4)==


{| class="hintergrundfarbe2" ;
{| class="hintergrundfarbe2" ;
Zeile 34: Zeile 48:
|<b>Luther (1545)</b>
|<b>Luther (1545)</b>
|-
|-
|9 Diß ists Gsicht Obadia fromm:
|Diß ists Gsicht Obadia fromm:
|
|1 DJs ist das Gesicht ObadJa.
|-
|-
|10 So spricht der Herr Herr, von Edom,
|So spricht der Herr Herr, von Edom,
|Es war ein Mensch /
|So spricht der HErr HERR von Edom /
|-
|-
|11 Wir haben vom Herrn allerley
|Wir haben vom Herrn allerley
|der gieng von Jerusalem
|Wir haben vom HERRN
|-
|-
|12 Gehört, das eine Bottschaftt sey
|Gehört, das eine Bottschaftt sey
|hin ab gen Jericho / vnd
|gehöret / Das eine Botschafft
|-
|-
|13 Gesendet hin vnter die Heyden
|Gesendet hin vnter die Heyden
|fiel vnter die Mörder / Die zogen jn aus / vnd schlugen jn / vnd giengen dauon /
|vnter die Heiden gesand sey /
|-
|-
|14 Wolauf, last vns wider Sie streiten.
|Wolauf, last vns wider Sie streiten.
|vnd liessen jn halb tod liegen.
|Wolauff / vnd last vns wider sie streiten.
|-
|-
|15 Sihe, Jch hab dich gring gemacht,
|Sihe, Jch hab dich gring gemacht,
|<sup>31</sup>Es begab sich aber on gefehr / das ein Priester dieselbige strasse hin abzoch / vnd da er jn sahe /  
|2 Sihe / Jch hab dich geringe gemacht
|-
|-
|16 Vnter den Heydn, vnd sehr veracht,
|Vnter den Heydn, vnd sehr veracht,
|gieng er fur vber. <sup>32</sup>Desselbigen gleichen
|vnter den Heiden / vnd seer veracht.
|-
|-
|17 Der Ho[c]hmut deines Hertzens dich
|Der Hohmut deines Hertzens dich
|auch ein Leuit / da er kam bey die Stet / vnd sahe jn / gieng er fur vber.
|3 Der hohmut deines Hertzen hat dich
|-
|-
|18 Betrogen hat vermeßentlich,
|Betrogen hat vermeßentlich,
|
|betrogen /
|-
|-
|19 Weil Jn der Felßen Klüfften du
|Weil Jn der Felßen Klüfften du
|<sup>33</sup>EJn Samariter aber reiset / vnd kam da hin / vnd da er jn sahe /
|weil du in der Felsenklüfften
|-
|-
|20 wohnest, denckstu an kein Vnruh,
|wohnest, denckstu an kein Vnruh,
| jamerte jn sein / <sup>34</sup>gieng zu jm / verband jm seine Wunden /
| wonest /
|-
|-
|21 Jn deinen Schlössern vhest vnd hoch,
|Jn deinen Schlössern vhest vnd hoch,
|vnd gos drein Ole vnd Wein
|in deinen hohen Schlössern /
|-
|-
|22 Vnd sprichst Jn deinem Hertzen noch,
|Vnd sprichst Jn deinem Hertzen noch,
|vnd hub jn auff sein Thier
|vnd sprichst in deinem hertzen /
|-
|-
|23 Wer wil zu boden stossen mich?
|Wer wil zu boden stossen mich?
|vnd füret jn in die Herberge /
|Wer wil mich zu boden stossen?
|-
|-
|24 Bochst auf dein Macht gewalttigklich,
|Bochst auf dein Macht gewalttigklich,
|vnd pfleget sein.
|
|-
|-
|25 Wenn du gleich fürrest Jn die Höh|<sup>35</sup>Des andern tages reiset er /
|Wenn du gleich fürrest Jn die Höh
|4 WEnn du denn gleich in die Höhe fürest /  
|-
|-
|26 Wie ein Adler, vnd wechst von Gströh
|Wie ein Adler, vnd wechst von Gströh
|vnd zoch eraus zween Grosschen /
|wie ein Adeler /
|-
|-
|27 Vnd anderen Gnist[?] dein Nest gar hoch,
|Vnd anderen Gnist dein Nest gar hoch,
|vnd gab sie dem Wirte / vnd sprach zu jm / Pflege sein /
|vnd machtest dein Nest
|-
|-
|28 Zwischen den Sternen, wil dennoch
|Zwischen den Sternen, wil dennoch
|Vnd so du was mehr wirst darthun /
|zwisschen den Sternen / Dennoch wil
|-
|-
|29 Ich dich von dann sturtzen herunter,
|Ich dich von dann sturtzen herunter,
|wil ich dirs bezalen /
|ich dich von dannen herunter stürtzen /
|-
|-
|30 (Spricht der Herr) ohn all kunst vnd wunder.
|(Spricht der Herr) ohn all kunst vnd wunder.
|wenn ich widerkome.
|spricht der HERR.
|}
|}


Der Prophet Obadia.
 
Das 1. Capitel.
 
Diß ists Gsicht Obadia fromm:
(Das prophetische Buch Obadja hat insgesamt 1 Kapitel mit 21 Versen. Steuerlein hat hiervon lediglich sechs Verse (1-4, 7 und 15) gereimt. Er hat dabei alle diejenigen Teile, die sich explizit und namentlich zum historischen und geographischen Kontext des Königreichs Juda und seiner Nachbarstaaten und Völker äußern ausgelassen (so etwa: Chaldäer, Esau, Teman, Jacob, Jerusalem, Berg Zion, (Haus) Joseph, Philister, Ephraim, Samaria, Benjamin, Gebirge Gilead, Israel, Kanaaniter, Sarepta, Sefarad etc.))
So spricht der Herr Herr, von Edom,
Wir haben vom Herrn allerley
Gehört, das eine Bottschaftt sey
Gesendet hin vnter die Heyden,
Wolauf, last vns wider Sie streiten.
Sihe, Jch hab dich gring gemacht,
Vnter den Heydn, vnd sehr veracht,
Der Ho[c]hmut deines Hertzens dich
Betrogen hat vermeßentlich,
Weil Jn der Felßen Klüfften du
wohnest, denckstu an kein Vnruh,
Jn deinen Schlössern vhest vnd hoch,
Vnd sprichst Jn deinem Hertzen noch,
Wer wil zu boden stossen mich?
Bochst auf dein Macht gewalttigklich,
Wenn du gleich fürrest Jn die Höh
Wie ein Adler, vnd wechst von Gströh
Vnd anderen Gnist[?] dein Nest gar hoch,
Zwischen den Sternen, wil dennoch
Ich dich von dann sturtzen herunter,
(Spricht der Herr) ohn all kunst vnd wunder
All deine eigne Bundsgenossen,
Werdten zum Land hinaus dich stossen,
Die Leute, auf die Du thust bawen,
Vnd deyn Trost setzst, Jn grossem trawen,
die wendten dich (gleub mir) betriegen,
Vberwelttigen vnd obsiegen,
Die dein Brod essen, werdten dich
Verraten mit listen heimlich,
Eh du es mercken wirst, Jch sag,
(Ahn dise Warnung denck all tag)
Der Tag des Herrn (laß dichs bescheiden)
Ist nahe vber alle Heyden.
Wie Du gthan hast, vbl, oder wol
Also Dir wider gschehen sol.
Auch wir, vnd was du hast verdient,
Also sol dirs, Strenh oder gliedt
Auf deinem Kopffe widerumb
kohmmen vnd fallen, gleich vnd krumb.
Ende
des Propheten Obadia.

Aktuelle Version vom 5. Februar 2024, 16:15 Uhr

Mitmacher gesucht!

Transkribus ist eine Texterkennungssoftware, die als Web- oder Desktopapp verfügbar ist, und sowohl gedruckte als auch handschriftliche Texte lesen kann. Ich habe sie hier für das Wiki-Projekt www.steuerlein-reimbibel.de getestet und die Ergebnisse sind vielversprechend.

Entwickler und Herausgeber der Software ist READ COOP, eine Kooperation von mehr als 100 institutionellen und privaten Partnern, darunter zahlreiche bedeutende Universitäten, Bibliotheken und namhafte Archive, die umfangreiche Bestände an gedrucktem und handschriftlichem Schriftgut besitzen und diese Software zur digitalen Erschließung und Veröffentlichung der Texte anwenden.

Die Software ist KI gestützt und erkennt Text in verschiedenen Schriftarten und -sprachen, auf die eine Reihe von KI-Modellen trainiert wurden, z.B. das Modell "The German Giant I" mit über 15 Millionen Worten.

Arbeiten mit Transkribus (am Beispiel von Steuerleins "Der Prophet Obadja")

Hochgeladene PDF- und Image-Dateien können in Sammlungen eingeordnet und gegen Credits (ein Credit für eine Seite handschriftlichen Text) vom Programm erkannt werden. Nach Abschluss des Verfahrens (man muss die Seite händisch aktualisieren um den Fortschritt zu sehen), kann man auf einem zweigeteilten Bildschirm das Ergebnis sehen:

Links wird die Originalseite angezeigt, auf der nun der Textraum ("Region", bzw. bei mehreren Spalten oder Randnoten auch mehrere Regionen) und die darin gefundenen Zeilen durchnummeriert angezeigt werden. Nicht immer klappt das so zuverlässig wie in diesem Beispiel. Insbesondere wenn die Zeilen eng stehen und die Seite fleckig ist werden manchmal Zeilen erkannt, wo keine da sind, oder einzelne Zeilen geteilt.

Textraum- und Zeilenerkennung

Man kann die Zeilenerkennung auch manuell anpassen. Ich habe dies aber noch nicht ausprobiert, weil es für meinen Anwendungsfall jetzt nicht so tragisch ist, wenn da etwas nicht stimmt.

Auf der rechten Seite bekommt man nun den Text nach Regionen und Zeilen organisiert in transkribierter Form angezeigt.

Erkannter Text

Das Ergebnis ist schon ziemlich gut. Je nachdem wie sauber geschrieben ist sind 95% Zuverlässigkeit durchaus ein Normalwert. Natürlich gibt es auch hier Ausreißer, die die KI nicht hinbekommt. Insbesondere die frühneudeutsche Sprache, was (nicht vorhandene) Rechtschreibung und das Vokabular betrifft, aber auch die dichterische Textgattung machen es wohl schwer, die Worte zu richtig zu interpretieren. Dass hier ausgerechnet die Überschrift "Der Prophet Obadia", die gefühlt am besten lesbar ist, zu einem Kauderwelch verändert wurde, ist kurios.

Schwierig sind insbesondere ansonsten Kleinbuchstaben im Wort, wie c, e, r, n und m, die sich oft wie eine gezackte Linie lesen. Aber hier hat das Programm eigentlich auch keine so schlechte Arbeit geleistet. Großes "G" und "B" sind in dieser Schriftart manchmal sehr ähnlich, weshalb das Programm auch einmal gescheitert ist ("Besendet", statt "Gesendet"), und "a" und "o" können auch schonmal verwechselt werden. Im biblischen Kontext geht es um "Edom" und nicht um das niederländische Käsestädtchen Edam.

Manuelle Korrektur des Textes

Man kann nun den Text Stück für Stück durch anklicken der Zeile frei korrigieren. In der Webapp etwas hinderlich: Die Zeilennummern verdecken links manchmal den Text (ich habe noch nicht herausgefunden, wie man sie verbirgt). Man kann den verbesserten Text dann speichern (wichtig, sonst gehen die Änderungen ohne Warnung verloren) und anschließend auch exportieren.




Fazit

Die Vorteile des Programms sind offensichtlich. Verlassen sollte man sich ohnehin nie zu 100% auf das Programm, aber je nach Qualität der Vorlage spart man sich viel Abtipperei und bekommt einen Text, den man nur gelegentlich mit eigener Lesekompetenz nachkorrigieren muss.

Beim untersten Mitgliedschaftsmodell ("Individual") ist Transkribus kostenlos und man hat jeden Monat 100 Credits frei, so dass man überschaubare Textkorpora also ohne weiteres bearbeiten kann.

"Der Prophet Obadja" (Verse 1-4)

Steuerlein (1611) Luther (1545)
Diß ists Gsicht Obadia fromm: 1 DJs ist das Gesicht ObadJa.
So spricht der Herr Herr, von Edom, So spricht der HErr HERR von Edom /
Wir haben vom Herrn allerley Wir haben vom HERRN
Gehört, das eine Bottschaftt sey gehöret / Das eine Botschafft
Gesendet hin vnter die Heyden vnter die Heiden gesand sey /
Wolauf, last vns wider Sie streiten. Wolauff / vnd last vns wider sie streiten.
Sihe, Jch hab dich gring gemacht, 2 Sihe / Jch hab dich geringe gemacht
Vnter den Heydn, vnd sehr veracht, vnter den Heiden / vnd seer veracht.
Der Hohmut deines Hertzens dich 3 Der hohmut deines Hertzen hat dich
Betrogen hat vermeßentlich, betrogen /
Weil Jn der Felßen Klüfften du weil du in der Felsenklüfften
wohnest, denckstu an kein Vnruh, wonest /
Jn deinen Schlössern vhest vnd hoch, in deinen hohen Schlössern /
Vnd sprichst Jn deinem Hertzen noch, vnd sprichst in deinem hertzen /
Wer wil zu boden stossen mich? Wer wil mich zu boden stossen?
Bochst auf dein Macht gewalttigklich,
Wenn du gleich fürrest Jn die Höh 4 WEnn du denn gleich in die Höhe fürest /
Wie ein Adler, vnd wechst von Gströh wie ein Adeler /
Vnd anderen Gnist dein Nest gar hoch, vnd machtest dein Nest
Zwischen den Sternen, wil dennoch zwisschen den Sternen / Dennoch wil
Ich dich von dann sturtzen herunter, ich dich von dannen herunter stürtzen /
(Spricht der Herr) ohn all kunst vnd wunder. spricht der HERR.


(Das prophetische Buch Obadja hat insgesamt 1 Kapitel mit 21 Versen. Steuerlein hat hiervon lediglich sechs Verse (1-4, 7 und 15) gereimt. Er hat dabei alle diejenigen Teile, die sich explizit und namentlich zum historischen und geographischen Kontext des Königreichs Juda und seiner Nachbarstaaten und Völker äußern ausgelassen (so etwa: Chaldäer, Esau, Teman, Jacob, Jerusalem, Berg Zion, (Haus) Joseph, Philister, Ephraim, Samaria, Benjamin, Gebirge Gilead, Israel, Kanaaniter, Sarepta, Sefarad etc.))