Neue Modelle dank GT-Aufwertung und Anreicherung 09.06.2021

Die Seite wird erstellt Jan Kirchner

Sonstiges

Deutsch

Like
Teilen
Einbetten
Vollbild
Folien
HTML Herunterladen
PDF Herunterladen
Missbrauch

←

WEITER LESEN

→

Transkription von Seiteninhalten

Wenn Ihr Browser die Seite nicht korrekt rendert, bitte, lesen Sie den Inhalt der Seite unten

Neue Modelle dank GT-Aufwertung und Anreicherung 09.06.2021

Neue Modelle
      dank GT-Aufwertung und Anreicherung

               Gefördert durch

09.06.2021

In Kürze: Was sind Tesseract-Modelle?
• Modelle sind trainierte künstliche neuronale Netze
• Künstliche neuronale Netze bilden Eingabewerte auf Ausgabewerte mit
  Hilfe von Knoten und gewichteten Knotenverbindungen ab
• Training: Optimierung der Gewichte, um die Eingabewerte möglichst gut
  auf die Ausgabewerte abzubilden
• Trainingsdaten: Zeilenbilder (Eingabewert) und Texte (Ausgabewert)
                               ge⸗

• Die Qualität und der Umfang der Trainingsdaten bestimmen die
  Leistungsfähigkeit des Netzes maßgeblich

• Tesseract verwendet Modelle, um in Digitalisaten bestimmte
  Sprachen/Schriftsysteme zu erkennen
09.06.2021                                                                2

In Kürze: Was ist Aufwertung und
Korrektur von Ground Truth?
 ●
     Durch die Aufwertung können GT-Datensätze auf ein höheres
     Transkriptionslevel angehoben werden
             ●
                 Bsp.: OCR-D Level 1 auf OCR-D Level 2 durch:
                                                                Gefahr: Regelbasierte Umwandlung
                   –   Umwandlung des sz zu ß
                                                                kann nur gewisse Fälle abdecken!
                   –   Umwandlung des runden s zu langen s
                   –   …

 ●
     Die Vereinheitlichung der Normalisierung
 ●
     Korrektur von Abschreibfehlern
 ●
     Entfernung von nicht konformen oder fehlerhaften Bild-Text
     Dateien

09.06.2021                                                                                  3

Training neuer Fraktur-Modelle

                                                                    Neue generische Modelle
                                                                  sind sprachenunabhängig und
                                                               decken auch viele Schriftarten ab,
                                                       ebenso wie fett und kursiv gedruckte Variationen.
                                                     Erleichtert Volltexterkennung für typische Druckwerke.

     https://typo-info.de/entwicklung-der-schrift/
16.10.2020                                                                                          4

Neues Modell (2019): GT4HistOCR

               Gefördert durch

09.06.2021

Verwendete Datensätze
 ●
     GT4HistOCR (Originaldatensatz: https://zenodo.org/record/1344132#.YL90dDqxVH4)
      –   Datensätze
             ●
                 EarlyModernLatin
             ●
                 Kallimachos
             ●
                 RIDGES-Fraktur
             ●
                 RefCorpus-ENHG-Incunabeln
             ●
                 dta19
      –   Über 50 verschiedene Druckwerke aus dem 15.–19. Jahrhundert
      –   Unterschiedliche Schriftarten und Sprachen
      –   ca. 313.173 Zeilen

09.06.2021                                                                            6

CER
●
    Antiqua, 17. Jhd.
    (Französisch)
●
    Antiqua, 18. Jhd.
    (Französisch)
●
    Antiqua,
    Anfang 20. Jhd.
●
    Fraktur, 16. Jhd.
●
    Fraktur, 17. Jhd.
●
    Fraktur, 19. Jhd.
●
    Zeitung, 20. Jhd.

●
    Fraktur
●
    GT4HistOCR
●
    Latin
●
    frk

16.10.2020              7

Neues Modell (2021): frak2021

                   Gefördert durch

09.06.2021

Anreicherung der Trainingsdaten
 ●
     GT4HistOCR (Originaldatensatz: https://zenodo.org/record/1344132#.YL90dDqxVH4)
 ●
     AustrianNewspapers (https://github.com/UB-Mannheim/AustrianNewspapers)
      –   Transkription: Österreichische Nationalbibliothek (wurden für das Modell ONB_Newseye_GT_M1+ für Transkribus
          verwendet)
      –   Umfang: 57541 Zeilen
      –   Inhalt: Deutschsprachige Zeitung aus dem Zeitraum 19. – Anfang 20. Jahrhundert

 ●
     Fibeln (https://github.com/UB-Mannheim/Fibeln)
      –   Transkription: UB Mannheim und GEI Braunschweig
          nach OCR-D Level 2
      –   Umfang: 3871 Zeilen
      –   Inhalt: Deutsche Lernfibeln aus dem Kaiserreich (19. Jahrhundert) mit Schreib- und Druckschrift

09.06.2021                                                                                                              9

Aufwertung und Korrektur
                auf OCR-D Level 2

                 Gefördert durch

09.06.2021

Regelbasierte Aufwertung und Korrektur
 ●
     Entfernung von Textdateien mit mehrfach Zeilen
 ●
     Doppelte Leerzeichen zu einfachen Leerzeichen
 ●
     Satzzeichen bei Satzenden an den vorangegangen Buchstaben
     ziehen
 ●
     Bei Datumsangaben Minuszeichen durch Halbgeviertstrich
     ersetzen
 ●
     Ersetzen von Bruchdarstellungen 1/2 --> ½

09.06.2021                                                       11

Komplexere Problemfelder
 ●
     ä --> aͤ
 ●
     sz --> ß
 ●
     s --> ſ
 ●
     r --> ꝛ
 ●
     Trennzeichen
     - --> ⸗
 ●
     Fehlerhafte Bild und Text Zuordnung

09.06.2021                                 12

GTReval
●
    Skriptbasierte, automatische Aufwertung und Korrektur von GT-
    Zeilenpaaren durch spezialisierte Modelle und nutzerspezifische
    Regeln
●
    Nutzerspezifische Regeln
     –   Bspw. OCR-D Level Richtlinien 2
             ●
                 s --> ſ

●
    Grundvoraussetzung
     –   das Modell muss den Text gut genug erkennen,
         um durch einen Vergleichsalgorithmus Zuordnung zu erhalten
     –   Das Modell muss die zu erkennenden Glyphen sehr gut erfassen (spezialisiert)
●
    Analyse der GT auf die Häufigkeit der Glyphen und die Einhaltung
    von Transkriptionsregeln/-richtlinien (bspw. OCR-D Level 2)
09.06.2021                                                                              13

GTCheck
 ●
     Programm zur manuellen Korrektur von Änderungen an git-
     verwalteter GT
 ●
     Web-GUI mit browserbasierter Rechtschreibprüfung
 ●
     Korrekturen werden via Git versioniert
 ●
     Features
      –   Einblendung
          der vorangegangen und
          folgenden Zeile
      –   Virtuelles Keyboard
      –   Rückgängigmachung
          der letzten Korrektur

09.06.2021                                                     14

frak2021 – CER
 ●
     Antiqua, 17. Jhd.
     (Französisch)
 ●
     Antiqua, 18. Jhd.
     (Französisch)
 ●
     Antiqua,
     Anfang 20. Jhd.
 ●
     Fraktur, 16. Jhd.
 ●
     Fraktur, 17. Jhd.
 ●
     Fraktur, 19. Jhd.
 ●
     Zeitung, 20. Jhd.

●
     Fraktur
●
     GT4HistOCR
●
     frak2021

09.06.2021               15

frak2021 – Stärken / Schwächen
 ●
     Stärken
      –   Erkennungsgeschwindigkeit (sehr kleines Modell)
      –   Fraktur
      –   Historische Antiqua (ohne diakritische Zeichen)
      –   Zeitungen Anfang 20. Jahrhundert
      –   Separatoren besonders schräger Doppelstrich
 ●
     Schwächen
      –   Französische Texte
      –   Diakritische Zeichen
      –   Verwechselungen:
             ●
                 N und R
             ●
                 t und k
09.06.2021                                                  16

Fazit
 ●
     Die neuen Modellen schneiden bei den meisten Vorlagen deutlich
     besser ab als die Standard-Tesseract-Modelle für Fraktur
 ●
     Es gilt stets zunächst, die Modelle zu testen – derzeit gibt es
     keinen eindeutigen Gewinner
 ●
     Die reduzierte Netzwerktiefe sollte als Faktor untersucht werden
 ●
     Verbesserungspotential
      –   Aufwertung und Korrektur
      –   Erweiterung des Zeichensatzes
      –   Ausgleich von unterrepräsentierten Zeichen
      –   Aufbau des neuronalen Netzes

09.06.2021                                                              17

Ausblick
 ●
     OCR-D (2021–2023)
     Workflow für werkspezifisches Training auf Basis generischer
     Modelle mit OCR-D sowie Ground-Truth-Aufwertung
     Ziel dieses Projektes ist, dass Einrichtungen (zum Beispiel Bibliotheken) möglichst
     einfach die Module des OCR-D-Workflows nachtrainieren können,
     so dass bessere Erkennungsraten für spezifische Werke erreicht werden können.
      –   Werksspezifisches Training scheint ein erfolgversprechendes Mittel, um besonders
          hohe Genauigkeit mit recht überschaubaren Ressourceneinsatz zu erreichen
      –   Es sollen weiterhin die Datensätze aufgewertet und korrigiert werden
      –   Neue Modelle basierend auf zusätzlichen GT-Daten sind geplant

09.06.2021                                                                                   18

Literatur

•   OCR-D Richtlinien: https://ocr-d.de/de/gt-guidelines/trans/

16.10.2020                                                        19

Sie können auch lesen

OCR-BW-Workshop - Kompetenzzentrum OCR der Universitätsbibliotheken Mannheim und Tübingen

Die Vielfalt der Modelle in der Informatik

Statistical Models of Shape and Appearance in Medical Imaging - Seminararbeit - SBI

Automatisierte Optimierung und Strukturierung von OCR-Ergebnissen mit nachnutzbaren Werkzeugen - Jan Kamlah, Johannes Stegmüller, Irene Schumm ...

Perfect Ice. Pure Emotion - Wessamat

OCR-D in der Praxis: Ein gemeinsamer Ausblick mit Dienstleistern und Anwendern - Bibliothekskongress Leipzig, 18.03.2019 - OPUS 4

Zwei Hydrologische Layer in einem Modell-Urbane und natürliche Gewässer integriert modellieren mit Geodatenhaltung

Herzlich Willkommen zur Auftaktveranstaltung

Roband Wärmebrücken - LÖLSBERG ist Exclusivdistributeur für Roband Produkte in folgenden Ländern: Deutschland und Österreich - Lölsberg

UPDATE APRIL 2019 WARHAMMER 40.000 - Warhammer Community

ZUBEHÖR, FAHRERBEKLEIDUNG & ORIGINALTEILE

SPICE-basierte Bauelementemodellierung

Spectral tv-stands for LG GX Gallery Design TV - 2020 #1.1 CH-DE PR1487

Lehrplan Mathematik - Willy-Brandt-Schule

DAFÜR SIND WIR GEMACHT - 2019 ZUBEHÖR, FAHRERBEKLEIDUNG UND ORIGINALTEILE - Can-Am Off-Road ...

Gesamtkatalog Sommer 2021 - engler licht

HP Notebook Referenzhandbuch

Biologie 2018 Filme und Software für Schulen - Gesellschaft für Information und Darstellung mbH - GIDA

Klaviere Flügel Digitalpianos günstig MIETEN - 100 Instrumente in Zürich am Lager. Schnelle Lieferung - Scheu Piano ...

Mathematik - Klasse 8 - Schulinterner Lehrplan zum Kernlehrplan nach G9 für das Fach - Webflow

Entwurf des MRI für ein "Front-of-Pack"- Nährwertkennzeichnungs-Modell - Grafische Umsetzung - BMEL

Mac Zubehör - Texte und rechtliche Hinweise - OTTO

Dokumentation Meeresspiegelanstieg und seine Auswirkungen auf die Bevölkerung - Wissenschaftliche Dienste

Mobil sein - frei sein, genau das will ich - produktkatalog 2021 Für Reisemobile, Wohnwagen, Kastenwagen und Campingbusse - Fiamma

VPEP Miele Gütersloh OWL Forum für Technologie & Innovation Matthias Knoke Bielefeld 17. Oktober 2006

WHITEPAPER ERFASSUNG UND ROUTING - CODX SOFTWARE AG

JES-360 JES-360H - JCT ANALYSENTECHNIK GMBH

Caravan-Präsentation 2017-2018 - Campingoase Kerpen

Blut-Hirn-Schranken-Modelle für die Pharmakologie - von Primärzellen zu hiPS-Krankheitsmodellen - Karin Danz, Abteilung Bioprozesse & Bioanalytik ...

2021 ZUBEHÖR AUSGABE FÜR EUROPA, DEN NAHEN OSTEN UND AFRIKA OUTLANDER RENEGADE - Allrad Horn

Bestimmung und Gewichtung von Einflussfaktoren auf die Sekundärregelarbeitsabrufe im deutschen Übertragungsnetz

Die Dunkle Triade in einer deutschen repräsentativen Stichprobe: Faktorstruktur, Messinvarianz und Normwerte der Niederträchtigen Neun

Geographie 2018 Filme und Software für Schulen - Gesellschaft für Information und Darstellung mbH - GIDA

REISEMOBIL-VERMIETUNG 2021 - Wohnmobile United

Mit Whaly raus aufs Wasser, ein Genuss! - www.whaly.com - Marineprofis

MODELLE 2021 - CANAMONROAD.COM

ÜBERSICHT "SARS-COV-2 RECHNER" - INSTITUT FÜR PROZESS- UND PARTIKELTECHNIK - STEFAN RADL IPPT.TUGRAZ.AT/SIMSCI - SILICON ALPS

Ravensberger Gymnasium Herford Schulinterner Lehrplan - Mathematik G9 Klasse 9 und 10

Geographie 2019 Filme und Software für Schulen - Gesellschaft für Information und Darstellung mbH - GIDA

Spielwaren Herbst/Winter 2021/22 - Ihr starker Partner - VOG AG

Schlechtes Wetter! Gute Preise! - € 15,- € 149,- Autohaus Lauff

Medienprogramm 2021 Filme und Software für Schulen - Gesellschaft für Information und Darstellung mbH - GIDA

COVID-19 STRATEGIE - WIE WEITER? - Prof. Dr. med. Manuel Battegay Infektiologie Universitätsspital Basel - medArt basel

Originalbeiträge Verwendung mechanistischer Effekt-Modelle in der prospektiven Umweltrisiko-bewertung von Pflanzenschutzmitteln - GDCh

Eine Klasse für sich Mobilität Fahrzeuge Classic Police

Freiheit ohne Kompromisse - Urlaubssaison 2020 - www.rent-easy.de - Reisemobile Euch

GNTM & OPEL 2018 Ergebnisse der Begleitforschung - SevenOne Media

Filmprojekt "Die Mitte der Nacht ist der Anfang vom Tag"

Fachschaft Französisch Schulinterner Lehrplan Französisch der Janusz-Korczak-Realschule - Stand 10/2020

Fördermittelrundbrief Spezial - Übersicht aktueller Förderprogramme im Bereich Photovoltaik - Stadtwerke Oberursel