Identifikation von Vorkommensformen der Lemmata in Quellenzitaten fr uhneuhochdeutscher Lexikoneintr age

Die Seite wird erstellt Merlin Sommer
 
WEITER LESEN
Identifikation von Vorkommensformen der Lemmata in Quellenzitaten fr uhneuhochdeutscher Lexikoneintr age
Identifikation von Vorkommensformen der Lemmata
             in Quellenzitaten frühneuhochdeutscher Lexikoneinträge

                   Stefanie Dipper                             Jan Christian Schaffert
            Sprachwissenschaftliches Institut            Georg-August-Universität Göttingen &
                 Fakultät für Philologie              Akademie der Wissenschaften zu Göttingen
               Ruhr-Universität Bochum                       jan.schaffert@phil.
            stefanie.dipper@rub.de                             uni-goettingen.de

                      Abstract                            es ihnen an jener semantischen Erschließungstiefe,
                                                          die über ein passendes Wörterbuch erreicht werden
    In dieser Arbeit werden zwei Ansätze vor-            könnte und maßgeblich zum Verständnis beitragen
    gestellt, die die Quellenzitate innerhalb ei-
                                                          würde.
    nes Wörterbucheintrags im Frühneuhochdeut-
    schen Wörterbuch analysieren und darin die
                                                             Im nachfolgenden Beitrag stellen wir auf Basis
    Vorkommensform identifizieren, d. h. die              des Frühneuhochdeutschen Wörterbuches (im Fol-
    Wortform, die dem Lemma dieses Eintrags ent-          genden FWB) zwei Ansätze vor, die dies möglich
    spricht und als historische Schreibform in ver-       machen sollen, indem sie durch die Lemmatisie-
    schiedenen Schreibvarianten vorliegt. Die Eva-        rung frühneuhochdeutscher Wörter die Basis einer
    luation zeigt, dass schon auf Basis kleiner Trai-     Semantisierung schaffen.
    ningsdaten brauchbare Ergebnisse erzielt wer-            Der eine Ansatz wendet ein existierendes Sys-
    den können.
                                                          tem zur Normalisierung historischer Schreibungen
                                                          an, der andere nutzt ein künstliches neuronales
1   Einleitung
                                                          Netzwerk.1 Ausgangspunkt ist die Identifikation
Wörterbücher erschließen Sprachen, deren Dia-           der Lemmata und deren Wortbildungen in den
lekte, Sprachstufen und Fachwortschätze über die        Quellenzitaten des FWBs. Langfristiges Ziel ist
strukturierte Präsentation sprachbezogener Infor-        die möglichst umfassende automatische Lemmati-
mationen. Die Ausdifferenzierung kann dabei sehr          sierung digitaler frühneuhochdeutscher Texte.
unterschiedlich sein und zeigt sich schon in den Na-         Der Artikel ist wie folgt aufgebaut: Zunächst
men der Wörterbücher (Deutsches Rechtswörter-          stellen wir die Daten des FWBs vor (Kap. 2).
buch, Wörterbuch der schweizerdeutschen Spra-            Kap. 3 erklärt, wie unser genereller Ansatz aus-
che, Wörterbuch der deutschen Pflanzennamen).            sieht. In Kap. 4 und 5 beschreiben wir die beiden
Eine besondere Position nehmen die allgemeinen            Systeme zur Identifikation der Vorkommensform.
Wörterbücher ein, die den Gesamtwortschatz einer        Kap. 6 enthält die Resultate, gefolgt von einem
Sprache diachron oder synchron erfassen. Wird ei-         Ausblick in Kap. 7.
ne historische Sprachstufe bearbeitet, kommt den
Werken zudem eine kulturpädagogische Funktion            2   Das Frühneuhochdeutsche
zu, da sie die diachronen Unterschiede zu der je-             Wörterbuch (FWB)
weiligen Standardsprache herausarbeiten müssen,          Das FWB ist ein semantisches Bedeutungswörter-
um entsprechende sprachbezogene Informationen             buch mit kulturwissenschaftlichem Schwerpunkt,
adäquat zu vermitteln (Reichmann, 1986).                 dessen Ziel es ist, den Gesamtwortschatz des
   Natürlich wurden während des Digital Turns           Frühneuhochdeutschen synchron in seiner Hete-
neben den historischen Quellen auch die                   rogenität zu präsentieren (Reichmann, 1986). Um
Wörterbücher digitalisiert, sodass deren Informa-       dessen Varietätenspektrum bestmöglich zu erfas-
tionsangebot nun überall abrufbar, durchsuchbar          sen, bildet das FWB die drei wichtigsten frühneu-
und vielfältig auswertbar ist. Eine Verknüpfung         hochdeutschen Heterogenitätsdimensionen Zeit
der Quellen mit den Wörterbüchern fand jedoch
                                                             1
nicht statt. Die historischen Quellen bieten                   Unser Dank gilt insbesondere Herrn Dr. Matthias Schütze,
                                                          der das FWB seit vielen Jahren technisch begleitet und in
daher aktuell nur rudimentäre Möglichkeiten der         diesem Zusammenhang auch das künstliche neuronale Netz
Nachnutzbarkeit (Klaffki et al., 2018). So mangelt        entwickelt hat.
Identifikation von Vorkommensformen der Lemmata in Quellenzitaten fr uhneuhochdeutscher Lexikoneintr age
(1350 bis 1650), Raum (Thüringisch, Elsässisch,           (1) das die frembden in [. . . ] wirtshewser geen
Alemannisch, etc.) und Textsorte (erbauliche, litera-           mit iren obentewern.
rische, rechtsgeschichtliche, etc. Texte) möglichst
ungewichtet in seinen Quellen und sprachbezoge-                Wir fassen die Aufgabe als Lemmatisierungs-
nen Informationen ab. Pro Lemma, bei polysemen             aufgabe auf: Gegeben ein Kandidat für eine VKF,
Lemmata pro Einzelsemantik, bietet das FWB eine            lässt sich dieser Kandidat auf das vorgegebene
Vielzahl qualitativ hochwertiger, heuristisch kom-         Lemma lemmatisieren? Dabei gehen beide Ansätze
petent überprüfter, semantischer und pragmatischer       so vor, dass sie sämtliche historischen Worterfor-
Informationen und belegt diese mit Zitaten.                men wi innerhalb eines Belegs mit dem vorge-
   Da das Frühneuhochdeutsche weder eine norma-           gebenen Lemma l paaren: < wi , l > und für je-
tiv geregelte Orthographie noch eine überdachende         des Paar überprüfen, ob l das Lemma von wi sein
Leitvarietät aufweist, belegt das FWB pro Lemma           könnte. Im Beispiel (1) wären das also die Paare
zudem eine z. T. erhebliche Anzahl von Vorkom-             , ,  etc.
seit 2017 manuell ausgezeichnet werden, ergibt                 Ein möglicher Ansatz wäre es, für diese Auf-
sich ein unschätzbares Potenzial: Aktuell werden          gabe einen vorhandenen Lemmatisierer zu nutzen.
13.178 VKF eindeutig 4.674 Lemmata zugeord-                Das ist allerdings aus verschiedenen Gründen nicht
net. Dieses Verhältnis deutet die Problematiken der       ohne Weiteres möglich:
Lemmatisierungsansätze jener VKF an, die nicht                Viele der Ziel-Lemmata aus dem FWB haben
ausgezeichnet sind.                                        keine moderne Entsprechung, z. B. lauten die ers-
   Exemplarisch ist das Lemma abenteuer, das in            ten zehn Lemmata einer Zufallsauswahl sünde,
den Quellenzitaten u. a. in folgenden VKF belegt           *quatembergeld, *entspanen, erzeigen, *erbholde,
ist: aventevre, auffentür, abenteür, aventúre, aben-    *abtilgen, abschlagen, *äfern, streuen, abtun3 – für
tewr, abentur, ofentúre, obentewer, aubentúr, au-        fünf davon (mit Stern markiert) gibt es keinen Ein-
benteur, usw. (s. Abbildung 8 im Appendix mit ei-          trag in einem Standardwörterbuch wie dem Duden4 .
nem Ausschnitt des FWB-Eintrags zu diesem Lem-             Damit lassen sich moderne Lemmatisierer nicht oh-
ma). Wie kann in allen diesen Vorkommensformen             ne Weiteres sinnvoll auf diese Daten anwenden, da
(insgesamt 36 unterscheidbare) automatisch und             die Zahl der ungesehenen Lemmata ungewöhnlich
möglichst eindeutig das Lemma erkannt werden?             hoch ist. Auch lassen sich vorhandene Korpora wie
                                                           z. B. das Anselm-Korpus5 , das RIDGES-Korpus6
   Die in diesem Beitrag genutzten Daten des FWB
                                                           oder das Referenz-Korpus Frühneuhochdeutsch7
stehen online z. T. frei zur Verfügung oder werden
                                                           nicht als Trainingsdaten verwenden, da diese mo-
in den kommenden Jahren freigeschaltet.2
                                                           derne Lemmata verwenden.
                                                               Außerdem basieren viele moderne Lemmatisie-
3   Identifikation von Vorkommensformen
                                                           rer auf Wortart-Information (und integrieren gege-
    durch Lemmatisierung
                                                           benenfalls einen entsprechenden Tagger), so z. B.
In diesem Beitrag soll es also noch nicht um die           Liebeck and Conrad (2015); Konrad (2019). Für
Lemmatisierung beliebiger Texte des Frühneuhoch-          unsere Daten liegen aber keine entsprechenden
deutschen gehen, sondern zunächst um eine einfa-          Wortart-Annotationen vor.
chere Aufgabe: Gegeben ein Lemma wie abenteu-                  Ein weiteres Problem ist, dass die VKF-
er, identifiziere die zugehörige Vorkommensform           Kandidaten nicht in einer standardisierten Form
(VKF) innerhalb der Quellenzitate. (1) zeigt ein           vorliegen, sondern stark variieren können. Daher
Beispiel für ein Quellenzitat für dieses Lemma           lässt sich beispielsweise der Ansatz von Wartena
aus einem nordoberdeutschen Text. Das Lemma                   3
                                                                Die Daten stammen aus dem Mittleren Ostoberdeutsch
ist in standardisierter Form vorgegeben, während          (moobd.), vgl. Abschnitt 4.
                                                              4
die VKF eine flektierte Wortform sein kann, die                 https://www.duden.de/
                                                              5
                                                                https://www.linguistics.rub.de/
zudem in der historischen Originalschreibung vor-          comphist/projects/anselm/
liegt. Ziel ist es also, in (1) die VKF obentewern zu         6
                                                                https://www.linguistik.hu-berlin.
identifizieren.                                            de/de/institut/professuren/
                                                           korpuslinguistik/forschung/
                                                           ridges-projekt
    2                                                         7
      https://fwb-online.de/         (letzter   Zugriff:        https://www.linguistics.
5.5.2021)                                                  ruhr-uni-bochum.de/ref/
Identifikation von Vorkommensformen der Lemmata in Quellenzitaten fr uhneuhochdeutscher Lexikoneintr age
(2019) nicht umsetzen, der von markierten Mor-                 das die generierten Kandidaten abgeglichen wer-
phemgrenzen innerhalb der Trainingsdaten aus-                  den. Bei der Normalisierung wendet Norma die
geht.                                                          drei Komponenten der Reihe nach an. Sobald ei-
   Schließlich liegen in unserem Szenario nur we-              ne Komponente eine normalisierte Form generiert,
nig Trainingsdaten vor: Im Ansatz mit Norma (s.                wird abgebrochen. Norma generiert allerdings nur
Abschnitt 4) stehen jeweils nur 500 Wörter als Trai-          Kandidaten, die sich nicht mehr als eine gewisse
ningsdaten zur Verfügung – eine der Stärken von              Distanz vom Ausgangswort unterscheiden. Gibt es
Norma ist es, mit solch geringen Datenmengen                   keinen solchen Kandidaten, bleibt der Output leer.
bereits gute Ergebnisse zu liefern. Dem künstli-                 Norma wurde für die Normalisierung flektierter
chen neuronalen Netz (s. Abschnitt 5) stehen mit               Wortformen entwickelt. In einer ersten Evaluati-
ca. 170.000 Wörtern zwar mehr, aber ebenfalls ver-            on testeten wir daher, ob sich Norma prinzipiell
gleichsweise wenige Trainingsdaten zur Verfügung.             auch für die Lemmatisierung eignet. Eine Crossva-
Zum Vergleich: das neuronale Modell von Schmid                 lidierung ergab Durchschnittswerte zwischen 56,8-
(2019) nutzt zwei Millionen Wörter zum Trainie-               69,8% Genauigkeit pro Teilkorpus, was Norma
ren.                                                           für die (wesentlich leichtere) Aufgabe der VKF-
                                                               Identifikation als mögliches Tool erscheinen lässt.
4     Identifikation durch Norma                               (Details zu dieser Evaluation im Appendix.)
Im ersten Ansatz verwenden wir ein existierendes               Norma als Tool für die VKF-Identifikation
System, das frei verfügbar ist: Norma8 (Bollmann              Für die VKF-Identifikation lemmatisiert Norma
2012). Norma wurde entwickelt für eine automa-                zunächst jeden VKF-Kandidaten aus einem Be-
tische Normalisierung von (historischen) Schreib-              leg. Anschließend werden die generierten Lemma-
varianten und wird auf Trainingspaaren der Form                ta mit dem vorgegebenen Lemma abgeglichen und
 trainiert. Norma integriert           die VKF wird ausgewählt, deren Lemma mit dem
drei verschiedene Arten von Lernkomponenten (für              vorgegebenen übereinstimmt. Gegebenenfalls kann
Details, s. Bollmann (2012)):                                  auch kein oder mehrere Kandidaten zum vorgege-
                                                               benen Lemma lemmatisiert werden.
    1. Mapper: Diese Komponente stellt eine Liste                 Für diese Anwendung trainieren wir Norma auf
       der Paare  bereit, die          Paaren der Form .10 Entsprechend besteht das Lexikon
       per kann also nur bekannte Schreibungen per             zum Abgleich aus Lemmata. Wir nutzen zwei un-
       Lexikon Lookup normalisieren.                           terschiedliche Lexika für den Abgleich:

    2. RuleBased: Diese Komponente lernt kontext-                1. Norma-full: das Lexikon besteht aus einer Lis-
       sensitive Ersetzungsregeln, die einen Buch-                  te von rund 78.000 Lemmata des FWB (“full
       staben bzw. eine Buchstabensequenz durch                     lexicon”)
       eine andere ersetzen. Die Regeln sind nach                2. Norma-small: das Lexikon besteht nur aus
       Frequenz ihrer Anwendung geordnet.                           dem vorgegebenen Lemma (“small lexicon”)
    3. WLD (weighted Levenshtein distance): Diese                Das Szenario Norma-full entspricht dem übli-
       Komponente wendet gewichtete LD an, um                  chen Vorgehen und könnte beispielsweise bei der
       Buchstaben-Ngramme aufeinander abzubil-                 Lemmatisierung von Freitext (ohne vorgegebenes
       den.9                                                   Lemma) Anwendung finden. Das Szenario Norma-
                                                               small ist auf die aktuelle Aufgabenstellung zuge-
  RuleBased und WLD benötigen außerdem ein                    schnitten: Da das Ziel-Lemma schon bekannt ist,
Lexikon mit normalisierten Schreibungen, gegen                 kann Normas Hypothesenraum extrem auf genau
    8                                                          diese Form eingeschränkt werden. Das hat folgen-
      https://github.com/comphist/norma (letz-
ter Zugriff: 5.5.2021)                                         de Konsequenzen:
    9
      Norma markiert nur bei der Komponente RuleBased die        Norma-full generiert die Kandidaten sehr viel
Wortgrenzen explizit (mit “#”). Die Wortgrenzen stellen eine   unrestriktiver als Norma-small. Daher kommt es
wichtige Information für die Lemmatisierung dar: Am Wor-
                                                                 10
tende müssen andere Ersetzungen gelernt werden als in der         Sonderzeichen in den Wortformen innerhalb der Bele-
Wortmitte. Daher fügen wir “#” für WLD am Wortanfang und     ge wie Satzzeichen (! ? , etc.) oder Anführungszeichen und
-ende an.                                                      Klammern werden gelöscht.
hier öfters vor, dass Norma-full bei keiner der Input-
Formen die vorgegebene Lemma-Form generiert.
D. h. Norma-full hat eine geringere Abdeckung als
Norma-small.
    Im Fall von sehr kurzen Wortformen und Lem-
mata kann Norma-small (zu) viele der Input-
Wortformen auf das vorgegebene Lemma abbilden,
da alle innerhalb der Abbruch-Schwelle liegen. (2)
zeigt ein solches Beispiel. Das vorgegebene Lem-
ma ist öl und der dazugehörige Beleg enthält viele
sehr kurze Wortformen. (3) zeigt die Liste der Wort-
formen aus (2), die Norma-small auf das Lemma
öl abbilden konnte. Die Liste ist nach einem Score            Abbildung 1: Schematische Darstellung der Topologie
geordnet, den Norma ausgibt. öl (der erste VKF-               des Netzes
Kandidat) ist demnach der “beste” Kandidat, den
Norma generiert (was hier auch die korrekte Form
ist). In der Evaluation (Kap. 6) wird jeweils nur die             Da über das FWB nur eingeschränkte Trainings-
erste Form berücksichtigt.                                    daten zu Verfügung stehen, wurden einige manuell
                                                               erstellte Normalisierungsregeln in das Netz auf-
 (2) chümpt dann ain gast mit öl vnd wil zemarcht            genommen, um spezielle Fälle, die für einen re-
     damit sten vnd gibet es von hant hin, als oft er          lativ großen Prozentsatz von Fehlern verantwort-
     ain lagel öls auf tuet, so geit er ain pfunt öls,       lich sind, schnell zu entschärfen (Ernst-Gerlach
     als oft er die verchauffet.                               and Fuhr, 2006; Pilz et al., 2007). Dieses Vorge-
                                                               hen erwies sich als erfolgreich, da schon wenige
 (3) öl, als, als, wil, oft, oft, lagel, von, sten, es, er,   manuelle Regeln (vgl. Regeln 12–15 in Tabelle 1)
     er, er, hin, ain, ain, ain, so, die, geit, mit, vnd,      den F-Score des Netzes signifikant anheben. Aktu-
     vnd, auf, pfunt, hant, gast, dann, tuet                   ell handelt es sich nur um Normalisierungsregeln
                                                               im Sinne der Lemmazeichengestalt (Reichmann,
  Wir führen eine sechsfache Crossvalidierung
                                                               1986), in Zukunft sollen auch sprachraumspezifi-
durch und trainieren Norma auf jeweils 500 Paa-
                                                               sche Regeln implementiert werden.11
ren aus drei verschiedenen Sprachräumen (Nordo-
                                                                  Die Topologie ist basal und empirisch unterstützt.
berdeutsch/nobd, Mittleres Ostoberdeutsch/moobd,
                                                               Das Netz entspricht einem typischen dreischichti-
Elsässisch/els) und evaluieren auf jeweils 100 Paa-
                                                               gen feedforward-Netz mit einfacher verborgener
ren.
                                                               Schicht, angewendeter Sigmoid-Funktion und zwei
5   Identifikation durch ein künstliches                      Gewichtsmatrizes (Goodfellow et al., 2018), vgl.
                                                               Abb. 1. Das Netz selbst ist in Python programmiert,
    neuronales Netz
                                                               orientiert sich in seinem Framework an Rashid
Im zweiten Ansatz verwenden wir ein künstliches               (2017) sowie Steinwendner and Schwaiger (2019)
neuronales Netz, um den Herausforderungen, die                 und lernt gemäß der Aufgabenstellung überwacht
aus den FWB-Daten erwachsen können, zu begeg-                 und parametrisch. Die Matrizenmultiplikation wird
nen. Neben ihrem geringem Umfang sind die Da-                  mit NumPy12 realisiert.
ten auch unvollständig und sehr spezifisch: derzeit              Die Eingabe- und verdeckte Schicht sind gleich
liegen Trainingsdaten nur für die e-, q-, r- und st-          mächtig, da die Verringerung von verdeckten Neu-
Strecken vor. In unserer Evaluation zeigte es sich               11
                                                                     Ein vergleichbares Vorgehen wurde für des Referenzkor-
allerdings, dass hieraus keine größeren Nachteile             pus Althochdeutsch genutzt, für dessen Lemmatisierer über
entstehen: Das über die r-Strecke trainierte Netz             700 Regeln manuell aufgestellt wurden, die pro Zeit und Raum
generalisiert gut und ergibt für die anderen Stre-            gewissen Lautständen mehr oder weniger statistische Bedeut-
                                                               samkeit zuweisen und somit die Metadaten eines Textes pro-
cken F-Scores, die mit denen der Trainingsdaten                duktiv in die Analyse einfließen lassen (Mittmann, 2016). Da
vergleichbar oder sogar besser sind (vgl. Tabelle 4).          das Frühneuhochdeutsche jedoch wesentlich umfassender und
Dies ist von besonderer Bedeutung, da das FWB                  somit zwangsläufig diverser überliefert ist, gestaltet sich ein
                                                               vergleichbarer Ansatz als unlösbar komplexe Aufgabe. In Zu-
aktuell erst zu ca. 75% abgeschlossen ist und das              kunft sollen entsprechende Regeln daher erlernt werden.
                                                                  12
Netz in Zukunft beliebige Texte lemmatisieren soll.                  https://numpy.org/ (letzter Zugriff: 02.06.2021)
ronen zu erheblichen Schwankungen der Fehler-                 Merkmal       Erläuterung                     Wert
quote während des Trainings geführt hat. Die Aus-       1   LLemma        Länge Lemma                     0,36
gabeschicht besteht nur aus einem Neuron, da              2   LOriginal     Länge Originalschreibung        0,4
                                                          3   Durchsn.L     Differenz Längen                0,05
das Netz anhand des Scores nur eine Voraussa-             4   Subst.        Substantiv                       0,5
ge darüber trifft, ob ein Wort als Lemma erkannt         5   Adj.          Adjektiv/Adverb                  0
wird oder nicht. Je höher der Score, desto sicherer      6   Verb          Verb                             0
                                                          7   Unbekannt     Unbekannt                        0
wird das betreffende Lemma erkannt. Hierbei wird          8   JW            Jaro-Winkler-Distanz             0,93
analog zu Norma mit Paaren der Form < wi , l >            9   phon          phonetische Distanz              1
gearbeitet.                                             10    JW-norm       JW-Distanz mit Normierung        0,984
                                                        11    phon-norm     ph-Distanz mit Normierung        1
  Die Paarung von historischen Wortformen mit           12    JW-fwb-allg   JW-Distanz mit FWB-Norm.         0,93
den Lemmata des FWB < wi , l > ergeben die              13    JW-kw-qu      JW-Distanz kw-qu                 0,93
Daten, die als Bewertungsvektor formalisiert wer-       14    JW-ai-ei      JW-Distanz ai-ei                 0,93
                                                        15    JW-ich-ig     JW-Distanz auslautendes ich-ig   0,93
den. Dieser Vektor bildet die Eingabeschicht, deren     16    nrdnieders.   Niedersächsisch                 0
Werte gewichtet und auf der verdeckten Schicht          ...
                                                        39    orfrk.        Ostfränkisch                    1
propagiert werden. Nach einer weiteren Gewich-          ...
tung gibt das Netz auf der Ausgabeschicht einen         45    balt.         Baltisch                         0
Score an, der determiniert, ob lemmatisiert wird
oder nicht. Diese Lemmatisierung wird anschlie-         Tabelle 1: Bewertungsmatrix für die Wortform Refftra-
ßend anhand der bereits ausgezeichneten Strecken        ger
evaluiert und das Netz so trainiert. Diese Aspekte
werden im Folgenden genauer erläutert.
                                                        25 Buchstaben. Die Jaro-Winkler-Distanz wird ent-
Bewertungsvektoren Da das FWB und die meis-             sprechend (Winkler, 1990), die phonetische Di-
ten maschinenlesbaren historischen Quellen nicht        stanz gemäß der Kölner Phonetik (Postel, 1969)
getaggt sind, kann nur auf jene Informationen           berechnet. Alle weiteren Distanzen ergeben sich
zurückgegriffen werden, die sich aus dem Vergleich     aus den Normierungen, die Nichtbuchstaben aus
der VKF mit den Lemmata des FWB ergeben.                dem Lemma entfernen, Diakritika und Ligaturen
Darüber hinaus werden Metadaten zum jeweiligen         auflösen und die Originalschreibung gemäß der
Sprachraum berücksichtigt, da diese genutzt wer-       Richtlinien für die FWB-Lemmazeichengestalt nor-
den, um sprachraumspezifische Normalisierungen          malisieren (Reichmann, 1986). Insofern folgt das
in das Netz einfließen zu lassen.                       Netz dem etablierten Ansatz, Vorkommensformen
   Um z. B. die VKF Refftrager im Quellenzitat (4)      zu normalisieren, ermöglicht jedoch die Inklusion
als das Lemma refträger zu identifizieren, werden      von Metadataden und händisch erstellten Regeln,
insgesamt neun Bewertungsvektoren für sämtliche       die sich für vergleichbare Ansätze als hilfreich er-
Paarungen , [. . . ],  erstellt. Der Bewertungsvektor für die        Da für die Zukunft abzusehen ist, dass Infor-
VKF Refftrager entspricht der vierten Spalte von        mationen zu den Wortarten zwar hilfreich, aber
Tabelle 1.                                              nicht nutzbar sein werden, ist geplant, nach den
                                                        sprachraumspezifischen Regelsätzen auch spezielle
 (4) secht recht wie ein Hundsschlager | Oder ein
                                                        FLexions- und Deklinationsregeln zu implementie-
     alter Refftrager
                                                        ren, die generelle Prinzipien erfassen, jedoch nicht
   Alle Informationen müssen für das Netz in nu-      auf Informationen zur Wortart angewiesen sind.
merische Werte transformiert werden, damit sie als      Der Defaultwert für die Wortarten ist 0, das Fea-
Features der Eingabeneuronen dienen können. Die        ture für die entsprechende Wortart (unter Sonstige
Features und deren Werte ergeben sich aus Tests-        subsummiert das FWB Artikel, Interjektionen, etc.)
Trainings. Es wurden stets die Werte gewählt, für     ist 0,5.
die sich die beste Entwicklung des Fehlerquotien-          Insgesamt deckt das FWB vom Niederpreußi-
ten ergab (vgl. hierzu Abb. 2). Die Anhebung des        schen bis zum Alemannischen 31 Sprachräume ab.
F-Scores wurde erst ansatzweise durch die Imple-        Der Default-Wert der entsprechenden Neuronen ist
mentierung der Regeln 12–15 angegangen.                 wiederum 0. Je nachdem welchem Sprachraum das
   Die Länge von Lemma und Wortform ergibt             jeweilige Wort zugeordnet ist, müssen ggf. meh-
sich als Verhältnis zur maximalen Wortlänge von       rere Neuronen aktiviert werden, da sowohl über-
als auch untergeordnete Sprachräume existieren.
Refftrager ist z. B. in einer Nürnberger, d. h. einer
oberfränkischen Quelle belegt (für Städte wird im-
mer der Sprachraum gewählt, in dem sie liegen).
Da sich der oberfränkische Sprachraum aus keinen
untergeordneten zusammensetzt, wird nur dessen
Neuron aktiviert und der Wert 1 eingetragen. Bei
einer rheinfränkischen Quelle müssten hingegen
mehrere Sprachräume berücksichtigt werden, weil
dieser Sprachraum aus dem hessischen und pfälzi-
schen besteht. Für solche Fälle wird der Wert nach
der auf dem Kehrwert der Gebietszahl basieren-
den Formel Feature = 0,3 + 0,5/x für x = Anzahl                  Abbildung 2: Lernkurve des Netzes
aktivierte Sprachräume berechnet.

Lemmatisierung Das Netz identifiziert ein Wort           Quellenzitat (5) hat die Vorkommensform abethe-
als Lemma über den Score. Ist dieser größer            wer einen Score von 0,79, wird also korrekt lemma-
als der aktuell noch willkürlich gewählte Wert         tisiert. Wir prüfen jedoch auch, ob zwei auf einan-
von 0,58, wird lemmatisiert. Zentrales Element           der folgende Wörter einem getrennt geschriebenen
der Berechnung des Scores sind neben den Wer-            Lemma entsprechen, damit erhalten wir für die auf-
ten des Bewertungsvektors zwei Gewichtsmatri-            einander folgenden Wörter aber einer einen Score
zes, die zwischen Eingabeschicht und verdeckter          von 0,67 und somit einen false positive.
(Weights-input-hidden) sowie verdeckter und Aus-            Im Quellenzitat (6) hingegen ermittelt das Netz
gabeschicht (Weights-hidden-output) positioniert         für avonture einen Score, der kleiner als 0,58 ist.
sind. Die Values der Eingabeschicht werden wie           Die Vorkommensform wird also nicht erkannt, es
üblich per Matrixmultiplikation propagiert und auf      liegt ein false negative vor.
der verdeckten Ebene mit einer Sigmoidfunktion
auf das Intervall [0, 1] beschränkt und so der Re-       (5) sucht aber einer awßflucht, so sten einer seyn
chenaufwand zu minimiert, ohne Präzision ein-                abethewer
zubüßen. Derart können auch verdeckte Neuronen
deaktiviert werden und kann das Netz verschiedene         (6) also uns die avonture und ouch daz buch noch
Eingaben korrelieren und nichtlinear arbeiten.                seit

Training Das Training des Netzes erfolgt auf ur-         6     Resultate
sprünglich randomisierten Gewichtsmatrizes ent-
sprechend des hot cold learning. Ziel ist eine gleich-   6.1    Ergebnisse von Norma
bleibende, möglichst geringe Fehlerquote. Da un-        Als Baseline verwenden wir ein einfaches System,
ser Netz simpel aufgebaut ist, können wir mit einer     das jeweils die vorliegende Wortform als Lemma
sehr geringen Lernrate arbeiten und so das Mini-         vorhersagt. Die Baseline entspricht damit dem An-
mum der Fehlerquote genau bestimmen, was zu              teil der Stichworte, die formal mit dem Lemma
einem robusten Netz führen sollte.                      übereinstimmen. In den drei Korpora liegt die Ba-
   Die Kurve in Abb. 2 beschreibt die Entwick-           seline zwischen 15,0–18,2% Genauigkeit.
lung des Fehlerquotienten beim Training über der           Insgesamt ergeben sich durchschnittliche Genau-
r-Strecke, die in 173.379 Wörtern 11.187 Vorkom-        igkeiten von 84,3% mit Norma-small und 60,8%
mensformen von 1.819 Lemmata enthält. Der lo-           mit Norma-full. Der Großteil der Fehlerrate von
kale Anstieg des Fehlerquotieten weist auf eine zu       Norma-full ergibt sich aus den Fällen, bei denen
hohe Lernrate hin, die den statistischen Gradienten-     Norma kein passendes Lemma generiert. Schaut
abstieg in zu großen Schritten über das Minimum         man sich die Genauigkeit bei den generierten Lem-
der Fehler-Gewichts-Kurven hinausschießen lässt.        mata allein an (d. h. die Precision), so ergibt sich
Es ist zu erkennen, dass noch ca. 2000 Fehler exis-      bei Norma-small 88,6% und bei Norma-full 91,9%.
tieren.                                                     Von den Korpora ist nobd das schwierigste,
   Im Folgenden einige beispielhafte Analysen: Im        mit Genauigkeiten von 82,5% (Norma-small) und
–   Mapper     Rules    WLD
    # Lemmata
     Norma-small    88        417     276    1.019
     Norma-full    609        422     256      513
    Precision
    Norma-small      0       81,3     97,8    89,1
    Norma-full       0       80,3     98,0    98,2

Tabelle 2: Verteilung der erzeugten Lemmata über die
Normalisierer sowie die jeweilige Genauigkeit (Durch-
schnitt in Prozent)
                                                           Abbildung 3: Precision der einzelnen Normalisierer

52,8% (Norma-full), gegenüber rund 85% bzw.              tatsächlich echte (wenn auch nachvollziehbare)
65% bei den beiden anderen Korpora.                       Fehler. Dabei identifizierte Norma als VKF des
   Tabelle 2 zeigt, von welchen Normalisierern            Lemmas osterwind einmal westerwint und einmal
die erzeugten Lemmata in den beiden Szenarien             oberwind statt oster(wint) im Quellenzitat in (7). In
stammen. “–” sind die Fälle, in denen Norma kei-         allen anderen Fällen wurde als VKF entweder ein
nen Kandidaten generiert. Man sieht deutlich, dass        (korrekter) Bestandteil eines komplexen Wortes er-
ein Großteil der WLD-Lemmata, die im Szena-               kannt oder umgekehrt, oder es kamen im Quellenzi-
rio Norma-small dank des minimalen Ziellexikons           tat mehrere mögliche VKFs vor und Norma wählte
erzeugt werden, im Szenario Norma-full nicht ge-          eine andere VKF als in den Testdaten vorgegeben.
neriert werden und zu einer großen Anzahl von             Einige Beispiele werden in Tabelle 3 gezeigt.
unanalysierten Fällen führen (33,8%) . Gleichzei-
tig zeigt es sich, dass die Precision von WLD bei          (7) Oster- und westerwint, den man ober und ni-
Norma-small deutlich abfällt gegenüber Norma-                der nent, wäen dick und oft und gegen denen
full (89,1% vs. 98,2%). D. h. von den rund 500                 pflegt man nit zu pauen; der oberwind pringt
Lemmata, die Norma-small zusätzlich generiert,                gern regen und ungewitter.
sind nur rund 400 korrekt.
   In Tabelle 2 fällt zudem auf, dass der Mapper            Von Norma-Small wurden die ersten 100 Fälle
in beiden Szenarien deutlich abfällt gegenüber den      manuell analysiert. Davon waren 75 eigentlich kor-
anderen Normalisierern. Das ist zunächst überra-        rekt. Dabei handelte es sich z. T. um die gleichen
schend, da der Mapper nur bei bereits bekannten           Fälle wie bei Norma-Full. Zusätzlich kommt es
Paaren aktiv wird. Die Fehleranalyse unten zeigt,         hier zu echten Fehlern wie in der unteren Hälfte
dass die schlechte Performanz zu großen Teilen auf        von Tabelle 3 illustriert. Z. B. wird für das Lemma
Eigenschaften der Evaluationsdaten zurückgeführt        erbe als VKF brief identifiziert. Der Grund dafür
werden kann.                                              ist, dass der Mapper kein Ziellexikon nutzt und als
   Abb. 3 zeigt die Precision der einzelnen Nor-          erste Komponente die (eigentlich gesuchte) Wort-
malisierer. Rules schneidet hier am besten ab (mit        form erben auf das Lemma erben lemmatisiert hat,
Werten von 95.6–99.0%). Im Szenario Norma-full            so dass die weiteren Normalisierer gar nicht mehr
liefert WLD vergleichbar gute Ergebnisse (96.9–           auf diese Wortform angewendet wurden. Rules und
99.3%).                                                   WLD hätten sonst die VKF korrekt identifiziert.
                                                          Dasselbe passiert im Fall von straff, das der Mapper
Fehleranalyse Wie schon erwähnt, machen die              auf strafe statt auf strafen lemmatisiert. Es wäre
fehlenden Lemmatisierungen einen wesentlichen             hier also zu überlegen, den Output des Mappers
Teil der Fehlerrate aus: bei Norma-small sind es          zusätzlich mit dem Ziellexikon abzugleichen.
31,1%, bei Norma-full sogar 86,3%.
   Kritischer sind allerdings die Fälle, in denen Nor-   6.2   Ergebnisse des Netzes
ma eine VKF identifiziert, diese aber nicht die rich-     Schon jetzt ergibt das noch unfertige künstliche
tige ist (false positives). Das ist in 195 (Norma-        neuronale Netz vielversprechende Ergebnisse, s.
small) bzw. 97 (Norma-Full) Fällen der Fall. Eine        Tabelle 4. Auf Basis des aktuellen Trainings erhal-
manuelle Analyse dieser Fälle ergab:                     ten wir einen durchschnittlichen F-Score von 0,931.
   Bei Norma-Full sind nur zwei dieser Fälle             Da die einzelnen F-Scores über die analysierten
Gold-Lemma      Gold-VKF       System-VKF         System
 abschlagen      ab             schlueg            Nfl/Nsm
 anheben         hueb           an                 Nfl/Nsm
 straus          straussen      strauß             Nfl/Nsm
 entblössen     entblotzet     entblotzest        Nfl/Nsm
 erbe            erben          brief              Nsm
 strafen         straff         spricht            Nsm

Tabelle 3: False Positives von Norma-full (Nfl) und
Norma-small (Nsm)

                r-Strecke      e-Str.     q-Str.   st-Str.
  TN             153.687      10.876      71.132   67.953
  TP               9.806         646       4.648    4.326
  FN                 715          52         310      285    Abbildung 4: F-Scores nach Wortarten auf Basis der a-
  FP                 800          33         315      436    und b-Strecke

  Precision %       92,5        95,1        93,7    90,08
  Recall %          93,2       92,55       93,75    93,12
  F-Score          0,928       0,938       0.937    0.923

Tabelle 4: Ergebnisse für das Netz: r-Strecken: Trai-
ningsdaten; Rest: Testdaten. (TN: True Negatives, TP:
True Positives, FN: False Negatives, FP: False Positi-
ves)

Strecken hinweg recht konstant sind, können wir
davon ausgehen, dass das Netz weder über- noch
unterangepasst ist. Um die Treffsicherheit des Netz
zu verbessern, sollen in Zukunft gemischtere Trai-
ningsdaten aus allen manuell getaggten Strecken              Abbildung 5: F-Scores in Abhängigkeit zur Wortlänge.
                                                             Wörter mit mehr als 20 Buchstaben wurden ausgeklam-
erstellt werden. Zudem scheint es sinnvoll, den
                                                             mert, da sie nur punktuell auftreten
Score, über den lemmatisiert wird, nach oben zu
korrigieren, das Netz so kritischer zu gestalten und
false positives auszuschließen. Das damit einherge-          Erfassen von nicht adjazent geschriebenen Partikel-
hende vermehrte Auftreten von false negatives ist            verben.
zu verkraften, da diese, wenn das Netzwerk weiter               Hinsichtlich der Wortlänge werden VKF mit ei-
trainiert wird, zurückgehen sollten.                        ner Länge von 5–12 Buchstaben überdurchschnitt-
   Die folgenden Analysen basieren auf der a- und            lich gut erkannt, vgl. Abb. 5. Dies ist erfreulich, da
b-Strecke.                                                   sie mit 62,5% (a-Strecke) und 72,2% (b-Strecke)
   Hinsichtlich der Wortarten entfällt der Großteil         den Großteil der zu lemmatisierenden VKF ausma-
der Fehler auf flektierte Verben, vgl. Abb. 4. Ein           chen.
besonderes Problem stellen Partikelverben da, die               Besonders interessant ist, dass Wörter, die nur
getrennt geschrieben nur dann lemmatisiert wer-              aus einem Buchstaben bestehen, gut erkannt wer-
den können, wenn die betreffenden Teilstücke di-           den. Dies ist darauf zurückzuführen, dass es sich
rekt aufeinander folgen. Adjektive/Adverbien und             hierbei nur um Buchstabennamen handelt, die ent-
Sonstige werden durchschnittlich bzw. unterdurch-            sprechend gut zugeordnet werden können. Analog
schnittlich gut erkannt, fallen aufgrund ihres relativ       sollte dieser Mechanismus auch für besonders lan-
geringen Anteils von ca. 12% Adjektive/Adverbien             ge Wörter geltend gemacht werden, weswegen die
und nur ca. 1,7% Sonstige weniger ins Gewicht.               Kurve nach dem zweiten lokalen Minimum noch-
Für die Verbesserung des Netzes ist daher zunächst         mals ansteigt. Kurze Wörter werden erst dann pro-
sowohl die Implementierung von Flexionsregeln                blematisch, wenn sie, wie oben in (2) und (3) für
angedacht, die flektierte Formen zur Infinitivform           Norma belegt, auch für das Netz zu false positi-
hin normalisieren, als auch ein Mechanismus zum              ves führen. Dies erklärt auch die vergleichsweise
trem wenig Trainingsdaten bereits gute Ergebnisse:
                                                           die Präzision liegt z. B. bei Norma-full bei nahezu
                                                           100%, bei einer Abdeckung von 66.2%. Das Netz
                                                           wurde auf einer größeren Datenmenge trainiert, die
                                                           allerdings weniger spezifisch waren. Es erreicht
                                                           eine Abdeckung von 86,66% und hinsichtlich der
                                                           Sprachräume wesentlich homogenere Ergebnisse.
                                                              Die hier umrissene Lemmatisierung stellt eine
                                                           notwendige Grundlage für eine geplante Seman-
                                                           tisierung frühneuhochdeutsche Texte dar. Ist ein
                                                           genügend großer Anteil der entsprechenden Quel-
                                                           len lemmatisiert, kann, z. B. über Kollokationsana-
          Abbildung 6: F-Scores nach Sprachraum            lysen und vektorbasierte Verfahren damit begonnen
                                                           werden, die Lesarten der erkannten Lemmata zu
                                                           disambiguieren. Eine solche Semantisierung würde
schlechten Scores der Sonstigen, da es sich hierbei        z. B. Wortformen von gnade nicht mehr nur auf den
generell um eher kurze Wörter handelt. Hier sollte        entsprechenden Artikel verlinken, sondern auf eine
die Korrektur des Scores nach oben false positives         der 20 verschiedene Lesarten, die im FWB notiert
ausschließen. Eventuell ist zu überlegen, ob es un-       sind und von 1. “unverdiente, unerwartete, retten-
terschiedliche Limits für den Score geben könnte,        de, helfende Zuwendung des liebenden Gottes zum
die von der Wortlänge abhängig sind. Schlechter          Menschen” über 10. “Gabe, die eine höhergestellte
erkannte längere Wörter fallen aufgrund ihrer ge-        Person aufgrund einer wohlwollenden Gesinnung
ringen Frequenz weniger ins Gewicht.                       an einen in der Hierarchie Niedrigeren verteilt” bis
   Über die Analyse der Sprachräume lassen sich          hin zu 17. “Teil einer Begrüßungs- und Segensfor-
einzelne herausarbeiten, die unterdurchschnittli-          mel” reichen. Allein dies zeigt, welchen Mehrwert
che Werte aufweisen, wie z. B. das Oberdeut-               eine zukünftige Semantisierung frühneuhochdeut-
sche oder Preußische (s. Abb. 6).13 Dies weist             scher Texte haben könnte, der sich u. A. im Er-
auf Sprachräume hin, deren VKF erheblich von              kenntnisgewinn während der Lektüre niederschla-
der Gestalt des Lemmazeichens im FWB abwei-                gen würde oder tiefergehende semantische Ana-
chen (Preußisch). Es könnte sich jedoch auch um           lysen wie beispielsweise eine Methaphernanalyse
Sprachräume handeln, die weniger belegt sind              unterstützen würde.
(Oberdeutsch mit nur durchschnittlich 0,1% al-
ler VKF) und deren Systematiken daher nicht in
genügendem Umfang vom Netz erlernt worden                 Bibliographie
sind. Eine Lösung für beide Problematiken könn-         Marcel Bollmann. 2012. (Semi-)automatic normaliza-
ten Regelsets sein, die sprachraumspezifische Nor-          tion of historical texts using distance measures and
malisierungen durchführen und über die entspre-           the Norma tool. In Proceedings of the Workshop on
                                                            Annotating Corpora for Research in the Humanities
chenden Features der Sprachraum-Neuronen ak-
                                                            (ACRH-2), Lisbon.
tiviert werden. Solche Regelsets lassen sich mit
Norma generieren und sollten für das Netz pro-            Andrea Ernst-Gerlach and Norbert Fuhr. 2006. Gene-
                                                             rating search term variants for text collections with
duktiv gemacht werden können. Daneben sollten               historic spellings. In Proceedings of the 28th Euro-
die Trainingsdaten so gewählt werden, dass alle             pean Conference on Information Retrieval Research
Sprachräume möglichst gleich stark vertreten sind.         (ECIR 2006), München.
                                                           Ian Goodfellow, Yoshua Bengio, and Aaron Courville.
7        Ausblick                                             2018. Deep Learning: Das umfassende Handbuch.
Wir haben in diesem Beitrag zwei Ansätze beschrie-           Grundlagen, aktuelle Verfahren und Algorithmen,
                                                              neue Forschungsansätze. MIT Press.
ben, die für die Identifikation von Vorkommensfor-
men genutzt werden können. Beide erreichen noch           Lisa Klaffki, Stefan Schmunk, and Thomas Stäcker.
keine perfekte Abdeckung. Norma erreicht mit ex-              2018.     Stand der Kulturgutdigitalisierung in
                                                             Deutschland: Eine Analyse und Handlungsvor-
    13
    In Ermangelung von geeigneten Sprachkürzeln gemäß       schläge des DARIAH-DE Stakeholdergremiums
ISO 639 werden die im FWB verwendeten Sprachkürzel ver-    “Wissenschaftliche Sammlungen”. DARIAH-DE
wendet.                                                      working papers 26. Göttingen.
Markus Konrad. 2019. GermaLemma: A lemmati-
 zer for German language text. https://github.
 com/WZBSocialScienceCenter/germalemma.

Matthias Liebeck and Stefan Conrad. 2015. IWNLP:
 Inverse Wiktionary for natural language processing.
 In Proceedings of the 53rd Annual Meeting of the As-
 sociation for Computational Linguistics and the 7th
 International Joint Conference on Natural Langua-
 ge Processing (Short Papers), pages 414–418, Bei-
 jing, China.
Roland Mittmann. 2016. Automatisierter Abgleich des        Abbildung 7: Genauigkeit (links) und Precision der ein-
  Lautstandes althochdeutscher Wortformen. Journal         zelnen Normalisierer (rechts) in der ersten Evaluation
  for Language Technology and Computational Lin-           von Norma
  guistics, 31(2):17–24. Special issue on Corpora and
  Resources for (Historical) Low Resource Langua-
  ges.
                                                           Appendix
Thomas Pilz, Andrea Ernst-Gerlach, Sebastian Kemp-
  ken, and Paul Rayson. 2007. The identification of        Norma als Lemmatisierer Norma wurde für die
  spelling variants in English and German historical       Normalisierung flektierter Wortformen entwickelt.
  texts: Manual or automatic? Literary and Linguistic      Für die VKF-Identifikation setzen wir Norma ab-
  Computing, 23(1).                                        weichend dafür ein, VKF-Kandidaten aus Bele-
Hans Joachim Postel. 1969. Die Kölner Phonetik.           gen zu lemmatisieren. In einer ersten Evaluation
  Ein Verfahren zur Identifizierung von Personenna-        untersuchten wir daher zunächst, wie gut Norma
  men auf der Grundlage der Gestaltanalyse. IBM-           flektierte Originalschreibungen auf standardisier-
  Nachrichten, 19. Jahrgang. Stuttgart.
                                                           te Lemmata abbilden kann. Dazu führten wir ei-
Tariq Rashid. 2017. Neuronale Netze selbst pro-            ne sechsfache Crossvalidierung durch und trainier-
  grammieren. Ein verständlicher Einstieg mit Python.     ten Norma auf jeweils 500 Paaren aus drei ver-
  O’Reilly, Heidelberg.                                    schiedenen Sprachräumen (Nordoberdeutsch/nobd,
Oskar Reichmann. 1986.         Frühneuhochdeutsches       Mittleres Ostoberdeutsch/moobd, Elsässisch/els)
  Wörterbuch. Band 1: Einführung, a - äpfelkern. Ber-   und evaluierten auf jeweils 100 Paaren. Dieselben
  lin, New York. Herausgeber: Robert R. Ander-             Splits wurden in Kap. 6 für die Evaluation der VKF-
  son [für Band 1], Ulrich Goebel, Anja Lobenstein-
  Reichmann [Einzelbände] & Oskar Reichmann
                                                           Identifikation durch Norma genutzt.
  [Bände 3 und 7 in Verbindung mit dem Institut für         Als Baseline verwendeten wir ein einfaches Sys-
  deutsche Sprache; ab Band 9, Lieferung 5 im Auf-         tem, das jeweils die vorliegende Wortform als Lem-
  trag der Akademie der Wissenschaften zu Göttin-         ma vorhersagt.
  gen].                                                       Abb. 7 zeigt die Ergebnisse. Die Baseline der
Helmut Schmid. 2019. Deep learning-based morpho-           Genauigkeit liegt zwischen 15,0–18,2%, die Durch-
  logical taggers and lemmatizers for annotating histo-    schnittswerte (“average”) zwischen 56,8-69,8% pro
  rical texts. In Proceedings of the 3rd International     Teilkorpus, was Norma für die (wesentlich leichte-
  Conference on Digital Access to Textual Cultural He-
  ritage (DATeCH2019), page 133–137. Association           re) Aufgabe der VKF-Identifikation als mögliches
  for Computing Machinery.                                 Tool erscheinen lässt. Die Normalisierer Mapper
                                                           und Rules erreichen gute Precision-Werte (Mapper:
Joachim Steinwendner and Roland Schwaiger. 2019.
                                                           70,1–84,0%, Rules: 67,3–84,0%). WLD schneidet
  Neuronale Netze programmieren mit Python. Rhein-
  werk, Bonn.                                              am schlechtesten ab (48,3–60,1%), allerdings muss
                                                           hier berücksichtigt werden, dass WLD als letzte
Christian Wartena. 2019. A probabilistic morphology        Komponente die “schwierigen” Fälle übernimmt
  model for German lemmatization. In Proceedings
  of the 15th Conference on Natural Language Pro-          und insgesamt die meisten Wortformen lemmati-
  cessing (KONVENS 2019), pages 40–49.                     siert (gesamt: 1.800; WLD: 1.013; Mapper: 453;
                                                           Rules: 333; ohne Analyse: 1). In allen Fällen sind
William E. Winkler. 1990. String comparator metrics
                                                           die Werte für das Korpus nobd am niedrigsten.
  and enhanced decision rules in the Fellegi-Sunter
  model of record linkage. In Proceedings of the Sec-
  tion on Survey Research Methods, Göttingen.
Abbildung 8: Beispielhafter Bedeutungsansatz 1 des Lemmas abenteuer in der Online-Ausgabe des FWB (http:
//fwb-online.de/go/abenteuer.s.1fn_1619637065, letzter Zugriff: 03.06.2021)
Sie können auch lesen