Identifikation von Vorkommensformen der Lemmata in Quellenzitaten fr uhneuhochdeutscher Lexikoneintr age
←
→
Transkription von Seiteninhalten
Wenn Ihr Browser die Seite nicht korrekt rendert, bitte, lesen Sie den Inhalt der Seite unten
Identifikation von Vorkommensformen der Lemmata in Quellenzitaten frühneuhochdeutscher Lexikoneinträge Stefanie Dipper Jan Christian Schaffert Sprachwissenschaftliches Institut Georg-August-Universität Göttingen & Fakultät für Philologie Akademie der Wissenschaften zu Göttingen Ruhr-Universität Bochum jan.schaffert@phil. stefanie.dipper@rub.de uni-goettingen.de Abstract es ihnen an jener semantischen Erschließungstiefe, die über ein passendes Wörterbuch erreicht werden In dieser Arbeit werden zwei Ansätze vor- könnte und maßgeblich zum Verständnis beitragen gestellt, die die Quellenzitate innerhalb ei- würde. nes Wörterbucheintrags im Frühneuhochdeut- schen Wörterbuch analysieren und darin die Im nachfolgenden Beitrag stellen wir auf Basis Vorkommensform identifizieren, d. h. die des Frühneuhochdeutschen Wörterbuches (im Fol- Wortform, die dem Lemma dieses Eintrags ent- genden FWB) zwei Ansätze vor, die dies möglich spricht und als historische Schreibform in ver- machen sollen, indem sie durch die Lemmatisie- schiedenen Schreibvarianten vorliegt. Die Eva- rung frühneuhochdeutscher Wörter die Basis einer luation zeigt, dass schon auf Basis kleiner Trai- Semantisierung schaffen. ningsdaten brauchbare Ergebnisse erzielt wer- Der eine Ansatz wendet ein existierendes Sys- den können. tem zur Normalisierung historischer Schreibungen an, der andere nutzt ein künstliches neuronales 1 Einleitung Netzwerk.1 Ausgangspunkt ist die Identifikation Wörterbücher erschließen Sprachen, deren Dia- der Lemmata und deren Wortbildungen in den lekte, Sprachstufen und Fachwortschätze über die Quellenzitaten des FWBs. Langfristiges Ziel ist strukturierte Präsentation sprachbezogener Infor- die möglichst umfassende automatische Lemmati- mationen. Die Ausdifferenzierung kann dabei sehr sierung digitaler frühneuhochdeutscher Texte. unterschiedlich sein und zeigt sich schon in den Na- Der Artikel ist wie folgt aufgebaut: Zunächst men der Wörterbücher (Deutsches Rechtswörter- stellen wir die Daten des FWBs vor (Kap. 2). buch, Wörterbuch der schweizerdeutschen Spra- Kap. 3 erklärt, wie unser genereller Ansatz aus- che, Wörterbuch der deutschen Pflanzennamen). sieht. In Kap. 4 und 5 beschreiben wir die beiden Eine besondere Position nehmen die allgemeinen Systeme zur Identifikation der Vorkommensform. Wörterbücher ein, die den Gesamtwortschatz einer Kap. 6 enthält die Resultate, gefolgt von einem Sprache diachron oder synchron erfassen. Wird ei- Ausblick in Kap. 7. ne historische Sprachstufe bearbeitet, kommt den Werken zudem eine kulturpädagogische Funktion 2 Das Frühneuhochdeutsche zu, da sie die diachronen Unterschiede zu der je- Wörterbuch (FWB) weiligen Standardsprache herausarbeiten müssen, Das FWB ist ein semantisches Bedeutungswörter- um entsprechende sprachbezogene Informationen buch mit kulturwissenschaftlichem Schwerpunkt, adäquat zu vermitteln (Reichmann, 1986). dessen Ziel es ist, den Gesamtwortschatz des Natürlich wurden während des Digital Turns Frühneuhochdeutschen synchron in seiner Hete- neben den historischen Quellen auch die rogenität zu präsentieren (Reichmann, 1986). Um Wörterbücher digitalisiert, sodass deren Informa- dessen Varietätenspektrum bestmöglich zu erfas- tionsangebot nun überall abrufbar, durchsuchbar sen, bildet das FWB die drei wichtigsten frühneu- und vielfältig auswertbar ist. Eine Verknüpfung hochdeutschen Heterogenitätsdimensionen Zeit der Quellen mit den Wörterbüchern fand jedoch 1 nicht statt. Die historischen Quellen bieten Unser Dank gilt insbesondere Herrn Dr. Matthias Schütze, der das FWB seit vielen Jahren technisch begleitet und in daher aktuell nur rudimentäre Möglichkeiten der diesem Zusammenhang auch das künstliche neuronale Netz Nachnutzbarkeit (Klaffki et al., 2018). So mangelt entwickelt hat.
(1350 bis 1650), Raum (Thüringisch, Elsässisch, (1) das die frembden in [. . . ] wirtshewser geen Alemannisch, etc.) und Textsorte (erbauliche, litera- mit iren obentewern. rische, rechtsgeschichtliche, etc. Texte) möglichst ungewichtet in seinen Quellen und sprachbezoge- Wir fassen die Aufgabe als Lemmatisierungs- nen Informationen ab. Pro Lemma, bei polysemen aufgabe auf: Gegeben ein Kandidat für eine VKF, Lemmata pro Einzelsemantik, bietet das FWB eine lässt sich dieser Kandidat auf das vorgegebene Vielzahl qualitativ hochwertiger, heuristisch kom- Lemma lemmatisieren? Dabei gehen beide Ansätze petent überprüfter, semantischer und pragmatischer so vor, dass sie sämtliche historischen Worterfor- Informationen und belegt diese mit Zitaten. men wi innerhalb eines Belegs mit dem vorge- Da das Frühneuhochdeutsche weder eine norma- gebenen Lemma l paaren: < wi , l > und für je- tiv geregelte Orthographie noch eine überdachende des Paar überprüfen, ob l das Lemma von wi sein Leitvarietät aufweist, belegt das FWB pro Lemma könnte. Im Beispiel (1) wären das also die Paare zudem eine z. T. erhebliche Anzahl von Vorkom- , , etc. seit 2017 manuell ausgezeichnet werden, ergibt Ein möglicher Ansatz wäre es, für diese Auf- sich ein unschätzbares Potenzial: Aktuell werden gabe einen vorhandenen Lemmatisierer zu nutzen. 13.178 VKF eindeutig 4.674 Lemmata zugeord- Das ist allerdings aus verschiedenen Gründen nicht net. Dieses Verhältnis deutet die Problematiken der ohne Weiteres möglich: Lemmatisierungsansätze jener VKF an, die nicht Viele der Ziel-Lemmata aus dem FWB haben ausgezeichnet sind. keine moderne Entsprechung, z. B. lauten die ers- Exemplarisch ist das Lemma abenteuer, das in ten zehn Lemmata einer Zufallsauswahl sünde, den Quellenzitaten u. a. in folgenden VKF belegt *quatembergeld, *entspanen, erzeigen, *erbholde, ist: aventevre, auffentür, abenteür, aventúre, aben- *abtilgen, abschlagen, *äfern, streuen, abtun3 – für tewr, abentur, ofentúre, obentewer, aubentúr, au- fünf davon (mit Stern markiert) gibt es keinen Ein- benteur, usw. (s. Abbildung 8 im Appendix mit ei- trag in einem Standardwörterbuch wie dem Duden4 . nem Ausschnitt des FWB-Eintrags zu diesem Lem- Damit lassen sich moderne Lemmatisierer nicht oh- ma). Wie kann in allen diesen Vorkommensformen ne Weiteres sinnvoll auf diese Daten anwenden, da (insgesamt 36 unterscheidbare) automatisch und die Zahl der ungesehenen Lemmata ungewöhnlich möglichst eindeutig das Lemma erkannt werden? hoch ist. Auch lassen sich vorhandene Korpora wie z. B. das Anselm-Korpus5 , das RIDGES-Korpus6 Die in diesem Beitrag genutzten Daten des FWB oder das Referenz-Korpus Frühneuhochdeutsch7 stehen online z. T. frei zur Verfügung oder werden nicht als Trainingsdaten verwenden, da diese mo- in den kommenden Jahren freigeschaltet.2 derne Lemmata verwenden. Außerdem basieren viele moderne Lemmatisie- 3 Identifikation von Vorkommensformen rer auf Wortart-Information (und integrieren gege- durch Lemmatisierung benenfalls einen entsprechenden Tagger), so z. B. In diesem Beitrag soll es also noch nicht um die Liebeck and Conrad (2015); Konrad (2019). Für Lemmatisierung beliebiger Texte des Frühneuhoch- unsere Daten liegen aber keine entsprechenden deutschen gehen, sondern zunächst um eine einfa- Wortart-Annotationen vor. chere Aufgabe: Gegeben ein Lemma wie abenteu- Ein weiteres Problem ist, dass die VKF- er, identifiziere die zugehörige Vorkommensform Kandidaten nicht in einer standardisierten Form (VKF) innerhalb der Quellenzitate. (1) zeigt ein vorliegen, sondern stark variieren können. Daher Beispiel für ein Quellenzitat für dieses Lemma lässt sich beispielsweise der Ansatz von Wartena aus einem nordoberdeutschen Text. Das Lemma 3 Die Daten stammen aus dem Mittleren Ostoberdeutsch ist in standardisierter Form vorgegeben, während (moobd.), vgl. Abschnitt 4. 4 die VKF eine flektierte Wortform sein kann, die https://www.duden.de/ 5 https://www.linguistics.rub.de/ zudem in der historischen Originalschreibung vor- comphist/projects/anselm/ liegt. Ziel ist es also, in (1) die VKF obentewern zu 6 https://www.linguistik.hu-berlin. identifizieren. de/de/institut/professuren/ korpuslinguistik/forschung/ ridges-projekt 2 7 https://fwb-online.de/ (letzter Zugriff: https://www.linguistics. 5.5.2021) ruhr-uni-bochum.de/ref/
(2019) nicht umsetzen, der von markierten Mor- das die generierten Kandidaten abgeglichen wer- phemgrenzen innerhalb der Trainingsdaten aus- den. Bei der Normalisierung wendet Norma die geht. drei Komponenten der Reihe nach an. Sobald ei- Schließlich liegen in unserem Szenario nur we- ne Komponente eine normalisierte Form generiert, nig Trainingsdaten vor: Im Ansatz mit Norma (s. wird abgebrochen. Norma generiert allerdings nur Abschnitt 4) stehen jeweils nur 500 Wörter als Trai- Kandidaten, die sich nicht mehr als eine gewisse ningsdaten zur Verfügung – eine der Stärken von Distanz vom Ausgangswort unterscheiden. Gibt es Norma ist es, mit solch geringen Datenmengen keinen solchen Kandidaten, bleibt der Output leer. bereits gute Ergebnisse zu liefern. Dem künstli- Norma wurde für die Normalisierung flektierter chen neuronalen Netz (s. Abschnitt 5) stehen mit Wortformen entwickelt. In einer ersten Evaluati- ca. 170.000 Wörtern zwar mehr, aber ebenfalls ver- on testeten wir daher, ob sich Norma prinzipiell gleichsweise wenige Trainingsdaten zur Verfügung. auch für die Lemmatisierung eignet. Eine Crossva- Zum Vergleich: das neuronale Modell von Schmid lidierung ergab Durchschnittswerte zwischen 56,8- (2019) nutzt zwei Millionen Wörter zum Trainie- 69,8% Genauigkeit pro Teilkorpus, was Norma ren. für die (wesentlich leichtere) Aufgabe der VKF- Identifikation als mögliches Tool erscheinen lässt. 4 Identifikation durch Norma (Details zu dieser Evaluation im Appendix.) Im ersten Ansatz verwenden wir ein existierendes Norma als Tool für die VKF-Identifikation System, das frei verfügbar ist: Norma8 (Bollmann Für die VKF-Identifikation lemmatisiert Norma 2012). Norma wurde entwickelt für eine automa- zunächst jeden VKF-Kandidaten aus einem Be- tische Normalisierung von (historischen) Schreib- leg. Anschließend werden die generierten Lemma- varianten und wird auf Trainingspaaren der Form ta mit dem vorgegebenen Lemma abgeglichen und trainiert. Norma integriert die VKF wird ausgewählt, deren Lemma mit dem drei verschiedene Arten von Lernkomponenten (für vorgegebenen übereinstimmt. Gegebenenfalls kann Details, s. Bollmann (2012)): auch kein oder mehrere Kandidaten zum vorgege- benen Lemma lemmatisiert werden. 1. Mapper: Diese Komponente stellt eine Liste Für diese Anwendung trainieren wir Norma auf der Paare bereit, die Paaren der Form .10 Entsprechend besteht das Lexikon per kann also nur bekannte Schreibungen per zum Abgleich aus Lemmata. Wir nutzen zwei un- Lexikon Lookup normalisieren. terschiedliche Lexika für den Abgleich: 2. RuleBased: Diese Komponente lernt kontext- 1. Norma-full: das Lexikon besteht aus einer Lis- sensitive Ersetzungsregeln, die einen Buch- te von rund 78.000 Lemmata des FWB (“full staben bzw. eine Buchstabensequenz durch lexicon”) eine andere ersetzen. Die Regeln sind nach 2. Norma-small: das Lexikon besteht nur aus Frequenz ihrer Anwendung geordnet. dem vorgegebenen Lemma (“small lexicon”) 3. WLD (weighted Levenshtein distance): Diese Das Szenario Norma-full entspricht dem übli- Komponente wendet gewichtete LD an, um chen Vorgehen und könnte beispielsweise bei der Buchstaben-Ngramme aufeinander abzubil- Lemmatisierung von Freitext (ohne vorgegebenes den.9 Lemma) Anwendung finden. Das Szenario Norma- small ist auf die aktuelle Aufgabenstellung zuge- RuleBased und WLD benötigen außerdem ein schnitten: Da das Ziel-Lemma schon bekannt ist, Lexikon mit normalisierten Schreibungen, gegen kann Normas Hypothesenraum extrem auf genau 8 diese Form eingeschränkt werden. Das hat folgen- https://github.com/comphist/norma (letz- ter Zugriff: 5.5.2021) de Konsequenzen: 9 Norma markiert nur bei der Komponente RuleBased die Norma-full generiert die Kandidaten sehr viel Wortgrenzen explizit (mit “#”). Die Wortgrenzen stellen eine unrestriktiver als Norma-small. Daher kommt es wichtige Information für die Lemmatisierung dar: Am Wor- 10 tende müssen andere Ersetzungen gelernt werden als in der Sonderzeichen in den Wortformen innerhalb der Bele- Wortmitte. Daher fügen wir “#” für WLD am Wortanfang und ge wie Satzzeichen (! ? , etc.) oder Anführungszeichen und -ende an. Klammern werden gelöscht.
hier öfters vor, dass Norma-full bei keiner der Input- Formen die vorgegebene Lemma-Form generiert. D. h. Norma-full hat eine geringere Abdeckung als Norma-small. Im Fall von sehr kurzen Wortformen und Lem- mata kann Norma-small (zu) viele der Input- Wortformen auf das vorgegebene Lemma abbilden, da alle innerhalb der Abbruch-Schwelle liegen. (2) zeigt ein solches Beispiel. Das vorgegebene Lem- ma ist öl und der dazugehörige Beleg enthält viele sehr kurze Wortformen. (3) zeigt die Liste der Wort- formen aus (2), die Norma-small auf das Lemma öl abbilden konnte. Die Liste ist nach einem Score Abbildung 1: Schematische Darstellung der Topologie geordnet, den Norma ausgibt. öl (der erste VKF- des Netzes Kandidat) ist demnach der “beste” Kandidat, den Norma generiert (was hier auch die korrekte Form ist). In der Evaluation (Kap. 6) wird jeweils nur die Da über das FWB nur eingeschränkte Trainings- erste Form berücksichtigt. daten zu Verfügung stehen, wurden einige manuell erstellte Normalisierungsregeln in das Netz auf- (2) chümpt dann ain gast mit öl vnd wil zemarcht genommen, um spezielle Fälle, die für einen re- damit sten vnd gibet es von hant hin, als oft er lativ großen Prozentsatz von Fehlern verantwort- ain lagel öls auf tuet, so geit er ain pfunt öls, lich sind, schnell zu entschärfen (Ernst-Gerlach als oft er die verchauffet. and Fuhr, 2006; Pilz et al., 2007). Dieses Vorge- hen erwies sich als erfolgreich, da schon wenige (3) öl, als, als, wil, oft, oft, lagel, von, sten, es, er, manuelle Regeln (vgl. Regeln 12–15 in Tabelle 1) er, er, hin, ain, ain, ain, so, die, geit, mit, vnd, den F-Score des Netzes signifikant anheben. Aktu- vnd, auf, pfunt, hant, gast, dann, tuet ell handelt es sich nur um Normalisierungsregeln im Sinne der Lemmazeichengestalt (Reichmann, Wir führen eine sechsfache Crossvalidierung 1986), in Zukunft sollen auch sprachraumspezifi- durch und trainieren Norma auf jeweils 500 Paa- sche Regeln implementiert werden.11 ren aus drei verschiedenen Sprachräumen (Nordo- Die Topologie ist basal und empirisch unterstützt. berdeutsch/nobd, Mittleres Ostoberdeutsch/moobd, Das Netz entspricht einem typischen dreischichti- Elsässisch/els) und evaluieren auf jeweils 100 Paa- gen feedforward-Netz mit einfacher verborgener ren. Schicht, angewendeter Sigmoid-Funktion und zwei 5 Identifikation durch ein künstliches Gewichtsmatrizes (Goodfellow et al., 2018), vgl. Abb. 1. Das Netz selbst ist in Python programmiert, neuronales Netz orientiert sich in seinem Framework an Rashid Im zweiten Ansatz verwenden wir ein künstliches (2017) sowie Steinwendner and Schwaiger (2019) neuronales Netz, um den Herausforderungen, die und lernt gemäß der Aufgabenstellung überwacht aus den FWB-Daten erwachsen können, zu begeg- und parametrisch. Die Matrizenmultiplikation wird nen. Neben ihrem geringem Umfang sind die Da- mit NumPy12 realisiert. ten auch unvollständig und sehr spezifisch: derzeit Die Eingabe- und verdeckte Schicht sind gleich liegen Trainingsdaten nur für die e-, q-, r- und st- mächtig, da die Verringerung von verdeckten Neu- Strecken vor. In unserer Evaluation zeigte es sich 11 Ein vergleichbares Vorgehen wurde für des Referenzkor- allerdings, dass hieraus keine größeren Nachteile pus Althochdeutsch genutzt, für dessen Lemmatisierer über entstehen: Das über die r-Strecke trainierte Netz 700 Regeln manuell aufgestellt wurden, die pro Zeit und Raum generalisiert gut und ergibt für die anderen Stre- gewissen Lautständen mehr oder weniger statistische Bedeut- samkeit zuweisen und somit die Metadaten eines Textes pro- cken F-Scores, die mit denen der Trainingsdaten duktiv in die Analyse einfließen lassen (Mittmann, 2016). Da vergleichbar oder sogar besser sind (vgl. Tabelle 4). das Frühneuhochdeutsche jedoch wesentlich umfassender und Dies ist von besonderer Bedeutung, da das FWB somit zwangsläufig diverser überliefert ist, gestaltet sich ein vergleichbarer Ansatz als unlösbar komplexe Aufgabe. In Zu- aktuell erst zu ca. 75% abgeschlossen ist und das kunft sollen entsprechende Regeln daher erlernt werden. 12 Netz in Zukunft beliebige Texte lemmatisieren soll. https://numpy.org/ (letzter Zugriff: 02.06.2021)
ronen zu erheblichen Schwankungen der Fehler- Merkmal Erläuterung Wert quote während des Trainings geführt hat. Die Aus- 1 LLemma Länge Lemma 0,36 gabeschicht besteht nur aus einem Neuron, da 2 LOriginal Länge Originalschreibung 0,4 3 Durchsn.L Differenz Längen 0,05 das Netz anhand des Scores nur eine Voraussa- 4 Subst. Substantiv 0,5 ge darüber trifft, ob ein Wort als Lemma erkannt 5 Adj. Adjektiv/Adverb 0 wird oder nicht. Je höher der Score, desto sicherer 6 Verb Verb 0 7 Unbekannt Unbekannt 0 wird das betreffende Lemma erkannt. Hierbei wird 8 JW Jaro-Winkler-Distanz 0,93 analog zu Norma mit Paaren der Form < wi , l > 9 phon phonetische Distanz 1 gearbeitet. 10 JW-norm JW-Distanz mit Normierung 0,984 11 phon-norm ph-Distanz mit Normierung 1 Die Paarung von historischen Wortformen mit 12 JW-fwb-allg JW-Distanz mit FWB-Norm. 0,93 den Lemmata des FWB < wi , l > ergeben die 13 JW-kw-qu JW-Distanz kw-qu 0,93 Daten, die als Bewertungsvektor formalisiert wer- 14 JW-ai-ei JW-Distanz ai-ei 0,93 15 JW-ich-ig JW-Distanz auslautendes ich-ig 0,93 den. Dieser Vektor bildet die Eingabeschicht, deren 16 nrdnieders. Niedersächsisch 0 Werte gewichtet und auf der verdeckten Schicht ... 39 orfrk. Ostfränkisch 1 propagiert werden. Nach einer weiteren Gewich- ... tung gibt das Netz auf der Ausgabeschicht einen 45 balt. Baltisch 0 Score an, der determiniert, ob lemmatisiert wird oder nicht. Diese Lemmatisierung wird anschlie- Tabelle 1: Bewertungsmatrix für die Wortform Refftra- ßend anhand der bereits ausgezeichneten Strecken ger evaluiert und das Netz so trainiert. Diese Aspekte werden im Folgenden genauer erläutert. 25 Buchstaben. Die Jaro-Winkler-Distanz wird ent- Bewertungsvektoren Da das FWB und die meis- sprechend (Winkler, 1990), die phonetische Di- ten maschinenlesbaren historischen Quellen nicht stanz gemäß der Kölner Phonetik (Postel, 1969) getaggt sind, kann nur auf jene Informationen berechnet. Alle weiteren Distanzen ergeben sich zurückgegriffen werden, die sich aus dem Vergleich aus den Normierungen, die Nichtbuchstaben aus der VKF mit den Lemmata des FWB ergeben. dem Lemma entfernen, Diakritika und Ligaturen Darüber hinaus werden Metadaten zum jeweiligen auflösen und die Originalschreibung gemäß der Sprachraum berücksichtigt, da diese genutzt wer- Richtlinien für die FWB-Lemmazeichengestalt nor- den, um sprachraumspezifische Normalisierungen malisieren (Reichmann, 1986). Insofern folgt das in das Netz einfließen zu lassen. Netz dem etablierten Ansatz, Vorkommensformen Um z. B. die VKF Refftrager im Quellenzitat (4) zu normalisieren, ermöglicht jedoch die Inklusion als das Lemma refträger zu identifizieren, werden von Metadataden und händisch erstellten Regeln, insgesamt neun Bewertungsvektoren für sämtliche die sich für vergleichbare Ansätze als hilfreich er- Paarungen , [. . . ], erstellt. Der Bewertungsvektor für die Da für die Zukunft abzusehen ist, dass Infor- VKF Refftrager entspricht der vierten Spalte von mationen zu den Wortarten zwar hilfreich, aber Tabelle 1. nicht nutzbar sein werden, ist geplant, nach den sprachraumspezifischen Regelsätzen auch spezielle (4) secht recht wie ein Hundsschlager | Oder ein FLexions- und Deklinationsregeln zu implementie- alter Refftrager ren, die generelle Prinzipien erfassen, jedoch nicht Alle Informationen müssen für das Netz in nu- auf Informationen zur Wortart angewiesen sind. merische Werte transformiert werden, damit sie als Der Defaultwert für die Wortarten ist 0, das Fea- Features der Eingabeneuronen dienen können. Die ture für die entsprechende Wortart (unter Sonstige Features und deren Werte ergeben sich aus Tests- subsummiert das FWB Artikel, Interjektionen, etc.) Trainings. Es wurden stets die Werte gewählt, für ist 0,5. die sich die beste Entwicklung des Fehlerquotien- Insgesamt deckt das FWB vom Niederpreußi- ten ergab (vgl. hierzu Abb. 2). Die Anhebung des schen bis zum Alemannischen 31 Sprachräume ab. F-Scores wurde erst ansatzweise durch die Imple- Der Default-Wert der entsprechenden Neuronen ist mentierung der Regeln 12–15 angegangen. wiederum 0. Je nachdem welchem Sprachraum das Die Länge von Lemma und Wortform ergibt jeweilige Wort zugeordnet ist, müssen ggf. meh- sich als Verhältnis zur maximalen Wortlänge von rere Neuronen aktiviert werden, da sowohl über-
als auch untergeordnete Sprachräume existieren. Refftrager ist z. B. in einer Nürnberger, d. h. einer oberfränkischen Quelle belegt (für Städte wird im- mer der Sprachraum gewählt, in dem sie liegen). Da sich der oberfränkische Sprachraum aus keinen untergeordneten zusammensetzt, wird nur dessen Neuron aktiviert und der Wert 1 eingetragen. Bei einer rheinfränkischen Quelle müssten hingegen mehrere Sprachräume berücksichtigt werden, weil dieser Sprachraum aus dem hessischen und pfälzi- schen besteht. Für solche Fälle wird der Wert nach der auf dem Kehrwert der Gebietszahl basieren- den Formel Feature = 0,3 + 0,5/x für x = Anzahl Abbildung 2: Lernkurve des Netzes aktivierte Sprachräume berechnet. Lemmatisierung Das Netz identifiziert ein Wort Quellenzitat (5) hat die Vorkommensform abethe- als Lemma über den Score. Ist dieser größer wer einen Score von 0,79, wird also korrekt lemma- als der aktuell noch willkürlich gewählte Wert tisiert. Wir prüfen jedoch auch, ob zwei auf einan- von 0,58, wird lemmatisiert. Zentrales Element der folgende Wörter einem getrennt geschriebenen der Berechnung des Scores sind neben den Wer- Lemma entsprechen, damit erhalten wir für die auf- ten des Bewertungsvektors zwei Gewichtsmatri- einander folgenden Wörter aber einer einen Score zes, die zwischen Eingabeschicht und verdeckter von 0,67 und somit einen false positive. (Weights-input-hidden) sowie verdeckter und Aus- Im Quellenzitat (6) hingegen ermittelt das Netz gabeschicht (Weights-hidden-output) positioniert für avonture einen Score, der kleiner als 0,58 ist. sind. Die Values der Eingabeschicht werden wie Die Vorkommensform wird also nicht erkannt, es üblich per Matrixmultiplikation propagiert und auf liegt ein false negative vor. der verdeckten Ebene mit einer Sigmoidfunktion auf das Intervall [0, 1] beschränkt und so der Re- (5) sucht aber einer awßflucht, so sten einer seyn chenaufwand zu minimiert, ohne Präzision ein- abethewer zubüßen. Derart können auch verdeckte Neuronen deaktiviert werden und kann das Netz verschiedene (6) also uns die avonture und ouch daz buch noch Eingaben korrelieren und nichtlinear arbeiten. seit Training Das Training des Netzes erfolgt auf ur- 6 Resultate sprünglich randomisierten Gewichtsmatrizes ent- sprechend des hot cold learning. Ziel ist eine gleich- 6.1 Ergebnisse von Norma bleibende, möglichst geringe Fehlerquote. Da un- Als Baseline verwenden wir ein einfaches System, ser Netz simpel aufgebaut ist, können wir mit einer das jeweils die vorliegende Wortform als Lemma sehr geringen Lernrate arbeiten und so das Mini- vorhersagt. Die Baseline entspricht damit dem An- mum der Fehlerquote genau bestimmen, was zu teil der Stichworte, die formal mit dem Lemma einem robusten Netz führen sollte. übereinstimmen. In den drei Korpora liegt die Ba- Die Kurve in Abb. 2 beschreibt die Entwick- seline zwischen 15,0–18,2% Genauigkeit. lung des Fehlerquotienten beim Training über der Insgesamt ergeben sich durchschnittliche Genau- r-Strecke, die in 173.379 Wörtern 11.187 Vorkom- igkeiten von 84,3% mit Norma-small und 60,8% mensformen von 1.819 Lemmata enthält. Der lo- mit Norma-full. Der Großteil der Fehlerrate von kale Anstieg des Fehlerquotieten weist auf eine zu Norma-full ergibt sich aus den Fällen, bei denen hohe Lernrate hin, die den statistischen Gradienten- Norma kein passendes Lemma generiert. Schaut abstieg in zu großen Schritten über das Minimum man sich die Genauigkeit bei den generierten Lem- der Fehler-Gewichts-Kurven hinausschießen lässt. mata allein an (d. h. die Precision), so ergibt sich Es ist zu erkennen, dass noch ca. 2000 Fehler exis- bei Norma-small 88,6% und bei Norma-full 91,9%. tieren. Von den Korpora ist nobd das schwierigste, Im Folgenden einige beispielhafte Analysen: Im mit Genauigkeiten von 82,5% (Norma-small) und
– Mapper Rules WLD # Lemmata Norma-small 88 417 276 1.019 Norma-full 609 422 256 513 Precision Norma-small 0 81,3 97,8 89,1 Norma-full 0 80,3 98,0 98,2 Tabelle 2: Verteilung der erzeugten Lemmata über die Normalisierer sowie die jeweilige Genauigkeit (Durch- schnitt in Prozent) Abbildung 3: Precision der einzelnen Normalisierer 52,8% (Norma-full), gegenüber rund 85% bzw. tatsächlich echte (wenn auch nachvollziehbare) 65% bei den beiden anderen Korpora. Fehler. Dabei identifizierte Norma als VKF des Tabelle 2 zeigt, von welchen Normalisierern Lemmas osterwind einmal westerwint und einmal die erzeugten Lemmata in den beiden Szenarien oberwind statt oster(wint) im Quellenzitat in (7). In stammen. “–” sind die Fälle, in denen Norma kei- allen anderen Fällen wurde als VKF entweder ein nen Kandidaten generiert. Man sieht deutlich, dass (korrekter) Bestandteil eines komplexen Wortes er- ein Großteil der WLD-Lemmata, die im Szena- kannt oder umgekehrt, oder es kamen im Quellenzi- rio Norma-small dank des minimalen Ziellexikons tat mehrere mögliche VKFs vor und Norma wählte erzeugt werden, im Szenario Norma-full nicht ge- eine andere VKF als in den Testdaten vorgegeben. neriert werden und zu einer großen Anzahl von Einige Beispiele werden in Tabelle 3 gezeigt. unanalysierten Fällen führen (33,8%) . Gleichzei- tig zeigt es sich, dass die Precision von WLD bei (7) Oster- und westerwint, den man ober und ni- Norma-small deutlich abfällt gegenüber Norma- der nent, wäen dick und oft und gegen denen full (89,1% vs. 98,2%). D. h. von den rund 500 pflegt man nit zu pauen; der oberwind pringt Lemmata, die Norma-small zusätzlich generiert, gern regen und ungewitter. sind nur rund 400 korrekt. In Tabelle 2 fällt zudem auf, dass der Mapper Von Norma-Small wurden die ersten 100 Fälle in beiden Szenarien deutlich abfällt gegenüber den manuell analysiert. Davon waren 75 eigentlich kor- anderen Normalisierern. Das ist zunächst überra- rekt. Dabei handelte es sich z. T. um die gleichen schend, da der Mapper nur bei bereits bekannten Fälle wie bei Norma-Full. Zusätzlich kommt es Paaren aktiv wird. Die Fehleranalyse unten zeigt, hier zu echten Fehlern wie in der unteren Hälfte dass die schlechte Performanz zu großen Teilen auf von Tabelle 3 illustriert. Z. B. wird für das Lemma Eigenschaften der Evaluationsdaten zurückgeführt erbe als VKF brief identifiziert. Der Grund dafür werden kann. ist, dass der Mapper kein Ziellexikon nutzt und als Abb. 3 zeigt die Precision der einzelnen Nor- erste Komponente die (eigentlich gesuchte) Wort- malisierer. Rules schneidet hier am besten ab (mit form erben auf das Lemma erben lemmatisiert hat, Werten von 95.6–99.0%). Im Szenario Norma-full so dass die weiteren Normalisierer gar nicht mehr liefert WLD vergleichbar gute Ergebnisse (96.9– auf diese Wortform angewendet wurden. Rules und 99.3%). WLD hätten sonst die VKF korrekt identifiziert. Dasselbe passiert im Fall von straff, das der Mapper Fehleranalyse Wie schon erwähnt, machen die auf strafe statt auf strafen lemmatisiert. Es wäre fehlenden Lemmatisierungen einen wesentlichen hier also zu überlegen, den Output des Mappers Teil der Fehlerrate aus: bei Norma-small sind es zusätzlich mit dem Ziellexikon abzugleichen. 31,1%, bei Norma-full sogar 86,3%. Kritischer sind allerdings die Fälle, in denen Nor- 6.2 Ergebnisse des Netzes ma eine VKF identifiziert, diese aber nicht die rich- Schon jetzt ergibt das noch unfertige künstliche tige ist (false positives). Das ist in 195 (Norma- neuronale Netz vielversprechende Ergebnisse, s. small) bzw. 97 (Norma-Full) Fällen der Fall. Eine Tabelle 4. Auf Basis des aktuellen Trainings erhal- manuelle Analyse dieser Fälle ergab: ten wir einen durchschnittlichen F-Score von 0,931. Bei Norma-Full sind nur zwei dieser Fälle Da die einzelnen F-Scores über die analysierten
Gold-Lemma Gold-VKF System-VKF System abschlagen ab schlueg Nfl/Nsm anheben hueb an Nfl/Nsm straus straussen strauß Nfl/Nsm entblössen entblotzet entblotzest Nfl/Nsm erbe erben brief Nsm strafen straff spricht Nsm Tabelle 3: False Positives von Norma-full (Nfl) und Norma-small (Nsm) r-Strecke e-Str. q-Str. st-Str. TN 153.687 10.876 71.132 67.953 TP 9.806 646 4.648 4.326 FN 715 52 310 285 Abbildung 4: F-Scores nach Wortarten auf Basis der a- FP 800 33 315 436 und b-Strecke Precision % 92,5 95,1 93,7 90,08 Recall % 93,2 92,55 93,75 93,12 F-Score 0,928 0,938 0.937 0.923 Tabelle 4: Ergebnisse für das Netz: r-Strecken: Trai- ningsdaten; Rest: Testdaten. (TN: True Negatives, TP: True Positives, FN: False Negatives, FP: False Positi- ves) Strecken hinweg recht konstant sind, können wir davon ausgehen, dass das Netz weder über- noch unterangepasst ist. Um die Treffsicherheit des Netz zu verbessern, sollen in Zukunft gemischtere Trai- ningsdaten aus allen manuell getaggten Strecken Abbildung 5: F-Scores in Abhängigkeit zur Wortlänge. Wörter mit mehr als 20 Buchstaben wurden ausgeklam- erstellt werden. Zudem scheint es sinnvoll, den mert, da sie nur punktuell auftreten Score, über den lemmatisiert wird, nach oben zu korrigieren, das Netz so kritischer zu gestalten und false positives auszuschließen. Das damit einherge- Erfassen von nicht adjazent geschriebenen Partikel- hende vermehrte Auftreten von false negatives ist verben. zu verkraften, da diese, wenn das Netzwerk weiter Hinsichtlich der Wortlänge werden VKF mit ei- trainiert wird, zurückgehen sollten. ner Länge von 5–12 Buchstaben überdurchschnitt- Die folgenden Analysen basieren auf der a- und lich gut erkannt, vgl. Abb. 5. Dies ist erfreulich, da b-Strecke. sie mit 62,5% (a-Strecke) und 72,2% (b-Strecke) Hinsichtlich der Wortarten entfällt der Großteil den Großteil der zu lemmatisierenden VKF ausma- der Fehler auf flektierte Verben, vgl. Abb. 4. Ein chen. besonderes Problem stellen Partikelverben da, die Besonders interessant ist, dass Wörter, die nur getrennt geschrieben nur dann lemmatisiert wer- aus einem Buchstaben bestehen, gut erkannt wer- den können, wenn die betreffenden Teilstücke di- den. Dies ist darauf zurückzuführen, dass es sich rekt aufeinander folgen. Adjektive/Adverbien und hierbei nur um Buchstabennamen handelt, die ent- Sonstige werden durchschnittlich bzw. unterdurch- sprechend gut zugeordnet werden können. Analog schnittlich gut erkannt, fallen aufgrund ihres relativ sollte dieser Mechanismus auch für besonders lan- geringen Anteils von ca. 12% Adjektive/Adverbien ge Wörter geltend gemacht werden, weswegen die und nur ca. 1,7% Sonstige weniger ins Gewicht. Kurve nach dem zweiten lokalen Minimum noch- Für die Verbesserung des Netzes ist daher zunächst mals ansteigt. Kurze Wörter werden erst dann pro- sowohl die Implementierung von Flexionsregeln blematisch, wenn sie, wie oben in (2) und (3) für angedacht, die flektierte Formen zur Infinitivform Norma belegt, auch für das Netz zu false positi- hin normalisieren, als auch ein Mechanismus zum ves führen. Dies erklärt auch die vergleichsweise
trem wenig Trainingsdaten bereits gute Ergebnisse: die Präzision liegt z. B. bei Norma-full bei nahezu 100%, bei einer Abdeckung von 66.2%. Das Netz wurde auf einer größeren Datenmenge trainiert, die allerdings weniger spezifisch waren. Es erreicht eine Abdeckung von 86,66% und hinsichtlich der Sprachräume wesentlich homogenere Ergebnisse. Die hier umrissene Lemmatisierung stellt eine notwendige Grundlage für eine geplante Seman- tisierung frühneuhochdeutsche Texte dar. Ist ein genügend großer Anteil der entsprechenden Quel- len lemmatisiert, kann, z. B. über Kollokationsana- Abbildung 6: F-Scores nach Sprachraum lysen und vektorbasierte Verfahren damit begonnen werden, die Lesarten der erkannten Lemmata zu disambiguieren. Eine solche Semantisierung würde schlechten Scores der Sonstigen, da es sich hierbei z. B. Wortformen von gnade nicht mehr nur auf den generell um eher kurze Wörter handelt. Hier sollte entsprechenden Artikel verlinken, sondern auf eine die Korrektur des Scores nach oben false positives der 20 verschiedene Lesarten, die im FWB notiert ausschließen. Eventuell ist zu überlegen, ob es un- sind und von 1. “unverdiente, unerwartete, retten- terschiedliche Limits für den Score geben könnte, de, helfende Zuwendung des liebenden Gottes zum die von der Wortlänge abhängig sind. Schlechter Menschen” über 10. “Gabe, die eine höhergestellte erkannte längere Wörter fallen aufgrund ihrer ge- Person aufgrund einer wohlwollenden Gesinnung ringen Frequenz weniger ins Gewicht. an einen in der Hierarchie Niedrigeren verteilt” bis Über die Analyse der Sprachräume lassen sich hin zu 17. “Teil einer Begrüßungs- und Segensfor- einzelne herausarbeiten, die unterdurchschnittli- mel” reichen. Allein dies zeigt, welchen Mehrwert che Werte aufweisen, wie z. B. das Oberdeut- eine zukünftige Semantisierung frühneuhochdeut- sche oder Preußische (s. Abb. 6).13 Dies weist scher Texte haben könnte, der sich u. A. im Er- auf Sprachräume hin, deren VKF erheblich von kenntnisgewinn während der Lektüre niederschla- der Gestalt des Lemmazeichens im FWB abwei- gen würde oder tiefergehende semantische Ana- chen (Preußisch). Es könnte sich jedoch auch um lysen wie beispielsweise eine Methaphernanalyse Sprachräume handeln, die weniger belegt sind unterstützen würde. (Oberdeutsch mit nur durchschnittlich 0,1% al- ler VKF) und deren Systematiken daher nicht in genügendem Umfang vom Netz erlernt worden Bibliographie sind. Eine Lösung für beide Problematiken könn- Marcel Bollmann. 2012. (Semi-)automatic normaliza- ten Regelsets sein, die sprachraumspezifische Nor- tion of historical texts using distance measures and malisierungen durchführen und über die entspre- the Norma tool. In Proceedings of the Workshop on Annotating Corpora for Research in the Humanities chenden Features der Sprachraum-Neuronen ak- (ACRH-2), Lisbon. tiviert werden. Solche Regelsets lassen sich mit Norma generieren und sollten für das Netz pro- Andrea Ernst-Gerlach and Norbert Fuhr. 2006. Gene- rating search term variants for text collections with duktiv gemacht werden können. Daneben sollten historic spellings. In Proceedings of the 28th Euro- die Trainingsdaten so gewählt werden, dass alle pean Conference on Information Retrieval Research Sprachräume möglichst gleich stark vertreten sind. (ECIR 2006), München. Ian Goodfellow, Yoshua Bengio, and Aaron Courville. 7 Ausblick 2018. Deep Learning: Das umfassende Handbuch. Wir haben in diesem Beitrag zwei Ansätze beschrie- Grundlagen, aktuelle Verfahren und Algorithmen, neue Forschungsansätze. MIT Press. ben, die für die Identifikation von Vorkommensfor- men genutzt werden können. Beide erreichen noch Lisa Klaffki, Stefan Schmunk, and Thomas Stäcker. keine perfekte Abdeckung. Norma erreicht mit ex- 2018. Stand der Kulturgutdigitalisierung in Deutschland: Eine Analyse und Handlungsvor- 13 In Ermangelung von geeigneten Sprachkürzeln gemäß schläge des DARIAH-DE Stakeholdergremiums ISO 639 werden die im FWB verwendeten Sprachkürzel ver- “Wissenschaftliche Sammlungen”. DARIAH-DE wendet. working papers 26. Göttingen.
Markus Konrad. 2019. GermaLemma: A lemmati- zer for German language text. https://github. com/WZBSocialScienceCenter/germalemma. Matthias Liebeck and Stefan Conrad. 2015. IWNLP: Inverse Wiktionary for natural language processing. In Proceedings of the 53rd Annual Meeting of the As- sociation for Computational Linguistics and the 7th International Joint Conference on Natural Langua- ge Processing (Short Papers), pages 414–418, Bei- jing, China. Roland Mittmann. 2016. Automatisierter Abgleich des Abbildung 7: Genauigkeit (links) und Precision der ein- Lautstandes althochdeutscher Wortformen. Journal zelnen Normalisierer (rechts) in der ersten Evaluation for Language Technology and Computational Lin- von Norma guistics, 31(2):17–24. Special issue on Corpora and Resources for (Historical) Low Resource Langua- ges. Appendix Thomas Pilz, Andrea Ernst-Gerlach, Sebastian Kemp- ken, and Paul Rayson. 2007. The identification of Norma als Lemmatisierer Norma wurde für die spelling variants in English and German historical Normalisierung flektierter Wortformen entwickelt. texts: Manual or automatic? Literary and Linguistic Für die VKF-Identifikation setzen wir Norma ab- Computing, 23(1). weichend dafür ein, VKF-Kandidaten aus Bele- Hans Joachim Postel. 1969. Die Kölner Phonetik. gen zu lemmatisieren. In einer ersten Evaluation Ein Verfahren zur Identifizierung von Personenna- untersuchten wir daher zunächst, wie gut Norma men auf der Grundlage der Gestaltanalyse. IBM- flektierte Originalschreibungen auf standardisier- Nachrichten, 19. Jahrgang. Stuttgart. te Lemmata abbilden kann. Dazu führten wir ei- Tariq Rashid. 2017. Neuronale Netze selbst pro- ne sechsfache Crossvalidierung durch und trainier- grammieren. Ein verständlicher Einstieg mit Python. ten Norma auf jeweils 500 Paaren aus drei ver- O’Reilly, Heidelberg. schiedenen Sprachräumen (Nordoberdeutsch/nobd, Oskar Reichmann. 1986. Frühneuhochdeutsches Mittleres Ostoberdeutsch/moobd, Elsässisch/els) Wörterbuch. Band 1: Einführung, a - äpfelkern. Ber- und evaluierten auf jeweils 100 Paaren. Dieselben lin, New York. Herausgeber: Robert R. Ander- Splits wurden in Kap. 6 für die Evaluation der VKF- son [für Band 1], Ulrich Goebel, Anja Lobenstein- Reichmann [Einzelbände] & Oskar Reichmann Identifikation durch Norma genutzt. [Bände 3 und 7 in Verbindung mit dem Institut für Als Baseline verwendeten wir ein einfaches Sys- deutsche Sprache; ab Band 9, Lieferung 5 im Auf- tem, das jeweils die vorliegende Wortform als Lem- trag der Akademie der Wissenschaften zu Göttin- ma vorhersagt. gen]. Abb. 7 zeigt die Ergebnisse. Die Baseline der Helmut Schmid. 2019. Deep learning-based morpho- Genauigkeit liegt zwischen 15,0–18,2%, die Durch- logical taggers and lemmatizers for annotating histo- schnittswerte (“average”) zwischen 56,8-69,8% pro rical texts. In Proceedings of the 3rd International Teilkorpus, was Norma für die (wesentlich leichte- Conference on Digital Access to Textual Cultural He- ritage (DATeCH2019), page 133–137. Association re) Aufgabe der VKF-Identifikation als mögliches for Computing Machinery. Tool erscheinen lässt. Die Normalisierer Mapper und Rules erreichen gute Precision-Werte (Mapper: Joachim Steinwendner and Roland Schwaiger. 2019. 70,1–84,0%, Rules: 67,3–84,0%). WLD schneidet Neuronale Netze programmieren mit Python. Rhein- werk, Bonn. am schlechtesten ab (48,3–60,1%), allerdings muss hier berücksichtigt werden, dass WLD als letzte Christian Wartena. 2019. A probabilistic morphology Komponente die “schwierigen” Fälle übernimmt model for German lemmatization. In Proceedings of the 15th Conference on Natural Language Pro- und insgesamt die meisten Wortformen lemmati- cessing (KONVENS 2019), pages 40–49. siert (gesamt: 1.800; WLD: 1.013; Mapper: 453; Rules: 333; ohne Analyse: 1). In allen Fällen sind William E. Winkler. 1990. String comparator metrics die Werte für das Korpus nobd am niedrigsten. and enhanced decision rules in the Fellegi-Sunter model of record linkage. In Proceedings of the Sec- tion on Survey Research Methods, Göttingen.
Abbildung 8: Beispielhafter Bedeutungsansatz 1 des Lemmas abenteuer in der Online-Ausgabe des FWB (http: //fwb-online.de/go/abenteuer.s.1fn_1619637065, letzter Zugriff: 03.06.2021)
Sie können auch lesen