Maschinelle Sprachverarbeitung für die Klassische Philologie

Die Seite wird erstellt Horst-Adolf Förster
 
WEITER LESEN
Maschinelle Sprachverarbeitung für die Klassische Philologie
Konstantin Schulz

Maschinelle Sprachverarbeitung für die Klassische Philologie

Sprachverarbeitung ist die wohl wichtigste         ist (Springmann & Lüdeling 2017, S. 2). Umso
Grundlage der Philologie. Wir versuchen,           schwieriger wird es bei Handschriften, die in
Inschriften und mittelalterliche Handschriften     der Regel noch variabler gestaltet und noch älter
zu entziffern, um antike Texte zu rezipieren.      sind als Drucke (Diem 2010, S. 9). Dennoch
Ist uns die Entzifferung einmal gelungen, dann     gibt es hier erstaunliche Fortschritte, was die
beschäftigen wir uns intensiv mit dem Sprach-      automatisierte Erkennung von Schriftzeichen
gebrauch bei bestimmten Gattungen (Cordes          – Optical Character Recognition (OCR) – und
2020, S. 33-43), Personen (Devine & Stephens       deren Übertragung in digitale Formate angeht:
2006, S. 452) oder sogar nur einzelnen Werken.     Für eine altgriechische Handschrift des Aëtius
Diese starke Ausrichtung auf das Verständ-         von Amida wurden mit Hilfe von OCR4all,1
nis antiker Sprachen schlägt sich auch in den      nach minimaler Vorbereitung, Erkennungsra-
Lehrplänen nieder (Ministerium für Schule und      ten von über 95% für die Buchstaben erreicht
Bildung des Landes Nordrhein-Westfalen 2019,       (Reul et al. 2019, S. 28). Die manuelle Korrek-
S. 13). All diese Schritte können maschinell       tur dieser Vorarbeit nimmt dann noch Einiges
unterstützt werden: Texterkennung, Textstruk-      an Zeit in Anspruch, allerdings lohnt sich der
turierung, grammatische Analyse und Suche          Einsatz solcher Technologien mitunter schon
gehören mittlerweile zum Standardrepertoire        bei Textpassagen mit nur wenigen Sätzen. Da
der einsetzbaren technischen Hilfsmittel für die   im Idealfall nicht einmal jeder 20. Buchstabe
Lektüre antiker Texte. Die ursprüngliche Moti-     falsch erkannt wird, beschränkt sich die Kor-
vation zu deren Nutzung ist klar: Je schneller     rekturarbeit auf wenige Sekunden pro Satz.
wir auf Texte zugreifen und bestimmte Passagen     Bei monumentalen Editionen wie dem Corpus
darin finden können, umso mehr Zeit bleibt         Inscriptionum Latinarum2 mit über 200.000
uns für die Interpretation, also den Teil, der     Inschriften ist eine solche maschinelle Vorarbeit
maschinell bisher kaum unterstützt wird. Aber      von unschätzbarem Wert. Sie ermöglicht eine
wie genau kann diese Arbeitsteilung zwischen       schnellere Erweiterung der existierenden und
Mensch und Computer aussehen?                      den Aufbau vieler neuer digitaler Editionen,
                                                   was angesichts der Millionen von Werken der
Textgrundlage                                      neulateinischen Literatur (Korenjak 2016, S. 22)
Frühneuzeitliche Drucke lateinischer Texte         ein zentrales Anliegen sein muss, unter anderem
erfordern großen Aufwand, um als digitale          zur Erforschung der Rezeptionsgeschichte latei-
Texteditionen einem größeren Publikum              nischer Klassiker. Ein Großteil dieser riesigen
zugänglich gemacht zu werden: Sie besitzen oft     Textmenge ist immer noch unerschlossen,
eine weniger standardisierte Typografie sowie      obgleich Initiativen wie das Corpus Corporum3
Orthografie und sind mitunter von erhebli-         (Roelli 2014) mit seinen über 160 Millionen
chem materiellen Verfall gekennzeichnet, der       Wörtern hier Abhilfe zu schaffen versuchen.
auf den jahrhundertelangen Prozess der Nut-
zung, Lagerung und Alterung zurückzuführen

104                                                                                      FC 2/2021
Maschinelle Sprachverarbeitung für die Klassische Philologie

                                                                                                                        Creativ Collection Verlag GmbH

AD ASTRA – Innovationen für den Unterricht
Nachwuchswettbewerb für Latein und Griechisch

Der Deutsche Altphilologenverband (DAV) und der                         auch mutige methodische oder didaktische
Ernst Klett Verlag schreiben für das Jahr 2021/22                       Neuerung. Diese Idee sollte das Lernen der Schü-
zum zweiten Mal den Nachwuchswettbewerb für                             lerinnen und Schüler in den Mittelpunkt stellen,
Latein und Griechisch aus. Dieser Wettbewerb AD                         die Freude am Fach wecken und auf andere Lern-
ASTRA richtet sich an junge Lehrkräfte im Refe-                         gruppen übertragbar sein. Die Idee muss schlüssig,
rendariat sowie in den ersten fünf Berufsjahren.                        überzeugend und nachvollziehbar dargestellt
Eingereicht werden kann eine eigene und in der                          werden.
Praxis selbst erprobte Idee, die ein innovatives
Element enthält: eine kluge, clevere und vielleicht

Bitte reichen Sie zur Teilnahme am Wettbewerb folgende Unterlagen ein:
• Deckblatt (Name und Anschrift der Schule / Thema / Jahrgangsstufe(n) / Postanschrift, Telefonnummer und
  E-Mail-Adresse der Bewerberin/des Bewerbers),
• Darstellung der Idee und ihrer Umsetzung unter Benennung des innovativen Elements,
  max. 3 Seiten DIN A4 (PDF),
• Unterrichtsmaterialien (PDF, PPT, MPEG, MP3, MP4 etc.) als Anhang unter Angabe der verwendeten Quellen
  und Literatur, insgesamt max. 15 MB,
• Bestätigung des Bewerbers/der Bewerberin, dass es sich um eine eigene und selbst erprobte Idee handelt,
• Kurzvita (im Schuldienst seit …).

Teilnahmebedingungen:
Referendarinnen und Referendare können prüfungsrelevante Lerneinheiten aus ihren schriftlichen Arbeiten und Lehrproben vor dem
Abschluss der Ausbildung weder in Teilen noch als Ganzes einreichen. Eine Jury aus Fachleuten des DAV und des Ernst Klett Verlages trifft
eine Auswahl aus den Einsendungen und befindet über die Zuerkennung der Preise. Das Preisgeld wird vom Ernst Klett Verlag gestiftet.
Für Platz eins werden 750 €, für Platz zwei 500 € und für Platz drei 250 € ausgelobt. Die Verleihung der Preise findet im Rahmen des
DAV-Kongresses in Würzburg im April 2022 statt. Im Falle der Platzierung werden die Teilnehmer zum Kongress eingeladen, um ihre Idee
vorzustellen. Ferner wird die Veröffentlichung der prämierten Ideen angestrebt.
Der Beitrag ist einzureichen per E-Mail an: adastra@altphilologenverband.de. Einsendeschluss ist der 31.10.2021
Der Rechtsweg ist ausgeschlossen.

FC 2/2021                                                                                                                            105
Konstantin Schulz

 Vernetzte Sprachdaten                              bachten in der Infrastruktur des LiLa-Projekts:
Doch selbst wenn uns alle erhaltenen altsprach-     Dort werden wissenschaftlich aufbereitete Text-
lichen Texte digital zur Verfügung stünden,         sammlungen wie PROIEL7 mit kontrollierten
könnten wir noch nicht ohne Weiteres damit          Vokabularen wie Ontolex8 verknüpft (Mambrini
arbeiten. Um unsere Beobachtungen und For-          et al. 2020). Als Vokabular ist in solchen Fällen
schungen, unsere Interpretationen und Hypo-         nicht der Wortschatz eines antiken Werks zu
thesen mit anderen zu teilen, müssen wir klar       verstehen, sondern – etwas abstrakter – eine
und eindeutig kommunizieren, auf welchen            einheitliche sprachliche Form zur Beschrei-
Text wir uns beziehen. Informationen wie Autor,     bung von Wissen. In diesem Fall sind damit oft
Werk, Textpassage und Textausgabe unterliegen       Identifikatoren in Form von URLs gemeint (z.
dabei einem Standardisierungsprozess, wie er        B. http://www.w3.org/ns/lemon/ontolex#Mul-
sich in der Abkürzungsliste des Neuen Pauly         tiwordExpression), die als zentrale Anlaufstelle
für antike Textreferenzen niederschlägt. Eine       für alle Forschenden dienen, die in ihren Texten
ähnliche, kostenlos zugängliche Form der            eine Information hinzufügen möchten. So dient
Kanonisierung ging aus der Textsammlung PHI         beispielsweise das Vokabular Ontolex dazu, die
Latin Texts hervor und mündete in der Zuwei-        konkrete sprachliche Umsetzung von kommu-
sung von einzigartigen Identifikatoren für jede     nikativen Inhalten zu markieren. Die gegebene
beliebige altsprachliche Textstelle in den Cano-    Beispiel-URL repräsentiert die Information
nical Text Services (Tiepmar et al. 2014). Über     „Hierbei handelt es sich um einen Mehrwort­
eine entsprechende Schnittstelle kann dann          ausdruck“. Wenn nun also Forschende in
also nicht nur auf die Texte verwiesen, sondern     einem antiken Text auf eine Phrase wie cursus
auch ihr Wortlaut direkt abgerufen und durch        honorum stoßen, können sie die URL zu der
etwaige Zusatzmaterialien (Übersetzungen,           Textstelle hinzufügen und beziehen sich dabei
Kommentare etc.) ergänzt werden, wie es in          nicht auf ihre eigene, subjektive Definition von
Alpheios4, in der Perseus Digital Library5 und im   Mehrwortausdruck, sondern auf eine zentrale,
Scaife Viewer6 umgesetzt wurde.                     mit anderen Gleichgesinnten ausgehandelte
   Dieser Gedanke der expliziten Vernet-            Definition von Mehrwortausdruck. Gegenüber
zung vorhandener digitaler Ressourcen ist           einem analogen oder intuitiven Zugang ergeben
das Kernstück des Prinzips von Linked Open          sich hier Vorteile wie eine explizite Definition
Data (Cayless 2019). Dabei geht es darum, der       der gesuchten sprachlichen Information (Mehr-
zunehmenden Fragmentierung von Forschung            wortausdruck) sowie die Nachnutzbarkeit der
entgegenzuwirken, die aus der Nutzung unter-        Forschungsdaten durch andere Forschende.
schiedlicher Datenmodelle und -formate her-         Letzteres ist angesichts der oben beschriebenen
vorgeht. Beispiele dafür sind die Verwendung        überwältigenden Menge unerforschter Literatur
unterschiedlicher grammatischer Begriffe zur        von besonderer Bedeutung.
Erklärung von antiker Syntax oder die Speiche-
rung von Texteditionen als Word-, XML- sowie        Fortgeschrittene sprachliche Analysen
PDF-Dokumente. Ein gängiger Ansatz zur              durch Künstliche Intelligenz
Vernetzung, der sich von der lokalen bis auf die    Wo solche hilfreichen Informationen noch
globale Ebene erstreckt, ist anschaulich zu beo-    nicht professionell erarbeitet wurden, können

106                                                                                       FC 2/2021
Maschinelle Sprachverarbeitung für die Klassische Philologie

sie durch Verfahren der Künstlichen Intelligenz          Sprachtechnologie auch für die Bearbeitung
ergänzt werden. So liefern verschiedene Werk-            komplexer philologischer Fragestellungen ein-
zeuge zunehmend verlässlichere sprachliche               gesetzt werden kann (vgl. auch Pöckelmann et
Analysen für antike Texte: Die Morphologie               al. 2019, S. 60, zur automatischen Erkennung
und Grundform von Wörtern kann mithilfe                  von Paraphrasen).
von LemLat9 oder LatMor10 bestimmt werden.                   Zu schön um wahr zu sein? Es gibt einen
Häufige Kombinationen mehrerer Wörter, auch              Haken: Die beschriebenen Innovationen
im direkten Vergleich mehrerer Textstellen,              wurden bisher hauptsächlich von technisch
lassen sich in Tesserae 11 ausfindig machen.             versierten Angehörigen der Digital Humani-
Kompliziertere syntaktische Analysen, z. B.              ties vorangetrieben. Für solche Methoden gibt
verschiedene Formen der Reflexivität in der              es in der Klassischen Philologie noch keine
oratio obliqua, werden zumindest ansatzweise             Community of Practice, also keine Gruppe von
durch UDPipe12 geliefert und lassen sich dann            Forschenden, die regelmäßig entsprechende
übersichtlich in Arethusa13 darstellen. Allerdings       Werkzeuge nachnutzt, ohne sie selbst entwi-
bezieht sich die automatische Verarbeitung anti-         ckelt zu haben. Darum sind viele Probleme
ker Texte bisher überwiegend auf die sprachwis-          und Unwägbarkeiten dieser Sprachmodelle
senschaftlichen Grundlagen. Für die eigentliche          noch nicht so weit erforscht und beseitigt, dass
literaturwissenschaftliche Interpretation liegen         von einem hohen Reifegrad und reibungsloser
bisher kaum überzeugende Hilfsmittel vor.                Einsatzfähigkeit gesprochen werden könnte.
    Erste vielversprechende Ansätze in die               Was hier fehlt, ist einerseits eine Verbreitung
Richtung der Semantik und Hermeneutik sind               des notwendigen Wissens in den existierenden
jedoch in den letzten Jahren zunehmend auf               Gemeinschaften, um solche Technologien
dem Vormarsch. Hierzu zählt insbesondere die             anwenden zu können. Damit einher ginge dann
Anwendung von fortgeschrittenen Methoden                 andererseits eine umfangreiche Erhebung der
des Maschinellen Lernens auf antike Texte.               konkreten Anforderungen und eine fachlich
Sprugnoli et al. 2020 und Bamman & Burns                 begleitete Pilotierung der jeweiligen Werkzeuge.
2020 zeigen überzeugend, wie mit neueren                 Die transparente, offene Zugänglichkeit des
Technologien der Künstlichen Intelligenz antike          entsprechenden Quellcodes und der zugehö-
Texte inhaltlich analysiert werden können. Sei           rigen wissenschaftlichen Publikation sind der
es nun die Abgrenzung des Gebrauchs eines                erste essentielle Schritt in eine Richtung, die es
speziellen Worts zwischen zwei Textsamm-                 uns zukünftig ermöglichen wird, methodische
lungen (z. B. sacer in paganer und in christlicher       Innovationen schneller und nachhaltiger in der
Literatur), die nuancierte Unterscheidung                Forschungslandschaft zu verankern.
verschiedener Bedeutungen desselben Worts
innerhalb eines Textes (z. B. in als Präposition         Schlussfolgerungen
bei Teilungsprozessen) oder die Bestimmung               Zusammenfassend lässt sich also festhalten, dass
von Paralleltexten für eine bestimmte Zielpas-           elementare sprachliche Analysen mittlerweile
sage (z. B. die Proömien von Vergils Aeneis und          hervorragend maschinell unterstützt werden
Ovids Amores): Die genannten Forschenden                 können. Dazu gehören optische Zeichenerken-
haben zweifelsfrei demonstriert, dass moderne            nung, die Erstellung von Texteditionen sowie die

FC 2/2021                                                                                              107
Konstantin Schulz

musterbasierte Suche und Referenzierung von           7)  https://proiel.github.io/
Textpassagen. Etwas kompliziertere Techniken          8)  https://www.w3.org/2016/05/ontolex/
                                                      9)  http://www.lemlat3.eu/
wie Linked Open Data oder die Bestimmung
                                                      10) https://www.cis.uni-muenchen.de/~schmid/
von Wortarten und syntaktischen Funktionen                tools/LatMor/
genießen momentan großes Interesse, sind aber         11) https://tesserae.caset.buffalo.edu/
bisweilen fehlerbehaftet und benötigen darum          12) https://lindat.mff.cuni.cz/services/udpipe/
etwas mehr Aufwand zur Korrektur der Ergeb-           13) https://www.perseids.org/tools/arethusa/app/#/
nisse. Sie verzeichnen allerdings auch große
Fortschritte in der Weiterentwicklung, weshalb        Literatur:
                                                      Bamman, D., & Burns, P. J. (2020): Latin BERT: A
hier von einer zunehmenden Einsatzreife in
                                                          Contextual Language Model for Classical Philo-
den nächsten Jahren ausgegangen werden muss.              logy. ArXiv Preprint ArXiv:2009.10053, S. 1-14.
Als vielversprechendster Neuankömmling im             Beyer, A., Schulz, K., & Cordes, L. (2021): Brid-
Bereich der maschinellen Sprachverarbeitung               geClassics. Künstliche Intelligenz für die
                                                          Klassische Philologie. https://doi.org/10.5281/
gilt momentan das Natural Language Understan-             zenodo.4745781.
ding (Beyer et al. 2021), also die Erschließung       Cayless, H.A. (2019): Sustaining Linked Ancient
von Textinhalten durch Künstliche Intelligenz.            World Data, in: M. Berti (Hrsg.), Digital clas-
Mit seinen ungleich komplexeren Sprachmodel-              sical philology: Ancient Greek and Latin in the
                                                          digital revolution (Vol. 10, S. 35-50), Berlin/
len zeigt es hervorragende Ansätze zur Aufar-             Boston.
beitung komplizierter philologischer Fragen, die      Cordes, L. (2020): Wenn Fiktionen Fakten schaf-
bisher als technisch unlösbar galten. Dazu zählt          fen. Faktuales und fiktionales Erzählen in den
etwa die detaillierte Untersuchung von Wortbe-            spätantiken Panegyrici Latini, in: D. Breitenwi-
                                                          scher, H.-M. Häger, & J. Menninger (Hrsg.), Fak-
deutungen bis hinunter auf die Ebene einzelner            tuales und fiktionales Erzählen II. Geschichte –
Sätze und unter Berücksichtigung des jeweiligen           Medien – Praktiken (S. 31–56), Baden-Baden.
Kontextes. Je nach Bedarf können dann auch                https://doi.org/10.5771/9783956505126-31.
relevante Parallelstellen identifiziert und für die   Devine, A. M., & Stephens, L. D. (2006): Latin Word
                                                          Order: Structured Meaning and Information,
weitere Interpretation hinzugezogen werden,               Oxford.
wobei die Parallele nicht, wie früher oft üblich,     Diem, M., & Sablatnig, R. (2010): Recognizing
nur in zitierten Wortgruppen, sondern auch in             Characters of Ancient Manuscripts. Proc.
                                                          SPIE 7531, Computer Vision and Image
vagen Anspielungen gefunden werden kann.
                                                          Analysis of Art, 7531, S. 1-12. https://doi.
Dadurch werden z. B. wichtige Forschungsfra-              org/10.1117/12.843532.
gen zur Intertextualität in der altsprachlichen       Korenjak, M. (2016): Geschichte der neulateinischen
Literatur unterstützt.                                    Literatur: Vom Humanismus bis zur Gegenwart,
                                                          München.
Links:                                                Mambrini, F., Cecchini, F. M., Franzini, G., Litta,
                                                          E., Passarotti, M. C., & Ruffolo, P. (2020): LiLa:
1) http://www.ocr4all.org/de/home.php
                                                          Linking Latin. Risorse linguistiche per il latino
2) https://cil.bbaw.de/hauptnavigation/das-cil/           nel Semantic Web. Umanistica Digitale, 4.8, S.
    geschichte-des-cil                                    63-78.
3) http://www.mlat.uzh.ch/MLS/                        Ministerium für Schule und Bildung des Landes
4) https://alpheios.net/                                  Nordrhein-Westfalen (Hrsg.) (2019): Kern-
5) http://www.perseus.tufts.edu/hopper/collecti-          lehrplan für die Sekundarstufe I Gymnasium
    on?collection=Perseus:collection:Greco-Roman          in Nordrhein-Westfalen. Latein. https://www.
6) https://scaife.perseus.org/

108                                                                                             FC 2/2021
Ovid, Vater Rumäniens

    schulentwicklung.nrw.de/lehrplaene/lehr-                      nitatis Medii Aevi-Bulletin Du Cange (ALMA).
    plan/206/g9_l_klp_3402_2019_06_23.pdf                     Springmann, U., & Lüdeling, A. (2017). OCR of
Pöckelmann, M., Ritter, J., & Molitor, P. (2019): Word            historical printings with an application to buil-
    Mover’s Distance angewendet auf die Paraphra-                 ding diachronic corpora: A case study using
    senextraktion im Altgriechischen, in C. Schubert,             the RIDGES herbal corpus. Digital Humanities
    P. Molitor, J. Ritter, K. Sier, & J. Scharloth (Hrsg.),       Quarterly, 11.2, Article 2.
    Platon Digital. Tradition und Rezeption (S.               Sprugnoli, R., Moretti, G., & Passarotti, M. (2020):
    45-60). Propylaeum Heidelberg. https://books.                 Building and Comparing Lemma Embed-
    ub.uni-heidelberg.de/propylaeum/reader/                       dings for Latin. Classical Latin versus Thomas
    download/451/451-30-84795-1-10-20190507.                      Aquinas. IJCoL. Italian Journal of Computati-
    pdf.                                                          onal Linguistics, 6 (6-1), S. 29-45. https://doi.
Reul, C., Christ, D., Hartelt, A., Balbach, N., Wehner,           org/10.4000/ijcol.624.
    M., Springmann, U., Wick, C., Grundig, C.,                Tiepmar, J., Teichmann, C., Heyer, G., Berti, M., &
    Büttner, A., & Puppe, F. (2019): OCR4all – An                 Crane, G. (2014): A new implementation for
    open-source tool providing a (semi-) automatic                canonical text services. Proceedings of the 8th
    OCR workflow for historical printings. Applied                Workshop on Language Technology for Cultu-
    Sciences, 9.22, S. 1-30. https://doi.org/10.3390/             ral Heritage, Social Sciences, and Humanities
    app9224853.                                                   (LaTeCH), S. 1-8. https://www.aclweb.org/
Roelli, P. (2014): The Corpus Corporum, a new open                anthology/W14-0601.
    Latin text repository and tool. Archivum Lati-                                        Konstantin Schulz

Ovid, Vater Rumäniens

Der Titel dieses Aufsatzes – Theodor Haeckers                 Zitate aus seinem Werk – eben nicht aus den
„Vergil, Vater des Abendlandes“ nachempfun-                   Metamorphosen, sondern aus den Tristia und
den – ist gewiss eine plakative Kurzformel, aber              den Epistulae Ex Ponto.
er soll die besondere Beziehung der Rumänen                      Diese besondere Verbundenheit Rumäniens
zu Ovid auf den Punkt bringen.                                und der Rumänen mit dem Dichter hat unter-
                                                              schiedliche Gründe. Zunächst: Der Verbannte
Ovidiu                                                        von Tomi – nicht Herodot, Strabon oder Vergil
Wer ‚Ovidiu‘ in eine Internet-Suchmaschine                    im Skythenexkurs der Georgica (3,349-383) – ist
eingibt, wird feststellen, dass sich die große                derjenige antike Autor, der das ausführlichste
Masse der Fundstellen nicht auf den Schöpfer                  und anschaulichste Bild vom realen Leben in
der Metamorphosen, sondern auf unzählige                      der Dobrudscha, der Keimzelle des romanisier-
rumänische ‚Namensvettern‘ bezieht, so beliebt                ten Rumänien, geliefert hat, in kräftigen, wenn
ist Ovidiu als männlicher Vorname. Nicht nur                  auch düsteren Farben.
das. Man wird bei dieser Recherche auf Stadt                     Und: Ovid gilt den Rumänen als Begründer
und Insel bei Constanța stoßen, die – eine nicht              ihrer Nationalliteratur. Traditionelle spanische
nur in Europa unübliche Form der Ehrung –                     Literaturgeschichten beginnen mit Seneca (Cór-
beide den Namen des Dichters tragen. Jedes                    doba), Martial (Calatayud), Lucan (Córdoba),
rumänische Geschichtsbuch, ob für Erwachsene                  Columella (Cádiz); die Verbindung Ovids mit
oder für Jugendliche, enthält einen ausführ-                  Rumänien aber ist weitaus enger. Er war ja der
lichen Hinweis auf Ovid, angereichert durch                   Erste, der auf dem Boden des ‚Römerlandes‘

FC 2/2021                                                                                                     109
Sie können auch lesen