Maschinelle Sprachverarbeitung für die Klassische Philologie
←
→
Transkription von Seiteninhalten
Wenn Ihr Browser die Seite nicht korrekt rendert, bitte, lesen Sie den Inhalt der Seite unten
Konstantin Schulz Maschinelle Sprachverarbeitung für die Klassische Philologie Sprachverarbeitung ist die wohl wichtigste ist (Springmann & Lüdeling 2017, S. 2). Umso Grundlage der Philologie. Wir versuchen, schwieriger wird es bei Handschriften, die in Inschriften und mittelalterliche Handschriften der Regel noch variabler gestaltet und noch älter zu entziffern, um antike Texte zu rezipieren. sind als Drucke (Diem 2010, S. 9). Dennoch Ist uns die Entzifferung einmal gelungen, dann gibt es hier erstaunliche Fortschritte, was die beschäftigen wir uns intensiv mit dem Sprach- automatisierte Erkennung von Schriftzeichen gebrauch bei bestimmten Gattungen (Cordes – Optical Character Recognition (OCR) – und 2020, S. 33-43), Personen (Devine & Stephens deren Übertragung in digitale Formate angeht: 2006, S. 452) oder sogar nur einzelnen Werken. Für eine altgriechische Handschrift des Aëtius Diese starke Ausrichtung auf das Verständ- von Amida wurden mit Hilfe von OCR4all,1 nis antiker Sprachen schlägt sich auch in den nach minimaler Vorbereitung, Erkennungsra- Lehrplänen nieder (Ministerium für Schule und ten von über 95% für die Buchstaben erreicht Bildung des Landes Nordrhein-Westfalen 2019, (Reul et al. 2019, S. 28). Die manuelle Korrek- S. 13). All diese Schritte können maschinell tur dieser Vorarbeit nimmt dann noch Einiges unterstützt werden: Texterkennung, Textstruk- an Zeit in Anspruch, allerdings lohnt sich der turierung, grammatische Analyse und Suche Einsatz solcher Technologien mitunter schon gehören mittlerweile zum Standardrepertoire bei Textpassagen mit nur wenigen Sätzen. Da der einsetzbaren technischen Hilfsmittel für die im Idealfall nicht einmal jeder 20. Buchstabe Lektüre antiker Texte. Die ursprüngliche Moti- falsch erkannt wird, beschränkt sich die Kor- vation zu deren Nutzung ist klar: Je schneller rekturarbeit auf wenige Sekunden pro Satz. wir auf Texte zugreifen und bestimmte Passagen Bei monumentalen Editionen wie dem Corpus darin finden können, umso mehr Zeit bleibt Inscriptionum Latinarum2 mit über 200.000 uns für die Interpretation, also den Teil, der Inschriften ist eine solche maschinelle Vorarbeit maschinell bisher kaum unterstützt wird. Aber von unschätzbarem Wert. Sie ermöglicht eine wie genau kann diese Arbeitsteilung zwischen schnellere Erweiterung der existierenden und Mensch und Computer aussehen? den Aufbau vieler neuer digitaler Editionen, was angesichts der Millionen von Werken der Textgrundlage neulateinischen Literatur (Korenjak 2016, S. 22) Frühneuzeitliche Drucke lateinischer Texte ein zentrales Anliegen sein muss, unter anderem erfordern großen Aufwand, um als digitale zur Erforschung der Rezeptionsgeschichte latei- Texteditionen einem größeren Publikum nischer Klassiker. Ein Großteil dieser riesigen zugänglich gemacht zu werden: Sie besitzen oft Textmenge ist immer noch unerschlossen, eine weniger standardisierte Typografie sowie obgleich Initiativen wie das Corpus Corporum3 Orthografie und sind mitunter von erhebli- (Roelli 2014) mit seinen über 160 Millionen chem materiellen Verfall gekennzeichnet, der Wörtern hier Abhilfe zu schaffen versuchen. auf den jahrhundertelangen Prozess der Nut- zung, Lagerung und Alterung zurückzuführen 104 FC 2/2021
Maschinelle Sprachverarbeitung für die Klassische Philologie Creativ Collection Verlag GmbH AD ASTRA – Innovationen für den Unterricht Nachwuchswettbewerb für Latein und Griechisch Der Deutsche Altphilologenverband (DAV) und der auch mutige methodische oder didaktische Ernst Klett Verlag schreiben für das Jahr 2021/22 Neuerung. Diese Idee sollte das Lernen der Schü- zum zweiten Mal den Nachwuchswettbewerb für lerinnen und Schüler in den Mittelpunkt stellen, Latein und Griechisch aus. Dieser Wettbewerb AD die Freude am Fach wecken und auf andere Lern- ASTRA richtet sich an junge Lehrkräfte im Refe- gruppen übertragbar sein. Die Idee muss schlüssig, rendariat sowie in den ersten fünf Berufsjahren. überzeugend und nachvollziehbar dargestellt Eingereicht werden kann eine eigene und in der werden. Praxis selbst erprobte Idee, die ein innovatives Element enthält: eine kluge, clevere und vielleicht Bitte reichen Sie zur Teilnahme am Wettbewerb folgende Unterlagen ein: • Deckblatt (Name und Anschrift der Schule / Thema / Jahrgangsstufe(n) / Postanschrift, Telefonnummer und E-Mail-Adresse der Bewerberin/des Bewerbers), • Darstellung der Idee und ihrer Umsetzung unter Benennung des innovativen Elements, max. 3 Seiten DIN A4 (PDF), • Unterrichtsmaterialien (PDF, PPT, MPEG, MP3, MP4 etc.) als Anhang unter Angabe der verwendeten Quellen und Literatur, insgesamt max. 15 MB, • Bestätigung des Bewerbers/der Bewerberin, dass es sich um eine eigene und selbst erprobte Idee handelt, • Kurzvita (im Schuldienst seit …). Teilnahmebedingungen: Referendarinnen und Referendare können prüfungsrelevante Lerneinheiten aus ihren schriftlichen Arbeiten und Lehrproben vor dem Abschluss der Ausbildung weder in Teilen noch als Ganzes einreichen. Eine Jury aus Fachleuten des DAV und des Ernst Klett Verlages trifft eine Auswahl aus den Einsendungen und befindet über die Zuerkennung der Preise. Das Preisgeld wird vom Ernst Klett Verlag gestiftet. Für Platz eins werden 750 €, für Platz zwei 500 € und für Platz drei 250 € ausgelobt. Die Verleihung der Preise findet im Rahmen des DAV-Kongresses in Würzburg im April 2022 statt. Im Falle der Platzierung werden die Teilnehmer zum Kongress eingeladen, um ihre Idee vorzustellen. Ferner wird die Veröffentlichung der prämierten Ideen angestrebt. Der Beitrag ist einzureichen per E-Mail an: adastra@altphilologenverband.de. Einsendeschluss ist der 31.10.2021 Der Rechtsweg ist ausgeschlossen. FC 2/2021 105
Konstantin Schulz Vernetzte Sprachdaten bachten in der Infrastruktur des LiLa-Projekts: Doch selbst wenn uns alle erhaltenen altsprach- Dort werden wissenschaftlich aufbereitete Text- lichen Texte digital zur Verfügung stünden, sammlungen wie PROIEL7 mit kontrollierten könnten wir noch nicht ohne Weiteres damit Vokabularen wie Ontolex8 verknüpft (Mambrini arbeiten. Um unsere Beobachtungen und For- et al. 2020). Als Vokabular ist in solchen Fällen schungen, unsere Interpretationen und Hypo- nicht der Wortschatz eines antiken Werks zu thesen mit anderen zu teilen, müssen wir klar verstehen, sondern – etwas abstrakter – eine und eindeutig kommunizieren, auf welchen einheitliche sprachliche Form zur Beschrei- Text wir uns beziehen. Informationen wie Autor, bung von Wissen. In diesem Fall sind damit oft Werk, Textpassage und Textausgabe unterliegen Identifikatoren in Form von URLs gemeint (z. dabei einem Standardisierungsprozess, wie er B. http://www.w3.org/ns/lemon/ontolex#Mul- sich in der Abkürzungsliste des Neuen Pauly tiwordExpression), die als zentrale Anlaufstelle für antike Textreferenzen niederschlägt. Eine für alle Forschenden dienen, die in ihren Texten ähnliche, kostenlos zugängliche Form der eine Information hinzufügen möchten. So dient Kanonisierung ging aus der Textsammlung PHI beispielsweise das Vokabular Ontolex dazu, die Latin Texts hervor und mündete in der Zuwei- konkrete sprachliche Umsetzung von kommu- sung von einzigartigen Identifikatoren für jede nikativen Inhalten zu markieren. Die gegebene beliebige altsprachliche Textstelle in den Cano- Beispiel-URL repräsentiert die Information nical Text Services (Tiepmar et al. 2014). Über „Hierbei handelt es sich um einen Mehrwort eine entsprechende Schnittstelle kann dann ausdruck“. Wenn nun also Forschende in also nicht nur auf die Texte verwiesen, sondern einem antiken Text auf eine Phrase wie cursus auch ihr Wortlaut direkt abgerufen und durch honorum stoßen, können sie die URL zu der etwaige Zusatzmaterialien (Übersetzungen, Textstelle hinzufügen und beziehen sich dabei Kommentare etc.) ergänzt werden, wie es in nicht auf ihre eigene, subjektive Definition von Alpheios4, in der Perseus Digital Library5 und im Mehrwortausdruck, sondern auf eine zentrale, Scaife Viewer6 umgesetzt wurde. mit anderen Gleichgesinnten ausgehandelte Dieser Gedanke der expliziten Vernet- Definition von Mehrwortausdruck. Gegenüber zung vorhandener digitaler Ressourcen ist einem analogen oder intuitiven Zugang ergeben das Kernstück des Prinzips von Linked Open sich hier Vorteile wie eine explizite Definition Data (Cayless 2019). Dabei geht es darum, der der gesuchten sprachlichen Information (Mehr- zunehmenden Fragmentierung von Forschung wortausdruck) sowie die Nachnutzbarkeit der entgegenzuwirken, die aus der Nutzung unter- Forschungsdaten durch andere Forschende. schiedlicher Datenmodelle und -formate her- Letzteres ist angesichts der oben beschriebenen vorgeht. Beispiele dafür sind die Verwendung überwältigenden Menge unerforschter Literatur unterschiedlicher grammatischer Begriffe zur von besonderer Bedeutung. Erklärung von antiker Syntax oder die Speiche- rung von Texteditionen als Word-, XML- sowie Fortgeschrittene sprachliche Analysen PDF-Dokumente. Ein gängiger Ansatz zur durch Künstliche Intelligenz Vernetzung, der sich von der lokalen bis auf die Wo solche hilfreichen Informationen noch globale Ebene erstreckt, ist anschaulich zu beo- nicht professionell erarbeitet wurden, können 106 FC 2/2021
Maschinelle Sprachverarbeitung für die Klassische Philologie sie durch Verfahren der Künstlichen Intelligenz Sprachtechnologie auch für die Bearbeitung ergänzt werden. So liefern verschiedene Werk- komplexer philologischer Fragestellungen ein- zeuge zunehmend verlässlichere sprachliche gesetzt werden kann (vgl. auch Pöckelmann et Analysen für antike Texte: Die Morphologie al. 2019, S. 60, zur automatischen Erkennung und Grundform von Wörtern kann mithilfe von Paraphrasen). von LemLat9 oder LatMor10 bestimmt werden. Zu schön um wahr zu sein? Es gibt einen Häufige Kombinationen mehrerer Wörter, auch Haken: Die beschriebenen Innovationen im direkten Vergleich mehrerer Textstellen, wurden bisher hauptsächlich von technisch lassen sich in Tesserae 11 ausfindig machen. versierten Angehörigen der Digital Humani- Kompliziertere syntaktische Analysen, z. B. ties vorangetrieben. Für solche Methoden gibt verschiedene Formen der Reflexivität in der es in der Klassischen Philologie noch keine oratio obliqua, werden zumindest ansatzweise Community of Practice, also keine Gruppe von durch UDPipe12 geliefert und lassen sich dann Forschenden, die regelmäßig entsprechende übersichtlich in Arethusa13 darstellen. Allerdings Werkzeuge nachnutzt, ohne sie selbst entwi- bezieht sich die automatische Verarbeitung anti- ckelt zu haben. Darum sind viele Probleme ker Texte bisher überwiegend auf die sprachwis- und Unwägbarkeiten dieser Sprachmodelle senschaftlichen Grundlagen. Für die eigentliche noch nicht so weit erforscht und beseitigt, dass literaturwissenschaftliche Interpretation liegen von einem hohen Reifegrad und reibungsloser bisher kaum überzeugende Hilfsmittel vor. Einsatzfähigkeit gesprochen werden könnte. Erste vielversprechende Ansätze in die Was hier fehlt, ist einerseits eine Verbreitung Richtung der Semantik und Hermeneutik sind des notwendigen Wissens in den existierenden jedoch in den letzten Jahren zunehmend auf Gemeinschaften, um solche Technologien dem Vormarsch. Hierzu zählt insbesondere die anwenden zu können. Damit einher ginge dann Anwendung von fortgeschrittenen Methoden andererseits eine umfangreiche Erhebung der des Maschinellen Lernens auf antike Texte. konkreten Anforderungen und eine fachlich Sprugnoli et al. 2020 und Bamman & Burns begleitete Pilotierung der jeweiligen Werkzeuge. 2020 zeigen überzeugend, wie mit neueren Die transparente, offene Zugänglichkeit des Technologien der Künstlichen Intelligenz antike entsprechenden Quellcodes und der zugehö- Texte inhaltlich analysiert werden können. Sei rigen wissenschaftlichen Publikation sind der es nun die Abgrenzung des Gebrauchs eines erste essentielle Schritt in eine Richtung, die es speziellen Worts zwischen zwei Textsamm- uns zukünftig ermöglichen wird, methodische lungen (z. B. sacer in paganer und in christlicher Innovationen schneller und nachhaltiger in der Literatur), die nuancierte Unterscheidung Forschungslandschaft zu verankern. verschiedener Bedeutungen desselben Worts innerhalb eines Textes (z. B. in als Präposition Schlussfolgerungen bei Teilungsprozessen) oder die Bestimmung Zusammenfassend lässt sich also festhalten, dass von Paralleltexten für eine bestimmte Zielpas- elementare sprachliche Analysen mittlerweile sage (z. B. die Proömien von Vergils Aeneis und hervorragend maschinell unterstützt werden Ovids Amores): Die genannten Forschenden können. Dazu gehören optische Zeichenerken- haben zweifelsfrei demonstriert, dass moderne nung, die Erstellung von Texteditionen sowie die FC 2/2021 107
Konstantin Schulz musterbasierte Suche und Referenzierung von 7) https://proiel.github.io/ Textpassagen. Etwas kompliziertere Techniken 8) https://www.w3.org/2016/05/ontolex/ 9) http://www.lemlat3.eu/ wie Linked Open Data oder die Bestimmung 10) https://www.cis.uni-muenchen.de/~schmid/ von Wortarten und syntaktischen Funktionen tools/LatMor/ genießen momentan großes Interesse, sind aber 11) https://tesserae.caset.buffalo.edu/ bisweilen fehlerbehaftet und benötigen darum 12) https://lindat.mff.cuni.cz/services/udpipe/ etwas mehr Aufwand zur Korrektur der Ergeb- 13) https://www.perseids.org/tools/arethusa/app/#/ nisse. Sie verzeichnen allerdings auch große Fortschritte in der Weiterentwicklung, weshalb Literatur: Bamman, D., & Burns, P. J. (2020): Latin BERT: A hier von einer zunehmenden Einsatzreife in Contextual Language Model for Classical Philo- den nächsten Jahren ausgegangen werden muss. logy. ArXiv Preprint ArXiv:2009.10053, S. 1-14. Als vielversprechendster Neuankömmling im Beyer, A., Schulz, K., & Cordes, L. (2021): Brid- Bereich der maschinellen Sprachverarbeitung geClassics. Künstliche Intelligenz für die Klassische Philologie. https://doi.org/10.5281/ gilt momentan das Natural Language Understan- zenodo.4745781. ding (Beyer et al. 2021), also die Erschließung Cayless, H.A. (2019): Sustaining Linked Ancient von Textinhalten durch Künstliche Intelligenz. World Data, in: M. Berti (Hrsg.), Digital clas- Mit seinen ungleich komplexeren Sprachmodel- sical philology: Ancient Greek and Latin in the digital revolution (Vol. 10, S. 35-50), Berlin/ len zeigt es hervorragende Ansätze zur Aufar- Boston. beitung komplizierter philologischer Fragen, die Cordes, L. (2020): Wenn Fiktionen Fakten schaf- bisher als technisch unlösbar galten. Dazu zählt fen. Faktuales und fiktionales Erzählen in den etwa die detaillierte Untersuchung von Wortbe- spätantiken Panegyrici Latini, in: D. Breitenwi- scher, H.-M. Häger, & J. Menninger (Hrsg.), Fak- deutungen bis hinunter auf die Ebene einzelner tuales und fiktionales Erzählen II. Geschichte – Sätze und unter Berücksichtigung des jeweiligen Medien – Praktiken (S. 31–56), Baden-Baden. Kontextes. Je nach Bedarf können dann auch https://doi.org/10.5771/9783956505126-31. relevante Parallelstellen identifiziert und für die Devine, A. M., & Stephens, L. D. (2006): Latin Word Order: Structured Meaning and Information, weitere Interpretation hinzugezogen werden, Oxford. wobei die Parallele nicht, wie früher oft üblich, Diem, M., & Sablatnig, R. (2010): Recognizing nur in zitierten Wortgruppen, sondern auch in Characters of Ancient Manuscripts. Proc. SPIE 7531, Computer Vision and Image vagen Anspielungen gefunden werden kann. Analysis of Art, 7531, S. 1-12. https://doi. Dadurch werden z. B. wichtige Forschungsfra- org/10.1117/12.843532. gen zur Intertextualität in der altsprachlichen Korenjak, M. (2016): Geschichte der neulateinischen Literatur unterstützt. Literatur: Vom Humanismus bis zur Gegenwart, München. Links: Mambrini, F., Cecchini, F. M., Franzini, G., Litta, E., Passarotti, M. C., & Ruffolo, P. (2020): LiLa: 1) http://www.ocr4all.org/de/home.php Linking Latin. Risorse linguistiche per il latino 2) https://cil.bbaw.de/hauptnavigation/das-cil/ nel Semantic Web. Umanistica Digitale, 4.8, S. geschichte-des-cil 63-78. 3) http://www.mlat.uzh.ch/MLS/ Ministerium für Schule und Bildung des Landes 4) https://alpheios.net/ Nordrhein-Westfalen (Hrsg.) (2019): Kern- 5) http://www.perseus.tufts.edu/hopper/collecti- lehrplan für die Sekundarstufe I Gymnasium on?collection=Perseus:collection:Greco-Roman in Nordrhein-Westfalen. Latein. https://www. 6) https://scaife.perseus.org/ 108 FC 2/2021
Ovid, Vater Rumäniens schulentwicklung.nrw.de/lehrplaene/lehr- nitatis Medii Aevi-Bulletin Du Cange (ALMA). plan/206/g9_l_klp_3402_2019_06_23.pdf Springmann, U., & Lüdeling, A. (2017). OCR of Pöckelmann, M., Ritter, J., & Molitor, P. (2019): Word historical printings with an application to buil- Mover’s Distance angewendet auf die Paraphra- ding diachronic corpora: A case study using senextraktion im Altgriechischen, in C. Schubert, the RIDGES herbal corpus. Digital Humanities P. Molitor, J. Ritter, K. Sier, & J. Scharloth (Hrsg.), Quarterly, 11.2, Article 2. Platon Digital. Tradition und Rezeption (S. Sprugnoli, R., Moretti, G., & Passarotti, M. (2020): 45-60). Propylaeum Heidelberg. https://books. Building and Comparing Lemma Embed- ub.uni-heidelberg.de/propylaeum/reader/ dings for Latin. Classical Latin versus Thomas download/451/451-30-84795-1-10-20190507. Aquinas. IJCoL. Italian Journal of Computati- pdf. onal Linguistics, 6 (6-1), S. 29-45. https://doi. Reul, C., Christ, D., Hartelt, A., Balbach, N., Wehner, org/10.4000/ijcol.624. M., Springmann, U., Wick, C., Grundig, C., Tiepmar, J., Teichmann, C., Heyer, G., Berti, M., & Büttner, A., & Puppe, F. (2019): OCR4all – An Crane, G. (2014): A new implementation for open-source tool providing a (semi-) automatic canonical text services. Proceedings of the 8th OCR workflow for historical printings. Applied Workshop on Language Technology for Cultu- Sciences, 9.22, S. 1-30. https://doi.org/10.3390/ ral Heritage, Social Sciences, and Humanities app9224853. (LaTeCH), S. 1-8. https://www.aclweb.org/ Roelli, P. (2014): The Corpus Corporum, a new open anthology/W14-0601. Latin text repository and tool. Archivum Lati- Konstantin Schulz Ovid, Vater Rumäniens Der Titel dieses Aufsatzes – Theodor Haeckers Zitate aus seinem Werk – eben nicht aus den „Vergil, Vater des Abendlandes“ nachempfun- Metamorphosen, sondern aus den Tristia und den – ist gewiss eine plakative Kurzformel, aber den Epistulae Ex Ponto. er soll die besondere Beziehung der Rumänen Diese besondere Verbundenheit Rumäniens zu Ovid auf den Punkt bringen. und der Rumänen mit dem Dichter hat unter- schiedliche Gründe. Zunächst: Der Verbannte Ovidiu von Tomi – nicht Herodot, Strabon oder Vergil Wer ‚Ovidiu‘ in eine Internet-Suchmaschine im Skythenexkurs der Georgica (3,349-383) – ist eingibt, wird feststellen, dass sich die große derjenige antike Autor, der das ausführlichste Masse der Fundstellen nicht auf den Schöpfer und anschaulichste Bild vom realen Leben in der Metamorphosen, sondern auf unzählige der Dobrudscha, der Keimzelle des romanisier- rumänische ‚Namensvettern‘ bezieht, so beliebt ten Rumänien, geliefert hat, in kräftigen, wenn ist Ovidiu als männlicher Vorname. Nicht nur auch düsteren Farben. das. Man wird bei dieser Recherche auf Stadt Und: Ovid gilt den Rumänen als Begründer und Insel bei Constanța stoßen, die – eine nicht ihrer Nationalliteratur. Traditionelle spanische nur in Europa unübliche Form der Ehrung – Literaturgeschichten beginnen mit Seneca (Cór- beide den Namen des Dichters tragen. Jedes doba), Martial (Calatayud), Lucan (Córdoba), rumänische Geschichtsbuch, ob für Erwachsene Columella (Cádiz); die Verbindung Ovids mit oder für Jugendliche, enthält einen ausführ- Rumänien aber ist weitaus enger. Er war ja der lichen Hinweis auf Ovid, angereichert durch Erste, der auf dem Boden des ‚Römerlandes‘ FC 2/2021 109
Sie können auch lesen