Maschinelle Sprachverarbeitung für die Klassische Philologie

Die Seite wird erstellt Horst-Adolf Förster

Wissenschaft

Deutsch

Like
Teilen
Einbetten
Vollbild
Folien
HTML Herunterladen
PDF Herunterladen
Missbrauch

←

WEITER LESEN

→

Transkription von Seiteninhalten

Wenn Ihr Browser die Seite nicht korrekt rendert, bitte, lesen Sie den Inhalt der Seite unten

Konstantin Schulz

Maschinelle Sprachverarbeitung für die Klassische Philologie

Sprachverarbeitung ist die wohl wichtigste ist (Springmann & Lüdeling 2017, S. 2). Umso
Grundlage der Philologie. Wir versuchen, schwieriger wird es bei Handschriften, die in
Inschriften und mittelalterliche Handschriften der Regel noch variabler gestaltet und noch älter
zu entziffern, um antike Texte zu rezipieren. sind als Drucke (Diem 2010, S. 9). Dennoch
Ist uns die Entzifferung einmal gelungen, dann gibt es hier erstaunliche Fortschritte, was die
beschäftigen wir uns intensiv mit dem Sprach- automatisierte Erkennung von Schriftzeichen
gebrauch bei bestimmten Gattungen (Cordes – Optical Character Recognition (OCR) – und
2020, S. 33-43), Personen (Devine & Stephens deren Übertragung in digitale Formate angeht:
2006, S. 452) oder sogar nur einzelnen Werken. Für eine altgriechische Handschrift des Aëtius
Diese starke Ausrichtung auf das Verständ- von Amida wurden mit Hilfe von OCR4all,1
nis antiker Sprachen schlägt sich auch in den nach minimaler Vorbereitung, Erkennungsra-
Lehrplänen nieder (Ministerium für Schule und ten von über 95% für die Buchstaben erreicht
Bildung des Landes Nordrhein-Westfalen 2019, (Reul et al. 2019, S. 28). Die manuelle Korrek-
S. 13). All diese Schritte können maschinell tur dieser Vorarbeit nimmt dann noch Einiges
unterstützt werden: Texterkennung, Textstruk- an Zeit in Anspruch, allerdings lohnt sich der
turierung, grammatische Analyse und Suche Einsatz solcher Technologien mitunter schon
gehören mittlerweile zum Standardrepertoire bei Textpassagen mit nur wenigen Sätzen. Da
der einsetzbaren technischen Hilfsmittel für die im Idealfall nicht einmal jeder 20. Buchstabe
Lektüre antiker Texte. Die ursprüngliche Moti- falsch erkannt wird, beschränkt sich die Kor-
vation zu deren Nutzung ist klar: Je schneller rekturarbeit auf wenige Sekunden pro Satz.
wir auf Texte zugreifen und bestimmte Passagen Bei monumentalen Editionen wie dem Corpus
darin finden können, umso mehr Zeit bleibt Inscriptionum Latinarum2 mit über 200.000
uns für die Interpretation, also den Teil, der Inschriften ist eine solche maschinelle Vorarbeit
maschinell bisher kaum unterstützt wird. Aber von unschätzbarem Wert. Sie ermöglicht eine
wie genau kann diese Arbeitsteilung zwischen schnellere Erweiterung der existierenden und
Mensch und Computer aussehen? den Aufbau vieler neuer digitaler Editionen,
was angesichts der Millionen von Werken der
Textgrundlage neulateinischen Literatur (Korenjak 2016, S. 22)
Frühneuzeitliche Drucke lateinischer Texte ein zentrales Anliegen sein muss, unter anderem
erfordern großen Aufwand, um als digitale zur Erforschung der Rezeptionsgeschichte latei-
Texteditionen einem größeren Publikum nischer Klassiker. Ein Großteil dieser riesigen
zugänglich gemacht zu werden: Sie besitzen oft Textmenge ist immer noch unerschlossen,
eine weniger standardisierte Typografie sowie obgleich Initiativen wie das Corpus Corporum3
Orthografie und sind mitunter von erhebli- (Roelli 2014) mit seinen über 160 Millionen
chem materiellen Verfall gekennzeichnet, der Wörtern hier Abhilfe zu schaffen versuchen.
auf den jahrhundertelangen Prozess der Nut-
zung, Lagerung und Alterung zurückzuführen

104 FC 2/2021

Maschinelle Sprachverarbeitung für die Klassische Philologie

Creativ Collection Verlag GmbH

AD ASTRA – Innovationen für den Unterricht
Nachwuchswettbewerb für Latein und Griechisch

Der Deutsche Altphilologenverband (DAV) und der auch mutige methodische oder didaktische
Ernst Klett Verlag schreiben für das Jahr 2021/22 Neuerung. Diese Idee sollte das Lernen der Schü-
zum zweiten Mal den Nachwuchswettbewerb für lerinnen und Schüler in den Mittelpunkt stellen,
Latein und Griechisch aus. Dieser Wettbewerb AD die Freude am Fach wecken und auf andere Lern-
ASTRA richtet sich an junge Lehrkräfte im Refe- gruppen übertragbar sein. Die Idee muss schlüssig,
rendariat sowie in den ersten fünf Berufsjahren. überzeugend und nachvollziehbar dargestellt
Eingereicht werden kann eine eigene und in der werden.
Praxis selbst erprobte Idee, die ein innovatives
Element enthält: eine kluge, clevere und vielleicht

Bitte reichen Sie zur Teilnahme am Wettbewerb folgende Unterlagen ein:
• Deckblatt (Name und Anschrift der Schule / Thema / Jahrgangsstufe(n) / Postanschrift, Telefonnummer und
E-Mail-Adresse der Bewerberin/des Bewerbers),
• Darstellung der Idee und ihrer Umsetzung unter Benennung des innovativen Elements,
max. 3 Seiten DIN A4 (PDF),
• Unterrichtsmaterialien (PDF, PPT, MPEG, MP3, MP4 etc.) als Anhang unter Angabe der verwendeten Quellen
und Literatur, insgesamt max. 15 MB,
• Bestätigung des Bewerbers/der Bewerberin, dass es sich um eine eigene und selbst erprobte Idee handelt,
• Kurzvita (im Schuldienst seit …).

Teilnahmebedingungen:
Referendarinnen und Referendare können prüfungsrelevante Lerneinheiten aus ihren schriftlichen Arbeiten und Lehrproben vor dem
Abschluss der Ausbildung weder in Teilen noch als Ganzes einreichen. Eine Jury aus Fachleuten des DAV und des Ernst Klett Verlages trifft
eine Auswahl aus den Einsendungen und befindet über die Zuerkennung der Preise. Das Preisgeld wird vom Ernst Klett Verlag gestiftet.
Für Platz eins werden 750 €, für Platz zwei 500 € und für Platz drei 250 € ausgelobt. Die Verleihung der Preise findet im Rahmen des
DAV-Kongresses in Würzburg im April 2022 statt. Im Falle der Platzierung werden die Teilnehmer zum Kongress eingeladen, um ihre Idee
vorzustellen. Ferner wird die Veröffentlichung der prämierten Ideen angestrebt.
Der Beitrag ist einzureichen per E-Mail an: adastra@altphilologenverband.de. Einsendeschluss ist der 31.10.2021
Der Rechtsweg ist ausgeschlossen.

FC 2/2021 105

Konstantin Schulz

Vernetzte Sprachdaten bachten in der Infrastruktur des LiLa-Projekts:
Doch selbst wenn uns alle erhaltenen altsprach- Dort werden wissenschaftlich aufbereitete Text-
lichen Texte digital zur Verfügung stünden, sammlungen wie PROIEL7 mit kontrollierten
könnten wir noch nicht ohne Weiteres damit Vokabularen wie Ontolex8 verknüpft (Mambrini
arbeiten. Um unsere Beobachtungen und For- et al. 2020). Als Vokabular ist in solchen Fällen
schungen, unsere Interpretationen und Hypo- nicht der Wortschatz eines antiken Werks zu
thesen mit anderen zu teilen, müssen wir klar verstehen, sondern – etwas abstrakter – eine
und eindeutig kommunizieren, auf welchen einheitliche sprachliche Form zur Beschrei-
Text wir uns beziehen. Informationen wie Autor, bung von Wissen. In diesem Fall sind damit oft
Werk, Textpassage und Textausgabe unterliegen Identifikatoren in Form von URLs gemeint (z.
dabei einem Standardisierungsprozess, wie er B. http://www.w3.org/ns/lemon/ontolex#Mul-
sich in der Abkürzungsliste des Neuen Pauly tiwordExpression), die als zentrale Anlaufstelle
für antike Textreferenzen niederschlägt. Eine für alle Forschenden dienen, die in ihren Texten
ähnliche, kostenlos zugängliche Form der eine Information hinzufügen möchten. So dient
Kanonisierung ging aus der Textsammlung PHI beispielsweise das Vokabular Ontolex dazu, die
Latin Texts hervor und mündete in der Zuwei- konkrete sprachliche Umsetzung von kommu-
sung von einzigartigen Identifikatoren für jede nikativen Inhalten zu markieren. Die gegebene
beliebige altsprachliche Textstelle in den Cano- Beispiel-URL repräsentiert die Information
nical Text Services (Tiepmar et al. 2014). Über „Hierbei handelt es sich um einen Mehrwort
eine entsprechende Schnittstelle kann dann ausdruck“. Wenn nun also Forschende in
also nicht nur auf die Texte verwiesen, sondern einem antiken Text auf eine Phrase wie cursus
auch ihr Wortlaut direkt abgerufen und durch honorum stoßen, können sie die URL zu der
etwaige Zusatzmaterialien (Übersetzungen, Textstelle hinzufügen und beziehen sich dabei
Kommentare etc.) ergänzt werden, wie es in nicht auf ihre eigene, subjektive Definition von
Alpheios4, in der Perseus Digital Library5 und im Mehrwortausdruck, sondern auf eine zentrale,
Scaife Viewer6 umgesetzt wurde. mit anderen Gleichgesinnten ausgehandelte
Dieser Gedanke der expliziten Vernet- Definition von Mehrwortausdruck. Gegenüber
zung vorhandener digitaler Ressourcen ist einem analogen oder intuitiven Zugang ergeben
das Kernstück des Prinzips von Linked Open sich hier Vorteile wie eine explizite Definition
Data (Cayless 2019). Dabei geht es darum, der der gesuchten sprachlichen Information (Mehr-
zunehmenden Fragmentierung von Forschung wortausdruck) sowie die Nachnutzbarkeit der
entgegenzuwirken, die aus der Nutzung unter- Forschungsdaten durch andere Forschende.
schiedlicher Datenmodelle und -formate her- Letzteres ist angesichts der oben beschriebenen
vorgeht. Beispiele dafür sind die Verwendung überwältigenden Menge unerforschter Literatur
unterschiedlicher grammatischer Begriffe zur von besonderer Bedeutung.
Erklärung von antiker Syntax oder die Speiche-
rung von Texteditionen als Word-, XML- sowie Fortgeschrittene sprachliche Analysen
PDF-Dokumente. Ein gängiger Ansatz zur durch Künstliche Intelligenz
Vernetzung, der sich von der lokalen bis auf die Wo solche hilfreichen Informationen noch
globale Ebene erstreckt, ist anschaulich zu beo- nicht professionell erarbeitet wurden, können

106 FC 2/2021

Maschinelle Sprachverarbeitung für die Klassische Philologie

sie durch Verfahren der Künstlichen Intelligenz Sprachtechnologie auch für die Bearbeitung
ergänzt werden. So liefern verschiedene Werk- komplexer philologischer Fragestellungen ein-
zeuge zunehmend verlässlichere sprachliche gesetzt werden kann (vgl. auch Pöckelmann et
Analysen für antike Texte: Die Morphologie al. 2019, S. 60, zur automatischen Erkennung
und Grundform von Wörtern kann mithilfe von Paraphrasen).
von LemLat9 oder LatMor10 bestimmt werden. Zu schön um wahr zu sein? Es gibt einen
Häufige Kombinationen mehrerer Wörter, auch Haken: Die beschriebenen Innovationen
im direkten Vergleich mehrerer Textstellen, wurden bisher hauptsächlich von technisch
lassen sich in Tesserae 11 ausfindig machen. versierten Angehörigen der Digital Humani-
Kompliziertere syntaktische Analysen, z. B. ties vorangetrieben. Für solche Methoden gibt
verschiedene Formen der Reflexivität in der es in der Klassischen Philologie noch keine
oratio obliqua, werden zumindest ansatzweise Community of Practice, also keine Gruppe von
durch UDPipe12 geliefert und lassen sich dann Forschenden, die regelmäßig entsprechende
übersichtlich in Arethusa13 darstellen. Allerdings Werkzeuge nachnutzt, ohne sie selbst entwi-
bezieht sich die automatische Verarbeitung anti- ckelt zu haben. Darum sind viele Probleme
ker Texte bisher überwiegend auf die sprachwis- und Unwägbarkeiten dieser Sprachmodelle
senschaftlichen Grundlagen. Für die eigentliche noch nicht so weit erforscht und beseitigt, dass
literaturwissenschaftliche Interpretation liegen von einem hohen Reifegrad und reibungsloser
bisher kaum überzeugende Hilfsmittel vor. Einsatzfähigkeit gesprochen werden könnte.
Erste vielversprechende Ansätze in die Was hier fehlt, ist einerseits eine Verbreitung
Richtung der Semantik und Hermeneutik sind des notwendigen Wissens in den existierenden
jedoch in den letzten Jahren zunehmend auf Gemeinschaften, um solche Technologien
dem Vormarsch. Hierzu zählt insbesondere die anwenden zu können. Damit einher ginge dann
Anwendung von fortgeschrittenen Methoden andererseits eine umfangreiche Erhebung der
des Maschinellen Lernens auf antike Texte. konkreten Anforderungen und eine fachlich
Sprugnoli et al. 2020 und Bamman & Burns begleitete Pilotierung der jeweiligen Werkzeuge.
2020 zeigen überzeugend, wie mit neueren Die transparente, offene Zugänglichkeit des
Technologien der Künstlichen Intelligenz antike entsprechenden Quellcodes und der zugehö-
Texte inhaltlich analysiert werden können. Sei rigen wissenschaftlichen Publikation sind der
es nun die Abgrenzung des Gebrauchs eines erste essentielle Schritt in eine Richtung, die es
speziellen Worts zwischen zwei Textsamm- uns zukünftig ermöglichen wird, methodische
lungen (z. B. sacer in paganer und in christlicher Innovationen schneller und nachhaltiger in der
Literatur), die nuancierte Unterscheidung Forschungslandschaft zu verankern.
verschiedener Bedeutungen desselben Worts
innerhalb eines Textes (z. B. in als Präposition Schlussfolgerungen
bei Teilungsprozessen) oder die Bestimmung Zusammenfassend lässt sich also festhalten, dass
von Paralleltexten für eine bestimmte Zielpas- elementare sprachliche Analysen mittlerweile
sage (z. B. die Proömien von Vergils Aeneis und hervorragend maschinell unterstützt werden
Ovids Amores): Die genannten Forschenden können. Dazu gehören optische Zeichenerken-
haben zweifelsfrei demonstriert, dass moderne nung, die Erstellung von Texteditionen sowie die

FC 2/2021 107

Konstantin Schulz

musterbasierte Suche und Referenzierung von 7) https://proiel.github.io/
Textpassagen. Etwas kompliziertere Techniken 8) https://www.w3.org/2016/05/ontolex/
9) http://www.lemlat3.eu/
wie Linked Open Data oder die Bestimmung
10) https://www.cis.uni-muenchen.de/~schmid/
von Wortarten und syntaktischen Funktionen tools/LatMor/
genießen momentan großes Interesse, sind aber 11) https://tesserae.caset.buffalo.edu/
bisweilen fehlerbehaftet und benötigen darum 12) https://lindat.mff.cuni.cz/services/udpipe/
etwas mehr Aufwand zur Korrektur der Ergeb- 13) https://www.perseids.org/tools/arethusa/app/#/
nisse. Sie verzeichnen allerdings auch große
Fortschritte in der Weiterentwicklung, weshalb Literatur:
Bamman, D., & Burns, P. J. (2020): Latin BERT: A
hier von einer zunehmenden Einsatzreife in
Contextual Language Model for Classical Philo-
den nächsten Jahren ausgegangen werden muss. logy. ArXiv Preprint ArXiv:2009.10053, S. 1-14.
Als vielversprechendster Neuankömmling im Beyer, A., Schulz, K., & Cordes, L. (2021): Brid-
Bereich der maschinellen Sprachverarbeitung geClassics. Künstliche Intelligenz für die
Klassische Philologie. https://doi.org/10.5281/
gilt momentan das Natural Language Understan- zenodo.4745781.
ding (Beyer et al. 2021), also die Erschließung Cayless, H.A. (2019): Sustaining Linked Ancient
von Textinhalten durch Künstliche Intelligenz. World Data, in: M. Berti (Hrsg.), Digital clas-
Mit seinen ungleich komplexeren Sprachmodel- sical philology: Ancient Greek and Latin in the
digital revolution (Vol. 10, S. 35-50), Berlin/
len zeigt es hervorragende Ansätze zur Aufar- Boston.
beitung komplizierter philologischer Fragen, die Cordes, L. (2020): Wenn Fiktionen Fakten schaf-
bisher als technisch unlösbar galten. Dazu zählt fen. Faktuales und fiktionales Erzählen in den
etwa die detaillierte Untersuchung von Wortbe- spätantiken Panegyrici Latini, in: D. Breitenwi-
scher, H.-M. Häger, & J. Menninger (Hrsg.), Fak-
deutungen bis hinunter auf die Ebene einzelner tuales und fiktionales Erzählen II. Geschichte –
Sätze und unter Berücksichtigung des jeweiligen Medien – Praktiken (S. 31–56), Baden-Baden.
Kontextes. Je nach Bedarf können dann auch https://doi.org/10.5771/9783956505126-31.
relevante Parallelstellen identifiziert und für die Devine, A. M., & Stephens, L. D. (2006): Latin Word
Order: Structured Meaning and Information,
weitere Interpretation hinzugezogen werden, Oxford.
wobei die Parallele nicht, wie früher oft üblich, Diem, M., & Sablatnig, R. (2010): Recognizing
nur in zitierten Wortgruppen, sondern auch in Characters of Ancient Manuscripts. Proc.
SPIE 7531, Computer Vision and Image
vagen Anspielungen gefunden werden kann.
Analysis of Art, 7531, S. 1-12. https://doi.
Dadurch werden z. B. wichtige Forschungsfra- org/10.1117/12.843532.
gen zur Intertextualität in der altsprachlichen Korenjak, M. (2016): Geschichte der neulateinischen
Literatur unterstützt. Literatur: Vom Humanismus bis zur Gegenwart,
München.
Links: Mambrini, F., Cecchini, F. M., Franzini, G., Litta,
E., Passarotti, M. C., & Ruffolo, P. (2020): LiLa:
1) http://www.ocr4all.org/de/home.php
Linking Latin. Risorse linguistiche per il latino
2) https://cil.bbaw.de/hauptnavigation/das-cil/ nel Semantic Web. Umanistica Digitale, 4.8, S.
geschichte-des-cil 63-78.
3) http://www.mlat.uzh.ch/MLS/ Ministerium für Schule und Bildung des Landes
4) https://alpheios.net/ Nordrhein-Westfalen (Hrsg.) (2019): Kern-
5) http://www.perseus.tufts.edu/hopper/collecti- lehrplan für die Sekundarstufe I Gymnasium
on?collection=Perseus:collection:Greco-Roman in Nordrhein-Westfalen. Latein. https://www.
6) https://scaife.perseus.org/

108 FC 2/2021

Ovid, Vater Rumäniens

schulentwicklung.nrw.de/lehrplaene/lehr- nitatis Medii Aevi-Bulletin Du Cange (ALMA).
plan/206/g9_l_klp_3402_2019_06_23.pdf Springmann, U., & Lüdeling, A. (2017). OCR of
Pöckelmann, M., Ritter, J., & Molitor, P. (2019): Word historical printings with an application to buil-
Mover’s Distance angewendet auf die Paraphra- ding diachronic corpora: A case study using
senextraktion im Altgriechischen, in C. Schubert, the RIDGES herbal corpus. Digital Humanities
P. Molitor, J. Ritter, K. Sier, & J. Scharloth (Hrsg.), Quarterly, 11.2, Article 2.
Platon Digital. Tradition und Rezeption (S. Sprugnoli, R., Moretti, G., & Passarotti, M. (2020):
45-60). Propylaeum Heidelberg. https://books. Building and Comparing Lemma Embed-
ub.uni-heidelberg.de/propylaeum/reader/ dings for Latin. Classical Latin versus Thomas
download/451/451-30-84795-1-10-20190507. Aquinas. IJCoL. Italian Journal of Computati-
pdf. onal Linguistics, 6 (6-1), S. 29-45. https://doi.
Reul, C., Christ, D., Hartelt, A., Balbach, N., Wehner, org/10.4000/ijcol.624.
M., Springmann, U., Wick, C., Grundig, C., Tiepmar, J., Teichmann, C., Heyer, G., Berti, M., &
Büttner, A., & Puppe, F. (2019): OCR4all – An Crane, G. (2014): A new implementation for
open-source tool providing a (semi-) automatic canonical text services. Proceedings of the 8th
OCR workflow for historical printings. Applied Workshop on Language Technology for Cultu-
Sciences, 9.22, S. 1-30. https://doi.org/10.3390/ ral Heritage, Social Sciences, and Humanities
app9224853. (LaTeCH), S. 1-8. https://www.aclweb.org/
Roelli, P. (2014): The Corpus Corporum, a new open anthology/W14-0601.
Latin text repository and tool. Archivum Lati- Konstantin Schulz

Ovid, Vater Rumäniens

Der Titel dieses Aufsatzes – Theodor Haeckers Zitate aus seinem Werk – eben nicht aus den
„Vergil, Vater des Abendlandes“ nachempfun- Metamorphosen, sondern aus den Tristia und
den – ist gewiss eine plakative Kurzformel, aber den Epistulae Ex Ponto.
er soll die besondere Beziehung der Rumänen Diese besondere Verbundenheit Rumäniens
zu Ovid auf den Punkt bringen. und der Rumänen mit dem Dichter hat unter-
schiedliche Gründe. Zunächst: Der Verbannte
Ovidiu von Tomi – nicht Herodot, Strabon oder Vergil
Wer ‚Ovidiu‘ in eine Internet-Suchmaschine im Skythenexkurs der Georgica (3,349-383) – ist
eingibt, wird feststellen, dass sich die große derjenige antike Autor, der das ausführlichste
Masse der Fundstellen nicht auf den Schöpfer und anschaulichste Bild vom realen Leben in
der Metamorphosen, sondern auf unzählige der Dobrudscha, der Keimzelle des romanisier-
rumänische ‚Namensvettern‘ bezieht, so beliebt ten Rumänien, geliefert hat, in kräftigen, wenn
ist Ovidiu als männlicher Vorname. Nicht nur auch düsteren Farben.
das. Man wird bei dieser Recherche auf Stadt Und: Ovid gilt den Rumänen als Begründer
und Insel bei Constanța stoßen, die – eine nicht ihrer Nationalliteratur. Traditionelle spanische
nur in Europa unübliche Form der Ehrung – Literaturgeschichten beginnen mit Seneca (Cór-
beide den Namen des Dichters tragen. Jedes doba), Martial (Calatayud), Lucan (Córdoba),
rumänische Geschichtsbuch, ob für Erwachsene Columella (Cádiz); die Verbindung Ovids mit
oder für Jugendliche, enthält einen ausführ- Rumänien aber ist weitaus enger. Er war ja der
lichen Hinweis auf Ovid, angereichert durch Erste, der auf dem Boden des ‚Römerlandes‘

FC 2/2021 109

Sie können auch lesen