AKADEMIE IM DIALOG | 15 - DIALEKTFORSCHUNG UND MASCHINENSPRACHE - Österreichische Akademie der ...
←
→
Transkription von Seiteninhalten
Wenn Ihr Browser die Seite nicht korrekt rendert, bitte, lesen Sie den Inhalt der Seite unten
INHALTSVERZEICHNIS
INHALT
VORTRÄGE
ALEXANDRA N. LENZ | Universität Wien, ÖAW
„Digitale Sprachwissenschaft – Herausforderungen und Perspektiven“ .................................................................................. 5
IVONA BRANDIĆ | Technische Universität Wien
„Herausforderungen der Informatik im Zeitalter der digitalen Transformation“ ................................................................... 19
ÖAW 3ALEXANDRA N. LENZ
DIGITALE SPRACHWISSEN-
SCHAFT – HERAUSFORDE-
RUNGEN UND PERSPEKTIVEN
ALEXANDRA N. LENZ
Der vorliegende Beitrag setzt sich nen, aufbereiteten und analysierten Experiment software, diverse multi
zum Ziel, die Herausforderungen Daten. mediale Stimuli (Bild, Ton, Video),
und Möglichkeiten digitaler Zugänge die den ProbandInnen in einer Er
aus der Perspektive der Digitalen hebungssituation vorgegeben wer
Sprachwissenschaft zu beleuchten. FORSCHUNGSDATEN den, standardisiert und einheitlich
Dabei soll Digitale Sprachwissenschaft GENERIEREN UND ERSCHLIESSEN zu präsentieren und gleichzeitig den
hier ganz allgemein verstanden Erhebungsverlauf digital und zeit
werden als Sprachwissenschaft, die Die Erhebung von Sprachdaten ist lich exakt zu dokumentieren. Dies ist
sich bei ihren Forschungsvorhaben ein komplexer Prozess, zu dessen ein enormer Gewinn im Vergleich zu
digi
taler Methoden und Werkzeuge Durchführung mittlerweile eine traditionellen Verfahren der Daten
bedient. Dies beinhaltet erstens For Fülle von digital bzw. von Compu erhebung im Face-to-Face-Kontakt,
schungsprozesse der Generierung tern unterstützten Verfahren zur in denen die explorierenden Ex
und Erschließung von sprachwissen Verfügung steht. Dies betrifft sowohl pertInnen sprachliche Stimuli den
schaftlich relevanten Daten, zweitens die Erhebung von medial schrift Gewährspersonen selbst vorsprechen
die Aufbereitung und Anreicherung lichen als auch medial mündlichen bzw. Aufgabenstellungen mündlich
der Daten (z. B. in Form von Tran Daten. Neben dem Einsatz von digi formulieren und dabei zumindest
skriptionen und Annotationen), drit talen Aufnahmegeräten, die für eine potenzielle Beeinflussungsfaktoren
tens die Analyse und Interpretation Digitalisierung des Sprachschalls darstellen. Des Weiteren ermöglichen
von Forschungsfragen sowie viertens zeitgleich zur Erhebung sorgen, digitale Aufnahmegeräte und -soft
die digitale Bereitstellung der erhobe- ermöglicht etwa der Einsatz von ware eine automatisierte Segmen
ÖAW 5ALEXANDRA N. LENZ
tierung der Aufnahme in verschie historischer Schätze der Dialektolo Sätze in den Dialekt des Schulortes zu
dene Einzelaufnahmen (Stichwort gie des Deutschen illustriert werden. übersetzen. Kam die Lehrkraft selbst
„Time-Alignment“), was nicht nur nicht aus dem Ort, sollten die ortsan
das Auffinden bestimmter Audio Beispiel I: Die „Wenkermaterialien“ sässigen SchülerInnen bei der Über
passagen erleichtert, sondern auch Ende des 19. und Anfang des 20. Jahr- setzung behilflich sein. Während auf
eine Verknüpfung zwischen einem hunderts der Vorderseite eines Wenkerbogens
Transkript und der Sprachaufnahme Ende des 19. Jahrhunderts beginnt die (in der Regel handschriftlich in
bedeutet. Im Hinblick auf schrift der Marburger Dialektologe Georg Kurrent angefertigten) Dialektüber
sprachliche Daten sind derweil On Wenker mit einer einmaligen Dialekt setzungen Platz fanden, diente die
line-Erhebungen (oft natürlich als erhebung zu seinem „Sprachatlas Rückseite zur Erhebung weiterer
Ergänzung zu Offline-Erhebungen) des Deutschen Reichs“.1 Die Haupt relevanter Daten wie etwa der Sozial
sehr üblich. Neben forschungsprak erhebung für das Atlasprojekt fand daten der Lehrperson, weiterer Fra
tischen Aspekten ist auch hier die zwischen 1876 und 1887 statt. In gen zum Ort (etwa zu seiner sprach
Standardisierung von auditiven und den Jahren 1888 sowie 1926 bis 1933 lichen Zusammensetzung) oder
visuellen Stimuli ein wesentlicher folgten weitere Nacherhebungen, auch zur Abfrage weiterer isolierter
Pluspunkt einer digital unterstützten die auch andere vor allem deutsch Dialektwörter. In Abbildung 1 sind
Erhebung. In jüngster Zeit werden sprachige Länder und Regionen ab Teile der Vorder- und Rückseite eines
auch zunehmend online verfügbare deckten, darunter Österreich, die Wenkerbogens aus dem Burgenland
Sprachdaten zum Aufbau von vor Schweiz, Luxemburg, die deutsch abgebildet.
allem schriftsprachlichen Korpora
sprachigen Gebiete der ehemaligen Durch Wenkers Projekt liegen der
herangezogen (z. B. Onlinezeitun Tschechoslowakei und andere. Die
Dialektologie des Deutschen heute
gen, Diskussionsforen oder soziale Wenker-Methode war eine einfache, insgesamt rund 52.000 ausgefüllte
Netzwerke wie Twitter und Face aber zielführende: Ein zweiseitiger Wenkerbögen und mehr als 1.600
book). Fragebogen wurde in alle Schulorte auf diesen Fragebögen basierende
Neben der Erhebung „neuer“ ge versandt, mit der Bitte an die dorti handgezeichnete Sprachkarten vor.
sprochener oder geschriebener gen LehrerInnen, ca. 40 vorgegebene Das Material konnte aufgrund sei
Sprachdaten bietet es sich je nach nes Umfangs, der Kartengrößen und
Forschungsvorhaben an, auf bereits ihrer Farbvielfalt bis zum Beginn
1 Zu einer ausführlichen Darstellung des
verfügbare „Rohdaten“ zurückzu Wenker-Projekts sei verwiesen auf: Schmidt,
dieses Jahrtausends nicht publiziert
greifen. Zur Sicherung, Erschließung Jürgen Erich/Herrgen, Joachim (2011): Sprach werden. Erst im Rahmen eines groß
und Bereitstellung dieser Daten lie dynamik. Eine Einführung in die moderne angelegten DFG-Projekts (2001ff.)
fern digitale Zugänge einen wesent Regionalsprachenforschung. Berlin: Erich haben wir in unserem Marburger
Schmidt (Grundlagen der Germanistik 49),
lichen Beitrag. Dies soll im Folgen 97–107; dazu auch: www.regionalsprache.
Forschungsteam (Projektleitung:
den am Beispiel dreier wertvoller de/wa.aspx. Prof. Dr. Jürgen Erich Schmidt und
ÖAW 6ALEXANDRA N. LENZ
Prof. Dr. Joachim Herrgen) eine erst
malige Erschließung, Sicherung und
Onlinepublikation des Materials in
Form georeferenzierter Bilddigitali
sate vornehmen können, um diesen
einmaligen Schatz der Wissenschaft
und Öffentlichkeit zur Verfügung
zu stellen. Die Georeferenzierung
ermöglicht dabei ortspunktgenaue
Verknüpfungen etwa zwischen den
Wenkerbögen und den Wenkerkarten
sowie zwischen verschiedenen Wen
kerkarten, aber auch zwischen die
sen und Sprachkarten bzw. Sprach
daten aus jüngeren Dialektkorpora,
was insbesondere im Hinblick auf
Sprachwandelanalysen neue Optio
nen eröffnet. Die später gezeichneten
„Ergänzungskarten“ von Peter Wie
singer, die dann unter anderem auch
die österreichischen Fragebögen
umfassen, sind wunderbarer weise
ebenso Teil dieses erschlossenen
einmaligen Korpus. Online zur Ver
fügung gestellt werden die Karten,
Fragebögen und viele weitere Dia Abb. 1: Vorder- und Rückseite (jeweils Ausschnitt) eines Wenkerbogens aus Kleinhöflein
lektmaterialen (inklusive Tonaufnah (Eisenstadt im Burgenland); publiziert auf: www.regionalsprache.de.
men, Forschungsliteratur) über das
Geographische Informationssystem
(GIS) „REDE-SprachGIS“ des Mar
burger Forschungszentrums „Deut
scher Sprachatlas“ (www.regional
sprache.de).
ÖAW 7ALEXANDRA N. LENZ
Beispiel II: Korpus „Österreichische
Dialektaufnahmen im 20. Jahrhun-
dert“
Als zweites Beispiel zur Erschlie
ßung historischer Materialien mit
digitalen Methoden dient das Kor
pus „Österreichische Dialektauf
nahmen im 20. Jahrhundert“, das
im Phonogrammarchiv (PhA) der
ÖAW aktuell noch größtenteils auf
Magnetton bändern lagert. Dieses
Korpus umfasst ca. 2.450 Dialekt
aufnahmen (vor allem elizitierte
und spontansprachliche Gesprä
che) von ca. 1.000 Ortspunkten in
Österreich aus der zweiten Hälfte
des letzten Jahrhunderts (vor allem
1951–1983, aufgenommen unter der
Leitung von Maria Hornung, Eber
hard Kranzmayer, Werner Bauer,
Herbert Tatzreiter und anderen).
Der Kernbestand der Aufnahmen
wurde jüngst von der UNESCO in
das „Weltdokumentenerbe in Öster
reich“ aufgenommen, was den Wert
dieser Dialektaufnahmen für das
kulturelle Erbe unterstreicht. Neben
Abb. 2: Aufnahmeprotokoll einer Sprachaufnahme aus Sillian von einer gebürtigen Ober-
Tonaufnahmen gehören handschrift
tilliacherin aus dem Jahr 1951 (Korpus „Österreichische Dialektaufnahmen im 20. Jahr-
liche Protokolle zum Korpus, die we
hundert“).
sentliche Metadaten zu Inhalten der
Aufnahmen, den Sprechenden und
anderem bereithalten (siehe Abbil
dung 2). Dieser einmalige Schatz der
österreichischen Dialektlandschaft
ÖAW 8ALEXANDRA N. LENZ
Abb. 3: Handzettel aus dem Hauptkatalog des „Wörterbuchs der bairischen Mundarten in Österreich“ (WBÖ).
aus dem letzten Jahrhundert muss Beispiel III: Hauptkatalog des „Wör (Beispiel Gabel) zu verdeutlichen. Im
gehoben werden. Im Rahmen einer terbuchs der bairischen Mundarten Rahmen des 2016 neu aufgestellten
Kooperation zwischen dem Phono in Österreich“ Langzeitprojekts „Wörterbuch der
grammarchiv der ÖAW und unserer Eine dritte wertvolle Datenquelle zu bairischen Mundarten in Österreich“
Forschungsabteilung „Variation und den Dialekten Österreichs und da (WBÖ) am ACDH sind wir dabei,
Wandel des Deutschen in Österreich“ rüber hinaus stellen die Zettel des auch diese einmaligen Rohdaten zum
am Austrian Centre for Digital Hu Hauptkatalogs des „Wörterbuchs der Wortschatz österreichischer Dialekte
manities (ACDH) der ÖAW wird das bairischen Mundarten in Österreich“ in Form hochauflösender Bild
Ton- und Dokumentationsmaterial (WBÖ) dar. Dieser Katalog umfasst digitalisate zu sichern und online zur
erstmals vollständig erschlossen und ca. 3,6 Millionen handschriftliche Verfügung zu stellen. Bislang sind
in Form von digitalisierten Ton- und Belegzettel, die vor allem auf um bereits ca. 12 % des Materials digi
Bilddateien gesichert und für For fangreichen Fragebogenerhebungen talisiert.3
schungszwecke aufbereitet.2 und Literaturexzerpten basieren. Die
Beispiele in Abbildung 3 illustrieren, 3 Nähere Informationen zum Projekt sowie
dass mitunter auch Zeichnungen zum Hauptkatalog des WBÖ und seiner
2 Nähere Informationen finden Sie auf: https:// langen Geschichte finden Sie auf der Projekt
vawadioe.acdh.oeaw.ac.at/projekte/dialekt
herangezogen wurden, um die Be seite: https://vawadioe.acdh.oeaw.ac.at/
aufnahmen-20-jh/. deutungsvarianten eines Wortes projekte/wboe.
ÖAW 9ALEXANDRA N. LENZ
Wie am Beispiel der drei exempla ein modernes Standard-Dokumen sind natürlich Sprachdatenban
rischen Datenquellen und der mit tenformat überführt. Im Rahmen des ken, die auch Umstrukturierungen,
ihnen verbundenen Forschungspro WBÖ-Projekts wurde die deutlich Klassifizierungen und andere Arten
jekte deutlich wird, leisten digitale optimierte und bereinigte WBÖ-Da der Datenanreicherungen ermög
Verfahren einen höchst wertvollen tenbank jüngst erstmals online zu lichen, welche ohne informations
Beitrag zur Bereitstellung und Siche gänglich gemacht, und zwar über technologische Werkzeuge in den
rung von (auch historischen) „Roh unser neues „Lexikographisches In meisten Fällen unmöglich erschei
daten“, sei es einerseits durch die formationssystem Österreich“ (LIÖ) nen. Die Datenanreicherungen stellen
Digitalisierung als Bild-, Vektor- oder (siehe https://lioe.dioe.at und unten). zwar einerseits den Ausgangspunkt
Tondatei sowie andererseits durch Unabhängig von technischen Bedin für weiterführende quantitative und
die parallele Datenbeschreibung und gungen (wie der Frage nach dem qualitative Analysen dar, die Ergeb
Datenstrukturierung. Dateiformat) ist aber zunächst die nisse dieser Analysen fließen aber
grundsätzliche Frage zu klären, mit wiederum in das Korpus zurück, so
welchem Transkriptionssystem und dass hier von starken Wechselbezie
FORSCHUNGSDATEN in welcher Transkriptionstiefe eine hungen auszugehen ist.
ANREICHERN Verschriftlichung von Sprachdaten
erfolgen soll. Diese Entscheidungen
Oft bedarf es natürlich weiterer hängen maßgeblich von der fokus FORSCHUNGSDATEN
Schritte der Datenaufbereitung, die sierten Systemebene ab und damit ANALYSIEREN
weit über die Digitalisierung von von der Frage, ob eine Analyse der
„Rohdaten“ hinausgehen. Die Voll Lautebene, der Morphologie oder Der Mehrwert, den digitale Zugänge
texterfassung, das heißt die Über Syntax, des Wortschatzes oder ande im Hinblick auf Forschungsanaly
tragung von Daten in maschinenles rer Aspekte vorgenommen werden sen haben, kann hier natürlich nur
bare Formate, ist dabei ein zentraler soll. Im Hinblick auf den Mehrwert, angedeutet werden. Ich möchte dies
Prozess. Als Beispiel dient wiederum den digitale Zugänge zur Datenan an einem Beispiel aus unserer aktuel
der WBÖ-Hauptkatalog (siehe oben). reicherung liefern, sind vielfältige len Forschung tun.4 Der Ausgangs
Beginnend mit dem Buchstaben D Möglichkeiten der datensichernden punkt ist eine Sprachkontaktthese,
wurden zwischen 1993 und 2011 ca. und wiederverwertbaren Volltext
2,4 Millionen Handzettel manuell erfassung zu nennen, die auch den
in eine digitale Belegdatenbank im Ausgangspunkt für zumindest halb 4 Zur ausführlichen Darstellung und Inter
TUSTEP-Format eingegeben. Die automatisierte Transkriptionen und pretation der folgenden Beispielanalyse sei
alten TUSTEP-Daten wurden mehr Annotationen darstellen können. verwiesen auf: Lenz, Alexandra N./Fleißner,
Fabian/Kim, Agnes/Newerkla, Stefan Michael
fach und zuletzt 2019 am ACDH in Eine besonders zugängliche und (eingereicht): GIVE as a German PUT verb –
XML/TEI konvertiert und damit in nachhaltige Vernetzung von Daten A case of German-Czech language contact?
ÖAW 10ALEXANDRA N. LENZ
Abb. 4: Überführung der Daten aus dem WBÖ-Hauptkatalog in eine TUSTEP-Datenbank bzw. in ein XML/TEI-Format.
die im 19. Jahrhundert von August Nebenbemerkung aufgestellt und in Sprachkontakts darstellt. Beispiele
Schleicher (1851, 40f.)5 mehr als
der bisherigen Forschung nie weiter für eine solche geben-Variante sind
verfolgt wurde. Es geht um die These, etwa Belege wie: „Am Samstag dür
dass das Verb geben in der Funktion als fen die Besucher in der Innenstadt
5 Schleicher, August (1851): Über die wech
sogenanntes „Positionierungsverb“ die Kurzparkzone gratis benützen,
selseitige Einwirkung von Böhmisch und
Deutsch. In: Archiv für das Studium der (Verb des Stellens, Setzens, Legens) müssen aber eine Parkscheibe hinter
neueren Sprachen und Literaturen 9, 38–42. ein Produkt deutsch-tschechischen die Windschutzscheibe geben.“ (Die
ÖAW 11ALEXANDRA N. LENZ
Presse, 8. 8. 2005, 9) Evidenzen für orte vorgenommen haben. In einem besondere Verbtypen) gehören (siehe
Schleichers These können aus den ersten Schritt der Datenaufbereitung Abbildung 5).
bereits angesprochenen Wenkerma haben wir knapp 5.700 Wenkerbögen Mithilfe des REDE-SprachGIS (www.
terialien abgeleitet werden, und zwar als Volltext erfasst, sprich manuell in regionalsprache.de) haben wir die
aus dem Wenkersatz 3 („Thu Kohlen Textdaten überführt sowie struktu Ergebnisse der Verbklassifizierun
in den Ofen […]“), in dem geben in riert gespeichert. In einem zweiten gen kartographisch visualisiert. In
der besagten Funktion als Objektsbe Schritt wurde das Material mit Meta Abbildung 6 sind die Auswertungen
wegungsverb auftritt. Der Fokus liegt daten angereichert, zu denen insbe für das gesamte Wenker-Erhebungs
im Folgenden auf der Übersetzung sondere geographische Informatio gebiet einzusehen, von der däni
des Positionierungsverbs tun, wie nen zum Wenkerort, aber eben auch schen Grenze im Norden bis hinun
sie die Lehrpersonen für die Schul linguistische Klassifizierungen (ins ter nach Südtirol, unter Einschluss
Abb. 5: Volltexterfassung von Wenkersatz 3 (Sample: 5.688 Wenkerbögen) und Metadatenanreicherung.
ÖAW 12ALEXANDRA N. LENZ
aller niederdeutschen, mitteldeut
schen und oberdeutschen Dialekt
räume. Während Punktsymbole auf
Verbvarianten in deutschsprachigen
Wenkerbögen referieren, repräsen
tieren Dreiecke die Daten aus fremd
sprachigen Wenkerbögen, die neben
Polnisch seltener auch Tschechisch,
Sorbisch, Französisch und andere
Sprachen umfassen. Wie die Grafik
recht deutlich offenlegt, dominiert
in den deutschsprachigen Wenker
bögen eindeutig das Verb tun (graue
Punktsymbole) in den Dialektüber
setzungen der Lehrpersonen. Für die
oben angesprochene Sprachkontakt
these sind aber gerade die farbigen
Symbole in der Karte von besonde
rem Interesse, da sie allesamt für
alternative Verbvarianten stehen. Für
die Diskussion in diesem Beitrag sei
lediglich auf die roten Punktsymbole
verwiesen, die allesamt und aus
schließlich in den deutschsprachigen
Gebieten der ehemaligen Tschecho
slowakei und vereinzelt in Österreich
auftreten (siehe Abbildung 6). Ab
bildung 7 liefert einen vergrößerten
Ausschnitt genau dieses Sprachkon
Abb. 6: Lexikalische Varianten zum Verb tun im Wenkersatz 3 („Thu Kohlen in den Ofen
taktraums, zu dessen Analyse nun
[…]“) auf Basis von 2.316 Wenkerbögen (erstellt im REDE-SprachGIS „www.regional-
alle dort verfügbaren Wenkerbögen
sprache.de“; modifizierte Karte nach Lenz (et al.) (eingereicht), s. Fn. 4).
(ca. 3.400) herangezogen wurden.
Wie ersichtlich ist, bestätigt die „Tie [Punkte = deutschsprachige Varianten, Dreiecke = fremdsprachige Varianten; graue
fenbohrung“ (Abbildung 7) das in Punkte = Belege des Verbs tun; rote Punkte = Belege des Verbs geben].
ÖAW 13ALEXANDRA N. LENZ
Abb. 7: Lexikalische Varianten zum Verb tun im Wenkersatz 3 („Thu Kohlen in
den Ofen […]“) auf Basis von 3.372 Wenkerbögen in den deutschsprachigen
Regionen der ehemaligen Tschechoslowakei und im Norden Österreichs (erstellt im
REDE-SprachGIS „www.regionalsprache.de“; modifizierte Karte nach Lenz (et al.)
(eingereicht), s. Fn. 4).
der Gesamtkarte (Abbildung 6) be sche Absicherung für die bereits im Dank digitaler Methoden und Werk
reits angedeutete Bild: Es zeigt sich 19. Jahrhundert aufgestellte Sprach zeuge sind wir heute in der Lage,
eine Fülle von geben-Belegen, die kontaktthese gedeutet werden. Und quantitative und qualitative Analy
gerade im tschechisch-deutschen wir haben die Evidenzen mittels um sen auf Basis großer Datenmengen
Sprachkontaktraum auftreten. Die fangreicher digital gestützter Analy (Sprachkorpora) effizient und kos
ser Befund kann als erste empiri sen gewinnen können. tensparend durchzuführen. Dabei
ÖAW 14ALEXANDRA N. LENZ
kommen auch Verfahren der Korpus
linguistik und multivariaten Statistik
zum Einsatz (z. B. Clusteranalysen,
Varianzanalysen, Faktorenanalysen),
die bei der Suche nach Ähnlichkeits
strukturen (Mustern) und Gesetzmä
ßigkeiten in den Daten sowie bei der
Gewichtung und Hierarchisierung
von Steuerungsfaktoren helfen.
FORSCHUNGSDATEN
PUBLIZIEREN
Schließlich und letztlich spielen di
gitale Zugänge zunehmend bei der
Publikation sprachwissenschaftlich
erhobener, aufbereiteter und ana
lysierter Daten eine Rolle. Um den
Mehrwert digitaler Zugänge bezüg
lich der Bereitstellung solcher Daten
Abb. 8: Ausschnitt aus dem WBÖ-Artikel Feim (publiziert im „Lexikographischen Infor-
zu verdeutlichen, ziehe ich ein letztes
mationssystem Österreich“ (LIÖ) „https://lioe.dioe.at“).
Beispiel heran: Seit Dezember 2018 ist
das „Lexikographische Informations
system Österreich“ (LIÖ) online, das
wir im Rahmen des neu aufgestellten neuen WBÖ, die sukzessive online sentiert einen Ausschnitt des neuen
WBÖ-Langzeitprojekts konzipiert gestellt werden. Zweitens enthält die WBÖ-Artikels zum Lemma Feim, wo
haben (https://lioe.dioe.at). Das Ziel Plattform Kartierungswerkzeuge, die bei in der „Normalansicht“ zunächst
des Informationssystems LIÖ ist eine es ermöglichen, Daten und Daten nur das Bedeutungsfeld ausgeklappt
Vernetzung und Präsentation von komplexe kartographisch zu visu ist. Alle weiteren Informationen zur
Sprachdaten und Wörterbuchartikeln alisieren, und drittens bietet das In Etymologie, zur Verbreitung, zur
zur Lexik Österreichs. Zu den aktuel formationssystem einen erstmaligen Lautvariation, zur Wortbildung und
len Komponenten des Informations Zugang zur vollständigen WBÖ- zu anderem können je nach Infor
systems gehören erstens Artikel des Belegdatenbank. Abbildung 8 prä mationsbedarf ebenfalls angezeigt
ÖAW 15ALEXANDRA N. LENZ
werden. Die Artikel sind direkt mit fügbare Datenbanken mit verschiede talen Möglichkeiten in den sprach
der WBÖ-Belegdatenbank verknüpft, nen Benutzeroberflächen, Such- und wissenschaftlichen Forschungsalltag
sodass etwa über die Auswahl einer Filterfunktionen ermöglichen Zu zu integrieren. Meine Ausführungen
bestimmten Bedeutungsvariante im gänge zu individuellen Forschungs hatten auch zum Ziel, deutlich zu
Artikel die Belege in der Datenbank fragen. Nicht zuletzt fungieren sie als machen, welche Brückenfunktion
angezeigt werden, die dieser Bedeu Mensch-Maschine-Schnittstellen. Digitale Sprachwissenschaft zwi
tung zugrunde liegen. Unabhängig schen Fachtraditionen „früher“ und
von den Wörterbuchartikeln ist die „heute“ übernehmen kann, indem
Datenbank mittels diverser Such ZUSAMMENFASSUNG UND nur digitale Zugänge die Sicherung
funktionen durchsuchbar. Eine Be AUSBLICK und nachhaltige Bereitstellung von
legauswahl ist dann mithilfe des älteren Forschungsdaten und -ergeb
LIÖ-Kartierungstools auch geo Das Ziel des Beitrags war es, das nissen gewährleisten. Die jüngeren
graphisch zu visualisieren, wobei Potenzial, das das Voranschreiten
zur Illustration herangezogenen Pro
verschiedene Grundkarten und Vi der Digitalisierung in den Geistes jekte stellen nur einen kleinen Aus
sualisierungsmöglichkeiten zur Ver wissenschaften erzeugt, aus sprach schnitt der vielfältigen Forschung an
fügung stehen. Die LIÖ-Plattform wissenschaftlicher Perspektive zu der Forschungsabteilung „Variation
wird im Laufe des WBÖ-Projekts verdeutlichen. Dazu wurden Bei und Wandel des Deutschen in Öster
sukzessive ausgebaut. spiele herangezogen, die den Mehr reich“ dar, deren Projekte allesamt
Wie hier nur skizzenhaft am Bei wert digi taler Zugänge illustrieren im Bereich der Digitalen Sprachwis
spiel des „Lexikographischen Infor können, und zwar den Mehrwert senschaft angesiedelt sind. In dieser
mationssystems Österreich“ (LIÖ) im Hinblick auf die Generierung Abteilung, aber natürlich erst recht
illustriert werden konnte, beinhal und Erschließung, die Aufbereitung am gesamten Austrian Centre for
ten digitale Methoden und Werk und Anreicherung, die Analyse und Digital Humanities der ÖAW wird
zeuge vielfältige Möglichkeiten der schließlich die Publikation sprach eine Fülle von Forschungsprojekten
auch dynamischen Datenpräsen wissenschaftlich relevanter Daten. mit digitalen Methoden und Werk
tation. Dies betrifft sowohl diverse Sprachwissenschaft im 21. Jahr zeugen durchgeführt bzw. unter
Möglichkeiten der Visualisierung in hundert ist eine Disziplin, deren stützt, vor allem Forschung an den
Form von Diagrammen oder Karten auch digi tale Ausrichtung wohl verschiedenen ÖAW-Instituten, aber
bzw. generell auch die Visualisierung nur schwer wegzudenken ist. Viel auch darüber hinaus (s. www.oeaw.
raumbezogener Informationen mit leicht werden wir schon bald den ac.at/acdh/).
tels Geographischer Informations Zeitpunkt erreichen, ab dem wir
systeme, wie sie natürlich besonders „digital“ als Attribut insofern nicht
in der Dialektologie und Areallingu explizit hinzufügen müssen, als es
istik eingesetzt werden. Online ver selbstverständlich sein wird, die digi
ÖAW 16ALEXANDRA N. LENZ
ALEXANDRA N. LENZ
Derzeitige Positionen
– Professorin für Germanistische Sprachwissenschaft an der Universität Wien
– Stellvertretende Direktorin des Austrian Centre for Digital Humanities (ACDH) der
ÖAW
Arbeitsschwerpunkte
– Variationslinguistik, Soziolinguistik, Dialektologie
– Syntaktische Variation, Syntax-Semantik-Schnittstelle, Grammatikalisierung
– Lexikologie und Lexikographie, Pluriarealitätsforschung
– Kognitive Semantik (Frame-Semantik, Prototypentheorie), lexikalische Semantik
– Spracheinstellungsforschung, Perzeptionslinguistik
– Sprachgeschichte, Sprachwandelforschung
– Digital Humanities, Korpuslinguistik
Ausbildung
2005–2008 Juniorprofessorin für Germanistische Sprachwissenschaft mit dem Schwer
punkt „Sprachdynamik“ an der Philipps-Universität Marburg
2002 Promotion zum Dr. phil. an der Philipps-Universität Marburg
1991–1997 Studium an der Johannes Gutenberg-Universität Mainz in den Fächern
Germanistik, Mathematik und Romanistik
Werdegang
Seit 2019 Wirkliches Mitglied der philosophisch-historischen Klasse der ÖAW
Seit 2018 Stellvertretende Direktorin des Austrian Centre for Digital Humanities
(ACDH) der Österreichischen Akademie der Wissenschaften
Seit 2016 Leiterin der Forschungsabteilung „Variation und Wandel des Deutschen in
Österreich“ am Austrian Centre for Digital Humanities (ACDH) der Öster
reichischen Akademie der Wissenschaften
Seit 2016 Sprecherin des SFB „Deutsch in Österreich. Variation – Kontakt – Perzep
tion“ (FWF F060)
2008–2010 Associate/Adjunct Professor (Rosalind Franklin Fellow) an der Rijksuni
versiteit Groningen (Niederlande)
Weitere Informationen zur Autorin sowie zur Liste der Veröffentlichungen finden Sie
unter: https://www.univie.ac.at/germanistik/alexandra-n-lenz
ÖAW 17ALEXANDRA N. LENZ ÖAW 18
IVONA BRANDIĆ
HERAUSFORDERUNGEN
DER INFORMATIK IM
ZEITALTER DER DIGITALEN
TRANSFORMATION*
IVONA BRANDIĆ
Ich bedanke mich bei der Akademie einschätzung, acht Kameras, Radar, und kann Daten produzieren. Und
sehr für diese Einladung. In mei vier Stufen der Autonomie. Um ar alle diese Wendepunkte haben eines
nem heutigen Vortrag werde ich beiten zu können, sind 22 „Laptops“ gemeinsam: einen extremen Anstieg
über die Herausforderungen der eingebaut, also 22 „MacBook Pro“. in der Anzahl an Geräten und auch
Informatik im Zeitalter der digitalen Was ich damit sagen will, ist, dass im Energieverbrauch. Das ist derzeit
Transformation berichten. wir in der Geschichte der Informa wirklich ein Problem, da alle diese
Ich möchte mit einem Beispiel anfan tionsverarbeitung schon mehrere Geräte konstant Strom brauchen und
gen. Das, was wir hier sehen, ist ein Wendepunkte hatten, beginnend in konstant Daten produzieren, die ge
Elektroauto. Dieses Elektroauto ge den 1950er-Jahren, in denen die ers speichert und verarbeitet werden
neriert sechs Gigabyte Daten in einer ten Mainframe-Computer entwickelt müssen. Und nicht nur die Geräte
Stunde. Mein gesamtes Fotoalbum wurden. Dann kamen Desktop-Com brauchen Strom: Sie müssen nämlich
hat ungefähr so viel. Dieses Auto puter, Laptops, Smartphones, und auch sinnvoll organisiert werden.
ist ausgestattet mit automatischem jetzt befinden wir uns mitten in der Das bedeutet, wir brauchen Software
Bremssystem, automatischer Risiko digitalen Transformation, wo jedes oder Programme, heute sagt man
Ding um uns herum eigentlich zum modern „Algorithmen“, um diese
Computer wird. Also, jede Glüh Geräte optimal zu betreiben.
* Stilistisch leicht überarbeitete Transkription
eines am 18. Jänner 2019 für die Gesamtsit birne, jeder Einkaufswagen, jede In der Informatik hat bereits ein
zung der ÖAW frei gehaltenen Vortrags. Jacke ist eigentlich ein Computer
Paradigmenwechsel stattgefunden.
ÖAW 19IVONA BRANDIĆ
Man hat jahrzehntelang auf die Per oder auch nicht, da gibt es alternative Daraus folgt: Wenn ich einmal einen
formanz hingearbeitet. Performanz Verläufe. Algorithmus erlernt habe, wird er
war das Wichtigste. Mittlerweile geht Was sich mit Blick auf die letzten manchmal obsolet, weil sich die
es mehr um Effizienz. Performanz ja. 50 Jahren jedoch erkennen lässt, ist, Datenverteilung verändert hat. Die
Aber bitte effizient. dass diese Algorithmen nicht immer Entscheidungen, die ich damit treffe,
Was ist ein Algorithmus? Jedes Re klar sind. Wir müssen sie erst er sind nicht gültig. Und das macht
zept, zum Beispiel ein Kochrezept, lernen. Es sind vielleicht einzelne es unheimlich kompliziert, solche
ist ein Algorithmus. Da sind genau Fragmente klar, aber wir müssen Algorithmen zu betreiben, weil sie
Schritte vorgegeben, welche Zutaten lernen, und zwar aus vorhandenen sehr ressourcenintensiv sind. Es gibt
man in welcher Menge vermischen Daten, wie diese Fragmente verbun Applikationen, auf die vielleicht
muss, wie lange man backen muss den werden sollen. Dafür benutzt nur zwei oder drei dieser Charakte
– die einfachste Form eines Algo man Metaalgorithmen, sogenanntes ristiken zutreffen. Es gibt Applika
rithmus. Das heißt, Algorithmen, „Machine Learning“. Es gibt sehr tionen, bei denen drei Charakteris
sogenannte „Programme“, gibt es viele Anwendungen, bei denen nicht tiken zusammentreffen. Dann wird
überall. von Anfang an klar ist, wie etwas es rechenintensiv. Und wenn vier
Mit einem Algorithmus kann man gemacht wird. Zum Beispiel muss zusammentreffen, dann wird es sehr
aber auch eine Rakete auf den Mond ein intelligentes Verkehrssystem ler rechenintensiv.
schicken. Das hat man schon vor nen, wie mit Unfällen umzugehen Was das für die Informatik mit sich
50 Jahren getan. Das, was man hier ist. Was sind da die alternativen Ver bringt, habe ich in ein paar Zahlen
sieht, ist ein Ausdruck von Margaret läufe? Das weiß man nicht im Vor zusammengefasst. Es wird erwartet,
Hamilton. Sie hat den „Apollo Flight hinein. Oder „Smart Grid Transactive dass in ca. fünf Jahren Rechenzentren
Code“ programmiert. In den letzten Energy Control“, wo on demand zeit auf der ganzen Welt ca. ein Fünftel
50 Jahren hat sich sehr viel in der nah geschaut wird, dass in das Netz des Energiebedarfs ausmachen wer
Informatik getan. Da sind eigene genug eingespeist wird und auch den. Es gibt also einen massiven An
Forschungsrichtungen entwickelt genug verbraucht wird. All diese stieg. Und in der Informatik haben
worden, die sich damit beschäftigen, Applikationen haben Charakteristi
wir schon gelernt, Methoden und
solche Algorithmen zu optimieren ken, die fast überall vorkommen. Sie Tools zu entwickeln, wie man mit
oder zu verifizieren oder Zugriff auf sind zeitkritisch, datenintensiv und diesem steigenden Energiebedarf
Daten zu ermöglichen. Die Algorith in vielen Fällen verteilt, das heißt, umgehen kann.
men haben generell eine gemein man kann sie nicht auf einem Com Ein Beispiel: Hier habe ich eine vir
same Struktur. Das ist ein Beispiel für puter verarbeiten, sondern auf geo tuelle Maschine kreiert. Eine v
irtuelle
einen Algorithmus, das sind Schritte, graphisch verteilten Computern, und Maschine ist ein simulierter Compu
die gemacht werden müssen, da gibt sie haben eine nicht stationäre Daten ter auf einem anderen Computer.
es Bedingungen, die erfüllt werden verteilung. Das war eine kleine Revolution in
ÖAW 20IVONA BRANDIĆ
der Informatik, weil man Daten und Wien, Hannes Kaufmann, zur Ver Ein weiteres Beispiel. Ich weiß nicht,
Programme von den physischen fügung gestellt. Er und sein Team wer von Ihnen Streaming-Services
Entitäten entkoppelt hat, sie sind
beschäftigen sich mit Virtual R eality, oder Netflix benutzt. Hier sehen Sie
nicht mehr an Hardware gebunden. mit der virtuelle Welten abgebil eine Karte der Verteilung von Net
Ich kann dann mehrere virtuelle det werden können. Dabei handelt flix-Servern. Auffällig ist, dass sich
Maschinen starten, und das, was man es sich um einen Multi-User-Mode. die meisten Server in urbanen Ge
im kleinen Rahmen machen kann, Das bedeutet, es gibt beispielsweise genden befinden, in Ballungsräumen,
auf einem Laptop, kann man auch im fünf Benutzer, die sich auf fünf ver weil man Menschen diese Services
großen Rahmen machen. Das nennt schiedenen Kontinenten befinden. mit hoher Qualität zur Verfügung
man Cloud-Computing. Das benutzt Sie glauben aber, sie seien im selben stellen möchte. Diese Streaming-Ser
heute fast jede und jeder, unbewusst Raum. Es können aber auch fünf Be vices sind natürlich auch sehr zeitkri
meistens, wenn man Fotos irgendwo nutzer sein, die im gleichen Raum tisch.
uploadet. sind, aber glauben, sie seien auf fünf All diese zeitkritischen Applika tio
Um es kurz zu erklären: In einer verschiedenen Kontinenten. Damit nen haben bewirkt, dass sich die Art
Cloud hat man einen Layer von kann man viele Dinge machen. Die und Weise, wie Rechenzentren ge
physikalischen Maschinen, und auf Feuerwehr kann etwa kritische Ein baut werden, massiv verändert hat.
diesem Layer von physikalischen sätze üben, oder Ärzte Operationen Das ist ein Rechenzentrum der TU
Maschinen baut man sogenannte simulieren für Ärzte. Wien. Klassisch. Das ist eine Rechen
„virtuelle Maschinen“. Der Vorteil Mir geht es aber gar nicht so sehr um datenfarm in Buffalo, New York. Sie
ist jetzt, dass man diese virtuellen den Film. Was ich zeigen will, ist: Alle sieht auch sehr schön aus, auf der
Maschinen über geographisch ver
diese Benutzer tragen den Laptop grünen Wiese. Man kann sie auch
teilte Rechenzentren verschieben auf dem Rücken. Der Grund ist, dass sehr gut mit Strom versorgen. Das,
kann. Ich schiebe Daten dorthin, wo diese Sensoren, die auf ihrem Körper was man hier sieht, ist auch ein Re
ich grünen Strom habe, wo ich gute angebracht sind, Daten generieren. chenzentrum, gebaut von Microsoft,
Bedingungen habe, um Daten zu ver Diese Daten müssen sehr schnell ver ein Unterwasserrechenzentrum. Dort
arbeiten. arbeitet werden, damit die Bilder auf bekommt man die Kühlung gratis,
Das ist mittlerweile State-of-the- diesen Brillen generiert werden kön wenn man das unter Wasser taucht,
Art-Technologie, die verwendet wird, nen. Wenn das nicht schnell genug und man bekommt zusätzlich kurze
um grüne und ökonomische Rechen passiert, wird den Anwenderinnen Latenzzeiten, weil die Hälfte der
zentren zu bauen. Ich möchte und Anwendern schlecht. In der In Weltbevölkerung in Küstenregionen
aber jetzt ein Beispiel zeigen, wo formatik haben wir es also zuneh lebt. Das ist ein „Micro Data Cen
Cloud-Computing mir sehr wenig mend mit Applikationen zu tun, die ter“, das kann man überall installie
helfen kann. Dieser Film wurde mir sehr zeitkritisch sind. Ich habe keine ren. Das ist ein Raspberry Pi, auch
von meinem Kollegen an der TU Zeit, Cloud-Computing zu benutzen. eine Art „First Hop Data Center“,
ÖAW 21IVONA BRANDIĆ
das Daten verarbeiten kann. Viele sisch, dass die Daten in situ – bei der Hier ein Beispiel aus unserem
Firmen machen mittlerweile „High Enddestination – verarbeitet werden. FWF-START-Projekt. Wenn man eine
Latitude Data Centers“. Das heißt, Mittlerweile haben wir nicht die Zeit „Hyper-Distributed Infrastructure“
sie bauen Rechenzentren jenseits des dafür. Die Daten werden somit „in hat und eine Applikation, die auf
60. Breitengrades, weil dort Kühlung transit“ – auf dem Weg dorthin – ver 100 Computer verteilt ist, welche
gar nicht benötigt wird, da es einfach arbeitet, teilweise durch Router und geographisch auch noch verteilt sind,
immer kalt ist. Für Sie ist das eine Switches. Diese sind jedoch nicht leis sind Fehler keine Ausnahme. Fehler
Drohne, für mich ein fliegendes Re tungsfähig. Das heißt, es werden so passieren regulär, jeden Tag, immer.
chenzentrum, weil das Gerät auch genannte Edge-Computing-Zentren Und die Fehler hängen voneinander
eine Festplatte hat und Daten verar installiert, Unterwasser-Rechenzent ab. Wenn beispielsweise der Strom
beiten kann. In der Informatik haben ren, Raspberry Pis und Ähnliches. ausfällt, fällt die gesamte Infra
wir auch gelernt, mit den Abfallpro Ich rede hier von vielen verschie struktur aus. Wenn Accesspoints
dukten von Rechenzentren umzu denen Applikationen, da gehören ausfallen, dann kann ich zwar immer
gehen. Hier zum Beispiel sieht man „Digital Humanities“ definitiv auch noch die Daten verarbeiten, aber ich
ein „Liquid Cooling Data Center“. Es dazu. Wir reden hier von selbst fah kann sie nicht verschicken. Wir ver
wird nicht mit Ventilatoren bei den renden Autos, Virtual Reality, Per suchen, diese Abhängigkeiten zu
CPUs gekühlt, sondern mit Flüssig sonalized Medicine, Robotern. Ich extrahieren. Über die Zeitachse. Wir
keit, meistens Öl. Abwärme in Form selbst beschäftige mich insbesondere benutzen hier „Dynamic Bayesian
von Flüssigkeit wird dafür genutzt, mit diesem Bereich hier, um heraus Networks“. Wir haben zum Beispiel
um umgebende Gebäude zu behei zufinden, wie solche Applikationen Daten aus dem Los Alamos National
zen. In Garching etwa ist der gesam installiert werden müssen, damit Lab analysiert, mit 300 verschiede
te Komplex so beheizt. Was daraus die Userinnen und User bekommen, nen Fehlerarten, die in den letzten
jetzt entsteht, ist eine komplett neue was sie brauchen. Kurze Latenzzei 20 Jahren gesammelt worden sind,
Infrastruktur, wo wir ganz oben mas ten meistens. Der Ressourcenver oder auch die Skype-Supernodes, für
sive Rechenzentren haben und unten brauch soll trotzdem nicht komplett all die Skype-Verbindungen. Dann
viele Applikationen, die entweder explodieren. In der Informatik gibt kann man Interferenz herstellen, in
zeitkritisch sind oder sehr viele Da es grundsätzlich zwei Ansätze. Ent beiden Richtungen. Ich kann heraus
ten produzieren, für die gar nicht die weder man kann etwas sehr genau finden, wie wahrscheinlich ein Fehler
Zeit und die Bandbreite vorhanden nachbilden, sehr exakt – dann be ist. Ich kann aber auch herausfinden,
sind, um sie zur Verarbeitung in mas nutzt man Mathematik. In diesem was die Ursache für einen Fehler ist.
sive Rechenzentren zu schicken. Fall arbeitet man mit Statistiken. Hier Das Ziel ist es, die Applikationen so
Es entstehen also mittlerweile neue hat man nur Annäherungsverfahren. zu installieren, damit sie möglichst
Paradigmen, wie Daten verarbeitet Um nur kurz zu beschreiben, was wir gut funktionieren, auch wenn Fehler
werden. In der Informatik ist es klas machen. passieren.
ÖAW 22IVONA BRANDIĆ
Die nächste Frage, mit der wir uns mit konkurrierenden Prioritäten ar
im START-Projekt beschäftigen, ist, beiten: Qualität, Latenz, aber auch
wie man bestehende Telekommunika Providern und Profit. Die Firmen
tionsinfrastruktur mit diesen kleinen möchten auch Profit machen. Es wird
Edge-Data-Centern verbinden kann. wahrscheinlich zur Integration von
Wir haben eine Methode entwickelt, verschiedenen Technologien kom
die auf Monte-Carlo-Simulationen men, Netzwerken, Clouds, 5G, 6G.
basiert, um eine Kapazitätsplanung Was auch immer entwickelt wird. Das
zu ermöglichen, um zu schauen, wie Gute ist: Wir haben mittlerweile viele
viele solche kleine Edge-Data-Center Daten, und aus diesen Daten kann
es überhaupt braucht. Wir haben das man lernen, mit diesen Daten kann
zum Beispiel für Regionen in Leo man verschiedene Szenarien testen.
poldstadt und in Hernals gemacht, Vor zehn, 20 Jahren hätten wir diese
und es wurde auch ein Vergleich Daten nicht gehabt. Heute haben wir
mit dem Userverhalten angestellt. sie. Das ist ein riesiger Vorteil.
Mit solchen Simulationen kann man Ich bedanke mich abschließend bei
tatsächlich verschiedene Szenarien meinem Team. Alles, was ich heute
testen. Ich kann untersuchen, was präsentiert habe, ist das Ergebnis
passiert, wenn in Österreich plötzlich der Arbeit meines Teams. Und mein
die Fußball-EM stattfindet, alle im Dank gilt auch allen Funding-Agen
Ernst-Happel-Stadion sind und ver cys, die meine Forschung finanzie
schiedene Fotos und Videos machen. ren. Ich hoffe, ich habe einen Einblick
Was muss man machen, damit da geben können in die Probleme, die
nicht alles zusammenbricht? Mit sol wir in der Informatik haben, und
chen Simulationen kann man dann auch einen Link für die Anwendun
also verschiedene Szenarien prüfen. gen in den „Digital Humanities“.
Ich möchte jetzt zum Schluss kom
men. Was man aus diesem Vortrag
mitnehmen soll: Bald werden wir
Milliarden von Geräten haben, die
wir betreiben müssen. Hybride For
men von Datenverarbeitung, wie
zum Beispiel Edge-Computing, kön
nen eine Lösung bieten. Wir müssen
ÖAW 23IVONA BRANDIĆ
IVONA BRANDIĆ
Derzeitige Position
– Professorin für Hochleistungsrechnersysteme am Institut für Informationssystem
technik der Technischen Universität Wien
Arbeitsschwerpunkte
– Energie Effizienz in verteilten Systemen
– Virtualisierte HPC Systeme
– Cloud Computing
Ausbildung
2013 Venia Docendi für praktische Informatik an der Technischen Universität
Wien
2007 Promotion zum Dr. rer soc. oec. an der Technischen Universität Wien
1998–2003 Studium der Wirtschaftsinformatik an der Universität Wien sowie an der
Technischen Universität Wien
Werdegang
Seit 2016 Professorin für Hochleistungsrechnersysteme am Institut für Informations
systemtechnik der Technischen Universität Wien
Seit 2016 Mitglied der Jungen Akademie der ÖAW
2015 FWF START-Preis
Weitere Informationen zur Autorin finden Sie unter:
https://translate.google.com/translate?hl=de&sl=en&u=
http://www.ec.tuwien.ac.at/~ivona/&prev=search
ÖAW 24IVONA BRANDIĆ ÖAW 25
ÖAW 26
IMPRESSUM
Herausgeber:
Österreichische Akademie der Wissenschaften
Dr. Ignaz Seipel-Platz 2, 1010 Wien
www.oeaw.ac.at
COVERBILD
© Ludwig Maximilian Breuer
REDAKTION
Ingrid Weichselbaum
Alle Rechte vorbehalten
Copyright © 2019
Die inhaltliche Verantwortung und das Copyright für die
jeweiligen Beiträge liegen bei den einzelnen Autorinnen.
ÖAW 27W W W.O E AW. A C . AT ISBN 978-3-7001-8577-2 ÖAW 28
Sie können auch lesen