AKADEMIE IM DIALOG | 15 - DIALEKTFORSCHUNG UND MASCHINENSPRACHE - Österreichische Akademie der ...
←
→
Transkription von Seiteninhalten
Wenn Ihr Browser die Seite nicht korrekt rendert, bitte, lesen Sie den Inhalt der Seite unten
INHALTSVERZEICHNIS INHALT VORTRÄGE ALEXANDRA N. LENZ | Universität Wien, ÖAW „Digitale Sprachwissenschaft – Herausforderungen und Perspektiven“ .................................................................................. 5 IVONA BRANDIĆ | Technische Universität Wien „Herausforderungen der Informatik im Zeitalter der digitalen Transformation“ ................................................................... 19 ÖAW 3
ALEXANDRA N. LENZ DIGITALE SPRACHWISSEN- SCHAFT – HERAUSFORDE- RUNGEN UND PERSPEKTIVEN ALEXANDRA N. LENZ Der vorliegende Beitrag setzt sich nen, aufbereiteten und analysierten Experiment software, diverse multi zum Ziel, die Herausforderungen Daten. mediale Stimuli (Bild, Ton, Video), und Möglichkeiten digitaler Zugänge die den ProbandInnen in einer Er aus der Perspektive der Digitalen hebungssituation vorgegeben wer Sprachwissenschaft zu beleuchten. FORSCHUNGSDATEN den, standardisiert und einheitlich Dabei soll Digitale Sprachwissenschaft GENERIEREN UND ERSCHLIESSEN zu präsentieren und gleichzeitig den hier ganz allgemein verstanden Erhebungsverlauf digital und zeit werden als Sprachwissenschaft, die Die Erhebung von Sprachdaten ist lich exakt zu dokumentieren. Dies ist sich bei ihren Forschungsvorhaben ein komplexer Prozess, zu dessen ein enormer Gewinn im Vergleich zu digi taler Methoden und Werkzeuge Durchführung mittlerweile eine traditionellen Verfahren der Daten bedient. Dies beinhaltet erstens For Fülle von digital bzw. von Compu erhebung im Face-to-Face-Kontakt, schungsprozesse der Generierung tern unterstützten Verfahren zur in denen die explorierenden Ex und Erschließung von sprachwissen Verfügung steht. Dies betrifft sowohl pertInnen sprachliche Stimuli den schaftlich relevanten Daten, zweitens die Erhebung von medial schrift Gewährspersonen selbst vorsprechen die Aufbereitung und Anreicherung lichen als auch medial mündlichen bzw. Aufgabenstellungen mündlich der Daten (z. B. in Form von Tran Daten. Neben dem Einsatz von digi formulieren und dabei zumindest skriptionen und Annotationen), drit talen Aufnahmegeräten, die für eine potenzielle Beeinflussungsfaktoren tens die Analyse und Interpretation Digitalisierung des Sprachschalls darstellen. Des Weiteren ermöglichen von Forschungsfragen sowie viertens zeitgleich zur Erhebung sorgen, digitale Aufnahmegeräte und -soft die digitale Bereitstellung der erhobe- ermöglicht etwa der Einsatz von ware eine automatisierte Segmen ÖAW 5
ALEXANDRA N. LENZ tierung der Aufnahme in verschie historischer Schätze der Dialektolo Sätze in den Dialekt des Schulortes zu dene Einzelaufnahmen (Stichwort gie des Deutschen illustriert werden. übersetzen. Kam die Lehrkraft selbst „Time-Alignment“), was nicht nur nicht aus dem Ort, sollten die ortsan das Auffinden bestimmter Audio Beispiel I: Die „Wenkermaterialien“ sässigen SchülerInnen bei der Über passagen erleichtert, sondern auch Ende des 19. und Anfang des 20. Jahr- setzung behilflich sein. Während auf eine Verknüpfung zwischen einem hunderts der Vorderseite eines Wenkerbogens Transkript und der Sprachaufnahme Ende des 19. Jahrhunderts beginnt die (in der Regel handschriftlich in bedeutet. Im Hinblick auf schrift der Marburger Dialektologe Georg Kurrent angefertigten) Dialektüber sprachliche Daten sind derweil On Wenker mit einer einmaligen Dialekt setzungen Platz fanden, diente die line-Erhebungen (oft natürlich als erhebung zu seinem „Sprachatlas Rückseite zur Erhebung weiterer Ergänzung zu Offline-Erhebungen) des Deutschen Reichs“.1 Die Haupt relevanter Daten wie etwa der Sozial sehr üblich. Neben forschungsprak erhebung für das Atlasprojekt fand daten der Lehrperson, weiterer Fra tischen Aspekten ist auch hier die zwischen 1876 und 1887 statt. In gen zum Ort (etwa zu seiner sprach Standardisierung von auditiven und den Jahren 1888 sowie 1926 bis 1933 lichen Zusammensetzung) oder visuellen Stimuli ein wesentlicher folgten weitere Nacherhebungen, auch zur Abfrage weiterer isolierter Pluspunkt einer digital unterstützten die auch andere vor allem deutsch Dialektwörter. In Abbildung 1 sind Erhebung. In jüngster Zeit werden sprachige Länder und Regionen ab Teile der Vorder- und Rückseite eines auch zunehmend online verfügbare deckten, darunter Österreich, die Wenkerbogens aus dem Burgenland Sprachdaten zum Aufbau von vor Schweiz, Luxemburg, die deutsch abgebildet. allem schriftsprachlichen Korpora sprachigen Gebiete der ehemaligen Durch Wenkers Projekt liegen der herangezogen (z. B. Onlinezeitun Tschechoslowakei und andere. Die Dialektologie des Deutschen heute gen, Diskussionsforen oder soziale Wenker-Methode war eine einfache, insgesamt rund 52.000 ausgefüllte Netzwerke wie Twitter und Face aber zielführende: Ein zweiseitiger Wenkerbögen und mehr als 1.600 book). Fragebogen wurde in alle Schulorte auf diesen Fragebögen basierende Neben der Erhebung „neuer“ ge versandt, mit der Bitte an die dorti handgezeichnete Sprachkarten vor. sprochener oder geschriebener gen LehrerInnen, ca. 40 vorgegebene Das Material konnte aufgrund sei Sprachdaten bietet es sich je nach nes Umfangs, der Kartengrößen und Forschungsvorhaben an, auf bereits ihrer Farbvielfalt bis zum Beginn 1 Zu einer ausführlichen Darstellung des verfügbare „Rohdaten“ zurückzu Wenker-Projekts sei verwiesen auf: Schmidt, dieses Jahrtausends nicht publiziert greifen. Zur Sicherung, Erschließung Jürgen Erich/Herrgen, Joachim (2011): Sprach werden. Erst im Rahmen eines groß und Bereitstellung dieser Daten lie dynamik. Eine Einführung in die moderne angelegten DFG-Projekts (2001ff.) fern digitale Zugänge einen wesent Regionalsprachenforschung. Berlin: Erich haben wir in unserem Marburger Schmidt (Grundlagen der Germanistik 49), lichen Beitrag. Dies soll im Folgen 97–107; dazu auch: www.regionalsprache. Forschungsteam (Projektleitung: den am Beispiel dreier wertvoller de/wa.aspx. Prof. Dr. Jürgen Erich Schmidt und ÖAW 6
ALEXANDRA N. LENZ Prof. Dr. Joachim Herrgen) eine erst malige Erschließung, Sicherung und Onlinepublikation des Materials in Form georeferenzierter Bilddigitali sate vornehmen können, um diesen einmaligen Schatz der Wissenschaft und Öffentlichkeit zur Verfügung zu stellen. Die Georeferenzierung ermöglicht dabei ortspunktgenaue Verknüpfungen etwa zwischen den Wenkerbögen und den Wenkerkarten sowie zwischen verschiedenen Wen kerkarten, aber auch zwischen die sen und Sprachkarten bzw. Sprach daten aus jüngeren Dialektkorpora, was insbesondere im Hinblick auf Sprachwandelanalysen neue Optio nen eröffnet. Die später gezeichneten „Ergänzungskarten“ von Peter Wie singer, die dann unter anderem auch die österreichischen Fragebögen umfassen, sind wunderbarer weise ebenso Teil dieses erschlossenen einmaligen Korpus. Online zur Ver fügung gestellt werden die Karten, Fragebögen und viele weitere Dia Abb. 1: Vorder- und Rückseite (jeweils Ausschnitt) eines Wenkerbogens aus Kleinhöflein lektmaterialen (inklusive Tonaufnah (Eisenstadt im Burgenland); publiziert auf: www.regionalsprache.de. men, Forschungsliteratur) über das Geographische Informationssystem (GIS) „REDE-SprachGIS“ des Mar burger Forschungszentrums „Deut scher Sprachatlas“ (www.regional sprache.de). ÖAW 7
ALEXANDRA N. LENZ Beispiel II: Korpus „Österreichische Dialektaufnahmen im 20. Jahrhun- dert“ Als zweites Beispiel zur Erschlie ßung historischer Materialien mit digitalen Methoden dient das Kor pus „Österreichische Dialektauf nahmen im 20. Jahrhundert“, das im Phonogrammarchiv (PhA) der ÖAW aktuell noch größtenteils auf Magnetton bändern lagert. Dieses Korpus umfasst ca. 2.450 Dialekt aufnahmen (vor allem elizitierte und spontansprachliche Gesprä che) von ca. 1.000 Ortspunkten in Österreich aus der zweiten Hälfte des letzten Jahrhunderts (vor allem 1951–1983, aufgenommen unter der Leitung von Maria Hornung, Eber hard Kranzmayer, Werner Bauer, Herbert Tatzreiter und anderen). Der Kernbestand der Aufnahmen wurde jüngst von der UNESCO in das „Weltdokumentenerbe in Öster reich“ aufgenommen, was den Wert dieser Dialektaufnahmen für das kulturelle Erbe unterstreicht. Neben Abb. 2: Aufnahmeprotokoll einer Sprachaufnahme aus Sillian von einer gebürtigen Ober- Tonaufnahmen gehören handschrift tilliacherin aus dem Jahr 1951 (Korpus „Österreichische Dialektaufnahmen im 20. Jahr- liche Protokolle zum Korpus, die we hundert“). sentliche Metadaten zu Inhalten der Aufnahmen, den Sprechenden und anderem bereithalten (siehe Abbil dung 2). Dieser einmalige Schatz der österreichischen Dialektlandschaft ÖAW 8
ALEXANDRA N. LENZ Abb. 3: Handzettel aus dem Hauptkatalog des „Wörterbuchs der bairischen Mundarten in Österreich“ (WBÖ). aus dem letzten Jahrhundert muss Beispiel III: Hauptkatalog des „Wör (Beispiel Gabel) zu verdeutlichen. Im gehoben werden. Im Rahmen einer terbuchs der bairischen Mundarten Rahmen des 2016 neu aufgestellten Kooperation zwischen dem Phono in Österreich“ Langzeitprojekts „Wörterbuch der grammarchiv der ÖAW und unserer Eine dritte wertvolle Datenquelle zu bairischen Mundarten in Österreich“ Forschungsabteilung „Variation und den Dialekten Österreichs und da (WBÖ) am ACDH sind wir dabei, Wandel des Deutschen in Österreich“ rüber hinaus stellen die Zettel des auch diese einmaligen Rohdaten zum am Austrian Centre for Digital Hu Hauptkatalogs des „Wörterbuchs der Wortschatz österreichischer Dialekte manities (ACDH) der ÖAW wird das bairischen Mundarten in Österreich“ in Form hochauflösender Bild Ton- und Dokumentationsmaterial (WBÖ) dar. Dieser Katalog umfasst digitalisate zu sichern und online zur erstmals vollständig erschlossen und ca. 3,6 Millionen handschriftliche Verfügung zu stellen. Bislang sind in Form von digitalisierten Ton- und Belegzettel, die vor allem auf um bereits ca. 12 % des Materials digi Bilddateien gesichert und für For fangreichen Fragebogenerhebungen talisiert.3 schungszwecke aufbereitet.2 und Literaturexzerpten basieren. Die Beispiele in Abbildung 3 illustrieren, 3 Nähere Informationen zum Projekt sowie dass mitunter auch Zeichnungen zum Hauptkatalog des WBÖ und seiner 2 Nähere Informationen finden Sie auf: https:// langen Geschichte finden Sie auf der Projekt vawadioe.acdh.oeaw.ac.at/projekte/dialekt herangezogen wurden, um die Be seite: https://vawadioe.acdh.oeaw.ac.at/ aufnahmen-20-jh/. deutungsvarianten eines Wortes projekte/wboe. ÖAW 9
ALEXANDRA N. LENZ Wie am Beispiel der drei exempla ein modernes Standard-Dokumen sind natürlich Sprachdatenban rischen Datenquellen und der mit tenformat überführt. Im Rahmen des ken, die auch Umstrukturierungen, ihnen verbundenen Forschungspro WBÖ-Projekts wurde die deutlich Klassifizierungen und andere Arten jekte deutlich wird, leisten digitale optimierte und bereinigte WBÖ-Da der Datenanreicherungen ermög Verfahren einen höchst wertvollen tenbank jüngst erstmals online zu lichen, welche ohne informations Beitrag zur Bereitstellung und Siche gänglich gemacht, und zwar über technologische Werkzeuge in den rung von (auch historischen) „Roh unser neues „Lexikographisches In meisten Fällen unmöglich erschei daten“, sei es einerseits durch die formationssystem Österreich“ (LIÖ) nen. Die Datenanreicherungen stellen Digitalisierung als Bild-, Vektor- oder (siehe https://lioe.dioe.at und unten). zwar einerseits den Ausgangspunkt Tondatei sowie andererseits durch Unabhängig von technischen Bedin für weiterführende quantitative und die parallele Datenbeschreibung und gungen (wie der Frage nach dem qualitative Analysen dar, die Ergeb Datenstrukturierung. Dateiformat) ist aber zunächst die nisse dieser Analysen fließen aber grundsätzliche Frage zu klären, mit wiederum in das Korpus zurück, so welchem Transkriptionssystem und dass hier von starken Wechselbezie FORSCHUNGSDATEN in welcher Transkriptionstiefe eine hungen auszugehen ist. ANREICHERN Verschriftlichung von Sprachdaten erfolgen soll. Diese Entscheidungen Oft bedarf es natürlich weiterer hängen maßgeblich von der fokus FORSCHUNGSDATEN Schritte der Datenaufbereitung, die sierten Systemebene ab und damit ANALYSIEREN weit über die Digitalisierung von von der Frage, ob eine Analyse der „Rohdaten“ hinausgehen. Die Voll Lautebene, der Morphologie oder Der Mehrwert, den digitale Zugänge texterfassung, das heißt die Über Syntax, des Wortschatzes oder ande im Hinblick auf Forschungsanaly tragung von Daten in maschinenles rer Aspekte vorgenommen werden sen haben, kann hier natürlich nur bare Formate, ist dabei ein zentraler soll. Im Hinblick auf den Mehrwert, angedeutet werden. Ich möchte dies Prozess. Als Beispiel dient wiederum den digitale Zugänge zur Datenan an einem Beispiel aus unserer aktuel der WBÖ-Hauptkatalog (siehe oben). reicherung liefern, sind vielfältige len Forschung tun.4 Der Ausgangs Beginnend mit dem Buchstaben D Möglichkeiten der datensichernden punkt ist eine Sprachkontaktthese, wurden zwischen 1993 und 2011 ca. und wiederverwertbaren Volltext 2,4 Millionen Handzettel manuell erfassung zu nennen, die auch den in eine digitale Belegdatenbank im Ausgangspunkt für zumindest halb 4 Zur ausführlichen Darstellung und Inter TUSTEP-Format eingegeben. Die automatisierte Transkriptionen und pretation der folgenden Beispielanalyse sei alten TUSTEP-Daten wurden mehr Annotationen darstellen können. verwiesen auf: Lenz, Alexandra N./Fleißner, Fabian/Kim, Agnes/Newerkla, Stefan Michael fach und zuletzt 2019 am ACDH in Eine besonders zugängliche und (eingereicht): GIVE as a German PUT verb – XML/TEI konvertiert und damit in nachhaltige Vernetzung von Daten A case of German-Czech language contact? ÖAW 10
ALEXANDRA N. LENZ Abb. 4: Überführung der Daten aus dem WBÖ-Hauptkatalog in eine TUSTEP-Datenbank bzw. in ein XML/TEI-Format. die im 19. Jahrhundert von August Nebenbemerkung aufgestellt und in Sprachkontakts darstellt. Beispiele Schleicher (1851, 40f.)5 mehr als der bisherigen Forschung nie weiter für eine solche geben-Variante sind verfolgt wurde. Es geht um die These, etwa Belege wie: „Am Samstag dür dass das Verb geben in der Funktion als fen die Besucher in der Innenstadt 5 Schleicher, August (1851): Über die wech sogenanntes „Positionierungsverb“ die Kurzparkzone gratis benützen, selseitige Einwirkung von Böhmisch und Deutsch. In: Archiv für das Studium der (Verb des Stellens, Setzens, Legens) müssen aber eine Parkscheibe hinter neueren Sprachen und Literaturen 9, 38–42. ein Produkt deutsch-tschechischen die Windschutzscheibe geben.“ (Die ÖAW 11
ALEXANDRA N. LENZ Presse, 8. 8. 2005, 9) Evidenzen für orte vorgenommen haben. In einem besondere Verbtypen) gehören (siehe Schleichers These können aus den ersten Schritt der Datenaufbereitung Abbildung 5). bereits angesprochenen Wenkerma haben wir knapp 5.700 Wenkerbögen Mithilfe des REDE-SprachGIS (www. terialien abgeleitet werden, und zwar als Volltext erfasst, sprich manuell in regionalsprache.de) haben wir die aus dem Wenkersatz 3 („Thu Kohlen Textdaten überführt sowie struktu Ergebnisse der Verbklassifizierun in den Ofen […]“), in dem geben in riert gespeichert. In einem zweiten gen kartographisch visualisiert. In der besagten Funktion als Objektsbe Schritt wurde das Material mit Meta Abbildung 6 sind die Auswertungen wegungsverb auftritt. Der Fokus liegt daten angereichert, zu denen insbe für das gesamte Wenker-Erhebungs im Folgenden auf der Übersetzung sondere geographische Informatio gebiet einzusehen, von der däni des Positionierungsverbs tun, wie nen zum Wenkerort, aber eben auch schen Grenze im Norden bis hinun sie die Lehrpersonen für die Schul linguistische Klassifizierungen (ins ter nach Südtirol, unter Einschluss Abb. 5: Volltexterfassung von Wenkersatz 3 (Sample: 5.688 Wenkerbögen) und Metadatenanreicherung. ÖAW 12
ALEXANDRA N. LENZ aller niederdeutschen, mitteldeut schen und oberdeutschen Dialekt räume. Während Punktsymbole auf Verbvarianten in deutschsprachigen Wenkerbögen referieren, repräsen tieren Dreiecke die Daten aus fremd sprachigen Wenkerbögen, die neben Polnisch seltener auch Tschechisch, Sorbisch, Französisch und andere Sprachen umfassen. Wie die Grafik recht deutlich offenlegt, dominiert in den deutschsprachigen Wenker bögen eindeutig das Verb tun (graue Punktsymbole) in den Dialektüber setzungen der Lehrpersonen. Für die oben angesprochene Sprachkontakt these sind aber gerade die farbigen Symbole in der Karte von besonde rem Interesse, da sie allesamt für alternative Verbvarianten stehen. Für die Diskussion in diesem Beitrag sei lediglich auf die roten Punktsymbole verwiesen, die allesamt und aus schließlich in den deutschsprachigen Gebieten der ehemaligen Tschecho slowakei und vereinzelt in Österreich auftreten (siehe Abbildung 6). Ab bildung 7 liefert einen vergrößerten Ausschnitt genau dieses Sprachkon Abb. 6: Lexikalische Varianten zum Verb tun im Wenkersatz 3 („Thu Kohlen in den Ofen taktraums, zu dessen Analyse nun […]“) auf Basis von 2.316 Wenkerbögen (erstellt im REDE-SprachGIS „www.regional- alle dort verfügbaren Wenkerbögen sprache.de“; modifizierte Karte nach Lenz (et al.) (eingereicht), s. Fn. 4). (ca. 3.400) herangezogen wurden. Wie ersichtlich ist, bestätigt die „Tie [Punkte = deutschsprachige Varianten, Dreiecke = fremdsprachige Varianten; graue fenbohrung“ (Abbildung 7) das in Punkte = Belege des Verbs tun; rote Punkte = Belege des Verbs geben]. ÖAW 13
ALEXANDRA N. LENZ Abb. 7: Lexikalische Varianten zum Verb tun im Wenkersatz 3 („Thu Kohlen in den Ofen […]“) auf Basis von 3.372 Wenkerbögen in den deutschsprachigen Regionen der ehemaligen Tschechoslowakei und im Norden Österreichs (erstellt im REDE-SprachGIS „www.regionalsprache.de“; modifizierte Karte nach Lenz (et al.) (eingereicht), s. Fn. 4). der Gesamtkarte (Abbildung 6) be sche Absicherung für die bereits im Dank digitaler Methoden und Werk reits angedeutete Bild: Es zeigt sich 19. Jahrhundert aufgestellte Sprach zeuge sind wir heute in der Lage, eine Fülle von geben-Belegen, die kontaktthese gedeutet werden. Und quantitative und qualitative Analy gerade im tschechisch-deutschen wir haben die Evidenzen mittels um sen auf Basis großer Datenmengen Sprachkontaktraum auftreten. Die fangreicher digital gestützter Analy (Sprachkorpora) effizient und kos ser Befund kann als erste empiri sen gewinnen können. tensparend durchzuführen. Dabei ÖAW 14
ALEXANDRA N. LENZ kommen auch Verfahren der Korpus linguistik und multivariaten Statistik zum Einsatz (z. B. Clusteranalysen, Varianzanalysen, Faktorenanalysen), die bei der Suche nach Ähnlichkeits strukturen (Mustern) und Gesetzmä ßigkeiten in den Daten sowie bei der Gewichtung und Hierarchisierung von Steuerungsfaktoren helfen. FORSCHUNGSDATEN PUBLIZIEREN Schließlich und letztlich spielen di gitale Zugänge zunehmend bei der Publikation sprachwissenschaftlich erhobener, aufbereiteter und ana lysierter Daten eine Rolle. Um den Mehrwert digitaler Zugänge bezüg lich der Bereitstellung solcher Daten Abb. 8: Ausschnitt aus dem WBÖ-Artikel Feim (publiziert im „Lexikographischen Infor- zu verdeutlichen, ziehe ich ein letztes mationssystem Österreich“ (LIÖ) „https://lioe.dioe.at“). Beispiel heran: Seit Dezember 2018 ist das „Lexikographische Informations system Österreich“ (LIÖ) online, das wir im Rahmen des neu aufgestellten neuen WBÖ, die sukzessive online sentiert einen Ausschnitt des neuen WBÖ-Langzeitprojekts konzipiert gestellt werden. Zweitens enthält die WBÖ-Artikels zum Lemma Feim, wo haben (https://lioe.dioe.at). Das Ziel Plattform Kartierungswerkzeuge, die bei in der „Normalansicht“ zunächst des Informationssystems LIÖ ist eine es ermöglichen, Daten und Daten nur das Bedeutungsfeld ausgeklappt Vernetzung und Präsentation von komplexe kartographisch zu visu ist. Alle weiteren Informationen zur Sprachdaten und Wörterbuchartikeln alisieren, und drittens bietet das In Etymologie, zur Verbreitung, zur zur Lexik Österreichs. Zu den aktuel formationssystem einen erstmaligen Lautvariation, zur Wortbildung und len Komponenten des Informations Zugang zur vollständigen WBÖ- zu anderem können je nach Infor systems gehören erstens Artikel des Belegdatenbank. Abbildung 8 prä mationsbedarf ebenfalls angezeigt ÖAW 15
ALEXANDRA N. LENZ werden. Die Artikel sind direkt mit fügbare Datenbanken mit verschiede talen Möglichkeiten in den sprach der WBÖ-Belegdatenbank verknüpft, nen Benutzeroberflächen, Such- und wissenschaftlichen Forschungsalltag sodass etwa über die Auswahl einer Filterfunktionen ermöglichen Zu zu integrieren. Meine Ausführungen bestimmten Bedeutungsvariante im gänge zu individuellen Forschungs hatten auch zum Ziel, deutlich zu Artikel die Belege in der Datenbank fragen. Nicht zuletzt fungieren sie als machen, welche Brückenfunktion angezeigt werden, die dieser Bedeu Mensch-Maschine-Schnittstellen. Digitale Sprachwissenschaft zwi tung zugrunde liegen. Unabhängig schen Fachtraditionen „früher“ und von den Wörterbuchartikeln ist die „heute“ übernehmen kann, indem Datenbank mittels diverser Such ZUSAMMENFASSUNG UND nur digitale Zugänge die Sicherung funktionen durchsuchbar. Eine Be AUSBLICK und nachhaltige Bereitstellung von legauswahl ist dann mithilfe des älteren Forschungsdaten und -ergeb LIÖ-Kartierungstools auch geo Das Ziel des Beitrags war es, das nissen gewährleisten. Die jüngeren graphisch zu visualisieren, wobei Potenzial, das das Voranschreiten zur Illustration herangezogenen Pro verschiedene Grundkarten und Vi der Digitalisierung in den Geistes jekte stellen nur einen kleinen Aus sualisierungsmöglichkeiten zur Ver wissenschaften erzeugt, aus sprach schnitt der vielfältigen Forschung an fügung stehen. Die LIÖ-Plattform wissenschaftlicher Perspektive zu der Forschungsabteilung „Variation wird im Laufe des WBÖ-Projekts verdeutlichen. Dazu wurden Bei und Wandel des Deutschen in Öster sukzessive ausgebaut. spiele herangezogen, die den Mehr reich“ dar, deren Projekte allesamt Wie hier nur skizzenhaft am Bei wert digi taler Zugänge illustrieren im Bereich der Digitalen Sprachwis spiel des „Lexikographischen Infor können, und zwar den Mehrwert senschaft angesiedelt sind. In dieser mationssystems Österreich“ (LIÖ) im Hinblick auf die Generierung Abteilung, aber natürlich erst recht illustriert werden konnte, beinhal und Erschließung, die Aufbereitung am gesamten Austrian Centre for ten digitale Methoden und Werk und Anreicherung, die Analyse und Digital Humanities der ÖAW wird zeuge vielfältige Möglichkeiten der schließlich die Publikation sprach eine Fülle von Forschungsprojekten auch dynamischen Datenpräsen wissenschaftlich relevanter Daten. mit digitalen Methoden und Werk tation. Dies betrifft sowohl diverse Sprachwissenschaft im 21. Jahr zeugen durchgeführt bzw. unter Möglichkeiten der Visualisierung in hundert ist eine Disziplin, deren stützt, vor allem Forschung an den Form von Diagrammen oder Karten auch digi tale Ausrichtung wohl verschiedenen ÖAW-Instituten, aber bzw. generell auch die Visualisierung nur schwer wegzudenken ist. Viel auch darüber hinaus (s. www.oeaw. raumbezogener Informationen mit leicht werden wir schon bald den ac.at/acdh/). tels Geographischer Informations Zeitpunkt erreichen, ab dem wir systeme, wie sie natürlich besonders „digital“ als Attribut insofern nicht in der Dialektologie und Areallingu explizit hinzufügen müssen, als es istik eingesetzt werden. Online ver selbstverständlich sein wird, die digi ÖAW 16
ALEXANDRA N. LENZ ALEXANDRA N. LENZ Derzeitige Positionen – Professorin für Germanistische Sprachwissenschaft an der Universität Wien – Stellvertretende Direktorin des Austrian Centre for Digital Humanities (ACDH) der ÖAW Arbeitsschwerpunkte – Variationslinguistik, Soziolinguistik, Dialektologie – Syntaktische Variation, Syntax-Semantik-Schnittstelle, Grammatikalisierung – Lexikologie und Lexikographie, Pluriarealitätsforschung – Kognitive Semantik (Frame-Semantik, Prototypentheorie), lexikalische Semantik – Spracheinstellungsforschung, Perzeptionslinguistik – Sprachgeschichte, Sprachwandelforschung – Digital Humanities, Korpuslinguistik Ausbildung 2005–2008 Juniorprofessorin für Germanistische Sprachwissenschaft mit dem Schwer punkt „Sprachdynamik“ an der Philipps-Universität Marburg 2002 Promotion zum Dr. phil. an der Philipps-Universität Marburg 1991–1997 Studium an der Johannes Gutenberg-Universität Mainz in den Fächern Germanistik, Mathematik und Romanistik Werdegang Seit 2019 Wirkliches Mitglied der philosophisch-historischen Klasse der ÖAW Seit 2018 Stellvertretende Direktorin des Austrian Centre for Digital Humanities (ACDH) der Österreichischen Akademie der Wissenschaften Seit 2016 Leiterin der Forschungsabteilung „Variation und Wandel des Deutschen in Österreich“ am Austrian Centre for Digital Humanities (ACDH) der Öster reichischen Akademie der Wissenschaften Seit 2016 Sprecherin des SFB „Deutsch in Österreich. Variation – Kontakt – Perzep tion“ (FWF F060) 2008–2010 Associate/Adjunct Professor (Rosalind Franklin Fellow) an der Rijksuni versiteit Groningen (Niederlande) Weitere Informationen zur Autorin sowie zur Liste der Veröffentlichungen finden Sie unter: https://www.univie.ac.at/germanistik/alexandra-n-lenz ÖAW 17
ALEXANDRA N. LENZ ÖAW 18
IVONA BRANDIĆ HERAUSFORDERUNGEN DER INFORMATIK IM ZEITALTER DER DIGITALEN TRANSFORMATION* IVONA BRANDIĆ Ich bedanke mich bei der Akademie einschätzung, acht Kameras, Radar, und kann Daten produzieren. Und sehr für diese Einladung. In mei vier Stufen der Autonomie. Um ar alle diese Wendepunkte haben eines nem heutigen Vortrag werde ich beiten zu können, sind 22 „Laptops“ gemeinsam: einen extremen Anstieg über die Herausforderungen der eingebaut, also 22 „MacBook Pro“. in der Anzahl an Geräten und auch Informatik im Zeitalter der digitalen Was ich damit sagen will, ist, dass im Energieverbrauch. Das ist derzeit Transformation berichten. wir in der Geschichte der Informa wirklich ein Problem, da alle diese Ich möchte mit einem Beispiel anfan tionsverarbeitung schon mehrere Geräte konstant Strom brauchen und gen. Das, was wir hier sehen, ist ein Wendepunkte hatten, beginnend in konstant Daten produzieren, die ge Elektroauto. Dieses Elektroauto ge den 1950er-Jahren, in denen die ers speichert und verarbeitet werden neriert sechs Gigabyte Daten in einer ten Mainframe-Computer entwickelt müssen. Und nicht nur die Geräte Stunde. Mein gesamtes Fotoalbum wurden. Dann kamen Desktop-Com brauchen Strom: Sie müssen nämlich hat ungefähr so viel. Dieses Auto puter, Laptops, Smartphones, und auch sinnvoll organisiert werden. ist ausgestattet mit automatischem jetzt befinden wir uns mitten in der Das bedeutet, wir brauchen Software Bremssystem, automatischer Risiko digitalen Transformation, wo jedes oder Programme, heute sagt man Ding um uns herum eigentlich zum modern „Algorithmen“, um diese Computer wird. Also, jede Glüh Geräte optimal zu betreiben. * Stilistisch leicht überarbeitete Transkription eines am 18. Jänner 2019 für die Gesamtsit birne, jeder Einkaufswagen, jede In der Informatik hat bereits ein zung der ÖAW frei gehaltenen Vortrags. Jacke ist eigentlich ein Computer Paradigmenwechsel stattgefunden. ÖAW 19
IVONA BRANDIĆ Man hat jahrzehntelang auf die Per oder auch nicht, da gibt es alternative Daraus folgt: Wenn ich einmal einen formanz hingearbeitet. Performanz Verläufe. Algorithmus erlernt habe, wird er war das Wichtigste. Mittlerweile geht Was sich mit Blick auf die letzten manchmal obsolet, weil sich die es mehr um Effizienz. Performanz ja. 50 Jahren jedoch erkennen lässt, ist, Datenverteilung verändert hat. Die Aber bitte effizient. dass diese Algorithmen nicht immer Entscheidungen, die ich damit treffe, Was ist ein Algorithmus? Jedes Re klar sind. Wir müssen sie erst er sind nicht gültig. Und das macht zept, zum Beispiel ein Kochrezept, lernen. Es sind vielleicht einzelne es unheimlich kompliziert, solche ist ein Algorithmus. Da sind genau Fragmente klar, aber wir müssen Algorithmen zu betreiben, weil sie Schritte vorgegeben, welche Zutaten lernen, und zwar aus vorhandenen sehr ressourcenintensiv sind. Es gibt man in welcher Menge vermischen Daten, wie diese Fragmente verbun Applikationen, auf die vielleicht muss, wie lange man backen muss den werden sollen. Dafür benutzt nur zwei oder drei dieser Charakte – die einfachste Form eines Algo man Metaalgorithmen, sogenanntes ristiken zutreffen. Es gibt Applika rithmus. Das heißt, Algorithmen, „Machine Learning“. Es gibt sehr tionen, bei denen drei Charakteris sogenannte „Programme“, gibt es viele Anwendungen, bei denen nicht tiken zusammentreffen. Dann wird überall. von Anfang an klar ist, wie etwas es rechenintensiv. Und wenn vier Mit einem Algorithmus kann man gemacht wird. Zum Beispiel muss zusammentreffen, dann wird es sehr aber auch eine Rakete auf den Mond ein intelligentes Verkehrssystem ler rechenintensiv. schicken. Das hat man schon vor nen, wie mit Unfällen umzugehen Was das für die Informatik mit sich 50 Jahren getan. Das, was man hier ist. Was sind da die alternativen Ver bringt, habe ich in ein paar Zahlen sieht, ist ein Ausdruck von Margaret läufe? Das weiß man nicht im Vor zusammengefasst. Es wird erwartet, Hamilton. Sie hat den „Apollo Flight hinein. Oder „Smart Grid Transactive dass in ca. fünf Jahren Rechenzentren Code“ programmiert. In den letzten Energy Control“, wo on demand zeit auf der ganzen Welt ca. ein Fünftel 50 Jahren hat sich sehr viel in der nah geschaut wird, dass in das Netz des Energiebedarfs ausmachen wer Informatik getan. Da sind eigene genug eingespeist wird und auch den. Es gibt also einen massiven An Forschungsrichtungen entwickelt genug verbraucht wird. All diese stieg. Und in der Informatik haben worden, die sich damit beschäftigen, Applikationen haben Charakteristi wir schon gelernt, Methoden und solche Algorithmen zu optimieren ken, die fast überall vorkommen. Sie Tools zu entwickeln, wie man mit oder zu verifizieren oder Zugriff auf sind zeitkritisch, datenintensiv und diesem steigenden Energiebedarf Daten zu ermöglichen. Die Algorith in vielen Fällen verteilt, das heißt, umgehen kann. men haben generell eine gemein man kann sie nicht auf einem Com Ein Beispiel: Hier habe ich eine vir same Struktur. Das ist ein Beispiel für puter verarbeiten, sondern auf geo tuelle Maschine kreiert. Eine v irtuelle einen Algorithmus, das sind Schritte, graphisch verteilten Computern, und Maschine ist ein simulierter Compu die gemacht werden müssen, da gibt sie haben eine nicht stationäre Daten ter auf einem anderen Computer. es Bedingungen, die erfüllt werden verteilung. Das war eine kleine Revolution in ÖAW 20
IVONA BRANDIĆ der Informatik, weil man Daten und Wien, Hannes Kaufmann, zur Ver Ein weiteres Beispiel. Ich weiß nicht, Programme von den physischen fügung gestellt. Er und sein Team wer von Ihnen Streaming-Services Entitäten entkoppelt hat, sie sind beschäftigen sich mit Virtual R eality, oder Netflix benutzt. Hier sehen Sie nicht mehr an Hardware gebunden. mit der virtuelle Welten abgebil eine Karte der Verteilung von Net Ich kann dann mehrere virtuelle det werden können. Dabei handelt flix-Servern. Auffällig ist, dass sich Maschinen starten, und das, was man es sich um einen Multi-User-Mode. die meisten Server in urbanen Ge im kleinen Rahmen machen kann, Das bedeutet, es gibt beispielsweise genden befinden, in Ballungsräumen, auf einem Laptop, kann man auch im fünf Benutzer, die sich auf fünf ver weil man Menschen diese Services großen Rahmen machen. Das nennt schiedenen Kontinenten befinden. mit hoher Qualität zur Verfügung man Cloud-Computing. Das benutzt Sie glauben aber, sie seien im selben stellen möchte. Diese Streaming-Ser heute fast jede und jeder, unbewusst Raum. Es können aber auch fünf Be vices sind natürlich auch sehr zeitkri meistens, wenn man Fotos irgendwo nutzer sein, die im gleichen Raum tisch. uploadet. sind, aber glauben, sie seien auf fünf All diese zeitkritischen Applika tio Um es kurz zu erklären: In einer verschiedenen Kontinenten. Damit nen haben bewirkt, dass sich die Art Cloud hat man einen Layer von kann man viele Dinge machen. Die und Weise, wie Rechenzentren ge physikalischen Maschinen, und auf Feuerwehr kann etwa kritische Ein baut werden, massiv verändert hat. diesem Layer von physikalischen sätze üben, oder Ärzte Operationen Das ist ein Rechenzentrum der TU Maschinen baut man sogenannte simulieren für Ärzte. Wien. Klassisch. Das ist eine Rechen „virtuelle Maschinen“. Der Vorteil Mir geht es aber gar nicht so sehr um datenfarm in Buffalo, New York. Sie ist jetzt, dass man diese virtuellen den Film. Was ich zeigen will, ist: Alle sieht auch sehr schön aus, auf der Maschinen über geographisch ver diese Benutzer tragen den Laptop grünen Wiese. Man kann sie auch teilte Rechenzentren verschieben auf dem Rücken. Der Grund ist, dass sehr gut mit Strom versorgen. Das, kann. Ich schiebe Daten dorthin, wo diese Sensoren, die auf ihrem Körper was man hier sieht, ist auch ein Re ich grünen Strom habe, wo ich gute angebracht sind, Daten generieren. chenzentrum, gebaut von Microsoft, Bedingungen habe, um Daten zu ver Diese Daten müssen sehr schnell ver ein Unterwasserrechenzentrum. Dort arbeiten. arbeitet werden, damit die Bilder auf bekommt man die Kühlung gratis, Das ist mittlerweile State-of-the- diesen Brillen generiert werden kön wenn man das unter Wasser taucht, Art-Technologie, die verwendet wird, nen. Wenn das nicht schnell genug und man bekommt zusätzlich kurze um grüne und ökonomische Rechen passiert, wird den Anwenderinnen Latenzzeiten, weil die Hälfte der zentren zu bauen. Ich möchte und Anwendern schlecht. In der In Weltbevölkerung in Küstenregionen aber jetzt ein Beispiel zeigen, wo formatik haben wir es also zuneh lebt. Das ist ein „Micro Data Cen Cloud-Computing mir sehr wenig mend mit Applikationen zu tun, die ter“, das kann man überall installie helfen kann. Dieser Film wurde mir sehr zeitkritisch sind. Ich habe keine ren. Das ist ein Raspberry Pi, auch von meinem Kollegen an der TU Zeit, Cloud-Computing zu benutzen. eine Art „First Hop Data Center“, ÖAW 21
IVONA BRANDIĆ das Daten verarbeiten kann. Viele sisch, dass die Daten in situ – bei der Hier ein Beispiel aus unserem Firmen machen mittlerweile „High Enddestination – verarbeitet werden. FWF-START-Projekt. Wenn man eine Latitude Data Centers“. Das heißt, Mittlerweile haben wir nicht die Zeit „Hyper-Distributed Infrastructure“ sie bauen Rechenzentren jenseits des dafür. Die Daten werden somit „in hat und eine Applikation, die auf 60. Breitengrades, weil dort Kühlung transit“ – auf dem Weg dorthin – ver 100 Computer verteilt ist, welche gar nicht benötigt wird, da es einfach arbeitet, teilweise durch Router und geographisch auch noch verteilt sind, immer kalt ist. Für Sie ist das eine Switches. Diese sind jedoch nicht leis sind Fehler keine Ausnahme. Fehler Drohne, für mich ein fliegendes Re tungsfähig. Das heißt, es werden so passieren regulär, jeden Tag, immer. chenzentrum, weil das Gerät auch genannte Edge-Computing-Zentren Und die Fehler hängen voneinander eine Festplatte hat und Daten verar installiert, Unterwasser-Rechenzent ab. Wenn beispielsweise der Strom beiten kann. In der Informatik haben ren, Raspberry Pis und Ähnliches. ausfällt, fällt die gesamte Infra wir auch gelernt, mit den Abfallpro Ich rede hier von vielen verschie struktur aus. Wenn Accesspoints dukten von Rechenzentren umzu denen Applikationen, da gehören ausfallen, dann kann ich zwar immer gehen. Hier zum Beispiel sieht man „Digital Humanities“ definitiv auch noch die Daten verarbeiten, aber ich ein „Liquid Cooling Data Center“. Es dazu. Wir reden hier von selbst fah kann sie nicht verschicken. Wir ver wird nicht mit Ventilatoren bei den renden Autos, Virtual Reality, Per suchen, diese Abhängigkeiten zu CPUs gekühlt, sondern mit Flüssig sonalized Medicine, Robotern. Ich extrahieren. Über die Zeitachse. Wir keit, meistens Öl. Abwärme in Form selbst beschäftige mich insbesondere benutzen hier „Dynamic Bayesian von Flüssigkeit wird dafür genutzt, mit diesem Bereich hier, um heraus Networks“. Wir haben zum Beispiel um umgebende Gebäude zu behei zufinden, wie solche Applikationen Daten aus dem Los Alamos National zen. In Garching etwa ist der gesam installiert werden müssen, damit Lab analysiert, mit 300 verschiede te Komplex so beheizt. Was daraus die Userinnen und User bekommen, nen Fehlerarten, die in den letzten jetzt entsteht, ist eine komplett neue was sie brauchen. Kurze Latenzzei 20 Jahren gesammelt worden sind, Infrastruktur, wo wir ganz oben mas ten meistens. Der Ressourcenver oder auch die Skype-Supernodes, für sive Rechenzentren haben und unten brauch soll trotzdem nicht komplett all die Skype-Verbindungen. Dann viele Applikationen, die entweder explodieren. In der Informatik gibt kann man Interferenz herstellen, in zeitkritisch sind oder sehr viele Da es grundsätzlich zwei Ansätze. Ent beiden Richtungen. Ich kann heraus ten produzieren, für die gar nicht die weder man kann etwas sehr genau finden, wie wahrscheinlich ein Fehler Zeit und die Bandbreite vorhanden nachbilden, sehr exakt – dann be ist. Ich kann aber auch herausfinden, sind, um sie zur Verarbeitung in mas nutzt man Mathematik. In diesem was die Ursache für einen Fehler ist. sive Rechenzentren zu schicken. Fall arbeitet man mit Statistiken. Hier Das Ziel ist es, die Applikationen so Es entstehen also mittlerweile neue hat man nur Annäherungsverfahren. zu installieren, damit sie möglichst Paradigmen, wie Daten verarbeitet Um nur kurz zu beschreiben, was wir gut funktionieren, auch wenn Fehler werden. In der Informatik ist es klas machen. passieren. ÖAW 22
IVONA BRANDIĆ Die nächste Frage, mit der wir uns mit konkurrierenden Prioritäten ar im START-Projekt beschäftigen, ist, beiten: Qualität, Latenz, aber auch wie man bestehende Telekommunika Providern und Profit. Die Firmen tionsinfrastruktur mit diesen kleinen möchten auch Profit machen. Es wird Edge-Data-Centern verbinden kann. wahrscheinlich zur Integration von Wir haben eine Methode entwickelt, verschiedenen Technologien kom die auf Monte-Carlo-Simulationen men, Netzwerken, Clouds, 5G, 6G. basiert, um eine Kapazitätsplanung Was auch immer entwickelt wird. Das zu ermöglichen, um zu schauen, wie Gute ist: Wir haben mittlerweile viele viele solche kleine Edge-Data-Center Daten, und aus diesen Daten kann es überhaupt braucht. Wir haben das man lernen, mit diesen Daten kann zum Beispiel für Regionen in Leo man verschiedene Szenarien testen. poldstadt und in Hernals gemacht, Vor zehn, 20 Jahren hätten wir diese und es wurde auch ein Vergleich Daten nicht gehabt. Heute haben wir mit dem Userverhalten angestellt. sie. Das ist ein riesiger Vorteil. Mit solchen Simulationen kann man Ich bedanke mich abschließend bei tatsächlich verschiedene Szenarien meinem Team. Alles, was ich heute testen. Ich kann untersuchen, was präsentiert habe, ist das Ergebnis passiert, wenn in Österreich plötzlich der Arbeit meines Teams. Und mein die Fußball-EM stattfindet, alle im Dank gilt auch allen Funding-Agen Ernst-Happel-Stadion sind und ver cys, die meine Forschung finanzie schiedene Fotos und Videos machen. ren. Ich hoffe, ich habe einen Einblick Was muss man machen, damit da geben können in die Probleme, die nicht alles zusammenbricht? Mit sol wir in der Informatik haben, und chen Simulationen kann man dann auch einen Link für die Anwendun also verschiedene Szenarien prüfen. gen in den „Digital Humanities“. Ich möchte jetzt zum Schluss kom men. Was man aus diesem Vortrag mitnehmen soll: Bald werden wir Milliarden von Geräten haben, die wir betreiben müssen. Hybride For men von Datenverarbeitung, wie zum Beispiel Edge-Computing, kön nen eine Lösung bieten. Wir müssen ÖAW 23
IVONA BRANDIĆ IVONA BRANDIĆ Derzeitige Position – Professorin für Hochleistungsrechnersysteme am Institut für Informationssystem technik der Technischen Universität Wien Arbeitsschwerpunkte – Energie Effizienz in verteilten Systemen – Virtualisierte HPC Systeme – Cloud Computing Ausbildung 2013 Venia Docendi für praktische Informatik an der Technischen Universität Wien 2007 Promotion zum Dr. rer soc. oec. an der Technischen Universität Wien 1998–2003 Studium der Wirtschaftsinformatik an der Universität Wien sowie an der Technischen Universität Wien Werdegang Seit 2016 Professorin für Hochleistungsrechnersysteme am Institut für Informations systemtechnik der Technischen Universität Wien Seit 2016 Mitglied der Jungen Akademie der ÖAW 2015 FWF START-Preis Weitere Informationen zur Autorin finden Sie unter: https://translate.google.com/translate?hl=de&sl=en&u= http://www.ec.tuwien.ac.at/~ivona/&prev=search ÖAW 24
IVONA BRANDIĆ ÖAW 25
ÖAW 26
IMPRESSUM Herausgeber: Österreichische Akademie der Wissenschaften Dr. Ignaz Seipel-Platz 2, 1010 Wien www.oeaw.ac.at COVERBILD © Ludwig Maximilian Breuer REDAKTION Ingrid Weichselbaum Alle Rechte vorbehalten Copyright © 2019 Die inhaltliche Verantwortung und das Copyright für die jeweiligen Beiträge liegen bei den einzelnen Autorinnen. ÖAW 27
W W W.O E AW. A C . AT ISBN 978-3-7001-8577-2 ÖAW 28
Sie können auch lesen