Sprachtechnologie im Global Web und im World Wide Village - Hans Uszkoreit - 7 Jahre in Berlin: Gut angekommen und voll abgefahren - DFKI

Die Seite wird erstellt Julia Weidner
 
WEITER LESEN
Sprachtechnologie im Global Web und im World Wide Village - Hans Uszkoreit - 7 Jahre in Berlin: Gut angekommen und voll abgefahren - DFKI
7 Jahre in Berlin: Gut angekommen und voll abgefahren

     Sprachtechnologie im Global Web
        und im World Wide Village

                Hans Uszkoreit
Sprachtechnologie im Global Web und im World Wide Village - Hans Uszkoreit - 7 Jahre in Berlin: Gut angekommen und voll abgefahren - DFKI
Sprache ist...

!   ...das natürlichste Medium für die direkte
    Kommunikation zwischen Menschen:

                 Verständigung – einander verstehen

!   ...das einzige Medium für die Speicherung und
    Weitergabe komplexer Gedanken und
    Wissensinhalte:

                 Verstehen – die Welt verstehen
Sprachtechnologie im Global Web und im World Wide Village - Hans Uszkoreit - 7 Jahre in Berlin: Gut angekommen und voll abgefahren - DFKI
Eines der teuersten Bauvorhaben der Geschichte
mit immensen Folgekosten

Der Turmbau zu Babel (Zwischenstand)   Der Turmbau zu Babel (Endzustand)
Sprachtechnologie im Global Web und im World Wide Village - Hans Uszkoreit - 7 Jahre in Berlin: Gut angekommen und voll abgefahren - DFKI
Wieviele Sprachen gibt es

!   Ethnologue 6,809 Sprachen

!   230 in Europa, 2197 in Asien (832 in Papua-New Guinea)
!   Sprachen mit umfangreicher schriftlicher Kommunikation
    wahrscheinlich nur etwas mehr als 2000

!   Bei 6.809 Sprachen 46.355.672 Übersetzungssysteme

!   Bei 2.000 Sprachen nur noch 3.998.000 Systeme
Sprachtechnologie im Global Web und im World Wide Village - Hans Uszkoreit - 7 Jahre in Berlin: Gut angekommen und voll abgefahren - DFKI
Die Märkte für automatische Übersetzung

Drei Hauptmärkte
!   Informationsübersetzung für den Eigengebrauch (inbound translation)
!   Qualitätsübersetzung für die Weitergabe (outbound translation)
!   Mobile Übersetzung gesprochener Sprache (Dolmetschsysteme)

Und viele Spezialmärkte :
!   Patentübersetzung
!   Übersetzung von Benutzerschnittstellen
!   Email-Übersetzung
!   Film-Untertitelung
!   ...
Sprachtechnologie im Global Web und im World Wide Village - Hans Uszkoreit - 7 Jahre in Berlin: Gut angekommen und voll abgefahren - DFKI
Märkte für die Übersetzung!

!   20 Mrd Euro pro Jahr weltweit Übersetzungsprodukte und -dienste

!   50% des Markts ist in Europa

!   500.000 Übersetzungsfachkräfte in Europe

!   Jährliche Wachstumsrate 10-13%
    (viel höher als andere Wirtschaftssektoren)

!   Durch Zunahme an

    ! Content: Medien, Wissen, Information

    ! Mobilität: Migration, Tourismus

    ! Globalisierung: Export, multinationale Firmen
Sprachtechnologie im Global Web und im World Wide Village - Hans Uszkoreit - 7 Jahre in Berlin: Gut angekommen und voll abgefahren - DFKI
Die Vision der Translingual Cloud

                                    Allgemeine und Spezialisierte
                                          Übersetzungen
                                                                    Annual
                                                    Patents         Reports
                                           PR
                                        Brochures           Times and
                    Trusted          Informal       Int.      Places
                    Service          Language     Company
                    Broker                          Names

                                      Automatic
                                    Summarization       Human
                                                      Post-Editing
Sprachtechnologie im Global Web und im World Wide Village - Hans Uszkoreit - 7 Jahre in Berlin: Gut angekommen und voll abgefahren - DFKI
Leuchtturmwirkung unserer Forschung

!   Seit Verbmobil ist das DFKI eines
    der führenden Zentren in der MÜ

!   Seit über zehn Jahren koordinieren wir die
    wichtigsten EU geförderten MÜ Projekte

!   Übersetzungstechnologie aus unseren Projekten
    ist bei mehr als 80 Firmen im Einsatz

!   In dem TSB-geförderten Projekt TaraXÜ haben wir
    eine neue Form der Einbindung von MÜ in
    den Übersetzerarbeitsplatz geschaffen

!   Enge Kooperation mit GALA
Sprachtechnologie im Global Web und im World Wide Village - Hans Uszkoreit - 7 Jahre in Berlin: Gut angekommen und voll abgefahren - DFKI
Stellung des DFKI in der europäischen MÜ Forschung

!   EuroMatrix – EU 6. Rahmenprogramm,
    Koordinator: Hans Uszkoreit, U.d. Saarlandes
!   EuroMatrixPlus – EU 7. Rahmenprogramm,
    Koordinator: Hans Uszkoreit, DFKI
!   taraXÜ – Zukunftsfond Berlin,
    Koordinator: Hans Uszkoreit, DFKI
!   Accurat – EU 7. Rahmenprogramm,
    Koordinator: Andrejs Vasiljevs, Tilde, Lettland
!   META-NET – META-NET – European Network of
    Excellence mit 60 Zentren in 34 Ländern
    Koordinator: Hans Uszkoreit, DFKI
    Manager: Georg Rehm, DFKI
Sprachtechnologie im Global Web und im World Wide Village - Hans Uszkoreit - 7 Jahre in Berlin: Gut angekommen und voll abgefahren - DFKI
Transfer durch die Köpfe

!   Google Translate gegründet von Thorsten Brants

!   MT@EC geleitet von Andreas Eisele

!   Program Manager Maschinelle Übersetzung
    bei Microsoft Research: Christian Federmann

!   Andere DFKI Wissenschaftler arbeiten in
    in europäischen MÜ und Übersetzungsfirmen

!   Arle Lommel kam von LISA/GALA zu uns
Übersetzung wird in viele Dienste integriert

e-­‐Government	
     Informa(on	
     e-­‐Commerce	
       Publishing	
      Social	
  Media	
  
     Services	
        Services	
         Services	
        Services	
         Services	
  

Communica(on	
        Educa(on	
         Health	
        Entertainment	
       Financial	
  
   Services	
          Services	
       Services	
          Services	
          Services	
  
Übersetzung wird in viele Dienste integriert

e-­‐Government	
     Informa(on	
     e-­‐Commerce	
       Publishing	
      Social	
  Media	
  
     Services	
        Services	
         Services	
        Services	
         Services	
  

Communica(on	
        Educa(on	
         Health	
        Entertainment	
       Financial	
  
   Services	
          Services	
       Services	
          Services	
          Services	
  
Übersetzung wird in viele Dienste integriert

e-­‐Government	
     Informa(on	
     e-­‐Commerce	
       Publishing	
      Social	
  Media	
  
     Services	
        Services	
         Services	
        Services	
         Services	
  

Communica(on	
        Educa(on	
         Health	
        Entertainment	
       Financial	
  
   Services	
          Services	
       Services	
          Services	
          Services	
  
Übersetzung wird in viele Dienste integriert

e-­‐Government	
     Informa(on	
     e-­‐Commerce	
       Publishing	
      Social	
  Media	
  
     Services	
        Services	
         Services	
        Services	
         Services	
  

Communica(on	
        Educa(on	
         Health	
        Entertainment	
       Financial	
  
   Services	
          Services	
       Services	
          Services	
          Services	
  
Die Forschungssicht

                                                   Sofortige, zuverlässige
                                                      hochqualitative
                                                        maschinelle
                                                    Übersetzung für alle
                                                       Sprachpaare
Qualität

               maschinelle
             Übersetzung mit
           niedriger bis mittlerer
             Qualität für einige
               Sprachpaare

   2014                              Zeit   2020                    2025
Der Praxisbedarf

                                                   Sofortige, zuverlässige
                                                      hochqualitative
                                                        maschinelle
                                                    Übersetzung für alle
                                                       Sprachpaare
Qualität

               maschinelle
             Übersetzung mit
           niedriger bis mittlerer
             Qualität für einige
               Sprachpaare

   2014                              Zeit   2020                    2025
Unsere Vision

                                                                   Sofortige, zuverlässige
                                                                      hochqualitative
                                                                        maschinelle
                                                                    Übersetzung für alle
                                                                       Sprachpaare

                            menschliche Überstzung / Postediting
Qualität

               maschinelle
             Übersetzung mit
           niedriger bis mittlerer
             Qualität für einige                        automatische Übersetzung
               Sprachpaare

   2014                                        Zeit   2020                          2025
Unser Plan

!   Konzentration der Forschung an neuen Übersetzungstechnologien
    am DFKI in Saarbrücken (Prof. Josef van Genabith)

!   Konzentration auf Übersetzungsqualität und –prozesse,
    und –plattformen mit Sprachindustrieunternehmen in Berlin
Imposante Zahlen: Daten pro Stunde

 mehr als 275 Mio                    100 Std. neues
 Suchanfragen                        Videomaterial

 6,9 Mio neue                        571 neue
 Posts                               Websites

 mehr als 204 Mio
                                     138,000 Tweets
 Emails

 3000 neue Bilder                    sechs neue Artikel
Methoden für Analyse und Nutzung!

!   Informations- und Wissensextraktion

!   Zusammenfassung – Summarization

!   Aggregation

!   semantische Suche / Frage-Antwort-Systeme

!   Meinungs- und Sentiment-Analyse

!   Berichtsgenerierung

!
Beispiele :
Verknüpfungen von Big Data and Smart Data

Big Data + Smart Data = Smarter Decisions

!   Meteorologische Daten und Wirtschaftsnachrichten

!   Verkaufszahlen und Diskussionen in Sozialen Medien und

!   Diensteüberlastungen und Benutzerkommunikation

!   Medizinische Daten und Befundungen

!   Medizinische Daten und patientengenerierte Daten
Informationsextraktion

!   Wir können Texte nicht automatisch verstehen

!   Das heißt, wir können nicht all die Information aus Texten
    ziehen, die Menschen aus diesen Texten gewinnnen können

!   Wir können aber wenige Arten von Information mit
    zunehmender Sicherheit erkennen

!   Für diese Technologie gibt es viele Anwendungen, denn hier
    geht es darum, potentiell relevante Information in großen
    Textmengen zu finden
Informationsextraktion aus Texten!

October 14, 2002, 4:00 a.m. PT                 Microsoft Corporation
For years, Microsoft Corporation           *   founder
founder Bill Gates railed against the          Bill Gates
economic philosophy of open-source
software with Orwellian fervor,                Microsoft
denouncing its communal licensing as       *   Gates
a "cancer" that stifled technological          Microsoft
innovation.
                                               Bill Veghte
Today, Microsoft claims to "love" the
open-source concept, by which              *   Microsoft
software code is made public to                VP
encourage improvement and
development by outside programmers.        *   Richard Stallman
Gates himself says Microsoft will gladly       founder
disclose its crown jewels--the coveted
code behind the Windows operating
                                               Free Software Foundation
system--to select customers.

"We can be open source. We love the
concept of shared source," said Bill                           TITLE      ORGANIZATION
                                               NAME
Veghte, a Microsoft VP. "That's a super-
important shift for us in terms of code        Bill Gates      Founder    Microsoft
access.“                                       Bill Veghte     VP         Microsoft

     DFKI AUFSICHTSRATSSITZUNG ✩ 8. MAI
Richard Stallman, founder of the Free
Software Foundation, countered
                                               Richard Stallman founder   Free Soft..
Relationsextraktion

                               Suche
                                        Web-
                      Fakten            seiten

                gefüllte
                Muster                    Sätze mit
                                        Erwähnungen
                               Muster
Wissensextraktion aus dem Web: Ein Beispiel

!   39 Relation (Faktentypen)

!   Startwissen 2.8 Fakten aus Freebase

!   Regeln gelernt aus 20 Mio Webseiten

!   2 Mio Regelkandidaten extrahiert

!   nach semantischem Filtern ca. 10.000 gute Regeln
Vision: Translingual Semantic Web

!   Das Web wird immer multilingualer

!   Das Web wird immer semantischer

!   Das Web wird zum Wissens- und zum Kommunikationsmedium

!   Das Web wird zum Mittler zwischen den Sprachen

!   Vision: Translingual Semantic Web

!   Hans Uszkoreit (2012): The Translingual Web – A Challenge for
    Language and Knowledge Technologies
Semantic Web und Industrie 4.0

¤   Web 2.0 - soziale Netzwerke,

¤   Semantic Web - Web 3.0

¤   Data & Knowledge Communities:
     Wikipedia, linked open data,
     DBpedia, Wikidata

¤   Cyber-physikalische Systeme

¤   Internet der Dinge

¤   intelligent enterprise
Ein gewaltiges Potenzial...

... liegt in der Verknüpfung von:

¤    unternehmensinternen
      Daten-/Wissensbeständen

¤    Datenströmen aus Planung,
      Fertigung, Vertrieb
      (Industrie 4.0)

mit

¤    Wissenssammlungen der
      Knowledge Communities

¤    Open Data aus Verwaltung,
      Communities, Webdiensten

¤    Fülle an Information in unstruk-
      turierten Daten z.B. hochaktuelle
      Mediendaten
für ...

¤ empirisch gesichterte Entscheidungen in allen Bereichen, in denen
   unternehmensexterne Faktoren eine Rolle spielen
¤ schnelle Reaktion auf Risikosignale, Verzögerungen, Ausfälle
   von Zulieferern, Abnehmern, Gläubigern, Transportwegen etc.
¤ bessere Vorhersagen zu Marktentwicklungen, Wettbewerbern,
   Lieferfähigkeiten, Absatzentwicklungen, Kostenfaktoren
¤ informiertere Planung von Fertigungen, Ansiedlungen, Marketing
für Industrie 4.0
Vier spezielle Pläne

!   Schaffen von Plattformen, die Übersetzungstechnologien mit
    menschlicher Übersetzung, Cloudtechnologien und
    Crowdsourcing verbinden.

!   Zusammenwachsen von mehrsprachiger semantischer Textanalytik
    und Übersetzung

!   Brückenschlag zwischen den Knowledge Communities und den
    Datennutzern in der Wirtschaft

!   Einbettung der semantischen Textanalytik und mehrsprachigkeit in
    leistungsfähige Big Data Analyse Plattformen wie Flink
7 Jahre in Berlin: Gut angekommen und voll abgefahren

   VIELEN DANK!
Sie können auch lesen