Sprachtechnologie im Global Web und im World Wide Village - Hans Uszkoreit - 7 Jahre in Berlin: Gut angekommen und voll abgefahren - DFKI
←
→
Transkription von Seiteninhalten
Wenn Ihr Browser die Seite nicht korrekt rendert, bitte, lesen Sie den Inhalt der Seite unten
7 Jahre in Berlin: Gut angekommen und voll abgefahren Sprachtechnologie im Global Web und im World Wide Village Hans Uszkoreit
Sprache ist... ! ...das natürlichste Medium für die direkte Kommunikation zwischen Menschen: Verständigung – einander verstehen ! ...das einzige Medium für die Speicherung und Weitergabe komplexer Gedanken und Wissensinhalte: Verstehen – die Welt verstehen
Eines der teuersten Bauvorhaben der Geschichte mit immensen Folgekosten Der Turmbau zu Babel (Zwischenstand) Der Turmbau zu Babel (Endzustand)
Wieviele Sprachen gibt es ! Ethnologue 6,809 Sprachen ! 230 in Europa, 2197 in Asien (832 in Papua-New Guinea) ! Sprachen mit umfangreicher schriftlicher Kommunikation wahrscheinlich nur etwas mehr als 2000 ! Bei 6.809 Sprachen 46.355.672 Übersetzungssysteme ! Bei 2.000 Sprachen nur noch 3.998.000 Systeme
Die Märkte für automatische Übersetzung Drei Hauptmärkte ! Informationsübersetzung für den Eigengebrauch (inbound translation) ! Qualitätsübersetzung für die Weitergabe (outbound translation) ! Mobile Übersetzung gesprochener Sprache (Dolmetschsysteme) Und viele Spezialmärkte : ! Patentübersetzung ! Übersetzung von Benutzerschnittstellen ! Email-Übersetzung ! Film-Untertitelung ! ...
Märkte für die Übersetzung! ! 20 Mrd Euro pro Jahr weltweit Übersetzungsprodukte und -dienste ! 50% des Markts ist in Europa ! 500.000 Übersetzungsfachkräfte in Europe ! Jährliche Wachstumsrate 10-13% (viel höher als andere Wirtschaftssektoren) ! Durch Zunahme an ! Content: Medien, Wissen, Information ! Mobilität: Migration, Tourismus ! Globalisierung: Export, multinationale Firmen
Die Vision der Translingual Cloud Allgemeine und Spezialisierte Übersetzungen Annual Patents Reports PR Brochures Times and Trusted Informal Int. Places Service Language Company Broker Names Automatic Summarization Human Post-Editing
Leuchtturmwirkung unserer Forschung ! Seit Verbmobil ist das DFKI eines der führenden Zentren in der MÜ ! Seit über zehn Jahren koordinieren wir die wichtigsten EU geförderten MÜ Projekte ! Übersetzungstechnologie aus unseren Projekten ist bei mehr als 80 Firmen im Einsatz ! In dem TSB-geförderten Projekt TaraXÜ haben wir eine neue Form der Einbindung von MÜ in den Übersetzerarbeitsplatz geschaffen ! Enge Kooperation mit GALA
Stellung des DFKI in der europäischen MÜ Forschung ! EuroMatrix – EU 6. Rahmenprogramm, Koordinator: Hans Uszkoreit, U.d. Saarlandes ! EuroMatrixPlus – EU 7. Rahmenprogramm, Koordinator: Hans Uszkoreit, DFKI ! taraXÜ – Zukunftsfond Berlin, Koordinator: Hans Uszkoreit, DFKI ! Accurat – EU 7. Rahmenprogramm, Koordinator: Andrejs Vasiljevs, Tilde, Lettland ! META-NET – META-NET – European Network of Excellence mit 60 Zentren in 34 Ländern Koordinator: Hans Uszkoreit, DFKI Manager: Georg Rehm, DFKI
Transfer durch die Köpfe ! Google Translate gegründet von Thorsten Brants ! MT@EC geleitet von Andreas Eisele ! Program Manager Maschinelle Übersetzung bei Microsoft Research: Christian Federmann ! Andere DFKI Wissenschaftler arbeiten in in europäischen MÜ und Übersetzungsfirmen ! Arle Lommel kam von LISA/GALA zu uns
Übersetzung wird in viele Dienste integriert e-‐Government Informa(on e-‐Commerce Publishing Social Media Services Services Services Services Services Communica(on Educa(on Health Entertainment Financial Services Services Services Services Services
Übersetzung wird in viele Dienste integriert e-‐Government Informa(on e-‐Commerce Publishing Social Media Services Services Services Services Services Communica(on Educa(on Health Entertainment Financial Services Services Services Services Services
Übersetzung wird in viele Dienste integriert e-‐Government Informa(on e-‐Commerce Publishing Social Media Services Services Services Services Services Communica(on Educa(on Health Entertainment Financial Services Services Services Services Services
Übersetzung wird in viele Dienste integriert e-‐Government Informa(on e-‐Commerce Publishing Social Media Services Services Services Services Services Communica(on Educa(on Health Entertainment Financial Services Services Services Services Services
Die Forschungssicht Sofortige, zuverlässige hochqualitative maschinelle Übersetzung für alle Sprachpaare Qualität maschinelle Übersetzung mit niedriger bis mittlerer Qualität für einige Sprachpaare 2014 Zeit 2020 2025
Der Praxisbedarf Sofortige, zuverlässige hochqualitative maschinelle Übersetzung für alle Sprachpaare Qualität maschinelle Übersetzung mit niedriger bis mittlerer Qualität für einige Sprachpaare 2014 Zeit 2020 2025
Unsere Vision Sofortige, zuverlässige hochqualitative maschinelle Übersetzung für alle Sprachpaare menschliche Überstzung / Postediting Qualität maschinelle Übersetzung mit niedriger bis mittlerer Qualität für einige automatische Übersetzung Sprachpaare 2014 Zeit 2020 2025
Unser Plan ! Konzentration der Forschung an neuen Übersetzungstechnologien am DFKI in Saarbrücken (Prof. Josef van Genabith) ! Konzentration auf Übersetzungsqualität und –prozesse, und –plattformen mit Sprachindustrieunternehmen in Berlin
Imposante Zahlen: Daten pro Stunde mehr als 275 Mio 100 Std. neues Suchanfragen Videomaterial 6,9 Mio neue 571 neue Posts Websites mehr als 204 Mio 138,000 Tweets Emails 3000 neue Bilder sechs neue Artikel
Methoden für Analyse und Nutzung! ! Informations- und Wissensextraktion ! Zusammenfassung – Summarization ! Aggregation ! semantische Suche / Frage-Antwort-Systeme ! Meinungs- und Sentiment-Analyse ! Berichtsgenerierung !
Beispiele : Verknüpfungen von Big Data and Smart Data Big Data + Smart Data = Smarter Decisions ! Meteorologische Daten und Wirtschaftsnachrichten ! Verkaufszahlen und Diskussionen in Sozialen Medien und ! Diensteüberlastungen und Benutzerkommunikation ! Medizinische Daten und Befundungen ! Medizinische Daten und patientengenerierte Daten
Informationsextraktion ! Wir können Texte nicht automatisch verstehen ! Das heißt, wir können nicht all die Information aus Texten ziehen, die Menschen aus diesen Texten gewinnnen können ! Wir können aber wenige Arten von Information mit zunehmender Sicherheit erkennen ! Für diese Technologie gibt es viele Anwendungen, denn hier geht es darum, potentiell relevante Information in großen Textmengen zu finden
Informationsextraktion aus Texten! October 14, 2002, 4:00 a.m. PT Microsoft Corporation For years, Microsoft Corporation * founder founder Bill Gates railed against the Bill Gates economic philosophy of open-source software with Orwellian fervor, Microsoft denouncing its communal licensing as * Gates a "cancer" that stifled technological Microsoft innovation. Bill Veghte Today, Microsoft claims to "love" the open-source concept, by which * Microsoft software code is made public to VP encourage improvement and development by outside programmers. * Richard Stallman Gates himself says Microsoft will gladly founder disclose its crown jewels--the coveted code behind the Windows operating Free Software Foundation system--to select customers. "We can be open source. We love the concept of shared source," said Bill TITLE ORGANIZATION NAME Veghte, a Microsoft VP. "That's a super- important shift for us in terms of code Bill Gates Founder Microsoft access.“ Bill Veghte VP Microsoft DFKI AUFSICHTSRATSSITZUNG ✩ 8. MAI Richard Stallman, founder of the Free Software Foundation, countered Richard Stallman founder Free Soft..
Relationsextraktion Suche Web- Fakten seiten gefüllte Muster Sätze mit Erwähnungen Muster
Wissensextraktion aus dem Web: Ein Beispiel ! 39 Relation (Faktentypen) ! Startwissen 2.8 Fakten aus Freebase ! Regeln gelernt aus 20 Mio Webseiten ! 2 Mio Regelkandidaten extrahiert ! nach semantischem Filtern ca. 10.000 gute Regeln
Vision: Translingual Semantic Web ! Das Web wird immer multilingualer ! Das Web wird immer semantischer ! Das Web wird zum Wissens- und zum Kommunikationsmedium ! Das Web wird zum Mittler zwischen den Sprachen ! Vision: Translingual Semantic Web ! Hans Uszkoreit (2012): The Translingual Web – A Challenge for Language and Knowledge Technologies
Semantic Web und Industrie 4.0 ¤ Web 2.0 - soziale Netzwerke, ¤ Semantic Web - Web 3.0 ¤ Data & Knowledge Communities: Wikipedia, linked open data, DBpedia, Wikidata ¤ Cyber-physikalische Systeme ¤ Internet der Dinge ¤ intelligent enterprise
Ein gewaltiges Potenzial... ... liegt in der Verknüpfung von: ¤ unternehmensinternen Daten-/Wissensbeständen ¤ Datenströmen aus Planung, Fertigung, Vertrieb (Industrie 4.0) mit ¤ Wissenssammlungen der Knowledge Communities ¤ Open Data aus Verwaltung, Communities, Webdiensten ¤ Fülle an Information in unstruk- turierten Daten z.B. hochaktuelle Mediendaten
für ... ¤ empirisch gesichterte Entscheidungen in allen Bereichen, in denen unternehmensexterne Faktoren eine Rolle spielen ¤ schnelle Reaktion auf Risikosignale, Verzögerungen, Ausfälle von Zulieferern, Abnehmern, Gläubigern, Transportwegen etc. ¤ bessere Vorhersagen zu Marktentwicklungen, Wettbewerbern, Lieferfähigkeiten, Absatzentwicklungen, Kostenfaktoren ¤ informiertere Planung von Fertigungen, Ansiedlungen, Marketing
für Industrie 4.0
Vier spezielle Pläne ! Schaffen von Plattformen, die Übersetzungstechnologien mit menschlicher Übersetzung, Cloudtechnologien und Crowdsourcing verbinden. ! Zusammenwachsen von mehrsprachiger semantischer Textanalytik und Übersetzung ! Brückenschlag zwischen den Knowledge Communities und den Datennutzern in der Wirtschaft ! Einbettung der semantischen Textanalytik und mehrsprachigkeit in leistungsfähige Big Data Analyse Plattformen wie Flink
7 Jahre in Berlin: Gut angekommen und voll abgefahren VIELEN DANK!
Sie können auch lesen