Lösungen für linguistische Ressourcen im Web: META-NET und META-SHARE
←
→
Transkription von Seiteninhalten
Wenn Ihr Browser die Seite nicht korrekt rendert, bitte, lesen Sie den Inhalt der Seite unten
Lösungen für linguistische Ressourcen im Web: META-NET und META-SHARE Georg Rehm John H. Weitzmann DFKI GmbH, Berlin iRights.Law georg.rehm@dfki.de j.weitzmann@irights-law.de Innovationsforum Semantic Media Web Berlin – 26. September 2013 Co-funded by the 7th Framework Programme and the ICT Policy Support Programme of the European Commission through the contracts T4ME, CESAR, METANET4U, META-NORD (grant agreements no. 249119, 271022, 270893, 270899).
Inhalt q META-NET und das mehrsprachige Europa q Europas Sprachen im digitalen Zeitalter q Sprachressourcen und Sprachtechnologien q META-SHARE q META-TRUST q Schlussfolgerungen http://www.meta-net.eu 2
Das mehrsprachige Europa q Herausforderung: Jeder Sprachgemeinschaft die besten und am weitesten fortgeschrittenen IKT zur Verfügung zu stellen, so dass Nutzung und Pflege der Muttersprache keinen Nachteil darstellen. q Forschung: Gute Fortschritte in den letzten Jahren, aber die Geschwindigkeit des Fortschritts ist nicht schnell genug, um die Herausforderung in den nächsten 10-20 Jahren zu bewältigen. q Alle Beteiligten – Forscher, LT-Industrie (Nutzer, Anbieter), Sprachgemeinschaften, Forschungsförderer, Politik, Verwaltungen etc. – sollten sich in einer strategischen Allianz zusammenschließen, um für einen großen, dedizierten Push zu sorgen. http://www.meta-net.eu 3
Ziel META-NET ist ein Exzellenznetzwerk. Das Ziel: Die technologischen Grundlagen der mehrsprachigen europäischen Informationsgesellschaft zu unterstützen. http://www.meta-net.eu 4
Vier EU-Projekte q Projekt: T4ME ab Feb. 2010 (FP7; 13 Partner, 10 Länder) q Drei ICT-PSP Konsortien ab Feb. 2011: CESAR, METANET4U, META-NORD q Gesamtkosten ca. 19M€ q Alle EU-Mitgliedsstaaten und div. weitere Länder abgedeckt. q META-NET im Sept. 2013: 60 Mitglieder in 34 Ländern. q Die vier Projekte endeten am 31. Januar 2013. Die Initiative läuft weiter. http://www.meta-net.eu/members http://www.meta-net.eu 5
META-FORUM 2013 19./20.09., Berlin http://www.meta-net.eu 6
Europas Sprachen im digitalen Zeitalter http://www.meta-net.eu 7
Language White Paper Serie q “Europe’s Languages in the Digital Age”. q Stand der Sprache im digitalen Zeitalter. 8IJUF 1BQFS 4FSJFT 8FJCVDI4FSJF 5)& (&3."/ %*& %&654$)& q Unterstützung durch Sprachtechnologie. -"/(6"(& */ 413"$)& *. q Gesellschaftliche und technologische 5)& %*(*5"- %*(*5"-&/ "(& ;&*5"-5&3 Probleme; Herausforderungen und Möglichkeiten. "MKPTDIB #VSDIBSEU .BSLVT &HH ,BUISJO &JDIMFS #SJHJUUF ,SFOO +ÚSO ,SFVUFM q Zielgruppe: Entscheider, Journalisten. "OOFUUF -FNÚMMNBOO (FPSH 3FIN .BOGSFE 4UFEF )BOT 6T[LPSFJU 31 Bände zu 30 Sprachen. .BSUJO 7PML q q >200 nationale/regionale Experten. q >8.000 Exemplare an Politiker und Journalisten verteilt. http://www.meta-net.eu/whitepapers http://www.meta-net.eu 8
Sprachübergreifender Vergleich q Grad der Unterstützung für vier Anwendungsgebiete – von „exzellenter Support“ bis hin zu „schwacher/kein Support“: 1. Masch. Übersetzung 2. Gesprochene Sprache 3. Text-Analytics 4. Sprachressourcen q Ergebnisse finalisiert bei einem Treffen von Repräsentanten aller Sprachen (Okt. 2011). http://www.meta-net.eu 9
excellent good moderate fragmentary weak or no support MT Basque, Bulgarian, Croatian, Czech, Danish, Estonian, Finnish, Galician, Catalan, Dutch, German, Hungarian, English French, Spanish Greek, Icelandic, Irish, Latvian, Lithu- Italian, Polish, Romanian anian, Maltese, Norwegian, Portuguese, Serbian, Slovak, Slovene, Swedish Text Analysis excellent good moderate fragmentary weak or no support Basque, Bulgarian, Catalan, Czech, Dutch, French, Danish, Finnish, Galician, Greek, Croatian, Estonian, Icelandic, Irish, English German, Italian, Hungarian, Norwegian, Polish, Latvian, Lithuanian, Maltese, Serbian Spanish Portuguese, Romanian, Slovak, Slovene, Swedish excellent good moderate fragmentary weak or no support Speech Czech, Dutch, Finnish, Basque, Bulgarian, Catalan, Danish, French, German, Estonian, Galician, Greek, Croatian, Icelandic, Latvian, English Italian, Portuguese, Hungarian, Irish, Norwegian, Polish, Lithuanian, Maltese, Romanian Spanish Serbian, Slovak, Slovene, Swedish Resources excellent good moderate fragmentary weak/no support Czech, Dutch, French, Basque, Bulgarian, Catalan, Croatian, German, Hungarian, Danish, Estonian, Finnish, Galician, Icelandic, Irish, Latvian, English Italian, Polish, Greek, Norwegian, Portuguese, Lithuanian, Maltese Spanish, Swedish Romanian, Serbian, Slovak, Slovene http://www.meta-net.eu 10
Digitales Aussterben q Zusammengefasst: 21 europäische Sprachen vom digitalen Aussterben bedroht! q PM veröffentlicht am europäischen Tag der Sprachen (26.09.2012). q Riesiges Interesse an dem Thema und unseren Ergebnissen. q 600+ Nennungen in der Presse. q 50+ Interviews mit Repräsentanten von META-NET (ca. 30 Radiointerviews, ca. 25 Fernsehberichte). q Berichte aus 40+ Ländern in 35+ verschiedenen Sprachen. q Zwei parlamentarische Anfragen im Europaparlament. http://www.meta-net.eu 11
Strategische Forschungsagenda q Drei Prioritätsforschungsthemen. q Zielgruppe: Entscheider in EP/EC. q >190 Beiträger; >2 Jahre. q Beiträger: 54% Industrie; 46% Forschung; 4% nationale und internationale Institutionen. q Präsentiert und diskutiert bei >80 Konferenzen und Workshops. q Publiziert im Januar 2013. q http://www.meta-net.eu/sra http://www.meta-net.eu 12
Prioritätsforschungsthemen q Drei Prioritätsforschungsthemen: § Translingual Cloud § Social Intelligence and e-Participation § Socially-Aware Interactive Assistants q Zwei zusätzliche Themen: § European Service Platform for LT § Core Technologies for Language Analysis and Production http://www.meta-net.eu 13
Sprachressourcen und Sprachtechnologien http://www.meta-net.eu 14
LRs und LTs q Sprachtechnologien (Language Technologies): Software § Tools, Module, Frameworks, Pakete, Applikationen etc. § Aktuelle Sprachtechnologien basieren auf regelbasierten oder auf statistischen Verfahren (maschinelles Lernen) q Sprachressourcen (Language Resources): Daten § Sehr große Datenmengen, Milliarden von Wörtern (GB, tw. TB) § Daten werden manuell, semiautomatisch oder vollautomatisch mit linguistischen Informationen – Metadaten – annotiert (z.B. XML) § Nutzung im Rahmen von maschinellen Lernverfahren http://www.meta-net.eu 15
META-NET META-SHARE http://www.meta-net.eu 16
META-SHARE: Überblick q Es gibt tausende von Sprachressourcen. Zu geringe Sichtbarkeit ist ein riesiges Problem. Ihre Entwicklung ist oftmals extrem teuer. q META-SHARE ist eine offene Infrastruktur für den Austausch von Sprachressourcen und Sprachtechnologien (zentrale Sammelstelle). q Dokumentation, Katalogisierung, Verteilung, Visibilität, Identifizierung, Verfügbarkeit, Nachhaltigkeit, Interoperabilität. q Peer-to-Peer-Repositorys speichern und verwalten Ressourcen. Metadaten werden exportiert und zentral gesammelt. q Ziel: Forschung, Technologieentwicklung und Innovation fördern. q Software-Engineering an 5 Zentren (DFKI, ILSP, CNR, FBK, ELDA). q Derzeit 27 Repositorys und 2.300+ Ressourcen. http://www.meta-net.eu 17
http://www.meta-net.eu 18
META-SHARE: Rechtliches q Language Resources Sharing Charter – Plakative Prinzipien, die sharing and reuse of language resources propagieren. q Licensing Templates – Creative Commons Lizenzen und META- SHARE Commons-Lizenzen (öffentlich vs. netzwerkintern). q Depositor’s Agreement – Der Datenlieferant autorisiert das jeweilige Repository, eine Ressource aufzunehmen und anzubieten. q Memorandum of Understanding – Spezifiziert Mitgliedschaft im META-SHARE-Netzwerk (Managing Nodes vs. Network Nodes vs. Depositors vs. Associate Members) http://www.meta-net.eu 24
META-NET META-TRUST http://www.meta-net.eu 25
Rechtliche Mitspieler q Sprachressourcen: § Primärdaten: Rechteinhaber x (z.B. Verlage, Website-Betreiber etc.) § Sekundärdaten Ebene A: Rechteinhaber y (z.B. Forschungszentrum) § Sekundärdaten Ebene B: Rechteinhaber z (z.B. Universität) § Sekundärdaten Ebene C: ... q META-SHARE: Betreiber der Infrastruktur; Betreiber des Knotens q Nutzer: Forschung vs. Industrie (kommerziell vs. nicht-komm.) q META-TRUST: Rolle des Community-getriebenen Trust-Centers, das unabhängig von Forschungszentren ist, die jeweils einzelne Knoten des META-SHARE-Netzwerks betreiben. http://www.meta-net.eu 26
META-TRUST AISBL q Association internationale sans but lucratif (non-profit organisation) q Rechtliche Person, so dass META-NET Verträge unterzeichnen, Rechte innehaben und Lizenzen vergeben. q Schlanke Hierarchie und Struktur der Mitgliedschaft (Personen!). q Registriert im September 2012 in Antwerpen, Belgien. q Steering Committee: Fünf Mitglieder. q Advisory Board: META-NET Executive Board. q Fungiert als Trust-Center qua Reputation der Mitglieder. q Steigert die Nachhaltigkeit von META-SHARE und der Ressourcen. http://www.meta-trust.eu http://www.meta-net.eu 27
Szenario: Datenbereitstellung entwickelt, implementiert, kontrolliert wird repräsentiert durch legale Person Depositor’s Agreement zwischen X und META-TRUST: X: „Wir geben META-TRUST das nicht-exklusive, nicht widerrufbare Recht, unsere Sprachressource Y durch META-SHARE für Organisation X möchte Sprachressource Y Forschungszwecke anzubieten.“ durch META-SHARE zur Verfügung stellen. META-TRUST: “Wir möchten Y möglichst nachhaltig anbieten. Wir garantieren, dass wir Y nur an diejenigen Nutzer ausliefern, die Y besitzt eine Lizenz eure Lizenzbedingungen explizit akzeptieren. Eure Bedingungen werden an die Nutzer durchgereicht, die sie bestätigen müssen.“ http://www.meta-net.eu 28
Szenario: Download von Daten entwickelt, implementiert, kontrolliert wird repräsentiert durch legale Person Datenlieferant X setzte spezifische Bedingungen. Nutzer Z muss zustimmen. Nutzungsbedingungen von META-SHARE: zeichnet lädt Y herunter Z: „Ich habe die Nutzungsbedingungen Web-Formular gelesen und akzeptiere diese. Ich bin berechtigt, Y zu beziehen. Ich werde Y nur für Forschungszwecke einsetzen Nutzer Z möchte Y über und die Nutzungsbedingungen und META-SHARE herunuterladen Lizenzen von Y berücksichtigen.“ META-TRUST: „Wir sind ein Trust- Center und stellen Sprachressourcen zur Verfügung – von der Community für die Community. Wir fungieren lediglich als Vermittler der Bedingungen der Datenlieferanten.“ http://www.meta-net.eu 29
META-NET Schlussfolgerungen http://www.meta-net.eu 30
Schlussfolgerungen q Ziel von META-SHARE: Sammeln und Anbieten von Ressourcen und Technologien, um Forschung und Innovation zu stimulieren. q Infrastrukturen wie META-SHARE sind hochgradig komplexe Herausforderungen mit verschiedenen Dimensionen: technisch, politisch, kulturell, (wissenschafts)historisch, gesellschaftlich etc. q Eine nachhaltige Lösung benötigt drei bis fünf Jahre – und sehr viele Diskussionen über rechtliche Aspekte, Metadatenschemata, Standards, andere Initiativen etc.; Implementierung, Debugging etc. q Spezielle Details unserer Lösung sind noch immer in Diskussion. q Relevante, bereits existierende Organisationen agieren zögerlich und ängstlich — Überzeugung einiger Kollegen hat Jahre gedauert. http://www.meta-net.eu 31
Q/A Herzlichen Dank! http://www.meta-net.eu Vision Group Translation and Localisation Interactive Systems Vision Group 2010 Vision Group META-NET Website Media and Information Services 2011 8IJUF 1BQFS 4FSJFT -JCVSV ;VSJFO #JMEVNB 2012 5)& #"426& &64,"3" 8IJUF 1BQFS 4FSJFT ˊ˾̛̈́˹ ˺˾̃́̍ ̝̂́˼˹ -"/(6"(& 5)& 4&3#*"/ "30 ˊˉˈˊ˃˂ */*/ˠʿˁ˂˃ 5)& %*(*5"-&"/ 8IJUF 1BQFS 4FSJFT )WÓUCØLBSÚ§ -"/(6"(& 5)& *$&-"/%*$ ¶4-&/4, ˌ %*(*5"- 5)& %*(*5"- 8IJUF 1BQFS 4FSJFT"(& ʾ˂ʽ˂ˋʺ˄ˆˇ˅ 'FIÏS LÚOZWFL TPSP[BU -"/(6"(& 5)& " */ 56/(" ."(:"3 « 5)& %*(*5"- "(& ʾˇʻˌ /:&-745"'3//* *ONBDVMBEB )FSOÈF[ )6/("3*"/ " &WB /BWBT *HPS 0ESJP[PMB "(& ½-% -"/(6"(& */ %*(*5«-*4 %VÝLP 7JUBT ,FQB 4BSBTPMB "SBOU[B %JB[ EF *MBSSB[B -KVCPNJS 1PQPWJŁ*HPS -FUVSJB $WFUBOB ,STUFW "SBDFMJ %JB[ EF -F[BOB 5)& %*(*5"- ,03#"/ *WBO 0CSBEPWJŁ#F×BU 0JIBSU[BCBM &JSÓLVS 3ÚHOWBMETTPO (PSEBOB 1BWMPWJŁ-BäFUJŁ +BTPOF 4BMBCFSSJB ,SJTUÓO . +ØIBOOTEØUUJS "(& .MBEFO 4UBOPKFWJŁ 4JHSÞO )FMHBEØUUJS 4UFJO¢ØS 4UFJOHSÓNTTPO 4JNPO &T[UFS -FOEWBJ 1JSPTLB /ÏNFUI (Ï[B 0MBT[Z (ÈCPS 7JDTJ ,MÈSB Language White Paper Series 453"5&(*$ 3&4&"3$) "(&/%" '03 .6-5*-*/(6"- 2013 &6301& FEJUFE CZ UIF .&5" 5FDIOPMPHZ $PVODJM Strategic Research Agenda http://www.meta-net.eu Horizon 2020 Conne Deliverin 2014-2020 http://www.facebook.com/META.Alliance Transport Energy Connect 32
Sie können auch lesen