Integration von Valenzdaten in die grammatische Analyse unter Verwendung des Valency Dictionary of English
←
→
Transkription von Seiteninhalten
Wenn Ihr Browser die Seite nicht korrekt rendert, bitte, lesen Sie den Inhalt der Seite unten
Motivation und Zielsetzung Valenzbegriff des VDE Lexikonstruktur Anwendungsperspektiven Ausblick Integration von Valenzdaten in die grammatische Analyse unter Verwendung des Valency Dictionary of English Thomas Proisl 5. November 2008 Thomas Proisl Integration von Valenzdaten in die grammatische Analyse unter Verwendung des Valency Dictionary of English
Motivation und Zielsetzung Valenzbegriff des VDE Lexikonstruktur Anwendungsperspektiven Ausblick Überblick 1 Motivation und Zielsetzung Motivation Zielsetzung 2 Valenzbegriff des VDE Grundlagen Complements 3 Lexikonstruktur Struktur der gedruckten Ausgabe XML-Version von de Gruyter Neues Lexikonformat 4 Anwendungsperspektiven Beispielgrammatik Schwierigkeiten, Probleme und offene Fragen 5 Ausblick Thomas Proisl Integration von Valenzdaten in die grammatische Analyse unter Verwendung des Valency Dictionary of English
Motivation und Zielsetzung Valenzbegriff des VDE Lexikonstruktur Anwendungsperspektiven Ausblick Motivation Sprachliche Phänomene (1) Beispiele (BNC) The man was a master at manipulation [. . . ]! [H]e was hardly the amateur in politics that his critics suggested. Keine Korpusbelege für a master in something oder a master in doing something. Keine Belege für an amateur at something. Hence many books on the technique of ethnography have been written by those with a background in police research [. . . ]. Warum book on sth., technique of sth., background in sth.? Trotz ähnlicher semantischer Rolle (Thema o. ä.) verschiedene formale Realisierungen. Thomas Proisl Integration von Valenzdaten in die grammatische Analyse unter Verwendung des Valency Dictionary of English
Motivation und Zielsetzung Valenzbegriff des VDE Lexikonstruktur Anwendungsperspektiven Ausblick Motivation Sprachliche Phänomene (2) Beispiele (BNC) Ramsey described him as a character, without popular appeal, donnish, with no great interest in his big rural diocese, but full of wisdom and learning, and eager for friendship with young men. Warum full of something aber eager for something? to elect somebody as president to elect somebody president to choose somebody as president *to choose somebody president Warum verhalten sich elect und choose verschieden? Thomas Proisl Integration von Valenzdaten in die grammatische Analyse unter Verwendung des Valency Dictionary of English
Motivation und Zielsetzung Valenzbegriff des VDE Lexikonstruktur Anwendungsperspektiven Ausblick Zielsetzung Schlussfolgerungen und Zielsetzung Schwer zu generalisierende, wortspezifische Phänomene. Unvorhersehbar für den menschlichen Lerner wie für den Computer. Menschlicher Lerner muss Unregelmäßigkeiten erlernen, Computer benötigt ein Lexikon. Phänomene werden unter dem Begriff der Valenz zusammengefasst. Das Valency Dictionary of English (Herbst et al., 2004) enthält Valenzbeschreibungen für 1329 Wörter. Das VDE liegt in elektronischer Form vor. Ziel: Nutzbarmachung der Daten für computerlinguistische Anwendungen durch explizite und transparente Kodierung. Thomas Proisl Integration von Valenzdaten in die grammatische Analyse unter Verwendung des Valency Dictionary of English
Aufbau der Magisterarbeit Die Entwicklung des Valenzbegriffs Valenzidee vor Tesnière, Valenzbegriff Tesnières, Entwicklung nach Tesnière, Valenzbegriff in der Anglistik, Valenzbegriff des VDE. Valenz in generativen Grammatiksystemen Kategorialgrammatik, Head-Driven Phrase Structure Grammar, Linksassoziative Grammatik. Valenzressourcen für das Englische VDE (Druck), elektronische Ressourcen (COMLEX, VALEX, FrameNet, VDE (Spohr, 2004), VDE (Mouton de Gruyter, 2008)), Entwurf des neuen Formats. Bearbeitung der elektronischen Version des VDE Von den Ausgangsdaten zu validierendem XML, Sammeln und Überführen der Daten, Evaluation, Export der Daten. Verwendungsperspektiven in der grammatischen Analyse Minimale Beispielgrammatik, Schwierigkeiten, Probleme und offene Fragen.
Motivation und Zielsetzung Valenzbegriff des VDE Lexikonstruktur Anwendungsperspektiven Ausblick Grundlagen Grundlagen der Valenztheorie (1) Unterscheidung zwischen Valenzträger und Valenzfüller Verb nimmt zentrale Rolle im Satz ein, da es Art und Anzahl der anderen Elemente festlegt, die vorkommen müssen, um einen grammatikalischen Satz zu bilden. Beispiel I put paper and kindling by the fire last night. *I put by the fire. *I put paper and kindling. Thomas Proisl Integration von Valenzdaten in die grammatische Analyse unter Verwendung des Valency Dictionary of English
Motivation und Zielsetzung Valenzbegriff des VDE Lexikonstruktur Anwendungsperspektiven Ausblick Grundlagen Grundlagen der Valenztheorie (2) Unterscheidung zwischen complements (Ergänzungen) und adjuncts (Angaben): complements: Abhängig von der Valenz des Verbs adjuncts: Können relativ frei vorkommen, sind in ihrer Form nicht vom Verb abhängig Beispiel I put paper and kindling by the fire at 5 p.m. I put paper and kindling by the fire then. I put paper and kindling by the fire before I went to bed. Thomas Proisl Integration von Valenzdaten in die grammatische Analyse unter Verwendung des Valency Dictionary of English
Motivation und Zielsetzung Valenzbegriff des VDE Lexikonstruktur Anwendungsperspektiven Ausblick Complements Form der complements (1) Herbst et al. (2004), S. xxv Both for theoretical and lexicographical purposes, complements are best described in terms of formal categories such as phrases and clauses. Es gibt keine prepositional verbs, sondern prepositional complements. Beispiel Hannah’s always told me everything. She’ll get him to tell her about the girls at Slade. Thomas Proisl Integration von Valenzdaten in die grammatische Analyse unter Verwendung des Valency Dictionary of English
Motivation und Zielsetzung Valenzbegriff des VDE Lexikonstruktur Anwendungsperspektiven Ausblick Complements Form der complements (2) Complex complements Beispiel No, he didn’t want her to come. He persuaded her to come. What did he want? aber *What did he persuade? → complex complement [N to-INF] Kategorie ADV I put paper and kindling by the fire last night. by the fire / there / onto the logs / where they belong Complements besitzen formale Eigenschaften von adjuncts, sind aber obligatorische Elemente des Valenzmusters des Verbs. Thomas Proisl Integration von Valenzdaten in die grammatische Analyse unter Verwendung des Valency Dictionary of English
Motivation und Zielsetzung Valenzbegriff des VDE Lexikonstruktur Anwendungsperspektiven Ausblick Complements Obligatorische und optionale complements Drei Arten von necessity : Communicative necessity: Ein Element ist in einem bestimmten Kontext wichtig, damit die Aussage Sinn macht. Structural necessity: Bestimmte clauses benötigen bestimmte Elemente. Ein declarative clause benötigt bspw. ein Subjekt, ein Imperativ oder Infinitiv nicht. Necessity at the level of valency: Das governing word benötigt bestimmte Elemente. Auf der Valenzebene: Obligatory complements Optional complements Contextually optional complements Thomas Proisl Integration von Valenzdaten in die grammatische Analyse unter Verwendung des Valency Dictionary of English
Der complement block
Der pattern-and-examples block
Motivation und Zielsetzung Valenzbegriff des VDE Lexikonstruktur Anwendungsperspektiven Ausblick Struktur der gedruckten Ausgabe Der note block Thomas Proisl Integration von Valenzdaten in die grammatische Analyse unter Verwendung des Valency Dictionary of English
Motivation und Zielsetzung Valenzbegriff des VDE Lexikonstruktur Anwendungsperspektiven Ausblick Struktur der gedruckten Ausgabe Der phrasal verb block Thomas Proisl Integration von Valenzdaten in die grammatische Analyse unter Verwendung des Valency Dictionary of English
Beziehungen und Abhängigkeiten im VDE complement block pattern-and-examples block senses pattern number participants frequency obligatoriness pattern(s) realizations senses links to patterns examples semantic roles uses not covered further uses examples realizations meaning description links to patterns note block phrasal verb block senses pattern meaning description examples description of participants meaning description links to patterns
Motivation und Zielsetzung Valenzbegriff des VDE Lexikonstruktur Anwendungsperspektiven Ausblick XML-Version von de Gruyter XML-Version von de Gruyter Setzt nahezu alle Relationen der Druckversion genau um. Kein Verweis zwischen Bedeutungen des complement blocks und pattern blocks (kann rekonstruiert werden). Senses sind den examples untergeordnet (im Gegensatz zur Druckversion). Aber: Einige Informationen fehlen im Moment oder sind nicht explizit gemacht (z. B. semantische Rollen). Verweissystem über IDs und IDREFs nicht verwendbar (u. a. mehrfach vergebene IDs). Thomas Proisl Integration von Valenzdaten in die grammatische Analyse unter Verwendung des Valency Dictionary of English
Stark vereinfachte Darstellung des Schemas valency_dictionary_of_english verb_entry adjective_entry noun_entry na_content complement_block pattern_block note_block phrasal_verb_block sense_unit further_uses note ... letter pattern argref meaning_type number meaning used_in_pattern frequency complement used_in_phrasal_verb example number sense specification type frequency realization
Motivation und Zielsetzung Valenzbegriff des VDE Lexikonstruktur Anwendungsperspektiven Ausblick Neues Lexikonformat Neues Lexikonformat (1) Allgemeine Modellierungsprinzipien: Elemente Informationen, die sich weiter untergliedern lassen. Attribute Merkmale mit spezifischer, aufzählbarer Wertemenge. Text Nicht weiter zerlegbare, nicht aufzählbare Informationen. Einheiten der pattern-Beschreibung: (Manuelle) Atomisierung der Einzelpatterns. Wegfall der Beschreibungsebene der pattern number (Gleichbehandlung aller patterns). Gleichbehandlung von phrasal verbs. Ursprüngliche Zusammengehörigkeit bleibt rekonstruierbar. Thomas Proisl Integration von Valenzdaten in die grammatische Analyse unter Verwendung des Valency Dictionary of English
Motivation und Zielsetzung Valenzbegriff des VDE Lexikonstruktur Anwendungsperspektiven Ausblick Neues Lexikonformat Neues Lexikonformat (2) Gruppierung der Inhalte: Aufgabe der didaktisch motivierten Aufteilung des VDE. Zusammengruppierung aller syntaktischen Informationen unter einen syntax-tag und aller semantischer Informationen unter einen semantics-tag. Gruppierung der semantischen Informationen in dieser Arbeit nicht realisiert (Daten des note blocks teilweise redundant, teilweise unvollständig, teilweise nicht automatisch extrahierbar und teilweise ohne manuelle Anpassungen nicht sinnvoll in ein sprachverarbeitendes System integrierbar). Unveränderte Übernahme des note blocks für eventuelle zukünftige (großteils manuelle) Integration der Daten. Explizite Zuordnung von complements zu participants/arguments. Thomas Proisl Integration von Valenzdaten in die grammatische Analyse unter Verwendung des Valency Dictionary of English
Motivation und Zielsetzung Valenzbegriff des VDE Lexikonstruktur Anwendungsperspektiven Ausblick Neues Lexikonformat Verhältnis von senses und patterns (1) Beispiele (BNC) (1a) No policeman seemed brave enough to bar his way. (A: block) (1b) [T]he practice of medicine was based on possession of a university education, from which women were barred. (B: exclude) (2a) Phalanxes of East German border guards barred the way to Westerners [. . . ]. (A: block) (2b) [. . . ]; in Bournemouth the conductor of the municipal symphony orchestra barred pieces by Shostakovitch from being played. (B: exclude) In 1a und 1b pattern + NP mit senses A und B. In 2a pattern + NP + to N nur mit sense A. In 2b pattern + NP + from N/V-ing nur mit sense B. Thomas Proisl Integration von Valenzdaten in die grammatische Analyse unter Verwendung des Valency Dictionary of English
Motivation und Zielsetzung Valenzbegriff des VDE Lexikonstruktur Anwendungsperspektiven Ausblick Neues Lexikonformat Verhältnis von senses und patterns (2) VDE (S. xxxv; xxxviii [. . . ] valency is a property of particular senses of words in that every sense has its own valency structures [. . . ]. The sense distinctions given are intended to serve as explanations of the use of the words in the patterns listed. Tendenz zu erster Sichtweise erkennbar (vgl. Lexikonstruktur). Aber: Wörterbücher zielen nicht nur auf lexikalische Semantik (meaning1 ), sondern auch auf Verwendungssituationen (meaning2 ). Abhängig von arbiträren lexikographischen Entscheidungen. Valenzmuster sind beobachtbar, daher hier zweite Sichtweise (Modellierungen äquivalent). Thomas Proisl Integration von Valenzdaten in die grammatische Analyse unter Verwendung des Valency Dictionary of English
Vereinfachte Darstellung des Lexikonschemas lexicon entry id pos headword original_data verbforms examples id origpatterns note_block semantics example past_tense past_participle origpattern ... id syntax id sense origpattern origpatternnr id invented pattern sense usedininstr. id avmin* oicfc * frequency avmax* attributive elempattern pvmin* predicative jslimpattern pvmax* origpattern note description senseref complements meaning_type id argument senseref complement id examplerefs id argument position semantic_role comparg subject_restrictions subjecthood obligatoriness compref plurality argumentrefs subject_restriction id alternative subjecthood plurality argumentref * avmin/avmax = active_valency_minimum/active_valency_maximum pvmin/pvmax = passive_valency_minimum/passive_valency_maximum oifc = onlyifclearfromcontext
Motivation und Zielsetzung Valenzbegriff des VDE Lexikonstruktur Anwendungsperspektiven Ausblick Beispielgrammatik Präpositionalergänzungen Präpositionalergänzungen sind hochfrequent. Beispielgrammatik zur Abdeckung folgender Sätze: Beispiele The opposition blamed Tehran. China blamed London for the crisis. They blamed the murder on the authorities. Thomas Proisl Integration von Valenzdaten in die grammatische Analyse unter Verwendung des Valency Dictionary of English
Motivation und Zielsetzung Valenzbegriff des VDE Lexikonstruktur Anwendungsperspektiven Ausblick Beispielgrammatik Lexikoneintrag des Verbs 3 von 4 patterns: + N, + NP + for N, + NP + on N. + NP + for V-ing weggelassen. Integration der Subjektrestriktionen in das pattern. Nichtberücksichtigung semantischer Informationen (semantische Rollen). sur: blamed verb: blame D E cat: (n_a’ n_p’ v) (n_a’ n_p’ for_n’ v) (n_a’ n_p’ on_n’ v) sem: (past/perf) mdr: () arg: () Thomas Proisl Integration von Valenzdaten in die grammatische Analyse unter Verwendung des Valency Dictionary of English
Lexikoneinträge der Präpositionen sur: for noun: for n_1 D E cat: (n’ for_n) (n_p’ for_n_p) sem: () mdr: () fnc: () sur: on noun: on n_2 D E cat: (n’ on_n) (n_p’ on_n_p) sem: () mdr: () fnc: ()
Motivation und Zielsetzung Valenzbegriff des VDE Lexikonstruktur Anwendungsperspektiven Ausblick Beispielgrammatik Ableitung Die Kategoriesegmente for_n und on_n kürzen die Valenzstellen for_n’ und on_n’. Sie eröffnen jeweils eine neue Valenzstelle n’. Ergebnis des Parsens: sur: sur: sur: sur: noun: China verb: blame noun: London noun: for crisis cat: (nm) cat: (nm) (for_n) cat: (decl) cat: sem: (ntr) sem: (ntr) (def sg) sem: (past/perf) sem: mdr: () mdr: () mdr: () mdr: () fnc: (blame) arg: (China London crisis) fnc: (blame) fnc: (blame) Thomas Proisl Integration von Valenzdaten in die grammatische Analyse unter Verwendung des Valency Dictionary of English
Motivation und Zielsetzung Valenzbegriff des VDE Lexikonstruktur Anwendungsperspektiven Ausblick Schwierigkeiten, Probleme und offene Fragen „Synchronisationskomponente“ der Datenbanksemantik ontological distinction part of speech logical notion object noun argument relation verb functor property adjective modifier Prepositional complements (CGEL) werden ontologisch als Objekt, logisch als Argument betrachtet, müssen also Substantiv sein. Trennung von higher proposition und lower proposition für + for V-ing: Kategorie n/v. Wie mit folgendem Lexikoneintrag umgehen? Es kann nur einen Attributbezeichner geben: < (n’ for_n) (v-ing’ for_v-ing) >. Lediglich Verben können Funktoren sein – wie soll Substantiv- und Adjektivvalenz kodiert werden? Thomas Proisl Integration von Valenzdaten in die grammatische Analyse unter Verwendung des Valency Dictionary of English
Motivation und Zielsetzung Valenzbegriff des VDE Lexikonstruktur Anwendungsperspektiven Ausblick Schwierigkeiten, Probleme und offene Fragen Umgang mit lexikalisch kodierter Passivierbarkeit Beispiele (BNC) Agassiz later became the foremost zoological teacher in the United States [. . . ]. *The foremost zoological teacher was become by Agassiz. Beecham bought UHU [. . . ]. UHU was bought by Beecham. CGEL: Unterscheidung von subject complement und direct object. Behandlung des Passivs in Linksassoziativen Grammatiken bisher über Regeln. Verwendung lexikalischer Informationen erhöht deskriptive Adäquatheit (weniger Übergenerierung). Thomas Proisl Integration von Valenzdaten in die grammatische Analyse unter Verwendung des Valency Dictionary of English
Motivation und Zielsetzung Valenzbegriff des VDE Lexikonstruktur Anwendungsperspektiven Ausblick Schwierigkeiten, Probleme und offene Fragen Behandlung der Wortstellung Beispiel (BNC) For this he was posthumously awarded the Military Cross. Pattern: (n_p’ n_p’ for_n’ v), Subjektrestriktion n_a’. Wortstellung kann variieren (z. B. Topikalisierung). I wasn’t really what you’d call a public schoolboy [. . . ] Pattern: (n_p’ n’ v), Subjektrestriktion n_a’. „Subject raising“. Thomas Proisl Integration von Valenzdaten in die grammatische Analyse unter Verwendung des Valency Dictionary of English
Motivation und Zielsetzung Valenzbegriff des VDE Lexikonstruktur Anwendungsperspektiven Ausblick Schwierigkeiten, Probleme und offene Fragen Schwer verwertbare Angaben (1) Beispiele (BNC) Prentice leaned forward and put his mug on the table. *He put his mug in the table. He put his mug in the dishwasher. Pattern: + NP + ADV. Wahl der Präposition nicht vom Valenzträger sondern vom head des prepositional complements (CGEL) bestimmt. Auflistung aller kompatibler Präpositionen unter table und dishwasher ? Problem der semantisch-pragmatischen Interpretation, nicht der Syntax (Tisch mit Schubladen)? Da im VDE nicht weiter restringiert, führt Verwendung der Kategorie zu Übergenerierung. Thomas Proisl Integration von Valenzdaten in die grammatische Analyse unter Verwendung des Valency Dictionary of English
Motivation und Zielsetzung Valenzbegriff des VDE Lexikonstruktur Anwendungsperspektiven Ausblick Schwierigkeiten, Probleme und offene Fragen Schwer verwertbare Angaben (2) Angaben wie often in combinations oder only in combinations: Beispiele (BNC) Equity market imperfections make companies risk-averse [. . . ]. Angegebene patterns gelten nur für Wortkombinationen wie Komposita. Entsprechende Valenzinformationen müssen Morphologiekomponente zur Verfügung gestellt werden. Nichtzulassung von Verwendungen die mit only in combinations markiert sind, wenn Wort alleine steht. Korrekte Bestimmung der Valenz von Komposita. Thomas Proisl Integration von Valenzdaten in die grammatische Analyse unter Verwendung des Valency Dictionary of English
Motivation und Zielsetzung Valenzbegriff des VDE Lexikonstruktur Anwendungsperspektiven Ausblick Schwierigkeiten, Probleme und offene Fragen Schwer verwertbare Angaben (3) N: QUANT (in 95 patterns) „a phrase expressing an amount, quantity or percentage“. 25 pence, $7 000, more than £4m, 900, a full two inches, a quarter, about fifteen minutes, a little, two tenths of a pfennig, a lifetime, . . . Verallgemeinerung auf Nominalphrasen deckt nicht alle Fälle ab: The price of wool was down a little. Thomas Proisl Integration von Valenzdaten in die grammatische Analyse unter Verwendung des Valency Dictionary of English
Motivation und Zielsetzung Valenzbegriff des VDE Lexikonstruktur Anwendungsperspektiven Ausblick Schwierigkeiten, Probleme und offene Fragen Schwer verwertbare Angaben (4) Unclear restrictions: In patterns: Elemente in eckigen Klammern, die vor dem headword stehen müssen; etwa: it, the, there, a, in, at a, have, if, be, take, on, let, . . . Weitere Formalisierung/Aufbereitung für Integration nötig (z. B. explizite Kodierung als Verb, Subjekt, etc.). Anmerkungen: usually passive, usually past participle, verb form: to judge/judging, often: into N, usually negative, often: how or what, usually: + at N or + in N, . . . Nicht formalisiert, enthalten aber teilweise wichtige Informationen. Kodierung im Lexikon, (gewichtete) Regeln oder Variablenrestriktionen. Thomas Proisl Integration von Valenzdaten in die grammatische Analyse unter Verwendung des Valency Dictionary of English
Motivation und Zielsetzung Valenzbegriff des VDE Lexikonstruktur Anwendungsperspektiven Ausblick Ausblick Ausgangspunkt für datenbasierte valenztheoretische Untersuchungen: Verfügen Lexemgruppen mit gleichen patterns über semantische Ähnlichkeiten? Verfügen alle Lexeme mit pattern a auch über pattern b? Kann ein Argument, das als complement x realisiert wird, stets auch als complement y realisiert werden? Weiterer Ausbau der Daten: Mehr semantische Informationen integrieren (note block). Stärker formalisierte Charakterisierungen der participants/arguments ermöglicht Überprüfung semantischer Restriktionen. Verbindung mit formaler Ontologie. Participants/arguments könnten durch Verweis auf Konzepte charakterisiert werden. Thomas Proisl Integration von Valenzdaten in die grammatische Analyse unter Verwendung des Valency Dictionary of English
Motivation und Zielsetzung Valenzbegriff des VDE Lexikonstruktur Anwendungsperspektiven Ausblick Literatur Hausser, Roland (2006): A Computational Model of Natural Language Communication. Interpretation, Inference, and Production in Database Semantics. Berlin, Heidelberg, New York: Springer. Herbst, Thomas / Heath, David / Roe, Ian F. / Götz, Dieter (2004): A Valency Dictionary of English. A Corpus-Based Analysis of the Complementation Patterns of English Verbs, Nouns and Adjectives. Berlin, New York: Mouton de Gruyter. Proisl, Thomas (2008): Integration von Valenzdaten in die grammatische Analyse unter Verwendung des Valency Dictionary of English. Magisterarbeit. Friedrich-Alexander-Universität Erlangen-Nürnberg: Philosophische Fakultät und Fachbereich Theologie. Thomas Proisl Integration von Valenzdaten in die grammatische Analyse unter Verwendung des Valency Dictionary of English
Sie können auch lesen