Plattform des DTA: Texte kuratieren und nachnutzen - Alexander Geyken Team: Matthias Boenig, Alexander Geyken, Susanne Haaf, Bryan Jurish ...
←
→
Transkription von Seiteninhalten
Wenn Ihr Browser die Seite nicht korrekt rendert, bitte, lesen Sie den Inhalt der Seite unten
Plattform des DTA: Texte kuratieren und nachnutzen Alexander Geyken Team: Matthias Boenig, Alexander Geyken, Susanne Haaf, Bryan Jurish, Christian Thomas, Frank Wiegand CLARIN-Zentrum BBAW clarin.bbaw.de, deutschestextarchiv.de 2.2. Hamburg 1
2 • Wie können wir traditioneller arbeitenden Geisteswissenschaftler*innen die Nutzung digitaler Methoden nahebringen? • Welche Möglichkeiten haben wir, die ‘digitalen Bedarfe’ in den geisteswissenschaftlichen Forschungsgemeinschaften zu ermitteln? • Wie können Beratung und Dissemination konkret in Forschung und Lehre umgesetzt werden? • Wie können wir die Nachhaltigkeit von Beratung und Dissemination im Bereich der Digital Humanities sichern?
Gliederung 1. Digitale Historische Quellen: Ausgangspunkt 2. Deutsches Textarchiv-Überblick 3. Text kuratieren und integrieren in das DTA 4. (Recherchieren im DTA) 5. Nachnutzung • Mehrwert Linguistische Annotation • Mehrwert Download-Pakete 6. Perspektiven des DTA für die digitalen Geisteswissenschaften 3
1. Ausgangspunkt: Fehlerhafte Texte Pfeifer: EtymWB (via DWDS): […] faktisch Adj. ‘tatsächlich, wirklich’ (Ende 18. Jh.), meist adverbial gebraucht […] frühester Beleg in GoogleBooks: 1729, http://bit.ly/15pSELY (transkribiert als "saktisch", +Metadatenfehler: Buch ist von 1918…) frühester Beleg "factiſch" im DTA: 1790, http://bit.ly/1dGxKbJ 5
2. DTA: Überblick Ziel: „…einen disziplinenübergreifenden Kernbestand deutschsprachiger Texte aus der Zeit von ca. 1650 bis 1900 nach den Erstausgaben zu digitalisieren und als linguistisch annotiertes Volltextkorpus im Internet bereitzustellen.“ (DFG-Projekt DTA: 2007-2016, www.deutschestextarchiv.de) 6
2. DTA: Aufbau des Kernkorpus • Zeitraum: 1650-1900 • 1500 Werke, ca. 100 Millionen Textwörter • Interoperabel (DTABf) • durchsuchbar 7
8 2. DTA: Ausbau zu einem aktiven Archiv Projekte/Forschende/Studierende, Daten Daten die ihre Daten ... • entsprechend den DTA- Richtlinien erstellen (damit interoperabel sind) • Im DTA korrigieren Daten Daten • im DTA veröffentlichen Daten Daten Voraussetzung für die Texte: • Hohe Datenqualität • Bilder verfügbar • Rechte ausreichend
TEI-Textauszeichnung im DTA TEI-Format für die Auszeichnung von historischen Texten Schema & Dokumentation Ziel: Interoperabilität gewährleisten (Ambiguität vermeiden) DFG-Empfehlung Literatur: https://sprache.hypotheses.org/147
DTABf – Schichten Level 1: notwendig: , , , Level 2: empfohlen: , , Level 3: fakultativ: , Level 4: unzulässig: , , • unterschiedliche editorische Erschließungstiefen • DTA-Kernkorpus: bis Level 2 • Alternativen für unzulässige Elemente
Kollaboratives Arbeiten im DTA Fehler melden (Ticketing System)
Korrekturlesen: kollaborativ Korrektur/Annotation im Text-Modus „Instant-Editor (seitenweise) – xml wird „gekapselt“ http://www.deutschestextarchiv.de/dtaq/book/show/dach_einfaeltig_1653 13
Korrekturlesen: kollaborativ Korrektur/Annotation im XML- Modus (seitenweise) http://www.deutschestextarchiv.de/dtaq/book/show/dach_einfaeltig_1653 14
Zwei kleine Beispiele … Beispiel 1: Einzeltexte beitragen Beispiel 2: Briefe vernetzen 15
16 Beispiel 1: Dortmunder Adambier • im Rahmen einer Kolumne "Braugeschichte digital" habe ich im Newsletter der Gesellschaft für die Geschichte des Brauwesens e.V. (www.ggb-berlin.de) das Projekt DTA vorgestellt (Marcus Schmitz, 03/2017) • Idee: Zeitschriftenbeitrag über das Dortmunder Adambier aus dem Jahre 1869) -> DTABf
1 7 Dortmunder Adambier Adambier DTABf-Text • …Dortmunder Adambier.(aus des Herausgebers Arbeit über deutsche Lokalbiere.) • Die Transkription erfolgte nach den unterhttp://www.deutschestex tarchiv.de/doku/basisformat/mdTran skription.html formulierten Richtlinien. Verfahren der Texterfassung: manuell (einfach erfasst).
Dortmunder Adambier Adambier DTABf-Text • … • Als wir im Dezember 1862 unſere "Schule d. Br." in die Welt ſandten, gaben wir im Vorwort Kunde von unſerem Vorhaben, die deutſchen Lokalbiereaus eigener Anſchauung kennen zu lernen und Alles, was wir darüber erfahrenkonnten, in dieſen Kreiſen mitzutheilen. Heute ſehen wir ein, daß wir dieſes Unternehmen etwas zu leicht genommen haben. Freilich rechneten wir dabei 18
19 Beispiel 2: Daniel Sanders Briefe • http://www.deutschestextarchiv.de/sanders -briefe/
20 Metadaten: correspDesc Volger, Georg Heinrich Otto Frankf urt am Main Sanders, Daniel • … http://correspsearch.net/
21 Briefe vernetzen mit correspSearch
2 2 DTA-Erweiterungen: 1. AEDit Frühe Neuzeit (DFG) 9. ePoetics (BMBF) 2. Augsburger Allgemeine Ztg 10. Erbkam (Akademienprojekt) (Eigenleistung/CLARIN) 11. Erfahrungsseelenkunde 3. AvH auf Reisen (Akademienprojekt) (Eigenleistung/CLARIN) 12. GEI-Digital (DFG) 4. AvH-Kosmos 13. Grenzboten (DFG) (Eigenleistung/CLARIN) 14. Gutenberg-DE (Kuration CLARIN) 5. Blumenbach (Akademienprojekt) 15. Gutenberg.org (Kuration CLARIN) 6. Briefedition Jean Paul 16. Gutzkow Editionsprojekt (University (Akademienprojekt) of Exeter) 7. Digitexte (Univ. Gießen) 17. Goethe-Wörterbuch 8. Dingler (DFG) (Akademienprojekt) 18. Hamburgischer Correspondent (NRW-Landesförderung) 19. HAB Oberhofprediger (DFG)
2 3 DTA-Erweiterungen: 20. Joachim v. Sandrart (DFG) 26. Texte der ersten 21. MKHZ (IDS-Mannheim) Frauenbewegung (Univ. 22. Novellenschatz (Volkswagen- Gießen, Stiftung) Einzelwissenschaftlerin) 23. Nürnberger Texte des späten 27. TextGrid/Zeno-Subkorpus Mittlelalters (DFG) (Kuration CLARIN-D) 24. Peter Schlemihl (Dennerlein, 28. Wikisource-Subkorpus Stipendium BAW) (Kuration CLARIN-D) 25. Ratgeber für ein gutes Leben 29. Wolfenbütteler Digitale (ECHO, MPI) Bibliothek (WDB) (CLARIN- D) 26. Sanders Briefwechsel 30. Div. Einzeltexte (ca. 200 (Einzelwissenschaftler) Einzeltexte: George Adams, 27. SBB Funeralschriften (DFG) 1785 - )
DTA-Erweiterungen: 24
Nachnutzung des DTA Mehrwert 1: einheitlich recherchieren Mehrwert 2: Downloadpakete
26 Software zur Normalisierung (CAB) 1. Transliterierung („lange s“ (ſ) in ein „rundes s“ ) 2. Zurückführung auf eine phonetische Repräsentation (bei unbekannten Wörtern), z. B. die phonetische Form für die Schreibweisen „Theyl“, „Thayl“, „Teyl“, -> [taɪl] -> Teil. 3. Graphematische Ersetzungsregeln: z. B. „gläuben“ als Variante von „glauben“. Für jede historische Wortform das „ähnlichste“ moderne Wort automatisch ermittelt. 4. Ausnahmelexikon → Lemmatisierung der nhdt. Form mit TAGH • Bryan Jurish (2010), "More than words: using token context to improve canonicalization of historical German." Journal for Language Technology and Computational Linguistics, 25(1):23-40
27 Einsatz von CAB • CAB kann als HTTP-basierter Webservice in folgender Weise genutzt werden: • projektintern: Indizierung der (DTA-)Texte • in der Verarbeitungskette von CLARIN-D (WebLicht) in Zusammenhang mit anderen CLARIN-Web-Services • direkt zur Normalisierung: http://www.deutschestextarchiv.de/cab/
DTA – Historische Formen http://kaskade.dwds.de/dstar/dta/lizard.perl?q=Kleid 28
Download DTA-Pakete Downloads gesamt: 2044 (01/2018) 287 dta_kernkorpus 180 dta_komplett 139 dta_komplett_1600-1699 134 dta_kernkorpus_gebrauchsliteratur 132 dta_komplett_gebrauchsliteratur 127 dta_kernkorpus_1800-1899 125 dta_komplett_1800-1899 125 dta_kernkorpus_belletristik 124 dta_komplett_wissenschaft 121 dta_kernkorpus_wissenschaft … http://www.deutschestextarchiv.de/download/ 29
Weitere Perspektiven des DTA für die Digitalen Geisteswissenschaften
31 DTA: Anwendungsgebiete • Linguistik: • DTA als Grundlage für ling. Veröffentlichungen • Ergebnisse der linguistischen Analyse, CAB als Webservice • Literaturwissenschaft: • Digitalisierte Textausgaben, Werke im Kontext • Editionswissenschaft: • Saubere Textvorlagen für die Edition • Geschichtswissenschaft: • Begriffsgeschichte (mit DiaCollo, einem Werkzeug zur Ermittlung diachroner Kollokationen)
DTA in Zahlen • dynamisch wachsend durch Kooperationsprojekte (4268 Werke, 256 Mio. Tokens, davon 120 Mio. Kernkorpus) • Qualitätssicherung: 1307 angemeldete Nutzer in DTAQ, der kollaborativen Qualitätssicherungsplattform des DTA • ~60 wissenschaftliche Publikationen über das DTA (Linguistik, Zeitgeschichte, Kultur- und Literaturwissenschaften) http://www.deutschestextarchiv.de/clarin-kooperationen 32
DTA – Weitere Perspektiven • DTA: 2007-2016 (DFG-gefördert) • Seit 2017: Teil von CLARIN („Nutzungsphase“ (9/2016-8/2020) • Zentrum Sprache (BBAW) ist Koordinator des Kompetenzbereichs „historische Daten“ • DTA-Plattform kann technisch betrieben werden: • Texte nachhaltig in der CLARIN-Infrastruktur (CLARIN-Servicezentrum, Persistenz und Downloadmöglichkeiten) • Schnittstellen (Suche, DTAQ, CAB)
34 Zusammenfassung • DTA als aktives Archiv hochqualitativer historischer Texte (projektübergreifend!) • Interoperabilität durch Best-Practice XML/TEI- basiertes DTA-Basisformat • (möglichst) breite Nachnutzung • Nachhaltigkeit durch CLARIN
Vielen Dank! Kontakt {clarin|dta}@bbaw.de Links • DTA-Web: www.deutschestextarchiv.de + DTAQ: ~/dtaq • DTA-Basisformat: www.deutschestextarchiv.de/doku/basisformat • DiaCollo: http://kaskade.dwds.de/dstar/dta/diacollo/ • BBAW als CLARIN-Zentrum: http://clarin.bbaw.de • Projekt OCR-D: www.ocr-d.de Mehr Publikationen: www.deutschestextarchiv.de/doku/publikationen Blog: http://sprache.hypotheses.org Twitter: @textarchiv
Sie können auch lesen