Plattform des DTA: Texte kuratieren und nachnutzen - Alexander Geyken Team: Matthias Boenig, Alexander Geyken, Susanne Haaf, Bryan Jurish ...

Die Seite wird erstellt Santiago Dietz
 
WEITER LESEN
Plattform des DTA: Texte kuratieren und nachnutzen - Alexander Geyken Team: Matthias Boenig, Alexander Geyken, Susanne Haaf, Bryan Jurish ...
Plattform des DTA: Texte kuratieren
          und nachnutzen
                     Alexander Geyken

   Team: Matthias Boenig, Alexander Geyken, Susanne Haaf,
       Bryan Jurish, Christian Thomas, Frank Wiegand

                    CLARIN-Zentrum BBAW
            clarin.bbaw.de, deutschestextarchiv.de
                          2.2. Hamburg

                                                            1
Plattform des DTA: Texte kuratieren und nachnutzen - Alexander Geyken Team: Matthias Boenig, Alexander Geyken, Susanne Haaf, Bryan Jurish ...
2

    • Wie können wir traditioneller arbeitenden
      Geisteswissenschaftler*innen die Nutzung digitaler
      Methoden nahebringen?
    • Welche Möglichkeiten haben wir, die ‘digitalen
      Bedarfe’ in den geisteswissenschaftlichen
      Forschungsgemeinschaften zu ermitteln?
    • Wie können Beratung und Dissemination konkret
      in Forschung und Lehre umgesetzt werden?
    • Wie können wir die Nachhaltigkeit von Beratung
      und Dissemination im Bereich der Digital
      Humanities sichern?
Plattform des DTA: Texte kuratieren und nachnutzen - Alexander Geyken Team: Matthias Boenig, Alexander Geyken, Susanne Haaf, Bryan Jurish ...
Gliederung

 1.   Digitale Historische Quellen: Ausgangspunkt
 2.   Deutsches Textarchiv-Überblick
 3.   Text kuratieren und integrieren in das DTA
 4.   (Recherchieren im DTA)
 5.   Nachnutzung
      •   Mehrwert Linguistische Annotation
      •   Mehrwert Download-Pakete
 6. Perspektiven des DTA für die digitalen
    Geisteswissenschaften

                                                    3
Plattform des DTA: Texte kuratieren und nachnutzen - Alexander Geyken Team: Matthias Boenig, Alexander Geyken, Susanne Haaf, Bryan Jurish ...
1. Ausgangspunkt: Heterogene Ressourcen

                                          4
Plattform des DTA: Texte kuratieren und nachnutzen - Alexander Geyken Team: Matthias Boenig, Alexander Geyken, Susanne Haaf, Bryan Jurish ...
1. Ausgangspunkt: Fehlerhafte Texte

Pfeifer: EtymWB (via DWDS): […] faktisch Adj. ‘tatsächlich,
wirklich’ (Ende 18. Jh.), meist adverbial gebraucht […]
frühester Beleg in GoogleBooks: 1729, http://bit.ly/15pSELY
(transkribiert als "saktisch", +Metadatenfehler: Buch ist von 1918…)

frühester Beleg "factiſch" im DTA: 1790, http://bit.ly/1dGxKbJ
                                                                       5
Plattform des DTA: Texte kuratieren und nachnutzen - Alexander Geyken Team: Matthias Boenig, Alexander Geyken, Susanne Haaf, Bryan Jurish ...
2. DTA: Überblick

   Ziel: „…einen disziplinenübergreifenden
   Kernbestand deutschsprachiger Texte aus der Zeit
   von ca. 1650 bis 1900 nach den Erstausgaben zu
   digitalisieren und als linguistisch annotiertes
   Volltextkorpus im Internet bereitzustellen.“
              (DFG-Projekt DTA: 2007-2016,
                www.deutschestextarchiv.de)

                                                      6
Plattform des DTA: Texte kuratieren und nachnutzen - Alexander Geyken Team: Matthias Boenig, Alexander Geyken, Susanne Haaf, Bryan Jurish ...
2. DTA: Aufbau des Kernkorpus
 • Zeitraum: 1650-1900
 • 1500 Werke, ca. 100
   Millionen Textwörter
 • Interoperabel (DTABf)
 • durchsuchbar

                                7
Plattform des DTA: Texte kuratieren und nachnutzen - Alexander Geyken Team: Matthias Boenig, Alexander Geyken, Susanne Haaf, Bryan Jurish ...
8

    2. DTA: Ausbau zu einem aktiven Archiv

      Projekte/Forschende/Studierende,
                                         Daten      Daten
      die ihre Daten ...

      •   entsprechend den DTA-
          Richtlinien erstellen (damit
          interoperabel sind)
      •   Im DTA korrigieren
                                            Daten           Daten
      •   im DTA veröffentlichen
                                         Daten      Daten
      Voraussetzung für die Texte:
      • Hohe Datenqualität
      • Bilder verfügbar
      • Rechte ausreichend
Plattform des DTA: Texte kuratieren und nachnutzen - Alexander Geyken Team: Matthias Boenig, Alexander Geyken, Susanne Haaf, Bryan Jurish ...
3. Integration externer Texte in das DTA
Plattform des DTA: Texte kuratieren und nachnutzen - Alexander Geyken Team: Matthias Boenig, Alexander Geyken, Susanne Haaf, Bryan Jurish ...
TEI-Textauszeichnung im DTA

  TEI-Format für die Auszeichnung von
   historischen Texten
  Schema & Dokumentation
  Ziel: Interoperabilität gewährleisten
   (Ambiguität vermeiden)
  DFG-Empfehlung
  Literatur:
   https://sprache.hypotheses.org/147
DTABf – Schichten

    Level 1: notwendig: , , , 
    Level 2: empfohlen: , , 
    Level 3: fakultativ: , 
    Level 4: unzulässig: , , 

 • unterschiedliche editorische Erschließungstiefen
   • DTA-Kernkorpus: bis Level 2
 • Alternativen für unzulässige Elemente
Kollaboratives Arbeiten im DTA

 Fehler melden (Ticketing System)
Korrekturlesen: kollaborativ

                                                    Korrektur/Annotation im Text-Modus
                                                     „Instant-Editor (seitenweise) – xml
                                                     wird „gekapselt“

  http://www.deutschestextarchiv.de/dtaq/book/show/dach_einfaeltig_1653
                                                                                       13
Korrekturlesen: kollaborativ

                                                       Korrektur/Annotation im XML-
                                                        Modus (seitenweise)

  http://www.deutschestextarchiv.de/dtaq/book/show/dach_einfaeltig_1653
                                                                                       14
Zwei kleine Beispiele …

Beispiel 1: Einzeltexte beitragen
Beispiel 2: Briefe vernetzen

                                    15
16

 Beispiel 1: Dortmunder Adambier

     • im Rahmen einer Kolumne
       "Braugeschichte digital" habe ich im
       Newsletter der Gesellschaft für die
       Geschichte des Brauwesens e.V.
       (www.ggb-berlin.de) das
       Projekt DTA vorgestellt
                (Marcus Schmitz, 03/2017)
     • Idee: Zeitschriftenbeitrag über das
       Dortmunder Adambier aus dem Jahre
       1869) -> DTABf
1
7
    Dortmunder Adambier

     Adambier             DTABf-Text
                          •    …Dortmunder
                              Adambier.(aus des Herausgebers
                              Arbeit über deutsche
                              Lokalbiere.)
                          •    Die Transkription
                              erfolgte nach den unterhttp://www.deutschestex
                              tarchiv.de/doku/basisformat/mdTran
                              skription.html formulierten
                              Richtlinien. Verfahren der
                              Texterfassung: manuell (einfach
                              erfasst).
Dortmunder Adambier

 Adambier             DTABf-Text
                      •    …
                      •   Als wir im Dezember 1862
                          unſere "Schule d. Br." in die Welt
                          ſandten, gaben wir im
                          Vorwort Kunde von unſerem
                          Vorhaben, die deutſchen
                          Lokalbiereaus eigener
                          Anſchauung kennen zu lernen
                          und Alles, was wir darüber
                          erfahrenkonnten, in dieſen
                          Kreiſen mitzutheilen. Heute
                          ſehen wir ein, daß wir
                          dieſes Unternehmen etwas
                          zu leicht genommen haben.
                          Freilich rechneten wir dabei

                                                               18
19

 Beispiel 2: Daniel Sanders Briefe

     • http://www.deutschestextarchiv.de/sanders
       -briefe/
20

 Metadaten: correspDesc

       Volger,
       Georg Heinrich Otto
       Frankf
       urt am Main
       
       Sanders,
       Daniel
     • …
     
                 http://correspsearch.net/
21

 Briefe vernetzen mit correspSearch
2
2
    DTA-Erweiterungen:

     1.   AEDit Frühe Neuzeit (DFG)       9. ePoetics (BMBF)
     2.   Augsburger Allgemeine Ztg       10. Erbkam (Akademienprojekt)
          (Eigenleistung/CLARIN)          11. Erfahrungsseelenkunde
     3.   AvH auf Reisen                      (Akademienprojekt)
          (Eigenleistung/CLARIN)          12. GEI-Digital (DFG)
     4.   AvH-Kosmos                      13. Grenzboten (DFG)
          (Eigenleistung/CLARIN)          14. Gutenberg-DE (Kuration CLARIN)
     5.   Blumenbach (Akademienprojekt)   15. Gutenberg.org (Kuration CLARIN)
     6.   Briefedition Jean Paul          16. Gutzkow Editionsprojekt (University
          (Akademienprojekt)                  of Exeter)
     7.   Digitexte (Univ. Gießen)        17. Goethe-Wörterbuch
     8.   Dingler (DFG)                       (Akademienprojekt)
                                          18. Hamburgischer Correspondent
                                              (NRW-Landesförderung)
                                          19. HAB Oberhofprediger (DFG)
2
3
    DTA-Erweiterungen:

     20. Joachim v. Sandrart (DFG)      26. Texte der ersten
     21. MKHZ (IDS-Mannheim)                Frauenbewegung (Univ.
     22. Novellenschatz (Volkswagen-        Gießen,
         Stiftung)                          Einzelwissenschaftlerin)
     23. Nürnberger Texte des späten    27. TextGrid/Zeno-Subkorpus
         Mittlelalters (DFG)                (Kuration CLARIN-D)
     24. Peter Schlemihl (Dennerlein,   28. Wikisource-Subkorpus
         Stipendium BAW)                    (Kuration CLARIN-D)
     25. Ratgeber für ein gutes Leben   29. Wolfenbütteler Digitale
         (ECHO, MPI)                        Bibliothek (WDB) (CLARIN-
                                            D)
     26. Sanders Briefwechsel           30. Div. Einzeltexte (ca. 200
         (Einzelwissenschaftler)            Einzeltexte: George Adams,
     27. SBB Funeralschriften (DFG)         1785 - )
DTA-Erweiterungen:

                     24
Nachnutzung des DTA

Mehrwert 1: einheitlich recherchieren
Mehrwert 2: Downloadpakete
26

 Software zur Normalisierung (CAB)

     1.     Transliterierung („lange s“ (ſ) in ein „rundes s“ )
     2.     Zurückführung auf eine phonetische Repräsentation (bei
            unbekannten Wörtern), z. B. die phonetische Form für die
            Schreibweisen „Theyl“, „Thayl“, „Teyl“, -> [taɪl] -> Teil.
     3.     Graphematische Ersetzungsregeln: z. B. „gläuben“ als
            Variante von „glauben“. Für jede historische Wortform das
            „ähnlichste“ moderne Wort automatisch ermittelt.
     4.     Ausnahmelexikon
           → Lemmatisierung der nhdt. Form mit TAGH

     •    Bryan Jurish (2010), "More than words: using token context to improve
          canonicalization of historical German." Journal for Language Technology
          and Computational Linguistics, 25(1):23-40
27

 Einsatz von CAB

     • CAB kann als HTTP-basierter Webservice
       in folgender Weise genutzt werden:
       • projektintern: Indizierung der (DTA-)Texte
       • in der Verarbeitungskette von CLARIN-D
         (WebLicht) in Zusammenhang mit anderen
         CLARIN-Web-Services
       • direkt zur Normalisierung:
         http://www.deutschestextarchiv.de/cab/
DTA – Historische Formen

        http://kaskade.dwds.de/dstar/dta/lizard.perl?q=Kleid
                                                               28
Download DTA-Pakete

   Downloads gesamt: 2044 (01/2018)
    287 dta_kernkorpus
    180 dta_komplett
    139 dta_komplett_1600-1699
    134 dta_kernkorpus_gebrauchsliteratur
    132 dta_komplett_gebrauchsliteratur
    127 dta_kernkorpus_1800-1899
    125 dta_komplett_1800-1899
    125 dta_kernkorpus_belletristik
    124 dta_komplett_wissenschaft
    121 dta_kernkorpus_wissenschaft
    …

    http://www.deutschestextarchiv.de/download/

                                                  29
Weitere Perspektiven des DTA für die
 Digitalen Geisteswissenschaften
31

 DTA: Anwendungsgebiete

     • Linguistik:
        • DTA als Grundlage für ling. Veröffentlichungen
        • Ergebnisse der linguistischen Analyse, CAB als
          Webservice
     • Literaturwissenschaft:
        • Digitalisierte Textausgaben, Werke im Kontext
     • Editionswissenschaft:
        • Saubere Textvorlagen für die Edition
     • Geschichtswissenschaft:
        • Begriffsgeschichte (mit DiaCollo, einem Werkzeug
          zur Ermittlung diachroner Kollokationen)
DTA in Zahlen

 • dynamisch wachsend durch
   Kooperationsprojekte (4268 Werke, 256
   Mio. Tokens, davon 120 Mio. Kernkorpus)
 • Qualitätssicherung: 1307 angemeldete
   Nutzer in DTAQ, der kollaborativen
   Qualitätssicherungsplattform des DTA
 • ~60 wissenschaftliche Publikationen über
   das DTA (Linguistik, Zeitgeschichte,
   Kultur- und Literaturwissenschaften)
   http://www.deutschestextarchiv.de/clarin-kooperationen

                                                            32
DTA – Weitere Perspektiven

 • DTA: 2007-2016 (DFG-gefördert)
 • Seit 2017: Teil von CLARIN
   („Nutzungsphase“ (9/2016-8/2020)
   • Zentrum Sprache (BBAW) ist Koordinator des
     Kompetenzbereichs „historische Daten“
 • DTA-Plattform kann technisch betrieben
   werden:
   • Texte nachhaltig in der CLARIN-Infrastruktur
     (CLARIN-Servicezentrum, Persistenz und
     Downloadmöglichkeiten)
   • Schnittstellen (Suche, DTAQ, CAB)
34

 Zusammenfassung

     • DTA als aktives Archiv hochqualitativer
       historischer Texte (projektübergreifend!)
     • Interoperabilität durch Best-Practice
       XML/TEI- basiertes DTA-Basisformat
     • (möglichst) breite Nachnutzung
     • Nachhaltigkeit durch CLARIN
Vielen Dank!
                                Kontakt
                          {clarin|dta}@bbaw.de
                                 Links
 •   DTA-Web: www.deutschestextarchiv.de + DTAQ: ~/dtaq
 •   DTA-Basisformat: www.deutschestextarchiv.de/doku/basisformat
 •   DiaCollo: http://kaskade.dwds.de/dstar/dta/diacollo/
 •   BBAW als CLARIN-Zentrum: http://clarin.bbaw.de
 •   Projekt OCR-D: www.ocr-d.de

                                  Mehr
 Publikationen: www.deutschestextarchiv.de/doku/publikationen
 Blog: http://sprache.hypotheses.org
 Twitter: @textarchiv
Sie können auch lesen