Erarbeiten einer verlässlichen Transkription - Berlin-Brandenburgische Akademie der Wissenschaften - Deutsches ...

Die Seite wird erstellt Hanno Falk
 
WEITER LESEN
Erarbeiten einer verlässlichen Transkription - Berlin-Brandenburgische Akademie der Wissenschaften - Deutsches ...
1 / 40

Erarbeiten einer verlässlichen
 Transkription
 Matthias Schulz
 Deutsches Textarchiv
 Berlin-Brandenburgische Akademie der
 Wissenschaften
Erarbeiten einer verlässlichen Transkription - Berlin-Brandenburgische Akademie der Wissenschaften - Deutsches ...
2 / 40

 Ziel
• Gewinnung oder Erstellung einer verlässlichen
 Transkription, die:
 größtmögliche Bewahrung des Vorlagentextes
 bei gleichzeitiger Konzentration auf die
 lexikalischen Gegebenheiten gewährt
Erarbeiten einer verlässlichen Transkription - Berlin-Brandenburgische Akademie der Wissenschaften - Deutsches ...
3 / 40

 Vorüberlegungen
• Urheberrecht
• Digitalisierung
 – Bilddigitalisierung des physischen Exemplars
 – automatische Transkription (OCR)
 – manuelle Transkription
 – Übernahme eines digitalen Textes
 – Kodierung der Transkription
• Metadaten
• intendierte Nutzung
Erarbeiten einer verlässlichen Transkription - Berlin-Brandenburgische Akademie der Wissenschaften - Deutsches ...
4 / 40

 U[h]rheber

Quelle: Weblog zur Veranstaltung “Medienrecht” im Studiengang Medien- und Bildungsmanagement an der Pädagogischen Hochschule Weingarten http://medienrechtblog.files.wordpress.com/2010/05/urheber1.jpg
Erarbeiten einer verlässlichen Transkription - Berlin-Brandenburgische Akademie der Wissenschaften - Deutsches ...
5 / 40

 Bilddigitalisierung
 des physischen Exemplars

Alonso de Casarubios: Compendium privilegiorum fratrum Minorum. Antonius & fratres Leichpredigt/ Uber den Custodierten D. Nicolaum Krell, Welcher den 9. Octobris/
de Sabio, 1532, Original: Bayerische Staatsbibliothek wegen seiner verbrechung/ auff der Römischen Kayserlichen Maiestat Endurtheil/
(http://books.google.de/books?id=R6g5AAAAcAAJ&hl=de&pg=PT129#v=onepage&q&f offentlich zu Dreßden entheuptet worden. Anno Christi M.DCI. / Nikolaus Blume. -
=false) [Online-Ausg.]. - Jehna : Richtzenhan, 1601
 Permalink: http://diglib.hab.de/drucke/k-348-4f-helmst-4s/start.htm
Erarbeiten einer verlässlichen Transkription - Berlin-Brandenburgische Akademie der Wissenschaften - Deutsches ...
6 / 40

 Übernehme eines digitalen Textes
 (OCR Text-Übernahme)

 Schaft-s gesperrt
 Zeilenfall

den russischen Staatskanzler, Fürsten Gortschakof, damit er ihnen die Audienz
beim Czar vermittle. Der russische Kanzler war aber taktvoller als die Wallfahrer
 Schaft-s
und wies diesenicht
 auf den correkten österreichischen Standpunkt, indem er sie
belehrte, daß es schicklich wäre, wegen dieser erbetenen
 Sperrdruck nicht Audienz die Intervention Zeilenfall
 übernommen
des österreichischen Gesandten in Anspruch zu nehmen. Die Wallfahrer mußten in
 übernommen nicht
den sauren Apfel beißen und der österreichische Gesandte vermittelte ihnen die über-
Audienz beim Czar. nommen
Quelle: Gundling von, Julius: Zwischen Krieg und Frieden oder Nach Custozza und Königgrätz ..., Band 3. 1868. S. 99
http://books.google.de/books?id=ZKE7AAAAcAAJ&hl=de&pg=PA99#v=onepage&q&f=false
Erarbeiten einer verlässlichen Transkription - Berlin-Brandenburgische Akademie der Wissenschaften - Deutsches ...
Vorlage 18. Jahrhundert 7 / 40
 Vorlage 19. Jahrhundert

Quelle: Gundling von, Julius: Zwischen Krieg und Frieden oder Nach Quelle: Corvinus, Gottlieb Siegmund: Nutzbares, galantes und
Custozza und Königgrätz ..., Band 3. S. 99 curiöses Frauenzimmer-Lexicon. Leipzig, 1715.
http://books.google.de/books?id=ZKE7AAAAcAAJ&hl=de&pg=PA99#v http://www.deutschestextarchiv.de/dtaq/web/book/view/corvinus_
=onepage&q&f=false frauenzimmer_1715/?hl=Winter&p=641
Erarbeiten einer verlässlichen Transkription - Berlin-Brandenburgische Akademie der Wissenschaften - Deutsches ...
8 / 40

 Vorlagen aus dem 18. und 19. Jahrhundert

• Vorlagen aus dem • Vorlagen aus dem
 18. Jahrhundert 19. Jahrhundert
 – manuelle Erstellung der – durch die Erfindung der
 Buchseiten Druckmaschine
 – große Vielfalt der Typen – Standardisierungen und
 und Typographien Vereinfachungen der
 – unterschiedliche Drucktypen sowie der
 Qualitäten des Druckes Typographie
 und des bedruckten – Druckbild sehr homogen
 Papiers – u.a. dadurch ist die
 – kein homogenes Druckbild Genauigkeit der OCR
 – u.a. dadurch ist die relativ hoch
 Genauigkeit der OCR
 relativ gering
Erarbeiten einer verlässlichen Transkription - Berlin-Brandenburgische Akademie der Wissenschaften - Deutsches ...
9 / 40

 Welche Genauigkeit soll erreicht
 werden?
• Genauigkeiten • Wege zur Transkription
 – Zeichengenauigkeit • automatische Verfahren
 (schmutzige OCR)
 • vorlagengetreu
 • Double-Keying
 – Strukturgenauigkeit
 – nachgelagerte Korrektur-
 und
 Erschließungsarbeiten
Erarbeiten einer verlässlichen Transkription - Berlin-Brandenburgische Akademie der Wissenschaften - Deutsches ...
Vorlage 18. Jahrhundert 10 / 40
 OCR-Ergebnis (Google-Books)
 I2Z7 Marq Marsch

 teibesvonihmnachHaust.
 Einige nennen diese ^lsrquccism
 «uch Aiczulüiu.

 ^arczuetta oder von ^«rquest,
 ^nna. Eine tn Griechischen
 undiateinischen wohl versin« und
 gelehrte Nonne, so zu des berühm-
 ten KoniirundDonauZeitenge-
 lcbet. Sie soll einen artigen
 Vcrß gemacht habe», und ürmo
 1 588«gestorben styn. Vicl. ^>,^u-
 ltir>. -ie !s diiiesa ln«tr. 6e» Ö>-
 merLcan. il. küil>r. 6et^olteklo/z«
 «je l)im. illuttr.ic. l.u6.1ä«ob. Li»
 ^liolk. ko?m.

 «znel SopKiz, gebohrne von
 Gletscher aus teipzig, eine gelehrte
 HMd czuzlirtcirr« D,m« , maßen sie
 sticht nur in her ttiitorie. (Zeo.
 «rapnie, (Zenealogie und l-lerslcli-
 «>, sich eine nicht geringe Wissen-
 ^hafftaeuuirirer, auch jn de^ lvlo»
 «Ine vortrefflich vertlr«, sondern
 «uch der Französischen, Jtaliüni-
 schen und lateinischen Sprache so
 «ohl im Reden «lsSchreiben voll-
 kommen mächtig ift. Was. die
 Z^ors^ anbetrifft, hat sit sich nicht
 nur aus dergleichen ^chrifften ih-
 re eigenen l;«c«/vu gemacht, son-
 Hern corre5oonauchdeßwegen

Quelle: Corvinus, Gottlieb Siegmund: Nutzbares, galantes und
curiöses Frauenzimmer-Lexicon. Leipzig, 1715.
http://www.deutschestextarchiv.de/dtaq/web/book/view/corvinus_
frauenzimmer_1715/?hl=Winter&p=641
11 / 40

 Strukturgenauigkeit
 Layoutanalyse mit OCR manuelle Layoutanalyse

Quelle: Die Grenzboten : Zeitschrift für Politik, Literatur und Kunst, 47. Jahrgang. Zweites Vierteljahr. (VI.5.c.2780-47,2)
(http://brema.suub.uni-bremen.de/grenzboten/periodical/pageview/203413)
12 / 40

 Übernahme eines digitalen Textes

1 Judas wird in der Insel Iscarioth, von 2
 der er den Namen geschöpft, bei Hof
 als ein königlicher Prinz auferzogen, so
 aber bald das gottlose Gemüth durch
 seinen Neid an Tag geben.
 Es lässet sich doch noch reden das
 gemeine Sprichwort: wie größer der
 Schelm, je besser das Glück, zumalen
 dieser Judas von den Meerwellen
 verschont worden und so unverhofft zu
 dieser Würde gelanget, daß er als ein
 königlicher Prinz ist auferzogen worden.
Quellen: Den hat man in eine vergulte Wiegen
1. Bildvorlage der Transkription im DTA gelegt, da ihm doch der Sautrog hätte
( Erstausgabe)
(http://www.deutschestextarchiv.de/dtaq/web/boo
 sollen die Herberg geben; den hat man
k/show/santa_judas01_1686 in die zarteste Windelein eingefätscht,
 da doch dem Unflath die Zigeunerfetzen
2. Textgrid/zeno zu gut waren
http://www.zeno.org/Literatur/M/Abraham+a+Sanc [Transkription nach: Abraham a Sancta Clara: Judas der Erzschelm für
ta+Clara/Predigtliteratur/Judas+der+Erzschelm/Erst ehrliche Leuth, oder eigentlicher Entwurf und Lebensbeschreibung
er+Band/Judas+wird+in+der+Insel+Iscarioth+auferz des Iscariotischen Böswicht. 7 Bände, in: Abraham a St. Clara's
 Sämmtliche Werke, Band 1, Passau: Friedrich Winkler, 1834–1836.]
ogen
13 / 40

 Kodierung
ABCDEFGHIJKLMNOPQRZTUVWXYZ…
• ASCII
 – basiert auf einem 7 Bit Code (1000001 steht für A)
 27 = 128 verschiedene Zeichen
• Windows code page 1252
 – Abweichung zwischen den genannten Codierungen in den
 Positionen 801- 9F16
• ISO 8859
 – 8 Bit Code (01000001 steht für A)
 – 15+1 länderspezifische Erweiterungen
 ab den Positionen (A0hex bis FFhex)
• Unicode
 – jedes Zeichen ist ein Codepunkt zugeordnet
14 / 40

 Windows code pages

 Positionen 801- 9F16

Windows code page 1252 Windows code page 1250
Quelle: Seite „ISO 8859-1“. In: Wikipedia, Die freie Enzyklopädie. Seite „Windows-1250“. In: Wikipedia, Die freie Enzyklopädie.
Bearbeitungsstand: 3. April 2013, 05:39 UTC. URL: Bearbeitungsstand: 4. April 2013, 19:52 UTC. URL:
http://de.wikipedia.org/w/index.php?title=ISO_8859-1&oldid=116727589 http://de.wikipedia.org/w/index.php?title=Windows-1250&oldid=117061130
(Abgerufen: 18. April 2013, 17:26 UTC) (Abgerufen: 18. April 2013, 17:27 UTC)
15 / 40

 Codierung
Unicode codiert : beachten Sie das Wort beschließen

ASCII/ANSI codiert : beachten Sie das Wort beschließen
16 / 40

 Metadaten
• u.a. umfassen die Metadaten:
 – bibliographische Beschreibung der Vorlage
 – Herkunft der Vorlage bzw. des Digitalisates oder
 des digitalen Textes
 – Bei der Übernahme des digitalen Textes:
 Welche Transkriptionsrichtlinien wurden
 verwendet?
 – beteiligte Personen an der Textherstellung
 (Korrektur, Konvertierung…)
17 / 40

 Intendierte Nutzung
• Die Transkription ist nicht Endpunkt sondern
 Anfangspunkt für Ihr Projekt und andere
 Projekte.
• Der transkribierte Text soll ohne
 weitreichende editorische Eingriffe von der
 Vorlage abgenommen werden.
• Es soll möglich sein, den transkribierten Text
 anderen Projekten zur Verfügung zu stellen.
18 / 40

 Ziel: Bewahrung des Vorlagentextes
• Abnahme des Befundes der Quelle
 – auf Zeichenebene:
 • Typographische Besonderheiten:
 – Formatierung: fett, kursiv, …
 – Schriftwechsel: Fraktur, Antiqua
 • Fehler
 – auf Absatzebene
 • Absatzformatierungen: zentriert, rechts- und linksbündig
aus: Bachmeister, Leichenpredigt für Tessen von Parsow, 1614, Image: 0031
(http://www.deutschestextarchiv.de/dtaq/web/book/showbacmeister_predigt_1614)
19 / 40

 Konzentration auf lexikalische
 Gegebenheiten
• Jeder Eingriff kann die lexikalischen
 Gegebenheiten verändern.
• Normalisierung oder editorische Eingriffe
 • können sich auf Zeichen beziehen: ſ -> s; ꝛ -> r
 • können sich auf Absätze beziehen:
 – Aufhebung des Zeilenfalls,
 – Übernahme/Löschung von Seitenzahlen und Kustoden,
 Bogensignaturen und Kolumnentiteln
 • Problem Orthographie:
 Korrektur von Fehlern, Fehlstellen und unklaren
 Lesungen, Normierung, Normalisierungen
20 / 40

 Tiefenerschließung
• inhaltliche Erschließung
 – Erschließung von Zitaten
 – Erschließung von Personen, Orten und Ereignissen
• Textgenese
 – textkritischer Apparat
http://www.deutschestextarchiv.de/doku/richtlinien 21 / 40
22 / 40

 DTA-Richtlinien
• im folgenden werden die DTA-Richtlinien
 vorgestellt (http://www.deutschestextarchiv.de/doku/richtlinien)
 – die Richtlinien beziehen sich vor allem auf den
 Aspekt der Zeichengenauigkeit
 – die aufgeführten Punkte werden aus dieser
 Richtlinie zitiert
23 / 40

 Unterscheidung von I vs. J
 Transkription:

 Jm
 ſelbigen Jahr

Quelle: Die hingerichtete See-Räuber Störtebeck und Gödeke Micheel. Hamburg 1701.
(http://upload.wikimedia.org/wikipedia/commons/c/ca/Vitalienbrueder.jpg)
24 / 40

 Unterscheidung von u und v

Betulius, Sigismundus von: Fried-erfreuete Teutonie. Nürnberg, 1652. Image: 47
(http://www.deutschestextarchiv.de/dtaq/web/book/show/birken_friedensvergleich_1652)

 Braunschweig-Wolfenbüttel, Heinrich Julius von: Hofgerichtsordnung: des durchleuchtigen hochgebornen Fürsten und
 Herrn, Herrn Juliussen, Herzogs zu Braunschweig und Lüneburg. Wolfenbüttel, 1571. Image: 153
 (http://www.deutschestextarchiv.de/dtaq/web/book/show/braunschweig_hofgerichtsordnung_1571)
25 / 40

 s-Grapheme
 Schaft-s +s

 Goethe, Johann Wolfgang von: Versuch die Metamorphose der Pflanzen zu erklären. Gotha: Ettinger, 1790.
 (http://www.deutschestextarchiv.de/dtaq/web/book/show/goethe_metamorphose_1790)
 Schaft-s +z

Rollenhagen, Gabriel: Vier Bücher wunderbarlicher biss daher unerhörter und ungleiblicher indianischer Reysen durch die Lufft,
Wasser, Land, Helle, Paradiss und den himmel. Magdeburg, 1603. Imgae: 188
(http://www.deutschestextarchiv.de/dtaq/web/book/show/rollenhagen_reysen_1603)
Transkription:

läſst oder läſst
26 / 40

 r-Grapheme

Opitz, Martin: Teutsche Pöemata und Aristarchus Wieder die verachtung Teutscher Sprach. Straßburg, 1624. Image: 111
(http://www.deutschestextarchiv.de/dtaq/web/book/show/opitz_poemata_1624)

Lange, Friedrich: Status Christianorum. Erfurt, 1643. Image: 7
(http://www.deutschestextarchiv.de/dtaq/web/book/show/lange_predigt_1643)
Transkription:

HErꝛn
27 / 40

Ligaturen

Rollenhagen, Gabriel: Vier Bücher wunderbarlicher biss daher unerhörter und ungleiblicher indianischer Reysen
durch die Lufft, Wasser, Land, Helle, Paradiss und den himmel. Magdeburg, 1603. Imgae: 285
(http://www.deutschestextarchiv.de/dtaq/web/book/show/rollenhagen_reysen_1603)
Transkription:

Cælius
 Rollenhagen, Gabriel: Vier Bücher wunderbarlicher biss daher unerhörter und ungleiblicher indianischer Reysen
 durch die Lufft, Wasser, Land, Helle, Paradiss und den himmel. Magdeburg, 1603. Imgae: 292
 (http://www.deutschestextarchiv.de/dtaq/web/book/show/rollenhagen_reysen_1603)
 Transkription:

 Comœdia
28 / 40

Umlaute

Rollenhagen, Gabriel: Vier Bücher wunderbarlicher biss daher unerhörter und ungleiblicher indianischer Reysen
durch die Lufft, Wasser, Land, Helle, Paradiss und den himmel. Magdeburg, 1603. Image: 3
(http://www.deutschestextarchiv.de/dtaq/web/book/show/rollenhagen_reysen_1603)

Transkription:

Vier Buͤcher
29 / 40

 Kürzungsstriche

Santa Clara, Abraham a: Judas Der Ertz-Schelm. [Bd. 3]. Salzburg, 1692. Image: 182
(http://www.deutschestextarchiv.de/dtaq/web/book/show/santa_judas03_1692)

 Transkription:

 from̃e
30 / 40

 Diakritika

Niekamp, Johann: Der zum Leyden und Sterben bereitwilliger [...] Herr M. Johannes Ulricus Dörrien [...]. Hildesheim, 1706. Image: 1
(http://www.deutschestextarchiv.de/dtaq/book/show/niekamp_prediger_1706)

 Transkription:

 Michaëlis
31 / 40

 Reservierte Zeichen bei der Strukturierung der
 Transkription mit XML

Schröder, Ernst: Vorlesungen über die Algebra der Logik. Bd. 3, Abt. 1. Leipzig, 1895. Image: 194
(http://www.deutschestextarchiv.de/dtaq/web/book/show/schroeder_logik03_1895)

 Transkription:

 λ > n oder
 λ > 
32 / 40

 Apostrophe

Alexis, Willibald: Ruhe ist die erste Bürgerpflicht oder Vor fünfzig Jahren. Bd. 3. Berlin, 1852. Image: 214
(http://www.deutschestextarchiv.de/dtaq/web/book/show/alexis_ruhe03_1852)

Transkription:

nu's (Apostroph, entgegen der
Empfehlung des Unicode Consortiums)
’ (einfaches Anführungszeichen,
Empfehlung des Unicode Consortiums)
33 / 40

 Weitere Sonderzeichen

Schnitzler, Arthur: Liebelei. Berlin, 1896. Image 136
(http://www.deutschestextarchiv.de/dtaq/web/book/show/schnitzler_liebelei_1896)
34 / 40

 Zahlen

Rein, Johann Justus: Japan nach Reisen und Studien. Bd. 1. Leipzig, 1881. Image: 613
(http://www.deutschestextarchiv.de/dtaq/web/book/show/rein_japan01_1881)

Zeichen Entität
½ U+00BD
⅓ U+2153
⅔ U+2154
¼ U+00BC
¾ U+00BE
35 / 40

 Zeichensetzung

Santa Clara, Abraham a: Judas Der Ertz-Schelm. [Bd. 3]. Salzburg, 1692. Image: 182
(http://www.deutschestextarchiv.de/dtaq/web/book/show/santa_judas03_1692)
36 / 40

 Gedankenstrich

Alexis, Willibald: Ruhe ist die erste Bürgerpflicht oder Vor fünfzig Jahren. Bd. 3. Berlin, 1852. Image: 214
(http://www.deutschestextarchiv.de/dtaq/web/book/show/alexis_ruhe03_1852)
37 / 40

Gedankenstriche
 Zeichen Entität Beschreibung

 Bindestrich/Silbentrennstrich/
- U+002D Minuszeichen (HYPHEN-
 MINUS)

‒ U+2012
 Ziffernstrich (FIGURE
 DASH)

– U+2013
 Halbgeviertstrich (Bisstrich)
 (Gedankenstrich) (EN DASH)

— U+2014
 Geviertstrich (langer
 Gedankenstrich) (EM DASH)
38 / 40

 Silbentrennung

Alexis, Willibald: Ruhe ist die erste Bürgerpflicht oder Vor fünfzig Jahren. Bd. 3. Berlin, 1852. Image: 214
(http://www.deutschestextarchiv.de/dtaq/web/book/show/alexis_ruhe03_1852)

Transkription:

mild- oder OCR-Texte mild¬
39 / 40

Anführungszeichen

 Arndt, Johann: Von wahrem Christenthumb, Bd. 3, Magdeburg, 1610. Image: 18
 (http://www.deutschestextarchiv.de/dtaq/web/book/show/arndt_christentum03_1610)
Transkription:
„Gottes… oder „Gottes
„zeucht… oder „zeucht
„fet … oder „fet
„tet … oder „tet
40 / 40

Anführungszeichen

Zeichen Entität Beschreibung
‘ U+2018 LEFT SINGLE QUOTATION MARK
’ U+2019 RIGHT SINGLE QUOTATION MARK
‚ U+201A SINGLE LOW-9 QUOTATION MARK
‛ U+201B SINGLE HIGH-REVERSED-9 QUOTATION MARK
“ U+201C LEFT DOUBLE QUOTATION MARK
” U+201D RIGHT DOUBLE QUOTATION MARK
„ U+201E DOUBLE LOW-9 QUOTATION MARK
‟ U+201F DOUBLE HIGH-REVERSED-9 QUOTATION MARK
‹ U+2039 SINGLE LEFT-POINTING ANGLE QUOTATION MARK
› U+203A SINGLE RIGHT-POINTING ANGLE QUOTATION MARK
« U+00AB LEFT-POINTING DOUBLE ANGLE QUOTATION MARK
» U+00BB RIGHT-POINTING DOUBLE ANGLE QUOTATION MARK
41 / 40

 Zusammenfassung
• Vorüberlegungen
• Die Transkription gliedert sich in:
 – Vorbereitung
 – Abnahme der Vorlage
 • Zeichenebene
 • Absatzebene
 – Tiefenerschließung.
• Die Transkription wird von den
 Transkriptionsrichtlinien geleitet.
42 / 40

 Dokumente
• DTA-Richtlinien zur Texterfassung
 http://www.deutschestextarchiv.de/doku/richtlinien
• DTA-Basisformat
 http://www.deutschestextarchiv.de/doku/basisformat
Sie können auch lesen