Erarbeiten einer verlässlichen Transkription - Berlin-Brandenburgische Akademie der Wissenschaften - Deutsches ...
←
→
Transkription von Seiteninhalten
Wenn Ihr Browser die Seite nicht korrekt rendert, bitte, lesen Sie den Inhalt der Seite unten
1 / 40 Erarbeiten einer verlässlichen Transkription Matthias Schulz Deutsches Textarchiv Berlin-Brandenburgische Akademie der Wissenschaften
2 / 40 Ziel • Gewinnung oder Erstellung einer verlässlichen Transkription, die: größtmögliche Bewahrung des Vorlagentextes bei gleichzeitiger Konzentration auf die lexikalischen Gegebenheiten gewährt
3 / 40 Vorüberlegungen • Urheberrecht • Digitalisierung – Bilddigitalisierung des physischen Exemplars – automatische Transkription (OCR) – manuelle Transkription – Übernahme eines digitalen Textes – Kodierung der Transkription • Metadaten • intendierte Nutzung
4 / 40 U[h]rheber Quelle: Weblog zur Veranstaltung “Medienrecht” im Studiengang Medien- und Bildungsmanagement an der Pädagogischen Hochschule Weingarten http://medienrechtblog.files.wordpress.com/2010/05/urheber1.jpg
5 / 40 Bilddigitalisierung des physischen Exemplars Alonso de Casarubios: Compendium privilegiorum fratrum Minorum. Antonius & fratres Leichpredigt/ Uber den Custodierten D. Nicolaum Krell, Welcher den 9. Octobris/ de Sabio, 1532, Original: Bayerische Staatsbibliothek wegen seiner verbrechung/ auff der Römischen Kayserlichen Maiestat Endurtheil/ (http://books.google.de/books?id=R6g5AAAAcAAJ&hl=de&pg=PT129#v=onepage&q&f offentlich zu Dreßden entheuptet worden. Anno Christi M.DCI. / Nikolaus Blume. - =false) [Online-Ausg.]. - Jehna : Richtzenhan, 1601 Permalink: http://diglib.hab.de/drucke/k-348-4f-helmst-4s/start.htm
6 / 40 Übernehme eines digitalen Textes (OCR Text-Übernahme) Schaft-s gesperrt Zeilenfall den russischen Staatskanzler, Fürsten Gortschakof, damit er ihnen die Audienz beim Czar vermittle. Der russische Kanzler war aber taktvoller als die Wallfahrer Schaft-s und wies diesenicht auf den correkten österreichischen Standpunkt, indem er sie belehrte, daß es schicklich wäre, wegen dieser erbetenen Sperrdruck nicht Audienz die Intervention Zeilenfall übernommen des österreichischen Gesandten in Anspruch zu nehmen. Die Wallfahrer mußten in übernommen nicht den sauren Apfel beißen und der österreichische Gesandte vermittelte ihnen die über- Audienz beim Czar. nommen Quelle: Gundling von, Julius: Zwischen Krieg und Frieden oder Nach Custozza und Königgrätz ..., Band 3. 1868. S. 99 http://books.google.de/books?id=ZKE7AAAAcAAJ&hl=de&pg=PA99#v=onepage&q&f=false
Vorlage 18. Jahrhundert 7 / 40 Vorlage 19. Jahrhundert Quelle: Gundling von, Julius: Zwischen Krieg und Frieden oder Nach Quelle: Corvinus, Gottlieb Siegmund: Nutzbares, galantes und Custozza und Königgrätz ..., Band 3. S. 99 curiöses Frauenzimmer-Lexicon. Leipzig, 1715. http://books.google.de/books?id=ZKE7AAAAcAAJ&hl=de&pg=PA99#v http://www.deutschestextarchiv.de/dtaq/web/book/view/corvinus_ =onepage&q&f=false frauenzimmer_1715/?hl=Winter&p=641
8 / 40 Vorlagen aus dem 18. und 19. Jahrhundert • Vorlagen aus dem • Vorlagen aus dem 18. Jahrhundert 19. Jahrhundert – manuelle Erstellung der – durch die Erfindung der Buchseiten Druckmaschine – große Vielfalt der Typen – Standardisierungen und und Typographien Vereinfachungen der – unterschiedliche Drucktypen sowie der Qualitäten des Druckes Typographie und des bedruckten – Druckbild sehr homogen Papiers – u.a. dadurch ist die – kein homogenes Druckbild Genauigkeit der OCR – u.a. dadurch ist die relativ hoch Genauigkeit der OCR relativ gering
9 / 40 Welche Genauigkeit soll erreicht werden? • Genauigkeiten • Wege zur Transkription – Zeichengenauigkeit • automatische Verfahren (schmutzige OCR) • vorlagengetreu • Double-Keying – Strukturgenauigkeit – nachgelagerte Korrektur- und Erschließungsarbeiten
Vorlage 18. Jahrhundert 10 / 40 OCR-Ergebnis (Google-Books) I2Z7 Marq Marsch teibesvonihmnachHaust. Einige nennen diese ^lsrquccism «uch Aiczulüiu. ^arczuetta oder von ^«rquest, ^nna. Eine tn Griechischen undiateinischen wohl versin« und gelehrte Nonne, so zu des berühm- ten KoniirundDonauZeitenge- lcbet. Sie soll einen artigen Vcrß gemacht habe», und ürmo 1 588«gestorben styn. Vicl. ^>,^u- ltir>. -ie !s diiiesa ln«tr. 6e» Ö>- merLcan. il. küil>r. 6et^olteklo/z« «je l)im. illuttr.ic. l.u6.1ä«ob. Li» ^liolk. ko?m. «znel SopKiz, gebohrne von Gletscher aus teipzig, eine gelehrte HMd czuzlirtcirr« D,m« , maßen sie sticht nur in her ttiitorie. (Zeo. «rapnie, (Zenealogie und l-lerslcli- «>, sich eine nicht geringe Wissen- ^hafftaeuuirirer, auch jn de^ lvlo» «Ine vortrefflich vertlr«, sondern «uch der Französischen, Jtaliüni- schen und lateinischen Sprache so «ohl im Reden «lsSchreiben voll- kommen mächtig ift. Was. die Z^ors^ anbetrifft, hat sit sich nicht nur aus dergleichen ^chrifften ih- re eigenen l;«c«/vu gemacht, son- Hern corre5oonauchdeßwegen Quelle: Corvinus, Gottlieb Siegmund: Nutzbares, galantes und curiöses Frauenzimmer-Lexicon. Leipzig, 1715. http://www.deutschestextarchiv.de/dtaq/web/book/view/corvinus_ frauenzimmer_1715/?hl=Winter&p=641
11 / 40 Strukturgenauigkeit Layoutanalyse mit OCR manuelle Layoutanalyse Quelle: Die Grenzboten : Zeitschrift für Politik, Literatur und Kunst, 47. Jahrgang. Zweites Vierteljahr. (VI.5.c.2780-47,2) (http://brema.suub.uni-bremen.de/grenzboten/periodical/pageview/203413)
12 / 40 Übernahme eines digitalen Textes 1 Judas wird in der Insel Iscarioth, von 2 der er den Namen geschöpft, bei Hof als ein königlicher Prinz auferzogen, so aber bald das gottlose Gemüth durch seinen Neid an Tag geben. Es lässet sich doch noch reden das gemeine Sprichwort: wie größer der Schelm, je besser das Glück, zumalen dieser Judas von den Meerwellen verschont worden und so unverhofft zu dieser Würde gelanget, daß er als ein königlicher Prinz ist auferzogen worden. Quellen: Den hat man in eine vergulte Wiegen 1. Bildvorlage der Transkription im DTA gelegt, da ihm doch der Sautrog hätte ( Erstausgabe) (http://www.deutschestextarchiv.de/dtaq/web/boo sollen die Herberg geben; den hat man k/show/santa_judas01_1686 in die zarteste Windelein eingefätscht, da doch dem Unflath die Zigeunerfetzen 2. Textgrid/zeno zu gut waren http://www.zeno.org/Literatur/M/Abraham+a+Sanc [Transkription nach: Abraham a Sancta Clara: Judas der Erzschelm für ta+Clara/Predigtliteratur/Judas+der+Erzschelm/Erst ehrliche Leuth, oder eigentlicher Entwurf und Lebensbeschreibung er+Band/Judas+wird+in+der+Insel+Iscarioth+auferz des Iscariotischen Böswicht. 7 Bände, in: Abraham a St. Clara's Sämmtliche Werke, Band 1, Passau: Friedrich Winkler, 1834–1836.] ogen
13 / 40 Kodierung ABCDEFGHIJKLMNOPQRZTUVWXYZ… • ASCII – basiert auf einem 7 Bit Code (1000001 steht für A) 27 = 128 verschiedene Zeichen • Windows code page 1252 – Abweichung zwischen den genannten Codierungen in den Positionen 801- 9F16 • ISO 8859 – 8 Bit Code (01000001 steht für A) – 15+1 länderspezifische Erweiterungen ab den Positionen (A0hex bis FFhex) • Unicode – jedes Zeichen ist ein Codepunkt zugeordnet
14 / 40 Windows code pages Positionen 801- 9F16 Windows code page 1252 Windows code page 1250 Quelle: Seite „ISO 8859-1“. In: Wikipedia, Die freie Enzyklopädie. Seite „Windows-1250“. In: Wikipedia, Die freie Enzyklopädie. Bearbeitungsstand: 3. April 2013, 05:39 UTC. URL: Bearbeitungsstand: 4. April 2013, 19:52 UTC. URL: http://de.wikipedia.org/w/index.php?title=ISO_8859-1&oldid=116727589 http://de.wikipedia.org/w/index.php?title=Windows-1250&oldid=117061130 (Abgerufen: 18. April 2013, 17:26 UTC) (Abgerufen: 18. April 2013, 17:27 UTC)
15 / 40 Codierung Unicode codiert : beachten Sie das Wort beschließen ASCII/ANSI codiert : beachten Sie das Wort beschließen
16 / 40 Metadaten • u.a. umfassen die Metadaten: – bibliographische Beschreibung der Vorlage – Herkunft der Vorlage bzw. des Digitalisates oder des digitalen Textes – Bei der Übernahme des digitalen Textes: Welche Transkriptionsrichtlinien wurden verwendet? – beteiligte Personen an der Textherstellung (Korrektur, Konvertierung…)
17 / 40 Intendierte Nutzung • Die Transkription ist nicht Endpunkt sondern Anfangspunkt für Ihr Projekt und andere Projekte. • Der transkribierte Text soll ohne weitreichende editorische Eingriffe von der Vorlage abgenommen werden. • Es soll möglich sein, den transkribierten Text anderen Projekten zur Verfügung zu stellen.
18 / 40 Ziel: Bewahrung des Vorlagentextes • Abnahme des Befundes der Quelle – auf Zeichenebene: • Typographische Besonderheiten: – Formatierung: fett, kursiv, … – Schriftwechsel: Fraktur, Antiqua • Fehler – auf Absatzebene • Absatzformatierungen: zentriert, rechts- und linksbündig aus: Bachmeister, Leichenpredigt für Tessen von Parsow, 1614, Image: 0031 (http://www.deutschestextarchiv.de/dtaq/web/book/showbacmeister_predigt_1614)
19 / 40 Konzentration auf lexikalische Gegebenheiten • Jeder Eingriff kann die lexikalischen Gegebenheiten verändern. • Normalisierung oder editorische Eingriffe • können sich auf Zeichen beziehen: ſ -> s; ꝛ -> r • können sich auf Absätze beziehen: – Aufhebung des Zeilenfalls, – Übernahme/Löschung von Seitenzahlen und Kustoden, Bogensignaturen und Kolumnentiteln • Problem Orthographie: Korrektur von Fehlern, Fehlstellen und unklaren Lesungen, Normierung, Normalisierungen
20 / 40 Tiefenerschließung • inhaltliche Erschließung – Erschließung von Zitaten – Erschließung von Personen, Orten und Ereignissen • Textgenese – textkritischer Apparat
http://www.deutschestextarchiv.de/doku/richtlinien 21 / 40
22 / 40 DTA-Richtlinien • im folgenden werden die DTA-Richtlinien vorgestellt (http://www.deutschestextarchiv.de/doku/richtlinien) – die Richtlinien beziehen sich vor allem auf den Aspekt der Zeichengenauigkeit – die aufgeführten Punkte werden aus dieser Richtlinie zitiert
23 / 40 Unterscheidung von I vs. J Transkription: Jm ſelbigen Jahr Quelle: Die hingerichtete See-Räuber Störtebeck und Gödeke Micheel. Hamburg 1701. (http://upload.wikimedia.org/wikipedia/commons/c/ca/Vitalienbrueder.jpg)
24 / 40 Unterscheidung von u und v Betulius, Sigismundus von: Fried-erfreuete Teutonie. Nürnberg, 1652. Image: 47 (http://www.deutschestextarchiv.de/dtaq/web/book/show/birken_friedensvergleich_1652) Braunschweig-Wolfenbüttel, Heinrich Julius von: Hofgerichtsordnung: des durchleuchtigen hochgebornen Fürsten und Herrn, Herrn Juliussen, Herzogs zu Braunschweig und Lüneburg. Wolfenbüttel, 1571. Image: 153 (http://www.deutschestextarchiv.de/dtaq/web/book/show/braunschweig_hofgerichtsordnung_1571)
25 / 40 s-Grapheme Schaft-s +s Goethe, Johann Wolfgang von: Versuch die Metamorphose der Pflanzen zu erklären. Gotha: Ettinger, 1790. (http://www.deutschestextarchiv.de/dtaq/web/book/show/goethe_metamorphose_1790) Schaft-s +z Rollenhagen, Gabriel: Vier Bücher wunderbarlicher biss daher unerhörter und ungleiblicher indianischer Reysen durch die Lufft, Wasser, Land, Helle, Paradiss und den himmel. Magdeburg, 1603. Imgae: 188 (http://www.deutschestextarchiv.de/dtaq/web/book/show/rollenhagen_reysen_1603) Transkription: läſst oder läſst
26 / 40 r-Grapheme Opitz, Martin: Teutsche Pöemata und Aristarchus Wieder die verachtung Teutscher Sprach. Straßburg, 1624. Image: 111 (http://www.deutschestextarchiv.de/dtaq/web/book/show/opitz_poemata_1624) Lange, Friedrich: Status Christianorum. Erfurt, 1643. Image: 7 (http://www.deutschestextarchiv.de/dtaq/web/book/show/lange_predigt_1643) Transkription: HErꝛn
27 / 40 Ligaturen Rollenhagen, Gabriel: Vier Bücher wunderbarlicher biss daher unerhörter und ungleiblicher indianischer Reysen durch die Lufft, Wasser, Land, Helle, Paradiss und den himmel. Magdeburg, 1603. Imgae: 285 (http://www.deutschestextarchiv.de/dtaq/web/book/show/rollenhagen_reysen_1603) Transkription: Cælius Rollenhagen, Gabriel: Vier Bücher wunderbarlicher biss daher unerhörter und ungleiblicher indianischer Reysen durch die Lufft, Wasser, Land, Helle, Paradiss und den himmel. Magdeburg, 1603. Imgae: 292 (http://www.deutschestextarchiv.de/dtaq/web/book/show/rollenhagen_reysen_1603) Transkription: Comœdia
28 / 40 Umlaute Rollenhagen, Gabriel: Vier Bücher wunderbarlicher biss daher unerhörter und ungleiblicher indianischer Reysen durch die Lufft, Wasser, Land, Helle, Paradiss und den himmel. Magdeburg, 1603. Image: 3 (http://www.deutschestextarchiv.de/dtaq/web/book/show/rollenhagen_reysen_1603) Transkription: Vier Buͤcher
29 / 40 Kürzungsstriche Santa Clara, Abraham a: Judas Der Ertz-Schelm. [Bd. 3]. Salzburg, 1692. Image: 182 (http://www.deutschestextarchiv.de/dtaq/web/book/show/santa_judas03_1692) Transkription: from̃e
30 / 40 Diakritika Niekamp, Johann: Der zum Leyden und Sterben bereitwilliger [...] Herr M. Johannes Ulricus Dörrien [...]. Hildesheim, 1706. Image: 1 (http://www.deutschestextarchiv.de/dtaq/book/show/niekamp_prediger_1706) Transkription: Michaëlis
31 / 40 Reservierte Zeichen bei der Strukturierung der Transkription mit XML Schröder, Ernst: Vorlesungen über die Algebra der Logik. Bd. 3, Abt. 1. Leipzig, 1895. Image: 194 (http://www.deutschestextarchiv.de/dtaq/web/book/show/schroeder_logik03_1895) Transkription: λ > n oder λ >
32 / 40 Apostrophe Alexis, Willibald: Ruhe ist die erste Bürgerpflicht oder Vor fünfzig Jahren. Bd. 3. Berlin, 1852. Image: 214 (http://www.deutschestextarchiv.de/dtaq/web/book/show/alexis_ruhe03_1852) Transkription: nu's (Apostroph, entgegen der Empfehlung des Unicode Consortiums) ’ (einfaches Anführungszeichen, Empfehlung des Unicode Consortiums)
33 / 40 Weitere Sonderzeichen Schnitzler, Arthur: Liebelei. Berlin, 1896. Image 136 (http://www.deutschestextarchiv.de/dtaq/web/book/show/schnitzler_liebelei_1896)
34 / 40 Zahlen Rein, Johann Justus: Japan nach Reisen und Studien. Bd. 1. Leipzig, 1881. Image: 613 (http://www.deutschestextarchiv.de/dtaq/web/book/show/rein_japan01_1881) Zeichen Entität ½ U+00BD ⅓ U+2153 ⅔ U+2154 ¼ U+00BC ¾ U+00BE
35 / 40 Zeichensetzung Santa Clara, Abraham a: Judas Der Ertz-Schelm. [Bd. 3]. Salzburg, 1692. Image: 182 (http://www.deutschestextarchiv.de/dtaq/web/book/show/santa_judas03_1692)
36 / 40 Gedankenstrich Alexis, Willibald: Ruhe ist die erste Bürgerpflicht oder Vor fünfzig Jahren. Bd. 3. Berlin, 1852. Image: 214 (http://www.deutschestextarchiv.de/dtaq/web/book/show/alexis_ruhe03_1852)
37 / 40 Gedankenstriche Zeichen Entität Beschreibung Bindestrich/Silbentrennstrich/ - U+002D Minuszeichen (HYPHEN- MINUS) ‒ U+2012 Ziffernstrich (FIGURE DASH) – U+2013 Halbgeviertstrich (Bisstrich) (Gedankenstrich) (EN DASH) — U+2014 Geviertstrich (langer Gedankenstrich) (EM DASH)
38 / 40 Silbentrennung Alexis, Willibald: Ruhe ist die erste Bürgerpflicht oder Vor fünfzig Jahren. Bd. 3. Berlin, 1852. Image: 214 (http://www.deutschestextarchiv.de/dtaq/web/book/show/alexis_ruhe03_1852) Transkription: mild- oder OCR-Texte mild¬
39 / 40 Anführungszeichen Arndt, Johann: Von wahrem Christenthumb, Bd. 3, Magdeburg, 1610. Image: 18 (http://www.deutschestextarchiv.de/dtaq/web/book/show/arndt_christentum03_1610) Transkription: „Gottes… oder „Gottes „zeucht… oder „zeucht „fet … oder „fet „tet … oder „tet
40 / 40 Anführungszeichen Zeichen Entität Beschreibung ‘ U+2018 LEFT SINGLE QUOTATION MARK ’ U+2019 RIGHT SINGLE QUOTATION MARK ‚ U+201A SINGLE LOW-9 QUOTATION MARK ‛ U+201B SINGLE HIGH-REVERSED-9 QUOTATION MARK “ U+201C LEFT DOUBLE QUOTATION MARK ” U+201D RIGHT DOUBLE QUOTATION MARK „ U+201E DOUBLE LOW-9 QUOTATION MARK ‟ U+201F DOUBLE HIGH-REVERSED-9 QUOTATION MARK ‹ U+2039 SINGLE LEFT-POINTING ANGLE QUOTATION MARK › U+203A SINGLE RIGHT-POINTING ANGLE QUOTATION MARK « U+00AB LEFT-POINTING DOUBLE ANGLE QUOTATION MARK » U+00BB RIGHT-POINTING DOUBLE ANGLE QUOTATION MARK
41 / 40 Zusammenfassung • Vorüberlegungen • Die Transkription gliedert sich in: – Vorbereitung – Abnahme der Vorlage • Zeichenebene • Absatzebene – Tiefenerschließung. • Die Transkription wird von den Transkriptionsrichtlinien geleitet.
42 / 40 Dokumente • DTA-Richtlinien zur Texterfassung http://www.deutschestextarchiv.de/doku/richtlinien • DTA-Basisformat http://www.deutschestextarchiv.de/doku/basisformat
Sie können auch lesen