DAS GOOGLE-BSB-PROJEKT: MASSENDIGITALISIERUNG MIT MYBIB EDOC - EIN ERFAHRUNGS- UND STATUSBERICHT ZUR "HALBZEIT OHNE PAUSE"

 
WEITER LESEN
DAS GOOGLE-BSB-PROJEKT: MASSENDIGITALISIERUNG MIT MYBIB EDOC - EIN ERFAHRUNGS- UND STATUSBERICHT ZUR "HALBZEIT OHNE PAUSE"
Das Google-BSB-Projekt:
Massendigitalisierung mit MyBib eDoc®

Ein Erfahrungs- und Statusbericht zur „Halbzeit ohne Pause“

Dr. Wilhelm Hilpert                       18.05.2011
DAS GOOGLE-BSB-PROJEKT: MASSENDIGITALISIERUNG MIT MYBIB EDOC - EIN ERFAHRUNGS- UND STATUSBERICHT ZUR "HALBZEIT OHNE PAUSE"
Gliederung des Vortrags

• Daten zur Bayerischen Staatsbibliothek
• Das BSB-Google-Projekt
• Industrielle Massendigitalisierung
• Der Workflow und seine Bewältigung
• Die Workflowdatenbank - WDB
• Projektstand und Erkenntnisse
• Die Digitalisierungsstrategie der Bayerischen Staatsbibliothek
DAS GOOGLE-BSB-PROJEKT: MASSENDIGITALISIERUNG MIT MYBIB EDOC - EIN ERFAHRUNGS- UND STATUSBERICHT ZUR "HALBZEIT OHNE PAUSE"
Die Bayerische Staatsbibliothek

• Zentrale Landes- und Archivbibliothek Bayerns,
  Teil der “virtuellen” deutschen Nationalbibliothek,
  Dienstleister für den Wissenschafts- und
  Wirtschaftsstandort Bayern
• 680 Beschäftigte
• Haushaltsvolumen: 43 Mio. €
• 9.67 Mio. Bände, 57.500 laufende Zeitschriften
• Jährlicher Zuwachs/Zugang: 140.000 Bände
• 91.000 Handschriften (Nr. 4 weltweit),
  20.000 Inkunabeln (Nr. 1 weltweit)
• 1,66 Millionen Besucher jährlich,
  2,4 Millionen zur Verfügung gestellte Dokumente p.a.
• 1558 gegründet
• Öffnungszeiten: 08.00 – 24.00 Uhr
  an allen Wochentagen
DAS GOOGLE-BSB-PROJEKT: MASSENDIGITALISIERUNG MIT MYBIB EDOC - EIN ERFAHRUNGS- UND STATUSBERICHT ZUR "HALBZEIT OHNE PAUSE"
Das klassische Dienstleistungsangebot

                                    2002               2009                2010

Zahl der Nutzer                   49.000    100%     69.000    +41%      71.000    +45%

Öffnungszeiten Lesesaal               74    100%        112    +51%         112    +51%

Zahl der Lesesaalbesuche         489.000    100%   1.118.000   +129%   1.179.000   +141%

Orts- und Lesesaalleihe          1,17 Mio   100%   1,91 Mio    +63%     2,02 Mio   +73%

Informationsdienste / Anfragen    97.000    100%    152.000    +57%     152.000    +57%

Schulungsangebote                    100    100%        343    +243%        440    +340%

Fernleihe / Dokumentlieferung    204.000    100%    393.000    +93%     381.000    +86%
DAS GOOGLE-BSB-PROJEKT: MASSENDIGITALISIERUNG MIT MYBIB EDOC - EIN ERFAHRUNGS- UND STATUSBERICHT ZUR "HALBZEIT OHNE PAUSE"
Public-Private-Partnership

              Worum geht‘s?
              Digitalisierung des urheberrechtsfreien
              Gesamtbestandes der Bayerischen
              Staatsbibliothek, das sind deutlich mehr
              als 1.000.000 Titel
DAS GOOGLE-BSB-PROJEKT: MASSENDIGITALISIERUNG MIT MYBIB EDOC - EIN ERFAHRUNGS- UND STATUSBERICHT ZUR "HALBZEIT OHNE PAUSE"
“Google's mission is to organize the
   world's information and make it
 universally useful and accessible.”
DAS GOOGLE-BSB-PROJEKT: MASSENDIGITALISIERUNG MIT MYBIB EDOC - EIN ERFAHRUNGS- UND STATUSBERICHT ZUR "HALBZEIT OHNE PAUSE"
Confidentiality

„Mutual   Non-Disclosure Agreement“

no numbers
no names
no places
no processes
DAS GOOGLE-BSB-PROJEKT: MASSENDIGITALISIERUNG MIT MYBIB EDOC - EIN ERFAHRUNGS- UND STATUSBERICHT ZUR "HALBZEIT OHNE PAUSE"
Cooperative Agreement: 06.03.2007
„Süddeutsche Zeitung“ am 07-03-2007:

„Die Form der Aneignung von
Wissensquellen, zumal der spezielleren,
erfährt nun auch im Inneren der alten
Bildungslandschaft eine grundlegende
Transformation.“
„Cooperative Agreement“

Basiert auf:
• Europaweite „Bekanntmachung zur Teilnahme im Verhandlungsverfahren“ in
  Tenders Electronic Daily
Enthält:
• Mehr als eine Million Titel
• Projektlaufzeit: Mehrere Jahre
• Standort: Freistaat Bayern
• Keine direkten Kosten für BSB
• Digitale Kopie für die BSB: „Library Digital Copy“
• Angebot über OPAC, WebSite, Internetangebote der BSB
• Via Metadaten Integration in regionale, nationale und internationale Portale und
  Dienste uneingeschränkt möglich
• „Non-Exclusive“
„Cooperative Agreement“

                       Digitalisierung
                durch und auf Kosten von Google

 Google Digital Copy                 Library Digital Copy
Integration in Google Services      Integration in BSB-Angebote
Wo liegen die Vorteile für die BSB?

• Sehr viele Materialien werden sehr rasch ohne direkte Kosten
  digital bereitgestellt („Kritische Masse“)
• Informationsversorgung für Wissenschaft und Studium &
  Visibility des historischen Bestandes der BSB wird signifikant
  optimiert (anywhere/anytime)
• Know-How-Sharing durch Kooperation mit dem größten und
  erfolgreichsten Player im Internet- Business
• Partielle Lösung des drängenden Problems der
  Informationssicherung und Bestandserhaltung gefährdeter
  Materialien.
• Bis heute hat niemand sonst in Europa ein Budget dieser
  Größenordnung auch nur in Aussicht gestellt!
Was erwartet sich                ?

Marissa Mayer, Vice President, Search Products & User
Experience :
„In erster Linie vermarkten wir unser Kernprodukt: die
Suche. Aber all unsere rund 30 Services erhöhen die
Suchanfragen und zahlen letztlich auf die Suche ein.
Einige, etwa die Volltextsuche in Büchern, sorgen für
immensen Content, der durchsucht werden kann. In der
Konsequenz führt das alles zu mehr Klicks auf den
Anzeigen und damit zu höheren Erlösen.“

„Users like Google better!“
Der Nutzer steht an erster
 Stelle und alles Weitere
  ergibt sich von selbst.
„Industrielle“ Massendigitalisierung
• Kein „Selective Picking“: keine Priorisierung bestimmter
  Textcorpora, Systemgruppen, Materialarten etc. Auswahl nur
  nach konservatorischen Kriterien, Formaten oder Copyright
• Standzeiten sind mit sehr hohen Kosten verbunden
• Der Scannvorgang und die Nachbearbeitung sind räumlich und
  zeitlich klar getrennt
• Alle Prozesse der Nachbearbeitung sind in hohem Maße
  automatisiert
• Eine unmittelbar nach dem Scannvorgang stattfindende und
  jede einzelne Seite betreffende Qualitätskontrolle gibt es nicht
• Logistik bestimmt das Procedere und Tempo der Digitaliserung
  (Trucks, Carts, Operating Conditions, Shifts etc. etc.)
• Die Umsatzzahlen sind 10 bis 100 mal höher als bei dem, was
  als Massendigitalisierung bezeichnet wird
Bibliothekarische Herausforderung

• Metadaten aus Retrokonversion
• Kategorisierung der Problemfälle
   – Formale Fehler
     -> Hilfskräfte
   – Schnell behebbare Fehler
     -> Projektteam
   – Schwierige zeitraubende Fehler
     -> Qualitätssicherung der Erschließung
• Mehrmaliges Durcharbeiten des
  Gesamtbestandes
Logistische Herausforderung

• „Buchbewegungen“ an der Bayerischen
  Staatsbibliothek pro Arbeitstag:
  - 6.000 Bände ausheben (für Ortsleihe,
    Ausleihe in 6 Lesesäle, Fernleihe,
    Dokumentlieferung, dienstliche Leihe)
  – 6.000 Bände zurückstellen
  – 5.000 Bände umziehen
  –   500 Bände erstmals einstellen
• ca. 2.800 Buchbewegungen pro Arbeitstag für
  die Massendigitalisierung (Ausheben,
  Rückstellen, Transport von und zur
  Metadatenkorrektur, Transport von und zum
  Institut für Buchrestaurierung)
Logistische Herausforderung

- Organisation eines Workflows mit vielen Beteiligten für die
  Digitalisierung von bis zu 1.000 Büchern und mehr am Tag
- Garantie der Qualität des Workflows und seines
  Ergebnisses: Verfolgen jedes Dokuments bei jedem Schritt
  des Ablaufs
- Erfassung und Dokumentation von Prozessdaten
  (Nichtbearbeitungskennzeichen, Bemerkungen…)
- Die Digitalisierung darf den normalen Benutzungsprozess
  nur geringfügig stören: Nur so viele Bücher wie unbedingt
  nötig sind durch die Digitalisierung aktuell nicht verfügbar

=> Wir brauchen ein Softwarewerkzeug, das uns all dies
 ermöglicht
Funktionen der Workflowdatenbank - WDB

• Gewährleistung der korrekten Zuordnung zwischen zu
  scannendem Objekt, den Metadaten und dem Digitalisat
• Anlegen von Auftragssätzen und Ausdruck von Bestellscheinen
• Erfassung der Gründe, falls ein Dokument nicht gescannt
  werden kann
• Steuerung der Nachbearbeitung (Metadatenkorrektur) falls
  notwendig
• Zusammenstellen einer Charge für eine Tagesproduktion und
  Erfassung aller Bücher in dieser Charge
• Kontrollierte Übergabe der Bücher einer Charge mit Übergabe
  der zugehörigen Metadaten an den Scannservice
• Rücknahme der Bücher vom Scannservice und Überprüfung der
  Vollständigkeit der Bücher
Workflowdatenbank - GoogleZEND

• Übernahme der Digital Library Copy
  von Google durch das MDZ
• Freie Bereitstellung im WWW
• Nachweis im Katalog
• Übertragung der Images und
  Strukturdaten fertig bearbeiteter Bände
  ins Langzeitarchivierungssystem beim
  Leibniz-Rechenzentrum
Aktueller Projektstand (Mai 2011)

• Gesamtzahl der geladenen Aufträge    803.036
• Aufträge „fertig gescannt“           504.793
• Aufträge „wird gescannt“              46.798
 Aufträge „abgelehnt“                   58.538
   – Durch Projektteam                  57.613
   – Durch Google                          925
• Durch IBR bearbeitet                  23.080

=> Führende Rolle der BSB in der Europeana:
90% der digitalen Textwerke aus Deutschland
stammen aus der BSB
450                                                600.000

           Datenvolumen Digitale Objekte (Terabyte)
                                                      400
                                                                                                         500.000
                                                      350

                                                                                                                   Digitalisierte Werke
                                                      300                                                400.000

                                                      250
                                                                                                         300.000
                                                      200

                                                      150                                                200.000

                                                      100
                                                                                                         100.000
                                                      50

                                                       0                                                 0
                                                            2006     2007     2008      2009    2010
Datenvolumen Digitale                                        27       50       103      190      400
Objekte (Terabyte)
Digitalisierte Werke                                        12.000   23.500   35.000   190.000 500.000
Ausleihen eines digitalisierten Bestandes

Jahr                                 2008        2009        2010
Ausleihen des Altbestandes mit
den Erscheinungsjahren 1701
– 1840
                                   11.343       9.532       6.763

Prozentuale Änderung                  100        84,0         59,6

Ausleihen des Altbestandes mit      5.830       5.159       4.453
den Erscheinungsjahren 1501 -
1700

Prozentuale Änderung                  100        88,5         76,4

Ausleihen des                    1.748.000   1.911.000   2.022.000
Gesamtbestandes
Prozentuale Änderung                  100       109,3        115,7
Nutzer / Kunden
  Drittmittel     Digitization   „konserva-      Public-
                  on Demand        torische     Private-
                                   Digitali-   Partnership
                                  sierung“

    Digitalisierungsstrategie
der Bayerischen Staatsbibliothek
Digitalisierungsstrategie der Bayerischen Staatsbibliothek

• Handschriften, Inkunabeln, 16.Jhdt.: Drittmittel DFG
• 16.-20. Jhdt.: Public-Private-Partnership mit Google
  (20. Jhdt. nur soweit Sterbedaten eindeutig;
  Einzelfallprüfung)
• 20./21. Jhdt.: aktuelle Förderprogramme der DFG
  (Nationallizenzen, auch für laufende Zeitschriften;
  Digitalisierung von Sondersammelgebieten etc.)
• Spezielle Kollektionen, Karten, Musikalien etc.: DFG;
  künftig ev. auch Förderprogramme der „Digitalen
  Bibliothek Deutschland“
• METADATEN: Integration in möglichst viele Systeme
Zwei Hauptsäulen der Digitalisierung

• Münchner Digitalisierungszentrum (MDZ)
   – Deutschlandweit führendes Kompetenzzentrum für Digitalisierung
   – Digitalisierung von Handschriften, Rara (z.B. Inkunabeln), Rariora

• Public-Private-Partnership mit Google
   – Werke des 17. bis 19. Jahrhunderts
   – Hohe logistische Anforderungen
   – Reibungsloser Projektverlauf
Der Altbestand der BSB auf einen Blick

                                         Digitale Langzeitarchivierung:

                                         Demnächst Aufnahme des
                                         Routinebetriebes von „Rosetta“

                                         Kooperation mit dem Leibniz
                                         Rechenzentrum (LRZ)
                                         Hoher, exponentiell wachsender
                                         Speicherbedarf.

                                         Derzeitiger Speicherbedarf:
                                         über 400 Terabyte

                                         Erwarteter jährlicher Zuwachs:
                                         über 100 Terabyte
Vielen Dank für Ihre
  Aufmerksamkeit
Sie können auch lesen