DAS GOOGLE-BSB-PROJEKT: MASSENDIGITALISIERUNG MIT MYBIB EDOC - EIN ERFAHRUNGS- UND STATUSBERICHT ZUR "HALBZEIT OHNE PAUSE"
←
→
Transkription von Seiteninhalten
Wenn Ihr Browser die Seite nicht korrekt rendert, bitte, lesen Sie den Inhalt der Seite unten
Das Google-BSB-Projekt: Massendigitalisierung mit MyBib eDoc® Ein Erfahrungs- und Statusbericht zur „Halbzeit ohne Pause“ Dr. Wilhelm Hilpert 18.05.2011
Gliederung des Vortrags • Daten zur Bayerischen Staatsbibliothek • Das BSB-Google-Projekt • Industrielle Massendigitalisierung • Der Workflow und seine Bewältigung • Die Workflowdatenbank - WDB • Projektstand und Erkenntnisse • Die Digitalisierungsstrategie der Bayerischen Staatsbibliothek
Die Bayerische Staatsbibliothek • Zentrale Landes- und Archivbibliothek Bayerns, Teil der “virtuellen” deutschen Nationalbibliothek, Dienstleister für den Wissenschafts- und Wirtschaftsstandort Bayern • 680 Beschäftigte • Haushaltsvolumen: 43 Mio. € • 9.67 Mio. Bände, 57.500 laufende Zeitschriften • Jährlicher Zuwachs/Zugang: 140.000 Bände • 91.000 Handschriften (Nr. 4 weltweit), 20.000 Inkunabeln (Nr. 1 weltweit) • 1,66 Millionen Besucher jährlich, 2,4 Millionen zur Verfügung gestellte Dokumente p.a. • 1558 gegründet • Öffnungszeiten: 08.00 – 24.00 Uhr an allen Wochentagen
Das klassische Dienstleistungsangebot 2002 2009 2010 Zahl der Nutzer 49.000 100% 69.000 +41% 71.000 +45% Öffnungszeiten Lesesaal 74 100% 112 +51% 112 +51% Zahl der Lesesaalbesuche 489.000 100% 1.118.000 +129% 1.179.000 +141% Orts- und Lesesaalleihe 1,17 Mio 100% 1,91 Mio +63% 2,02 Mio +73% Informationsdienste / Anfragen 97.000 100% 152.000 +57% 152.000 +57% Schulungsangebote 100 100% 343 +243% 440 +340% Fernleihe / Dokumentlieferung 204.000 100% 393.000 +93% 381.000 +86%
Public-Private-Partnership Worum geht‘s? Digitalisierung des urheberrechtsfreien Gesamtbestandes der Bayerischen Staatsbibliothek, das sind deutlich mehr als 1.000.000 Titel
“Google's mission is to organize the world's information and make it universally useful and accessible.”
„Süddeutsche Zeitung“ am 07-03-2007: „Die Form der Aneignung von Wissensquellen, zumal der spezielleren, erfährt nun auch im Inneren der alten Bildungslandschaft eine grundlegende Transformation.“
„Cooperative Agreement“ Basiert auf: • Europaweite „Bekanntmachung zur Teilnahme im Verhandlungsverfahren“ in Tenders Electronic Daily Enthält: • Mehr als eine Million Titel • Projektlaufzeit: Mehrere Jahre • Standort: Freistaat Bayern • Keine direkten Kosten für BSB • Digitale Kopie für die BSB: „Library Digital Copy“ • Angebot über OPAC, WebSite, Internetangebote der BSB • Via Metadaten Integration in regionale, nationale und internationale Portale und Dienste uneingeschränkt möglich • „Non-Exclusive“
„Cooperative Agreement“ Digitalisierung durch und auf Kosten von Google Google Digital Copy Library Digital Copy Integration in Google Services Integration in BSB-Angebote
Wo liegen die Vorteile für die BSB? • Sehr viele Materialien werden sehr rasch ohne direkte Kosten digital bereitgestellt („Kritische Masse“) • Informationsversorgung für Wissenschaft und Studium & Visibility des historischen Bestandes der BSB wird signifikant optimiert (anywhere/anytime) • Know-How-Sharing durch Kooperation mit dem größten und erfolgreichsten Player im Internet- Business • Partielle Lösung des drängenden Problems der Informationssicherung und Bestandserhaltung gefährdeter Materialien. • Bis heute hat niemand sonst in Europa ein Budget dieser Größenordnung auch nur in Aussicht gestellt!
Was erwartet sich ? Marissa Mayer, Vice President, Search Products & User Experience : „In erster Linie vermarkten wir unser Kernprodukt: die Suche. Aber all unsere rund 30 Services erhöhen die Suchanfragen und zahlen letztlich auf die Suche ein. Einige, etwa die Volltextsuche in Büchern, sorgen für immensen Content, der durchsucht werden kann. In der Konsequenz führt das alles zu mehr Klicks auf den Anzeigen und damit zu höheren Erlösen.“ „Users like Google better!“
Der Nutzer steht an erster Stelle und alles Weitere ergibt sich von selbst.
„Industrielle“ Massendigitalisierung • Kein „Selective Picking“: keine Priorisierung bestimmter Textcorpora, Systemgruppen, Materialarten etc. Auswahl nur nach konservatorischen Kriterien, Formaten oder Copyright • Standzeiten sind mit sehr hohen Kosten verbunden • Der Scannvorgang und die Nachbearbeitung sind räumlich und zeitlich klar getrennt • Alle Prozesse der Nachbearbeitung sind in hohem Maße automatisiert • Eine unmittelbar nach dem Scannvorgang stattfindende und jede einzelne Seite betreffende Qualitätskontrolle gibt es nicht • Logistik bestimmt das Procedere und Tempo der Digitaliserung (Trucks, Carts, Operating Conditions, Shifts etc. etc.) • Die Umsatzzahlen sind 10 bis 100 mal höher als bei dem, was als Massendigitalisierung bezeichnet wird
Bibliothekarische Herausforderung • Metadaten aus Retrokonversion • Kategorisierung der Problemfälle – Formale Fehler -> Hilfskräfte – Schnell behebbare Fehler -> Projektteam – Schwierige zeitraubende Fehler -> Qualitätssicherung der Erschließung • Mehrmaliges Durcharbeiten des Gesamtbestandes
Logistische Herausforderung • „Buchbewegungen“ an der Bayerischen Staatsbibliothek pro Arbeitstag: - 6.000 Bände ausheben (für Ortsleihe, Ausleihe in 6 Lesesäle, Fernleihe, Dokumentlieferung, dienstliche Leihe) – 6.000 Bände zurückstellen – 5.000 Bände umziehen – 500 Bände erstmals einstellen • ca. 2.800 Buchbewegungen pro Arbeitstag für die Massendigitalisierung (Ausheben, Rückstellen, Transport von und zur Metadatenkorrektur, Transport von und zum Institut für Buchrestaurierung)
Logistische Herausforderung - Organisation eines Workflows mit vielen Beteiligten für die Digitalisierung von bis zu 1.000 Büchern und mehr am Tag - Garantie der Qualität des Workflows und seines Ergebnisses: Verfolgen jedes Dokuments bei jedem Schritt des Ablaufs - Erfassung und Dokumentation von Prozessdaten (Nichtbearbeitungskennzeichen, Bemerkungen…) - Die Digitalisierung darf den normalen Benutzungsprozess nur geringfügig stören: Nur so viele Bücher wie unbedingt nötig sind durch die Digitalisierung aktuell nicht verfügbar => Wir brauchen ein Softwarewerkzeug, das uns all dies ermöglicht
Funktionen der Workflowdatenbank - WDB • Gewährleistung der korrekten Zuordnung zwischen zu scannendem Objekt, den Metadaten und dem Digitalisat • Anlegen von Auftragssätzen und Ausdruck von Bestellscheinen • Erfassung der Gründe, falls ein Dokument nicht gescannt werden kann • Steuerung der Nachbearbeitung (Metadatenkorrektur) falls notwendig • Zusammenstellen einer Charge für eine Tagesproduktion und Erfassung aller Bücher in dieser Charge • Kontrollierte Übergabe der Bücher einer Charge mit Übergabe der zugehörigen Metadaten an den Scannservice • Rücknahme der Bücher vom Scannservice und Überprüfung der Vollständigkeit der Bücher
Workflowdatenbank - GoogleZEND • Übernahme der Digital Library Copy von Google durch das MDZ • Freie Bereitstellung im WWW • Nachweis im Katalog • Übertragung der Images und Strukturdaten fertig bearbeiteter Bände ins Langzeitarchivierungssystem beim Leibniz-Rechenzentrum
Aktueller Projektstand (Mai 2011) • Gesamtzahl der geladenen Aufträge 803.036 • Aufträge „fertig gescannt“ 504.793 • Aufträge „wird gescannt“ 46.798 Aufträge „abgelehnt“ 58.538 – Durch Projektteam 57.613 – Durch Google 925 • Durch IBR bearbeitet 23.080 => Führende Rolle der BSB in der Europeana: 90% der digitalen Textwerke aus Deutschland stammen aus der BSB
450 600.000 Datenvolumen Digitale Objekte (Terabyte) 400 500.000 350 Digitalisierte Werke 300 400.000 250 300.000 200 150 200.000 100 100.000 50 0 0 2006 2007 2008 2009 2010 Datenvolumen Digitale 27 50 103 190 400 Objekte (Terabyte) Digitalisierte Werke 12.000 23.500 35.000 190.000 500.000
Ausleihen eines digitalisierten Bestandes Jahr 2008 2009 2010 Ausleihen des Altbestandes mit den Erscheinungsjahren 1701 – 1840 11.343 9.532 6.763 Prozentuale Änderung 100 84,0 59,6 Ausleihen des Altbestandes mit 5.830 5.159 4.453 den Erscheinungsjahren 1501 - 1700 Prozentuale Änderung 100 88,5 76,4 Ausleihen des 1.748.000 1.911.000 2.022.000 Gesamtbestandes Prozentuale Änderung 100 109,3 115,7
Nutzer / Kunden Drittmittel Digitization „konserva- Public- on Demand torische Private- Digitali- Partnership sierung“ Digitalisierungsstrategie der Bayerischen Staatsbibliothek
Digitalisierungsstrategie der Bayerischen Staatsbibliothek • Handschriften, Inkunabeln, 16.Jhdt.: Drittmittel DFG • 16.-20. Jhdt.: Public-Private-Partnership mit Google (20. Jhdt. nur soweit Sterbedaten eindeutig; Einzelfallprüfung) • 20./21. Jhdt.: aktuelle Förderprogramme der DFG (Nationallizenzen, auch für laufende Zeitschriften; Digitalisierung von Sondersammelgebieten etc.) • Spezielle Kollektionen, Karten, Musikalien etc.: DFG; künftig ev. auch Förderprogramme der „Digitalen Bibliothek Deutschland“ • METADATEN: Integration in möglichst viele Systeme
Zwei Hauptsäulen der Digitalisierung • Münchner Digitalisierungszentrum (MDZ) – Deutschlandweit führendes Kompetenzzentrum für Digitalisierung – Digitalisierung von Handschriften, Rara (z.B. Inkunabeln), Rariora • Public-Private-Partnership mit Google – Werke des 17. bis 19. Jahrhunderts – Hohe logistische Anforderungen – Reibungsloser Projektverlauf
Der Altbestand der BSB auf einen Blick Digitale Langzeitarchivierung: Demnächst Aufnahme des Routinebetriebes von „Rosetta“ Kooperation mit dem Leibniz Rechenzentrum (LRZ) Hoher, exponentiell wachsender Speicherbedarf. Derzeitiger Speicherbedarf: über 400 Terabyte Erwarteter jährlicher Zuwachs: über 100 Terabyte
Vielen Dank für Ihre Aufmerksamkeit
Sie können auch lesen