"Digitale Nachlässe: Herausforderungen, Workflow und Erhaltung" - Symposium "Handschriften und Alte Drucke" Blaubeuren, 20. Oktober 2014 ...

Die Seite wird erstellt Alexander Schulz
 
WEITER LESEN
"Digitale Nachlässe: Herausforderungen, Workflow und Erhaltung" - Symposium "Handschriften und Alte Drucke" Blaubeuren, 20. Oktober 2014 ...
»Digitale Nachlässe:
Herausforderungen, Workflow
und Erhaltung«

11. Symposium »Handschriften und Alte Drucke«
Blaubeuren, 20. Oktober 2014
heinz.werner.kramski@dla-marbach.de
"Digitale Nachlässe: Herausforderungen, Workflow und Erhaltung" - Symposium "Handschriften und Alte Drucke" Blaubeuren, 20. Oktober 2014 ...
Vorstellung

1990:
EDV-Referent DLA
Marbach
1984:
Programmieren in PL/1,
WWU Münster
"Digitale Nachlässe: Herausforderungen, Workflow und Erhaltung" - Symposium "Handschriften und Alte Drucke" Blaubeuren, 20. Oktober 2014 ...
Vorstellung

Lochkarten:
Keine Herausforderung für
die konventionelle (Papier-)
Bestandserhaltung.
Leider sind wir nicht dabei
geblieben…
"Digitale Nachlässe: Herausforderungen, Workflow und Erhaltung" - Symposium "Handschriften und Alte Drucke" Blaubeuren, 20. Oktober 2014 ...
Sammelauftrag für Digitale Objekte

»Die Sammlungen überliefern Zeugnisse der Entstehung,
Verbreitung, Wirkung, Deutung und Erforschung
literarischer und geistesgeschichtlich bedeutsamer Werke
und des Lebens und Denkens ihrer Autorinnen und
Autoren in handschriftlicher und gedruckter, bildlicher und
gegenständlicher, audiovisueller und digitaler Form.«
[DLA 2005]
"Digitale Nachlässe: Herausforderungen, Workflow und Erhaltung" - Symposium "Handschriften und Alte Drucke" Blaubeuren, 20. Oktober 2014 ...
Digitale Bestandserhaltung
                 Into the Future. On the Preservation of Knowledge
                 in the Electronic Age.

  »If William Shakespeare had written Hamlet
  on a word processor, or...
  If Thomas Jefferson had saved his drafts
  of the Declaration of Independence
  with a computer text editor, or...
  If Alexander Graham Bell had documented
  his experiments with the telephone
  on floppy disks, or...
  If Leonardo da Vinci had used a computer graphics system
  to create the Mona Lisa...
  Would Their Great Achievements Still Be Available To Us Today?« [CLIR 1997]
"Digitale Nachlässe: Herausforderungen, Workflow und Erhaltung" - Symposium "Handschriften und Alte Drucke" Blaubeuren, 20. Oktober 2014 ...
Das Mengenproblem
»Print, film, magnetic, and optical storage media produced about
5 exabytes of new information in 2002.«

»How big is five exabytes? [...] five exabytes of information is
equivalent in size to the information contained in half a million new
libraries the size of the Library of Congress print collections.«

»Ninety-two percent of new information is stored on magnetic media,
primarily hard disks. Film represents 7% of the total, paper 0.01%, and
optical media 0.002%.«
[Lyman 2003]
"Digitale Nachlässe: Herausforderungen, Workflow und Erhaltung" - Symposium "Handschriften und Alte Drucke" Blaubeuren, 20. Oktober 2014 ...
Das Mengenproblem

Bildquelle [Gantz 2008]
"Digitale Nachlässe: Herausforderungen, Workflow und Erhaltung" - Symposium "Handschriften und Alte Drucke" Blaubeuren, 20. Oktober 2014 ...
Das qualitative Problem
Mit einer gewissen Verzögerung erreicht dieser Trend die
Gedächtnisorganisationen, die ihre traditionellen Aufgaben der
Bewahrung, Erschließung und Bereitstellung nun auf digitale Objekte
ausdehnen müssen, die einen immer relevanteren Teil ihres
Sammelgebiets bilden.

Die Erhaltung digitaler Information wirft gegenüber traditionellem
Material wie Film oder Papier jedoch völlig neue Fragen auf:
"Digitale Nachlässe: Herausforderungen, Workflow und Erhaltung" - Symposium "Handschriften und Alte Drucke" Blaubeuren, 20. Oktober 2014 ...
Das qualitative Problem
»As far as our internal administration was concerned, these disks
[floppy disks, zip disks, CDs and DVDs] were already accessioned,
usually as part of much larger, mostly paper-based collections and
following protocols established for analog collections. But this only
makes sense logically if you consider disks—or digital media of any
sort—to be items in collections, deserving of the same consideration
we might give to individual documents. It is more appropriate, I submit,
to think of digital media as containers of items which require the kind
of archival administration we might normally reserve for boxes in a
collection. In this sense, the data (files and folders) found in these
containers had not been accessioned at all.« [Goldman 2011]
"Digitale Nachlässe: Herausforderungen, Workflow und Erhaltung" - Symposium "Handschriften und Alte Drucke" Blaubeuren, 20. Oktober 2014 ...
Eigenschaften digitaler Objekte
1. Unikal, privat vs. mehrfach vorhanden, publiziert
2. Analog, digitalisierbar vs. genuin digital (born digital)
3. Trägergebunden, on-site (offline), abgeschlossen vs. trägerlos,
   online, verzweigt
4. Statisch vs. interaktiv
Unikal, privat                            mehrfach vorhanden, publiziert

Unikal, privat                            mehrfach vorhanden, publiziert

         Heinz.Werner.Kramski@DLA‐Marbach.de 15.5.2011
Probleme digitaler Objekte

          Äußerliche Alterung von Datenträgern
Probleme digitaler Objekte

  Innere Degradation von Datenträgern (Entmagnetisierung, chemischer Zerfall)
Probleme digitaler Objekte

       Obsoleszenz von Laufwerken und Abspielumgebungen
Probleme digitaler Objekte

                                                              Bildquelle: NN (»aus dem Internet«)
       Flüchtigkeit und Verzweigtheit von Online-Dokumenten
Probleme digitaler Objekte

                                                       Bildquelle: NN (»aus dem Internet«)
         Variantenreichtum von interaktiven Objekten
Probleme digitaler Objekte

      Wirtschaftlich getriebene Obsoleszenz von Dateiformaten
Obsoleszenz
•   Obsoleszenz der Dateiformate (Dateiformat: Interpretation des
    Bitstroms durch ein Anwendungsprogramm)
•   Proprietäre Dateiformate zur Kundenbindung an bestimmte
    Softwareprodukte
•   Dateiformate und Anwendungen ohne große Rücksicht auf
    Abwärtskompatibilität, um Kaufanreize für neue
    Anwendungsversionen zu schaffen
•   Die Interoperabilität mit Alternativprodukten schon zum Zeitpunkt
    der aktiven Nutzung bewusst erschwert
•   Für exotische Formate besteht für andere Hersteller wenig Anreiz,
    aufwändig Importfilter zu entwickeln
Was ist »Langzeitarchivierung«?

• Backup: »Schnappschuss«
• Archivierung: Zurückgehen zu einem wohldefinierten
  Zustand auf demselben System.
• Langzeitarchivierung: Erhaltung der Information/
  Benutzbarkeit über Technikbrüche/
  -generationen hinweg.
 http://www.langzeitarchivierung.de/
 Nestor-Handbuch: Eine kleine
  Enzyklopädie der digitalen
  Langzeitarchivierung
Erhaltungsstrategien

Computermuseum
 Die Originalhardware aufbewahren und lauffähig halten
• Optimales Look & Feel
• Als dauerhafte Lösung nicht geeignet (Versprödung von
  Gummirollen, Alterung von Kondensatoren, Know-How-Verlust des
  Betreuungspersonals usw.).
• Original-Lesegeräte (z.B. für Floppy-Disks) sind zumindest am
  Anfang aber zwingend notwendig.
• Geplant [abgelehnt...]: R.O.S.T. – Register Obsoleszenter
  Speicher-Techniken (»Laufwerks-Flohmarkt«).
Erhaltungsstrategien

Bitstrom-Erhaltung (Replikation, Medienmigration)
 Einen gefährdeten Datenträger 1:1 als Image-Kopie (nicht auf
  Dateiebene) auf langzeitstabilen Festplattenspeicher (RAID)
  umkopieren; dabei wird der Inhalt vom Träger getrennt, das digitale
  Objekt (der Bitstrom) aber nicht verändert
• Prüfsummen (MD5) anlegen!
• Voraussetzung und Schnappschuss für alle weiteren Schritte (im
  Fall von Datenträgern)
• Kann auch als virtueller Datenträger in Emulatoren genutzt werden
• Gelöschte Dateien und andere Dateisystem-Informationen bleiben
  erhalten
Erhaltungsstrategien
Erhaltung der Benutzbarkeit: Dateiformat-Migration
 Ein gefährdetes Dateiformat in ein langzeitstabiles, offenes Format
  überführen (PDF/A, CSV, TIFF, WAV)
• Das digitale Objekt wird so verändert, dass es in einer gängigen
  Umgebung genutzt werden kann
• Seine signifikanten Eigenschaften bleiben erhalten; dies muss aber
  manuell überprüft werden
• Das Ausgangsobjekt muss ebenfalls aufbewahrt werden
• Muss in größeren Abständen wiederholt werden
• Kleinere Verluste sind wahrscheinlich und addieren sich mit jeder
  Generation
• Besonders geeignet für statische (serialisierbare) Objekte (Texte,
  Bilder, Filme)
Erhaltungsstrategien
Erhaltung der Benutzbarkeit: Emulation
 Die notwendige obsolete/spezielle Ablaufumgebung durch
  Emulation in einer aktuellen, gängigen Umgebung bereitstellen
• Das digitale Objekt selbst bleibt unverändert
• Die Emulation muss alle signifikanten Eigenschaften der
  Ursprungsumgebung bereitstellen (Grafik, Sound, historische
  Anwendungen)
• Besonders geeignet für interaktive Objekte (Spiele,
  Anwendungsprogramme)
• Für trägerlose, verteilte Online-Dokumente noch sehr viele
  ungelöste Probleme (Emulation veralteter Server-Software mit
  Sicherheitslücken, Emulation ganzer Netze)
• Die Emulationssoftware ist auch ein früher oder später obsoletes
  digitales Objekt
Beispiel Computermuseum:
Poesieautomat
Der Poesieautomat von Hans Magnus
Enzensberger
Beispiel Emulation: »Schwamm«
»Schwamm« wurde als kollaboratives
Projekt 1989 von Detlev Fischer
geschaffen und im DLA Projekt
»Netzliteratur« wiederbelebt.

Die interaktive Hypercard-
Anwendung benötigt einen Apple
Macintosh mit System 9 oder älter
und kann heute z.B. unter MS-
Windows im Emulator Mini_VMac
abgespielt werden.
Beispiel Bitstream-Preservation und
Migration: Digitales Nachlass-Archiv
Nachlass von Thomas
Strittmatter (erworben 2000):
 • Ein Atari Mega ST2
    (betriebsfähig)
 • Eine Festplatte Atari Megafile
    30 (defekt, aber Backup-
    Disketten vorhanden)
 • 43 Disketten (Atari, Mac 400
    KB/1,4 MB)

                                       Bildquelle: Mathias Michaelis
D-Archiv 1.0: ca. 2003 bis 2013
Digitale Nachlassteile insgesamt
bis 2013 (ohne Friedrich Kittler):
  • 35 Bestände, 281 Disketten,
    15 CD-Rs etc., 14 Zugänge
    via E-Mail/USB-Stick etc.
  • 26.700 Originaldateien mit 14
    GB, zusätzlich konvertiert in
    stabile Dateiformate

                                     Bildquelle: Andreas Bahler
D-Archiv 1.0: ca. 2003 bis 2013
Digitale Nachlassteile insgesamt     Adler, Hans Günther; Berbig, Roland;
                                     Claudius, Hermann; Delius, Friedrich
bis 2013 (ohne Friedrich Kittler):   Christian; Domin, Hilde; Elias, Norbert;
  • 35 Bestände, 281 Disketten,      Gadamer, Hans-Georg; Goldschmidt,
                                     Georges-Arthur; Gumbrecht, Hans Ulrich;
    15 CD-Rs etc., 14 Zugänge        Hentig, Hartmut von; Iser, Wolfgang; Jauss,
    via E-Mail/USB-Stick etc.        Hans Robert; Kaufmann, Hans; Koselleck,
                                     Reinhart; Kronauer, Brigitte; Lengemann,
  • 26.700 Originaldateien mit 14    Jochen ; Lübbe, Hermann; Mattenklott, Gert;
    GB, zusätzlich konvertiert in    Mickel, Karl; Naumann, Manfred; Novak,
    stabile Dateiformate             Helga M.; Olden, Balder; Pastior, Oskar;
                                     Richartz, Walter Erich; Ritter, Henning;
                                     Rowohlt-Verlag; Rüegg, Walter; Rühmkorf,
                                     Peter; Schlöndorff, Volker; Schnabel, Ernst;
                                     Schumann, Michael; Schwarz, Egon;
                                     Schwenger, Hannes; Strittmatter, Thomas;
                                     Zimmer, Heinrich;
Workflow 1.0
1. Erwerbung wie konventionelles Material (Archiv)
2. Beschriftung: Bestand, Zugangsnummer, »Disk 01« usw.
3. Identifizierung offenkundiger physischer Dubletten (alle
   Datenträger bleiben jedoch als potentielle Ausstellungsstücke
   erhalten)
4. Ingest der Medien und Bitstrom-Erhaltung: Disk-Image anlegen,
   dabei Erfassung elementarer Metadaten (Beschreibung des
   Datenträgers, technische Daten), MD5-Prüfsumme (Raw-
   Device/Image), rekursives Dateilisting, Ablage im Filesystem als
   »0_Original-Disk/disk01« usw.
   Tools: ddrescue etc. (Cygwin), Bitcurator-VM, eigene Scripte,
   Kryoflux USB-Floppy-Controller für schwierige Fälle.
Workflow 1.0
5. Ingest der Dateien: Kopie der Originaldateien, Ablage im
   Filesystem als »1_Original/disk01« usw. (Änderungsdatum bleibt
   unverändert).
   Tools: Original-Hardware (Atari ST, Mac mit Superdrive), Virtual
   Floppy Drive, Transmac, Gemulator Explorer
6. Dateiformatmigration: Konversion der Originaldateien nach .csv,
   .pdf, .xml. Ablage im Filesystem als »2_Konvertiert/disk01«.
   Tools: Original-Software, Tools in der Original-Umgebung, z.T. in
   Emulator, aktuelle Tools/Software
7. Übergabe einer Kopie von »2_Konvertiert« als »3_Geordnet« an
   das Archiv (das nur dort Schreibrechte besitzt)
8. Ordnung der Dateien nach Memo (Hausstandard)/RNA
9. Erschließung in Kallías (mit Verknüpfungen zu MM-Sätzen)
Ingest von Medien: Disk-Image
                  »[A] single file that contains an exact,
                  sector-by-sector bitstream copy of
                  the disk’s content and ensures that
                  various forms of essential metadata
                  and technical dependencies will be
                  retained.« [Erway 2012]

                                                             Bildquelle: Porter Olsen/BitCurator
Disk-Image: Container
Disk-Image vs. logische Dateien
PC-Disketten: DLAFloppImg/ddrescue

  Eigenentwicklung (»Provisorium seit 2003«), Windows + Cygwin
PC-Disketten: DLAFloppImg/ddrescue

  Eigenentwicklung (»Provisorium seit 2003«), Windows + Cygwin
PC-Disketten: DLAFloppImg/ddrescue

  Eigenentwicklung (»Provisorium seit 2003«), Windows + Cygwin
Exotische Disketten: Kryoflux

 Windows/MacOS/Linux, GUI oder -Kommandozeile, Hardware- und Software-Lösung, teuer
Ingest von Dateien: LABW IngestList

Landesarchiv Baden-Württemberg, Java, Pronom/Droid Anbindung, kostenlos
Ingest von Dateien:
Duke University Data
Accessioner
Duke University Archives, Java, Droid,
Jhove, Premis, kostenlos

Oder doch »von Hand« mit
Betriebssystemmitteln...
Berlin               Marbach

                                                         Neue Herausforderung: F. Kittler

Legende: Todo | Erledigt      Hardware   Volume-Images
PC 1 (ca. 2004): Nicht lauffähig, keine
Platten
PC 2 (ca. 2000): Bootet zu unserer
Überraschung
PC 3 (ca. 2011): Zu schade für das
Magazin?
PC 6 (ca. 1994): Nicht lauffähig,
Festplatte defekt
PC 7 (ca. 2002?): »/dev/hda3 has gone 5355
days without being checked, check forced«
Forensische Ebene 0: Der physisch
verschlossene Disketten-Kasten
Erkenntnisse für komplexe Bestände
Ein Dossier (ähnlich einem
Restaurierungsbericht) anlegen, um
Einzelheiten zur Hardware usw.
verbal ausführlich beschreiben zu
können. Fotos machen und in
Auswahl hier aufnehmen.

Eine Tabelle der PCs, Festplatten,
Partitionen, Ordner, Datenträger,
Imagedateien usw. anlegen, um die
Übersicht zu behalten.
Erkenntnisse für komplexe Bestände
Man benötigt ein System von
eindeutigen Bezeichnern noch vor
der Vergabe von Inventarnummern,
um Platten, Partitionen, Disketten
usw. zu kennzeichnen und Ordner-
und Dateinamen bilden zu können,
z.B.:
hd01: Hard Disks
fd001: Floppy Disks
od001: Optical Disks
xd001: Externe Dateien (Datei-
sammlungen auf sonstigen externen
Datenträgern)
Erkenntnisse für                                 mount: block device /dev/fd0 is write-protected, mounting
                                                 read-only

komplexe Bestände
                                                 /mnt/floppy:
                                                 total 348
                                                 drwxr-xr-x 2 root root   7168 Jan 1 1970 .
                                                 -rwxr-xr-x 1 root root   6144 Mar 30 1992 DEUTSCH.TXT
                                                 -rwxr-xr-x 1 root root     583 Apr 18 1993 SIEGERT.INC
Dateilistings aller Datenträger am               -rwxr-xr-x 1 root root     342 Dec 25 1993 BILDLARG.H

besten unter Linux anlegen, da hier
                                                 -rwxr-xr-x 1 root root   3599 Dec 25 1993 ATIFILL.LIB
                                                 -rwxr-xr-x 1 root root   7330 Dec 27 1993 ATIFILL.ASM

praktisch alle Dateisysteme                      -rwxr-xr-x 1 root root
                                                 -rwxr-xr-x 1 root root
                                                                          3487 Jan 7 1994 BILDLARG.ASM
                                                                          2063 Jan 7 1994 BILDLARG.LIB

gemountet und ausgewertet werden                 -rwxr-xr-x 1 root root 14974 Jan 17 1994 WHATVGA.LST
                                                 -rwxr-xr-x 1 root root   3087 Jan 18 1994 MAUS.LIB

können und Automatisierung leicht                -rwxr-xr-x 1 root root
                                                 -rwxr-xr-x 1 root root
                                                                          6878 Jan 18 1994 MAUS.ASM
                                                                          3504 Jan 19 1994 CHIPS.LST
möglich ist:                                     -rwxr-xr-x 1 root root
                                                 -rwxr-xr-x 1 root root
                                                                          1296 Jan 22 1994 ATILARGE.H
                                                                          8844 Jan 26 1994 LTEXTUR.C
                                                 -rwxr-xr-x 1 root root 16082 Feb 2 1994 ATILARGE.ASM
                                                 -rwxr-xr-x 1 root root   5135 Feb 2 1994 ATILARGE.LIB
root@debian:~# ( mount /dev/fd0 /mnt/floppy ||   -rwxr-xr-x 1 root root 24717 Feb 4 1994 RAYLARGE.C
exit; FID="$(printf 'fd%03d' "$I")"; mkdir       -rwxr-xr-x 1 root root 10016 Feb 5 1994 DEFLARGE.C
                                                 -rwxr-xr-x 1 root root 20370 Feb 6 1994 CALCLARG.C
/media/ADATA_NTFS/fd/${FID} || exit; ls -ltraR
                                                 -rwxr-xr-x 1 root root 24859 Feb 6 1994 RAY.ASM
/mnt/floppy | tee
                                                 -rwxr-xr-x 1 root root   6159 Feb 6 1994 RAY.LIB
/media/ADATA_NTFS/fd/${FID}/${FID}_ls-
                                                 -rwxr-xr-x 1 root root 23043 Feb 7 1994 SIEGERT.DOC
ltraR.txt; mount | grep /mnt/floppy | tee
                                                 -rwxr-xr-x 1 root root 11020 May 28 1994 CPUCHECK.EXE
/media/ADATA_NTFS/fd/${FID}/${FID}_fstype.txt;
                                                 -rwxr-xr-x 1 root root 138238 May 28 1994 WHATVGA.EXE
du -k /mnt/floppy | tee                          drwxr-xr-x 3 root root      60 Mar 15 09:40 ..
/media/ADATA_NTFS/fd/${FID}/${FID}_du-k.txt;     /dev/fd0 on /mnt/floppy type vfat (ro)
umount /mnt/floppy; echo "##### $FID ok #####"   348            /mnt/floppy
) && I=$((I+1))                                  ##### fd129 ok #####
                                                 root@debian:~#
Erkenntnisse für komplexe Bestände

Dateilistings auch nutzen, um Disketten chronologisch zu ordnen. Auf diese
Weise werden verstreute Gruppen wieder zusammengeführt.
Erkenntnisse für komplexe Bestände

   Linux-Kommandozeile, dd/ddrescue, erlaubt Scripting, kostenlos
»arme Nachlaßverwalter…«
Erkenntnisse für komplexe Bestände
Auch von optischen Medien
zusätzlich Imagedateien (.iso) mit c‘t
h2cdimage (ähnlich ddrescue)
anlegen, da dateiweises Kopieren
problematisch sein kann:

Dateipfad zu lang für Windows
Groß-Kleinschreibungs-Kollisionen
(Makefile vs. makefile)
Vom aktiven Virenschutz blockierte
infizierte Dateien
Massive Medienfehler
Optische Medien: c‘t h2cdimage

         Windows-Kommandozeile, kostenlos
Archiv-forensischer Arbeitsplatz:
BitCurator

                                                                         Bildquelle: Porter Olsen/BitCurator
  MITH Digital Curation Workstation mit BitCurator, Software kostenlos
Erkenntnisse für komplexe Bestände
An unerwarteten Stellen nach               Datei »komment«:
unerwarteten Dateien suchen:               05.04.03: Deskstar endet mit Headcrash, nur DOS
                                           überlebt. Aus /C/c/unix läßt
                                           sich unter Verlust des Erstellungstages die
Ablage nicht in Standardver-               Mehrzahl eigener Files und Änderun-
                                           gen auf den Laptop überspielen
zeichnissen wie »/home«, sondern
(immer als »root«) z.B. in »/usr/ich«      [...]

                                           27.09.02: Ein heißer Tag, man kommt nach Hause,
                                           die Maschine schreit um Hilfe, nach Warmstart
Textdateien auch als ».utf« oder ».lat«,   gibt sie Ruhe. Fehlermeldungen find ich keine

».doc« ist auch nicht immer Word...        [...]

                                           TASTATUR

                                           02.02.02: wegen Rotweinkurzschluß ersetzt
Friedrich Kittler: Mengen

• Fünf (sieben) PCs
• Sechs Festplatten(-Images) mit 10 Partitionen (»hd«)
• 336 Disketten (»fd«)
• 104 optische Medien (CD-R, »od«)
• 4 Dateisammlungen auf externen [DLA-]Medien, »xd«)
• ca. 250 Dateien mit Video-Mitschnitten (DV, AVI)

Ca. 1,7 Mio. Dateien, ca. 1,1 TB
(Nachlieferungen vom Sommer 2014 noch nicht berücksichtigt)
FK: Anzahl Datenträger

      FK: 444

      Bisher: 281
FK: Anzahl Dateien (ohne Mediendok.)

           FK: ca. 1,7 Millionen

           Bisher: ca. 26.700
Workflow 1.0 skaliert nicht
An mehreren Punkten des Workflows ist eine Entscheidung
notwendig, welches Material als relevant anzusehen ist und den
weiteren Aufwand rechtfertigt.

Diese ist bisher eher implizit gefallen, etwa schon bei der Übergabe
einiger eindeutig beschrifteter Disketten.

Dilemma: Die Relevanz von vielen Dateien kann nicht ohne aufwändige
Analyse- und Konvertierarbeiten beurteilt werden, die man sich für
irrelevantes Material eigentlich sparen muss.

          Es werden weitere Software-Werkzeuge benötigt.
Lösungsansatz

Ironmaiden
»Intelligent Read-Only Media Identification Engine«
»Intelligent Recursive Online Metadata and Indexing Engine«
(aka »Indexer«)
Autor: Jürgen Enge, ZIMT/HAWK Hildesheim

Status: reifer Prototyp auf VM des DLA, alle (ca. 300) mountbaren
Datenträger-Images als Loopback-Devices im Zugriff, Dateianalyse
und Volltext-Indexierung nahezu abgeschlossen; nur (sehr) interner
Zugang wg. sehr privater Dokumente.
Systemarchitektur

                Dateisystem-
                                Webclient
  Mountpoints    indizierung
   (Ordner)

                Indexer        Webserver
                 Erkennungs-
                  Indexer
                    kaskade

   Sektor-      Erkennungs-
                               Volltextindex
    Images        resultate
                                 (SOLR)

                                               Bildquelle: Jürgen Enge
   (Quelle)      (MySQL)

                                Autonomes
                                Subsystem
Webfrontend

      Facette
                Autocomplete
Webfrontend
Webfrontend

  Anzahl      Dauer   SOLR Query

                        Paging
Webfrontend

               Interne
 Datenträger   Signatur    Dateigröße    Änderungs-
                                           datum

                                        Gefundene
Dateiname      MIME-Type                Textstelle(n)
Mögliche Fragestellungen (Beispiele)
• Welche Dateien sind binäridentisch (lt. Prüfsumme) und können als
  Dubletten ausgeschieden werden?
• Welche Dateien haben die Größe 0 Bytes und können/müssen
  nicht weiter bearbeitet werden? [live]
• Welche Bilder gibt es im Datenträger-Nachlass? Audio-Dateien?
  Videos?
• Welche Textverarbeitungsprogramme hat Kittler benutzt?
• Auf welchen Datenträgern gibt es Ordner des Namens »ich«? [live]
• Welche Dateien sind MS-Word-Dateien, obwohl sie nicht den Typ
  ».doc« tragen? [live]
• Welche E-Mails vom, an das oder über das DLA Marbach hat Kittler
  aufgehoben? [live]
Mögliche Fragestellungen (Beispiele)
• Welche Quelltexte tragen typische Kittler-Spuren (z.B. das Kürzel
  »FAK« im Volltext), obwohl sie in typischen Systemordnern liegen?
  [live]
• In welchen Varianten kommt die Datei »komment« in den
  verschiedenen Backup-Medien und Festplattengenerationen vor?
  [live]
• Ist die SGI-Workstation-Festplatte hd06 wirklich komplett
  irrelevant?
• (Wann) hat Kittler einen Vortrag beim Chaos Computer Club
  Hamburg gehalten? (Und worüber hat er gesprochen? Ist der Text
  erhalten?) [live1, live2, live3, weiter]
Download
Download
Werkzeuge zur Filterung

           FK: ca. 1,75 Millionen
           Dateien und Ordner
National Software Reference Library

                  In NSRL gefunden:
                  ca. 567.000
                  Anwendungen und
                  Betriebssystemdateien
                  (nicht von FKs Hand)
National Software Reference Library
»This project is supported by the U.S. Department of Homeland
Security, federal, state, and local law enforcement, and the National
Institute of Standards and Technology (NIST) to promote efficient and
effective use of computer technology in the investigation of crimes
involving computers.«

»In most cases, NSRL file data is used to eliminate known files, such
as operating system and application files, during criminal forensic
investigations. This reduces the number of files which must be
manually examined and thus increases the efficiency of the
investigation.«

http://www.nsrl.nist.gov/index.html
NSRL/RDS 2.42 , September 2013
A large collection of software packages.
A database containing detailed information, or metadata, about the files that
make up those software packages.
Data about the file's origin, including the software package(s) containing the
file and the manufacturer of the package.
Cryptographic hash values (MD5 and SHA-1) of the file's content. These
uniquely identify the file even if, for example, it has been renamed.
114.095.237 files; »Minimal« (one example of every file): 33.992.326 file
hashes.

Beispiel:
"EF9D0AA866E736343C8E6978A4D7C3C40DC0CCEA","E24F3C4D34B73E86EFDD8B4DF2
F5CB89","B2C91839","data2.cab",2105535626,8929,"XP SP2",""
NSRL Beispiel

 sessionid 4078 =
 Floppy 077, 3,5“,
   vfat, ca. 1992
Destillation der relevanten Dateien
Destillation der relevanten Dateien
Destillation der relevanten Dateien
Was ist erreicht (im Nachlass Kittler)?

        Bitstream Preservation:

           Dateiformatanalyse:

      Bewertung, Erschließung:

         Dateiformat-Migration:

                    Emulation:

                   Benutzung:
Workflow 2.0
Bestand durch Wandel
»Traditionally, preserving things meant keeping them unchanged;
however our digital environment has fundamentally changed our
concept of preservation requirements. If we hold on to digital
information without modifications, accessing the information will
become increasingly difficult, if not impossible.« [Su-Sing Chen 2001]
Quellen, Links und Literaturhinweise
[13C3 1996] Chaos Communication Congress '96. Fahrplan, 1996.
      http://events.ccc.de/congress/1996/Fahrplan.html
[Bitcurator 2014] BitCurator [Homepage], 2014. http://www.bitcurator.net/
[bwFLA 2013] bwFLA - Emulation as a Service, 2013. http://bw-fla.uni-freiburg.de/
[CLIR 1997] Council on Library and Information Resources: Into the Future. On the Preservation of Knowledge in the
      Electronic Age. Discussion Guide [Begleitmaterial zu dem gleichnamigen Film von Terry Sanders], 1997.
      http://www.clir.org/pubs/film/future/discussion.html
[Cygwin 2014] Cygwin. Get that Linux feeling - on Windows, 2014. https://cygwin.com/
[ddrescue 2014] Ddrescue - Data recovery tool, 2014. http://www.gnu.org/software/ddrescue/ddrescue.html
[DLA 2005] DLA Marbach. Die Sammlungen, 2005. http://www.dla-marbach.de/dla/index.html
[Duke 2014] Duke Data Accessioner, 2014. http://www.dcc.ac.uk/resources/external/duke-data-accessioner
[Erway 2012] Erway, Ricky: You’ve Got to Walk Before You Can Run: First Steps for Managing Born-Digital Content
      Received on Physical Media, Dublin (Ohio) 2012.
      http://www.oclc.org/content/dam/research/publications/library/2012/2012-06.pdf?urlm=168601
[Enge 2014] Enge, Jürgen/Kramski, Heinz Werner/Lurk, Tabea: Ordnungsstrukturen von der Floppy zur Festplatte.
      Zur Vereinnahmung komplexer digitaler Datensammlungen im Archivkontext, in: Beiträge des Workshops
      »Digitale Langzeitarchivierung« auf der Informatik 2013 am 20.09.2013 in Koblenz (= nestor edition
      Sonderheft 1), 2014, 3-13. http://nbn-resolving.de/urn/resolver.pl?urn=urn:nbn:de:0008-2014012419
[Enzensberger 2000] Enzensberger, Hans Magnus: Einladung zu einem Poesieautomaten, 2000.
[Funk 2010] Funk, Stefan E./Ullrich, Dagmar/Huth, Karsten/ Keitel, Christian: Digitale Erhaltungsstrategien, in: Nestor
      Handbuch 2010, 8:1-8:34.
[Gantz 2008] Gantz, John F.: The Diverse and Exploding Digital Universe. An Updated Forecast of Worldwide
      Information Growth Through 2011. An IDC White Paper, 2008. http://www.emc.com/collateral/analyst-
      reports/diverse-exploding-digital-universe.pdf
Quellen, Links und Literaturhinweise
[Gemulator 2013] Branch Always Software: Gemulator Explorer, 2013. http://www.emulators.com/explorer.htm
[Gutzmann 2007] Gutzmann, Ulrike/Kamp, Ulrich/Keitel, Christian/Scheiding, Antje: Praktische Lösungsansätze zur
       Archivierung digitaler Unterlagen: »Langzeitarchivierung« und dauerhafte Sicherung der digitalen Überlieferung,
       in: Archivar 60 (2007), 322-329. http://www.wirtschaftsarchive.de/arbeitskreise/fachliche-
       arbeitskreise/elektronische-archivierung/fruehere-beitraege/Dateiformate_Bewertung_V0.1.xls
       [Bewertungsmatrix]
[H2cdimage 2009] c‘t H2cdimage 1.8, 2009. http://www.heise.de/download/h2cdimage.html
[IngestList 2013] Landesarchiv Baden-Württemberg: IngestList, 2013. http://sourceforge.net/projects/ingestlist/
[InSPECT 2009] Investigating the Significant Properties of Electronic Content over Time (InSPECT): Final Report,
       2009. http://www.significantproperties.org.uk/inspect-finalreport.pdf
[Kittler 1998] Kittler, Friedrich: Hardware, das unbekannte Wesen. In: Krämer, Sybille (Hg.): Medien Computer
       Realität. Wirklichkeitsvorstellungen und Neue Medien, Frankfurt/M. 1998, 119-132.
       http://hydra.humanities.uci.edu/kittler/hardware.html
[Kramski 2011] Kramski, Heinz Werner/von Bülow, Ulrich: »Es füllt sich der Speicher mit köstlicher Habe« –
       Erfahrungen mit digitalen Archivmaterialien im Deutschen Literaturarchiv Marbach, in: Robertson-von Trotha,
       Caroline Y./Hauser, Robert (Hg.): Neues Erbe. Aspekte, Perspektiven und Konsequenzen der digitalen
       Überlieferung, Karlsruhe 2011, 141-162. http://uvka.ubka.uni-karlsruhe.de/shop/download/1000024230.
[Kryoflux 2014] KryoFlux - USB Floppy Controller, 2014. http://www.kryoflux.com/
[Lyman 2003] Lyman, Peter/Varian, Hal R.: How Much Information 2003, 2003.
       http://www2.sims.berkeley.edu/research/projects/how-much-info-2003/printable_report.pdf
[Mini_VMac 2014] Mini vMac. A miniature early Macintosh emulator. [Homepage], 2014.
       http://minivmac.sourceforge.net/
[Neuroth 2010]: Neuroth, Heike u.a. (Hg.): Nestor Handbuch. Eine kleine Enzyklopädie der digitalen
       Langzeitarchivierung. V.2.3, 2010. http://nbn-resolving.de/urn/resolver.pl?urn=urn:nbn:de:0008-2010071949
Quellen, Links und Literaturhinweise
[NSRL 2014] National Software Reference Library, 2014. http://www.nsrl.nist.gov/index.html
[OAIS 2012] Consultative Committee for Space Data Systems: Reference Model for an Open Archival Information
      System (OAIS). Recommended Practice. CCSDS 650.0-P-1.1. Magenta Book, Washington DC 2012.
      http://public.ccsds.org/publications/archive/650x0m2.pdf
[Rothenberg 1999] Rothenberg, Jeff: Avoiding Technological Quicksand. Finding a Viable Technical Foundation for
      Digital Preservation, Washington DC 1999.
      http://www.clir.org/pubs/reports/rothenberg/pub77.pdf/at_download/file
[Rothenberg 1999a] Rothenberg, Jeff: Ensuring the Longevity of Digital Information. Santa Monica 1999.
      http://www.clir.org/pubs/archives/ensuring.pdf
[Schwamm 2014] Projekt »Netzliteratur authentisch archivieren und verfügbar machen«, Wiki-Eintrag »Schwamm«,
      2014. https://wwik-prod.dla-marbach.de/line/index.php/Schwamm
[Su-Sing Chen 2001]: The Paradox of Digital Preservation, in: Computer, 34 (März 2001), Nr. 3, 24-28
[Thaller 2013] Thaller, Manfred (Hg.): Das Digitale Archiv NRW in der Praxis: Eine Softwarelösung zur digitalen
      Langzeitarchivierung, Hamburg 2013.
[Transmac 2014] Acute Systems Software: Transmac, 2014. http://www.acutesystems.com/scrtm.htm
[VFD 2013] Virtual Floppy Drive, 2013. http://sourceforge.net/projects/vfd/
[ZIMT 2014] HAWK: Zentrum für Information, Medien und Technologie, 2014. http://www.hawk-
      hhg.de/hochschule/191898.php

Bei reinen Webseiten ist als Erscheinungsjahr das der letzten redaktionellen Änderung angegeben (soweit
      erkennbar), sonst das technische Änderungsdatum.

Acknowledgement for d3.js and sankey diagram to Mike Bostok & http://ramblings.mcpher.com/
heinz.werner.kramski@dla-marbach.de

Deutsche Schillergesellschaft e.V.
Schiller-Nationalmuseum
Deutsches Literaturarchiv
Literaturmuseum der Moderne

www.dla-marbach.de
Sie können auch lesen