Persistent Identifier für wissenschaftliche Einrichtungen

Die Seite wird erstellt Darian Gebauer
 
WEITER LESEN
Persistent Identifier für wissenschaftliche Einrichtungen
Fachbereich Informationswissenschaften
Studiengang Bibliotheksmanagement

     Persistent Identifier für wissenschaftliche
                   Einrichtungen
                                  Bachelorarbeit

                 zur Erlangung des akademischen Grades
                         Bachelor of Arts (B.A.)

 eingereicht von: Laura Rothfritz
 Matrikelnummer: 13817

 Gutachter/innen: Prof. Dr. rer. nat. Heike Neuroth
                  Dipl. Bib. Heinz Pampel
 eingereicht am:      27. Januar 2018         verteidigt am: 7. Februar 2018
Persistent Identifier für wissenschaftliche Einrichtungen
Selbstständigkeitserklärung

Ich erkläre hiermit, dass ich die vorliegende Arbeit selbstständig verfasst und noch nicht
für andere Prüfungen eingereicht habe. Sämtliche Quellen einschließlich Internetquellen, die
unverändert oder abgewandelt wiedergegeben werden, insbesondere Quellen für Texte, Grafiken,
Tabellen und Bilder, sind als solche kenntlich gemacht. Mir ist bekannt, dass bei Verstößen
gegen diese Grundsätze ein Verfahren wegen Täuschungsversuchs bzw. Täuschung eingeleitet
wird.

Berlin, den 26. Januar 2018
Abstract

In der vorliegenden Arbeit werden Probleme bei der eindeutigen Identifizierung wissenschaftli-
cher Einrichtungen aufgezeigt, Persistent Identifier als Lösung dieser Probleme vorgeschlagen
und bereits bestehende Lösungsansätze in Form von Identifikatorensystemen für wissenschaft-
liche Einrichtungen ausgewertet. Außerdem werden Anwendungsszenarien für die eindeutige
Identifikation wissenschaftlicher Einrichtungen und bisherige Lösungen vorgestellt. Die be-
trachteten Identifikatorensysteme werden bewertet und aus den Anwendungsfällen Kriterien
für Persistent Identifier für wissenschaftliche Einrichtungen herausgearbeitet. Offene For-
schungsinfrastrukturen als Organisationsform für ein Identifikatorensystem bieten hierfür die
Grundlage. Bisher erfüllen keine der betrachteten Identifikatoren die Kriterien für Persistent
Identifier und können nicht als diese bewertet werden. Es bestehen jedoch Anwendungsfälle,
für die Persistent Identifier zur eindeutigen, anhaltenden Identifizierung von Einrichtung sowie
dem automatisierten Austausch von Metadaten sehr gut geeignet sind.

Dieses Werk ist unter einer Creative Commons Lizenz vom Typ Namensnennung 2.0 Deutsch-
land zugänglich. Um eine Kopie dieser Lizenz einzusehen, konsultieren Sie
http://creativecommons.org/licenses/by/2.0/de/ oder wenden Sie sich brieflich an
Creative Commons, Postfach 1866, Mountain View, California, 94042, USA.
Inhaltsverzeichnis

1 Einleitung                                                                                                                      1

2 Forschungsstand                                                                                                                 4
  2.1 Persistent Identifier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .                                           4
  2.2 Bestehende Identifikatorensysteme . . . . . . . . . . . . . . . . . . . . . . .                                             7
  2.3 Projekte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .                                            8

3 Methode                                                                                                                         12

4 Identifikatoren für wissenschaftliche Einrichtungen                                                                             14
  4.1 Die Gemeinsame Normdatei (GND) . . . . . . . . . . . . .                                . . .       .   .   .   .   .   .   14
  4.2 Der International Standard Name Identifier (ISNI) . . . . .                             . . .       .   .   .   .   .   .   15
  4.3 Ringgold Identifier . . . . . . . . . . . . . . . . . . . . . .                         . . .       .   .   .   .   .   .   17
  4.4 Die Global Research Identifier Datenbank (GRID) . . . . . .                             . . .       .   .   .   .   .   .   19
  4.5 Identifikatoren der Deutschen Forschungsgemeinschaft (DFG                               ID)         .   .   .   .   .   .   20
  4.6 Participant Identification Code (PIC) . . . . . . . . . . . .                           . . .       .   .   .   .   .   .   21
  4.7 Scopus Affiliation ID . . . . . . . . . . . . . . . . . . . . .                         . . .       .   .   .   .   .   .   21
  4.8 CrossRef Funder ID . . . . . . . . . . . . . . . . . . . . .                            . . .       .   .   .   .   .   .   22

5 Nutzung von Identifikatoren                                                                                                     25
  5.1 Drittmittelanträge (Forschende) . . . . . . . . . . . . . . . .                             .   .   .   .   .   .   .   .   25
  5.2 Aggregation und Reporting (Forschungsinfastrukturen) . . . .                                .   .   .   .   .   .   .   .   25
  5.3 Automatisierung von Datenflüssen (Forschungsinfrastrukturen)                                .   .   .   .   .   .   .   .   27
  5.4 Tracking (Forschungsförderung) . . . . . . . . . . . . . . . .                              .   .   .   .   .   .   .   .   28
  5.5 Gutachtenverfahren für Anträge (Forschungsförderung) . . . .                                .   .   .   .   .   .   .   .   30
  5.6 Open-Access-Monitoring und APC-Management . . . . . . .                                     .   .   .   .   .   .   .   .   31

6 Diskussion                                                                                                                      33
  6.1 Einordnung der Identifikatorensysteme .     .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   33
  6.2 Anforderungen an Metadaten . . . . .        .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   38
  6.3 Bewertung der Anwendungsfälle . . . .       .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   40
  6.4 Offene Forschungsinfrastrukturen . . .      .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   41

7 Fazit und Ausblick                                                                                                              44

A Anhang                                                                             54
  A.1 Anwendungsfälle für OrgIDs . . . . . . . . . . . . . . . . . . . . . . . . . . 55
  A.2 IDs für das GeoForschungsZentrum Potsdam in Scopus . . . . . . . . . . . . 57
  A.3 Antworten zum RFI der Organization Identifier Working Group . . . . . . . . 60

B Abbildungen                                                                                                                     86
Tabellenverzeichnis

  1   Bereits durchgeführte Projekte, Untersuchte Identifier und Ergebnisse .     .   .   .   11
  2   Korrelierende Anwendungsfälle in jeweils mind. 2 Studien . . . . . . . .    .   .   .   13
  3   Unterschiede zwischen einfachen, eindeutigen und Persistent Identifiern     .   .   .   33
  4   Bewertung der untersuchten Identifikatoren . . . . . . . . . . . . . .      .   .   .   35

Abbildungsverzeichnis

  1   ISNI+ als hybrider Organizational Identifier. Aus: Ferguson, Moore und Schmol-
      ler, 2014, S. 19 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .        86
  2   Affiliation Profile der Universität zu Berlin in Scopus . . . . . . . . . . . . .       86
Einleitung

1 Einleitung

Kommunikationsprozesse in der Wissenschaft bilden sich in Informationsflüssen zwischen den
unterschiedlichen Akteursgruppen ab und münden in messbaren Produkten, dem Output
der Wissenschaft. Die Identifizierung, Benennung und Verknüpfung von Forschenden, For-
schungsinfrastrukturen, Forschungsförderern und Forschungsoutputs kann dabei zu einem
nachvollziehbaren Netzwerk führen, welches den wissenschaftlichen Fortschritt trägt und
vorantreibt. Dennoch ist gerade im digitalen Austausch von Informationen über Beteiligte
am Forschungsprozess und die entstandenen Ergebnisse diese Identifizierung nicht immer
eindeutig und leicht durchführbar.
Fehlerhafte Namen von wissenschaftlichen Einrichtung in Zitationsdatenbanken führen bei
bibliometrischen Auswertungen von Zitationsdaten unter Umständen zu falschen Ergebnissen
(vgl. De Bruin und Moed, 1990). Nicht standardisierte Benennungen von wissenschaftlichen
Einrichtungen beruhen auf Namensvarianten, Schreibfehlern, unterschiedlichen Benennungen
in verschiedenen Sprachen, Abkürzungen, semantischen Fehlern oder unklaren Hierarchieebe-
nen (vgl. Huang u. a., 2014). Zudem verändern Institutionen mit der Zeit häufig ihre Struktur
durch Zusammenlegungen, Aufsplittung in distinkte Einrichtungen, Übernahme durch größere
Einrichtungen usw. (vgl. Hood und Wilson, 2003). Sind Adress- oder Namensfelder unzurei-
chend formatiert, entstehen auch durch die automatische Indexierung von Einrichtungsnamen
und -adressen Fehler in der eindeutigen und korrekten Bezeichnung der Körperschaft (vgl.
Taşkın und Al, 2013).
Der Prozess der Auflösung doppeldeutiger Zeichenketten zur Benennung von Entitäten wird
als Disambiguierung benannt. Im Mittelpunkt stehen dabei zwei Formen von mehrdeutigen Be-
ziehungen zwischen Zeichenketten und Entitäten: Synonyme bezeichnen zwei unterschiedliche
Zeichenketten, die die selbe Entität identifizieren, zum Beispiel wenn eine wissenschaftliche
Einrichtung unterschiedliche Benennungen hat. Homonyme sind zwei oder mehr gleiche Zei-
chenketten, die verschiedene Bedeutungen haben. Beispielsweise können zwei unterschiedliche
Einrichtungen unter dem selben Akronym bekannt sein. Wenn wissenschaftliche Einrichtungen
eindeutig identifiziert werden sollen, müssen auch sogenannte „Sektorenhybride” (Einrichtun-
gen, die aus Einrichtungen unterschiedlicher Sektoren entstehen)1 oder „An-Institute”, die an
Universitäten angegliedert sind, aber rechtlich eigenständig agieren2 , korrekt zugeordnet und
benannt werden (vgl. Winterhager, Schwechheimer und Rimmert, 2014). In der Bibliometrie
wurden dafür einige Lösungen entwickelt, die auf der automatischen Indexierung mit Hilfe
von Named-Entity Recognition Verfahren beruhen.3
Um der Problematik der uneinheitlichen Bezeichnung von Konzepten in der außersprachli-
 1
   Beispiel: Das KIT Karlsruhe, entstanden aus einer Ausgliederung der Universität Karlsruhe und des For-
    schungszentrum Karlsruhe.
 2
   Beispiel: Das Leibniz-Institut für Arterioskleroseforschung (LIFA) an der Universität Münster - aber nicht
    Teil der Universität Münster.
 3
   Unter Named-Entity Recognition wird die automatisierte Erkennung und Klassifikation von Eigennamen
    bei Informationsextraktion aus Texten verstanden. Dieses Verfahren wird häufig in der Computerlinguistik
    verwendet (vgl. hierzu Jiang, 2012). Beispiele für die Anwendung zur automatischen Erkennung von Namen
    wissenschaftlicher Einrichtungen sind Enhanced Finite-State Transducer in Galvez und Moya-Anegón,
    2007 oder Nooj Transducer in Taşkın und Al, 2013.

                                                                                                           1
Einleitung

chen Realität entgegenzuwirken entwickelten sich im bibliothekarischen Bereich sogenannte
Verzeichnisse für Normdaten. In diesen werden Personen, Körperschaften, Geografika und
Sachverhalte durch normierte Benennungen identifiziert und Publikationen zugeordnet. In
Deutschland wird die Gemeinsame Normdatei (GND) als Werkzeug für die eindeutige Zuord-
nung von Namen verwendet, ein weiteres Beispiel ist die Name Authority Files der Library of
Congress in den USA (vgl. Wiechmann, 2014).
Zunehmend wird versucht, das Problem durch die Vergabe von eindeutigen Kennungen zu
lösen: „[N]ame forms are being replaced by universal registered identifiers for individuals in
these records, and internation registration agencies for such identifiers are being formed”
(Zhao und Strotmann, 2015, S.101-102).
Im Kontext der eindeutigen Identifikation von Forschenden trotz Namensgleichheiten werden
Identifikatoren für Personen als eine gute Lösungsmöglichkeit angesehen. Um wissenschaftliche
Publikationen eindeutig mit ihren Autor*inen zu verknüpfen, existieren eine Reihe von Diensten,
wie die Researcher ID von Thomas Reuters/Web of Science, den Scopus Author Identifier und
Author Profile von Elsevier oder das Virtual International Authority File (VIAF) (vgl. Walker
und Armstrong, 2014). In den letzten Jahren hat sich die Open Research Contributer iD
(ORCID) als globaler non-profit Anbieter für eindeutige, gleichbleibende und durch Internet-
browser auflösbare Identifikatoren (Persistent Identifier ) für Personennamen etabliert. ORCID
verzeichnet mittlerweile über 4 Millionen IDs4 , welche jedoch nur für individuelle Personen
und nicht für wissenschaftliche Einrichtungen vergeben werden. Persistent Identifier (PID)
haben zwei grundlegende Eigenschaften: Sie identifizieren ein Informationsobjekt eineindeutig
zur Unterscheidung von anderen Objekten und sie ermöglichen die langfristige Auffindbar-
keit von Objekten im digitalen Raum, unabhängig davon, an welchem Ort sie gespeichert
sind (vgl. Lynch, 1998). Diese Arbeit wird sich vorrangig mit der eindeutigem Bezeichnung
von wissenschaftlichen Einrichtungen befassen, die mit Hilfe von Persistent Identifiern in
unterschiedlichen Nutzungsszenarien erfolgen kann. Die Nutzung von Persistent Identifiern
führt dazu, dass der Informationsfluss zwischen unterschiedlichen Stakeholdern und Entitäten
des Forschungsprozesses vereinfacht wird: „Tracking information flows between researcher,
facilities and publishers requires a common understanding and use of specific data fields and
associated persistent identifiers” (Haak, 2017). Für die Verbreitung von und das Vertrauen in
Persistent Identifier werden offene Forschungsinfrastrukturen nach Bilder, Lin und Neylon als
zuträglich angesehen.
Ziel dieser Arbeit ist es, einen Überblick über bisherige Lösungen für die eindeutige Identi-
fizierung von Institutionen mit Hilfe von Identifikatoren zu schaffen, Nutzungsszenarien zu
diskutieren und Vorschläge für die Entwicklung von Persistent Identifiern für wissenschaftliche
Einrichtungen zu entwickeln. Dafür wird in Kapitel 2 zunächst der Forschungsstand zu Persis-
tent Identifiern und bereits durchgeführten Projekten zu Identifikatoren für Organisationen
umrissen. Nach der Klärung der Methode in Kapitel 3 erfolgt in Kapitel 4 eine Analyse
bestehender Identifier sowie in Kapitel 5 ein exemplarische Analyse von Anwendungsfällen. In
Kapitel 6 werden die Ergebnisse diskutiert. Es werden folgende Aspekte genauer betrachtet:

 4
     Siehe:   https://support.orcid.org/knowledgebase/articles/150557-number-of-orcid-ids
      (Abgerufen am 26. Januar 2018).

                                                                                             2
Einleitung

1. Welche Möglichkeiten zur eindeutigen Identifizierung von wissenschaftlichen Einrichtun-
   gen bestehen bereits?
2. Wie lassen sich bestehende Lösungen einordnen und bewerten?
3. Welche Anforderungen an Persistent Identifier für wissenschaftliche Einrichtungen gibt
   es?
4. Welche konkreten Anwendungsfälle ergeben sich für diese Persistent Identifier im
   Forschungsprozess?

                                                                                        3
Forschungsstand

2 Forschungsstand

2.1 Persistent Identifier

Im Zuge der Zugänglichkeit zu wissenschaftlicher Literatur über das Internet stellt sich
die Herausforderung, wie digitale Informationsobjekte eindeutig und langfristig identifizierbar
bleiben können, um das Auffinden und die zuverlässige Referenzierbarkeit von wissenschaftlichen
Ergebnissen zu garantieren. Seit Anfang der 2000er Jahre erfolgte eine Reihe von Studien, die
die mangelnde Persistenz von Belegen und Referenzen in wissenschaftlichen Publikationen
aufzeigen (vgl. Lawrence u. a., 2001; Dellavalle, 2003; Hennessey und Ge, 2013). Das Ergebnis
dieser Studien zeigt, dass die Referenzierung digitaler Informationsobjekte über einen Uniform
Resource Locator (URL) keine langfristig verlässlichen Belege liefern kann, da URLs keine
eineindeutige Bezeichnung für ein Objekt darstellen, sondern nur einen „Weg” hin zu einem
Objekt beschreiben (vgl. Lynch, 1998). Wenn das referenzierte Objekt verschoben oder
gelöscht wurde, der Service des Anbieters (Domain oder Host) nicht mehr existiert oder das
Objekt umbenannt wurde, können URLs nicht mehr verarbeitet und das Objekt nicht mehr
erreicht werden. Das „verschwinden” von digitalen Objekten aufgrund nicht funktionaler Links
wird als Link Rot bezeichnet; im Kontext des Verweisens auf Quellen in wissenschaftlichen
Publikationen spricht man von Reference Rot (vgl. Klein u. a., 2014). Ein Hauptproblem
besteht darin, dass URLs sowohl ein Objekt identifizieren, als auch seinen Speicherort im
Internet beschreiben (vgl. Dellavalle, 2003).

Um die Zugänglichkeit und Auffindbarkeit sowie Zitierbarkeit von wissenschaftlicher Literatur
im Internet sicherzustellen, etablierten sich seit Mitte der 1990er Jahre unterschiedliche Verweis-
und Identifikatorensysteme, die unter dem Oberbegriff Persistent Identifier zusammengefasst
werden.5 Die Research Data Alliance (RDA) definiert den Terminus Persistent Identifier als:

      „[A] long-lasting ID represented by a string that uniquely identifies a DO6 and
      that is intended to be persistently resolved to meaningful state information
      about the identified DO. An identifier should have an unlimited lifetime, even
      if the existence of identified entity ceases. This aspect of an identifier is called
      persistency ” (Berg-Cross, Ritz und Wittenburg, 2015).

Ein Persistent Identifier bezeichnet ein bestimmtes Informationsobjekt, beispielsweise ein
Dokument. Informationsobjekte (oder Teile von Objekten) können mit unterschiedlichen PIDs
beschrieben werden, jedoch ist einem Identifier immer nur ein Objekt zugeordnet. Es besteht
somit eine 1:n-Beziehung zwischen Informationsobjekten und Persistent Identifiern. Ändert
sich das Objekt oder verschwindet es, bleibt der Identifier bestehen und wird nicht wieder
verwendet. Persistent Identifier haben demnach zwei grundlegende Eigenschaften:
 5
   Siehe hierzu Sollins, Masinter (1994): Functional Requirements for Uniform Resource Names (RFC 1737).
    https://www.ietf.org/rfc/rfc1737.txt (Abgerufen am 26. Januar 2018).
 6
   Digital Object, also ein Objekt im digitalen Raum/Internet.

                                                                                                      4
Persistent Identifier

   1. Sie sind eineindeutig und einzigartig und
   2. sie sind beständig unabhängig von dem Objekt, auf das sie verweisen.

Identifiziert werden die Objekte an sich, Metadaten zu den Objekten und Zugriffswege auf das
Objekt. Die Metadaten zu den Objekten werden in sogenannten PID Records gespeichert:

      „A PID record contains a set of attributes stored with a PID describing DO
      properties” (Berg-Cross, Ritz und Wittenburg, 2015).

Der Unterschied zwischen PIDs und URLs liegt darin, dass PIDs auf ein identifiziertes Objekt
unabhängig davon, wo es zu einem Zeitpunkt gespeichert ist, verweisen. Persistent Identifier
an sich beinhalten nur Informationen über das Objekt, unter anderem seinen Speicherort.
PIDs werden über ein Resolver System zu dem digitalen Objekt geleitet (vgl. Tonkin, 2008).
Die RDA definiert dies als Resolution System:

      „[A resolution system] is a globally available infrastructure system that has the
      capability to resolve a PID into useful, currentstate information describing the
      properties of a DO” (Berg-Cross, Ritz und Wittenburg, 2015).

Überlegungen zur Trennung von Identifikatoren und tatsächlichen Informationsobjekten stam-
men aus Konzeptionen zur Architektur von digitalen Bibliotheken. Objekte in einer digitalen
Bibliothek müssen durch „Namen” und Identifikatoren eindeutig identifizierbar und auffindbar
sein, ähnlich wie Buchbestände in einer analogen Bibliothek über eine Signatur gekennzeichnet
sind. Diese Namen müssen durch ein administratives System verwaltet werden, welches auf
Änderungen der Objekte reagiert und ihren aktuellen Ort langfristig dokumentiert (vgl. Arms,
1995). Persistent Identifier als Identifikatorensysteme im Internet geben über den Resolving
Service die Möglichkeit, auf eine Repräsentation des Informationsobjektes im digitalen Raum,
welche Informationen über das Objekt bereithält, zuzugreifen (vgl. Car, Golodoniuc und Klump,
2017). Der Resolving Service sorgt auch dafür, dass der Identifier eindeutig mit dem Informa-
tionsobjekt verbunden bleibt (vgl. Askitas, 2010). Der Resolver identifiziert Informationen
über das Informationsobjekt (Metadaten) und zeigt dabei auf seinen Speicherort. Bei der
Auflösung des PID werden Informationen (Metadaten, Location URL) zum bezeichneten
Objekt zurückgegeben und Anfragende zum Objekt selbst oder einer sogenannten Landing
Page weitergeleitet. Dieser zweischichtige Aufbau führt dazu, dass, wenn sich der Speicherort
des Informationsobjektes ändert, nur die Verknüpfung zwischen dem Identifikator und dem
Informationsobjekt geändert wird. Für Nutzer*innen des PID bleibt der Identifikator gleich.
PIDs ermöglichen, dass Informationsobjekte und ihre unterschiedlichen Versionen ohne die
Gefahr der Verwechslung identifiziert werden können. Sie helfen beim Auffinden und Referen-
zieren von Informationsobjekten im Internet und sorgen dafür, dass wissenschaftlicher Output
(Publikationen, Daten...) verlässlich zitierbar ist. Viele Identifikatorensysteme ermöglichen
zudem, über die ihnen zugrundeliegenden Metadaten, die Interoperabilität mit anderen Identi-
fiern und somit die Darstellung von Relationen zwischen Objekten (vgl. Davidson, 2006).

                                                                                            5
Persistent Identifier

Im wissenschaftlichen Bereich haben sich im Laufe der letzten 20 Jahre unterschiedliche
Systeme für Identifier etabliert.7 Dabei haben sich vor allem der Digital Object Identifier
(DOI), Handle PIDs, Persistent URL (PURL), Uniform Ressource Name (URN) und Archival
Resource Key (ARK) durchgesetzt.
Klump und Huber untersuchten das Repository-Verzeichnis re3data auf die Nutzung von
PID Typen. DOIs wurden in den meisten Repositories als Identifier benutzt (vgl. Klump und
Huber, 2017). Sie können mittlerweile als ein quasi-Standard für Identifier für wissenschaftliche
Publikationen angesehen werden. DOIs werden zudem nicht nur für traditionelle Publikationen
in Schriftform vergeben, sondern auch für andere Formen von wissenschaftlichem Output, wie
zum Beispiel Forschungsdaten. Für die Zitierung quantitativer Daten wird als Minimalanforde-
rung das Vorhandensein eines Persistent Identifiers genannt (vgl. Altman und King, 2007).
Die Verlinkung und Interoperabilität zwischen den unterschiedlichen Identifier Systemen,
die für die Entitäten bereits bestehen, fördern einen Informations- und Datenfluss über den
gesamten Forschungszyklus und für alle Stakeholder. Die Nutzung von interoperablen PID
Systemen ermöglicht die Auffindbarkeit von wissenschaftlichem Output, die richtige Zuordnung
von Ergebnissen zu ihren Urheber*innen, nachvollziehbare Provenienz von nachgenutzten
Quellen oder Daten und verbesserte Metadatenqualität über die Verknüpfung unterschiedlicher
Metadatenquellen (vgl. Dappert u. a., 2017). Neuere Entwicklungen zielen darauf ab, PIDs
für alle Entitäten im wissenschaftlichen Forschungskontext zu vergeben, um Interoperabilität
zwischen ihnen zu schaffen. Folgende Entitäten werden von Dappert u. a. identifiziert:

     • Agents: Individuelle Forschende, Organisationen und Konsortien
     • Resources: Publikationen, Forschungsdaten, Software, Forschungsinstrumente, Laborbü-
       cher...
     • Rights statements: Lizenzen, Förderungsmaßnahmen, Patente
     • Events: Vorgänge, die die Provenienz von wissenschaftlichem Output beschreiben
       (Erstellung, Kuration, Updates, Zugriff, Claiming, Zitation, Review)
     • Derived entities: Entitäten wie Projekte, die aus Verbindungen von allen oben genannten
       Entitäten entstehen oder diese erschaffen

Eindeutige, meist numerische Identifikatoren existieren auch außerhalb des Internets um
Objekte (beispielsweise Bücher durch eine ISBN) oder Personen (beispielsweise Bürger eines
Landes durch die Passnummer) zu identifizieren. Für die eindeutige Identifizierung von
Personen findet seit ihrer Gründung 2012 die ORCID iD immer weitere Verbreitung. Diese Art
der Selbst-Identifizierung von Personen in der Form eines offenen Infrastrukturservices wird in
Deutschland durch das von der Deutschen Forschungsgemeinschaft (DFG) geförderte Projekt
ORCID DE8 unterstützt. Das Ergebnis einer 2016 durch ORCID DE durchgeführten Umfrage
ergab für eine Mehrzahl der Befragten einen sehr hohen bis hohen Bedarf an persistenten
Identifikatorensystemen für wissenschaftliche Institutionen, Forschungsinfrastrukturen und
Förderorganisationen (vgl. Fuchs, Pampel und Vierkant, 2017, S. 53). Die Nutzung von

 7
   Einen guten Überblick geben Hilse und Kothe, 2006: Implementing persistent identifiers: overview of
    concepts, guidelines and recommendations.
 8
   Siehe: http://www.orcid-de.org/ (Abgerufen am 26. Januar 2018).

                                                                                                    6
Bestehende Identifikatorensysteme

Identifikatoren für Organisationen ist bisher in Deutschland jedoch nicht sehr weit verbreitet
(vgl. Bryant, Dortmund und Malpas, 2017, S. 42).

2.2 Bestehende Identifikatorensysteme

Für die eindeutige Identifikation von wissenschaftlichen Einrichtungen bestehen bereits eine
Reihe Identifikatorensysteme, die im Kapitel 4 näher analysiert werden. Im bibliothekarischen
Kontext werden zur eindeutigen Identifizierung von Entitäten Normdaten, die in Normdateien
gespeichert sind, verwendet. Sie werden aufgrund einer Ontologie gebildet und dienen zur Un-
terscheidung von Konzepten und aus der bibliothekarischen Tradition heraus zur Erleichterung
des Sucheinstiegs, indem Namensvarianten zusammengeführt werden (vgl. Wiechmann, 2014).
Normdateien werden landesintern durch nationale Informationsinfrastruktureinrichtungen,
meist Nationalbibliotheken, gepflegt. In Deutschland wird die Gemeinsame Normdatei (GND)
verwendet. Das Virtual International Authority File (VIAF) führt unterschiedliche nationale
Normdateien zusammen.9 Ein ISO-Standard (ISO-Standard 27729) für die Identifizierung
von Personen und Organisationen ist der International Standard Name Identifier (ISNI).10
Es werden Personen, Körperschaften oder fiktionale Charaktere identifiziert. Ringgold ist
ein Unternehmen, welches seit 2003 Identifikatoren speziell für Organisationen vergibt. Das
Identify Database 11 verzeichnet über 480.000 Organisationen (Stand: 26. Januar 2018), die
meisten davon aus Nordamerika (ca. 47 %) und Westeuropa (ca. 25%)12 . Die Global Research
Identifier Database13 (GRID) ist ein von der Firma Digital Science entwickeltes Identifier-
System, welches wissenschaftliche Einrichtungen auf der ganzen Welt erfassen will. Entwickelt
wurde das System 2015 von Digital Science, um die Firma bei ihren Reporting Aktivitäten zu
unterstützen. Der GRID Identifier wird u.a. von Altmetrics und Figshare verwendet. Forschungs-
förderungseinrichtungen vergeben Forschungsgelder an Projekte, die an wissenschaftlichen
Einrichtungen angesiedelt sind. Die DFG verzeichnet in ihrer Datenbank GEPRIS14 (Geför-
derte Projekte Informationssystem) Förderprojekte und die durchführenden Personen und
Institutionen. Institutionen erhalten innerhalb von GEPRIS eine DFG ID. Der Wissenschafts-
rat empfiehlt in seinen Empfehlungen zum Kerndatensatz Forschung, die Verwendung der
Instituts-ID der DFG und des DAAD, welche über den Research-Explorer15 , dem Verzeichnis
der Forschungsstandorte in Deutschland, abgefragt werden kann (vgl. Wissenschaftsrat, 2016,
S. 60). Für die Antragstellung und spätere Förderung werden von Institutionen Antragsdoku-
mente ausgefüllt in die verantwortliche Institutionen eingetragen werden müssen. Für Projekte
im Zuge des EU-Rahmenprogramm Horizon 2020 ist eine eindeutige Identifikationsnummer
 9
   Siehe: https://viaf.org/ (Abgerufen am 26. Januar 2018).
10
   Siehe: http://www.isni.org/ (Abgerufen am 26. Januar 2018).
11
   Siehe: https://www.ringgold.com/ringgold-identifier (Abgerufen am 26. Januar 2018).
12
   Siehe: https://support.ringgold.com/wp-content/uploads/2018/01/Ringgold_Infographics_
    2018_Jan.pdf (Abgerufen am 26. Januar 2018).
13
   Siehe: https://grid.ac/ (Abgerufen am 26. Januar 2018).
14
   Siehe: http://gepris.dfg.de/gepris/OCTOPUS (Abgerufen am 26. Januar 2018).
15
   Siehe: http://www.research-explorer.de/research_explorer.de.html (Abgerufen am 26. Januar
    2018).

                                                                                            7
Projekte

für wissenschaftliche Einrichtungen für die Antragstellung gefordert. Diesem Teilnehmercode
(Participant Identification Code (PIC))16 hinterliegen alle Angaben zu den Institutionen.
Um Forschungsförderer eindeutig zu identifizieren und das Tracking der wissenschaftlichen
Ergebnisse zu erleichtern, wurde 2013 durch die DOI-Registrierungsagentur Crossref das Open
Funder Registry17 (ursprünglich FundRef genannt) gegründet. Es handelt sich hierbei um eine
normalisierte Liste von Forschungsförderern aus aller Welt, die durch eine DOI identifiziert
werden. In Literatur- und Zitationsdatenbanken werden Publikationsdaten sowohl Personen als
auch wissenschaftlichen Einrichtungen zugeordnet. Die Datenbank Scopus der Firma Elsevier
vergibt jeder Affiliation in ihrer Datenbank eine eindeutige Nummer, die sie Affiliation-ID
nennen, um zwischen Organisationen zu unterscheiden und Publikationen zusammenzufassen,
die zu einer Organisation gehören (vgl. Elsevier, 2018a).

2.3 Projekte

Identifier für Organisationen werden idealerweise zur Vereinfachung von Workflows innerhalb
der digitalen Forschungsinfrastruktur verwendet:

      „Identifiers are useful for disambiguating, consolidating and establishing a hierarchy
      view. They enforce uniqueness as they disambiguate institutional records, eradicate
      duplication of data, ensure correct delivery, entitlement and access rights, improve
      trust in data and map institutions into their hierarchy ” (Amante u. a., 2017, S.
      139).

Ein Anwendungsgebiet ergibt sich im Bereich der Zugehörigkeit (Affiliation) von Forschen-
den zu ihren Einrichtungen. Bereits seit 2008 wird für die vom Verlag Elsevier geführte
bibliografische Datenbank Scopus ein Affiliation Identifier angeboten, der die Angabe von
Zugehörigkeiten normiert und es ermöglicht, alle Publikationen einer Einrichtung aggregiert
anzuzeigen (vgl. Haerter, 2008).
Der Journal Supply Chain Efficiency Improvement Pilot der National Information Standards
Organisation (NISO) identifiziert die Erleichterung von Transaktionsprozessen und Infor-
mationsflüssen zwischen Verlagen und Bibliotheken als ein weiteres Anwendungsgebiet für
eindeutige Identifier für Organisationen (vgl. Chvatal, 2008). Eine Bewertung von bereits
bestehenden Identifikatorensystemen ergab, dass ISNI als einziges System weitestgehend
diese Anforderungen erfüllt, jedoch das verwendete Metadatenschema noch nicht vollständig
ausgereift ist. Die Working Group gab dementsprechende Empfehlungen an ISNI weiter.

In Großbritannien wurde zwischen 2013 und 2014 eine umfangreiche Studie zur Organizational
Identifiern in Großbritannien durch das Joint Information Systems Committee (Jisc) und das

16
   Siehe: http://www.horizont2020.de/projekt-teilnehmercode.htm (Abgerufen am 26. Januar
    2018).
17
   Siehe: https://www.crossref.org/services/funder-registry/ (Abgerufen am 26. Januar 2018).

                                                                                               8
Projekte

Consortia Advancing Standards in Research Administration Information (CASRAI) durchge-
führt (vgl. Hammond und Curtis, 2013). Die Studie ergab, dass keiner der 23 identifizierten
und geprüften Identifikatoren als ausreichend „autoritativ” angesehen wird, die Identifikato-
rensysteme ISNI und UKPRN18 jedoch am positivsten beurteilt werden. Ein hybrider Ansatz
mit ISNI als „bridging Identifier ” (Brückenidentifier) wird von der Working Group als optimal
angesehen (vgl. Brown, 2015).

Aufbauend auf den Ergebnissen des Jisc/CASRAI Projektes evaluierte ein von OCLC geleitetes
Projekt die Vergabe von ISNI Nummern anhand unterschiedlicher Anwendungsfälle. Diese
bezogen sich auf folgende Akteure innerhalb der wissenschaftlichen Community: Administrative
Mitarbeiter*innen, Forschungsförderer, Verlage, Verwaltungen, Forschende und Gruppen von
Forschenden, Informationsspezialist*innen Softwareentwickler*innen und Rechtsabteilungen
(vgl. Smith-Yoshimura u. a., 2016). Das Projekt zeigt anhand von Szenarien, wie innerhalb
ISNI mit Herausforderungen bei der Identifizierung von wissenschaftlichen Einrichtungen
umgegangen wird. Diese beinhalten Namensänderungen, genaue Angabe eines bevorzugten
Namens, die Abbildung von Hierarchien in den Metadaten mit Hilfe von Beziehungsbeschrei-
bungen, die Restrukturierung von wissenschaftlichen Einrichtungen, Fälle von Übernahmen
oder Zusammenlegungen und der Umgang mit Forschungsgruppen und Konsortien. Hieraus
ergeben sich Empfehlungen, die das Projekt an ISNI abgeben konnte.
Das Konzept von ISNI als Brückenidentifier ist in Portugal für die Entwicklung eines Identifi-
kators für Organisationen innerhalb des nationalen Forschungsinformationssystems PTCRIS
angewendet worden (vgl. Amante u. a., 2017). Der Identifier ist mit ISNI, bzw. auf ISNI
gemappte Ringgold-Identifier interoperabel und dient zur Disambiguierung von Organisationen
innerhalb von PTCRIS.

Das Projekt THOR befasste sich von 2016 bis 2017 mit der Interoperabilität und Verlinkung
von Persistent Identifiern für die wissenschaftliche Infrastruktur (vgl. Fenner u. a., 2016),
wobei es sich vor allem auf die Relationen zwischen Identifiern für Forschungsschaffende und
Forschungsoutputs konzentrierte. Persistent Identifier für Organisationen werden bislang wenig
genutzt. Obwohl es bereits eine Reihe von Identifikatorensystemen gibt, hat sich bisher keines
in der wissenschaftlichen Community durchgesetzt:

         „The use of persistent identifiers for organisations lags behind the use of persistent
         identifiers for research outputs and people. Despite the work by ISNI, FundRef
         and others, community uptake is still low. In addition, for some of these orga-
         nizational identifiers (e.g. FundRef) there is no openly available central service
         that systematically collects links to other identifiers” (Fenner u. a., 2015, S. 19).

Das Organization Identifier Projekt verfolgt das Ziel, ein Identifikatorensystem für Organisa-
tionen zu schaffen, welches den „Principles for open scholarly infrastructures” (vgl. Bilder, Lin

18
     UK Provider Reference Number, beispielsweise verwendet von der Higher Education Statistics Agency
      (HESA) in der UK. Siehe: https://www.hesa.ac.uk/support/providers (Abgerufen am 26. Januar
      2018).

                                                                                                    9
Projekte

und Neylon, 2015) entspricht. Dabei geht es vor allem um das Vertrauen in die Governance,
Nachhaltigkeit und die Ansiedlung der Infrastruktur in der Community. Bestehende Organiza-
tional Identifier, so die Arbeitsgruppe, seien diesen Prinzipen bisher nicht gewachsen: „Among
the gaps that have been identified during our consultations this year are transparent, non-profit
governance and the ability for organizations to manage their own records” (Cruse, Haak und
Pentz, 2016, S. 1). Die Arbeitsgruppe stellte eine Liste von Anforderungen an ideale Organi-
zational Identifier zusammen, wobei sie sich auf die vorangegangenen Studien bezog. Anders
als bei diesen Studien liegt hier der Fokus weniger auf dem Verbreitungsgrad der bisherigen
Lösungen sondern auf Offenheit (öffentliche API-Schnittstellen), Transparenz (getragen durch
gemeinnützige Organisationen) und Nachnutzbarkeit (Daten sind nicht proprietär und liegen
unter einer Lizenz vor, die die Nachnutzbarkeit ermöglicht). Die Arbeitsgruppe identifizierte
folgende Anforderungen an Organizational Identifier:

      • Unique: Die Identifier sind global eineindeutig, unabhängig davon wie groß ihre Anzahl
        ist.
      • Stable: Die Identifier garantieren Funktionalität.
      • Discoverable: Die Identifier können leicht gefunden werden.
      • Resolvable: Die Identifier können im Browser aufgelöst werden.
      • Not recycled: Im Falle der Obsoleszenz eine identifizierten Objektes wird der Identifier
        nicht wieder verwendet.
      • Documented: Die Funktionsweise des Identifiersystems ist offen dokumentiert.
      • Have appropriate metadata: Die Identifier sind mit für die Identifizierung und Beschrei-
        bung wissenschaftlicher Einrichtungen angemessenen Metadaten versehen.
      • Interoperable: Die Identifier sind mit anderen Identifiern über Metadaten, die ihre
        Relationen beschreiben verknüpfbar.
      • Can be merged/split: Die Identifier können im Falle struktureller Veränderungen von
        Einrichtungen zusammengeführt oder aufgeteilt werden.
      • Expressed as HTTP(S) URIs: Die Identifier werden als URI, die über das HTTP(S)-
        Protokoll im Internet ausgeführt werden kann, ausgedrückt.
      • Support content negotiation for machine representations: Die Identifier unterstützen
        das System der Inhaltsausgabe19 um die bestmögliche Darstellung der Informationen zu
        ermöglichen.
      • Support discovery APIs: Das Identifiersystem kann über eine Programmierschnittstelle
        (API) abgefragt werden.
      • Have transparent, non-profit governance: Die Identifier werden von einer non-profit
        Organisation mit einer transparenten Verwaltungsstruktur angeboten.
      • Offer the ability for organizations to manage their own records: Die Identifier und die
        Metadaten können von den identifizierten Einrichtungen selber verwaltet werden.

Bisher erfüllt kein Identifier diese Anforderungen. Kritikpunkte an der ISNI beziehen sich auf das
Business-Model (Kosten für die Benutzung/Registrierung), fehlende offene Lizenzen, fehlender

19
     Siehe hierzu: Holdman und Mutz (1998): RFC 2295. Transparent Content Negotiation in HTTP. https:
      //tools.ietf.org/html/rfc2295 (Abgerufen am 26. Januar 2018).

                                                                                                 10
Projekte

Fokus auf Organisationen, fehlende Transparenz im Government und fehlende Nutzbarkeit der
Daten in maschinenlesbarer Form für die Öffentlichkeit. Außerdem sieht die Arbeitsgruppe
aufgrund von Vertrauen und Nutzbarkeit einen Mehrwert in offenen Identifikatorensystemen
(vgl. Bilder, Brown und Demeranville, 2016).

Überblick

  Projekt             Untersuchte Identifier           Ergebnis

  I2 Working Group    ISNI, MARC, SAN, DUNS            ISNI mit angepasstem Meta-
                                                       datenschema

  Landscape Study     23 Identifikatoren               ISNI

  Jisc CASRAI         ISNI, Digital Science (jetzt     ISNI+ als „Brücke” mit ange-
                      GRID), Ringgold, UKPRN           passtem Metadatschema

  OCLC                ISNI                             ISNI+ möglich, aber Anpas-
                                                       sungen im Metadatenformat
                                                       notwendig, Nutzung muss ver-
                                                       breitet werden

  ORCID               Open Funder Registry, ISNI,      Kein offenes Identifikatoren-
                      Ringgold, Publisher Solutions    system vorhanden
                      International, GRID, LEI, Or-
                      gRef

     Tabelle 1: Bereits durchgeführte Projekte, Untersuchte Identifier und Ergebnisse

                                                                                        11
Methode

3 Methode
Das Hauptziel dieser Arbeit besteht darin, einen Überblick über bisherige Lösungen für die
eindeutige Identifizierung von wissenschaftlichen Einrichtung mit Hilfe von Identifikatoren zu
schaffen. Dabei werden im ersten Schritt bereits bestehende Identifikatorensysteme betrach-
tet. Die Auswahl der Identifikatoren erfolgt anhand einer Recherche nach Identifikatoren für
wissenschaftliche Einrichtungen und den Beispielen aus den genannten Studien. Der Begriff
Identifikator wird dabei als „eindeutige Kennung, die eine auf eine Entität verweist” verwendet.
Die Auswahl der Identifikatoren ist zudem auf ihre mögliche Anwendung im deutschsprachigen
Raum beschränkt. Dies spiegelt sich unter anderem darin, dass im Zuge der Betrachtung
von Normdaten nur die GND ausgewählt wurde. Andere Normdatendateien, wie das Name
Authority File der Library of Congress in den USA oder das international übergreifende VIAF
wurden nicht näher betrachtet. Die GND ID und die ISNI ID sind zwei Identifikatorensysteme
in der Auswahl, die nicht ausschließlich wissenschaftliche Einrichtungen beschrieben, sondern
deren Anwendungsgebiete auch auf Personen (ISNI, GND) und Orte, sowie Sachverhalte
(GND) bezogen werden. Da die GND als Normdatensatz die Grundlage der bibliothekarischen
Disambiguierung legt und die ISNI in bereits durchgeführten Studien sehr gut bewertet wurde,
werden die beiden Identifier trotzdem betrachtet und nur auf ihre Anwendung für wissen-
schaftliche Einrichtungen bzw. Körperschaften untersucht.
Zuerst werden bereits verwendeten Identifikatoren kurz beschrieben und darauf hin untersucht,
welche Informationen zu den Einrichtungen in welcher Form abgebildet werden, welche Rela-
tionen zwischen Einrichtungen untereinander und ggf. zu Personen bestehen können, ob die
Identifikatoren im Internet anwendbar sind und in wie fern sie zugänglich und nachnutzbar sind.
Dabei werden induktiv Kriterien für Persistent Identifier für wissenschaftliche Einrichtungen
abgeleitet.
Innerhalb der bisherigen Studien zu Identifikatoren für wissenschaftliche Einrichtungen wurden
Anwendungsszenarien entwickelt. Dafür wurden die besprochenen Anwendungsfälle zunächst
Oberthemen zugeordnet, wie im Anhang dargestellt. Die Anwendungsszenarien, die in je-
weils mindestens einer Studie besprochen wurden, sind in Tabelle 2 noch einmal dargestellt.
Dabei werden die Anwendungsszenarien aus der NISO-Studie nicht berücksichtigt, da die
Anwendungsfälle hier sehr spezifisch auf ein fiktives Konsortium zugeschnitten sind. Für
den Anwendungsfall der konsistenten und zeitunabhängigen Zuweisung von Affiliationen
wird keine Lösung recherchiert, da dieses Anwendungsgebiet im Zuge der Untersuchung der
Metadaten aufgegriffen wird. Der Anwendungsfall für das Open-Accesss-Monitoring und APC-
Management konnte nur in einem Projekt identifiziert werden. Aufgrund seiner Aktualität und
angenommenen Nützlichkeit wird dieser mögliche Einsatz von Identifikatoren für wissenschaft-
liche Einrichtungen dennoch behandelt. Die Anwendungsfälle werden daraufhin untersucht,
welche Lösungen (im deutschsprachigen Raum) im Sinne der eindeutigen Identifizierung von
wissenschaftlichen Einrichtungen bisher erfolgt sind. Aufgrund des eingeschränkten Umfangs
der Arbeit, kann keine vollständige Erhebung zu Lösungen durchgeführt werden. Stattdes-
sen wird für jeden Anwendungsfall beispielhaft nach Lösungen bzw. bestehenden Workflows
recherchiert. Diese werden in Kapitel 5 vorgestellt.

                                                                                             12
Methode

Auswahl der Anwendungsfälle

  Kategorie                    Landscape Study      Jisc/CASRAI           OCLC
                               für Jisc/CASRAI

  Forschende                   Drittmittel-         Drittmittel-          Drittmittel-
                               förderung (An-       förderung (An-        förderung (Grup-
                               trag)                trag)                 pen)

  Forschungsinfrastruktur      Reporting            Reporting (For-       Aggregation und
                                                    schungsergebnis-      Reporting
                                                    se/Drittmittel)

                                                    Automatisierung       Automatisierung
                                                    von Datenflüssen      von Datenflüssen

  Forschungsförderung          Tracking             Tracking              Tracking

                                                    Gutachtenverfahren Gutachtenverfahren
                                                    (Anträge)          (Anträge)

                               Open Access Mo-
                               nitoring und APC-
                               Management

              Tabelle 2: Korrelierende Anwendungsfälle in jeweils mind. 2 Studien

Die Diskussion der Ergebnisse erfolgt anhand von vier Kriterien:

  1. Definition von Kriterien für Persistent Identifier für wissenschaftliche Einrichtungen und
     Kategorisierung Kategorisierung der untersuchten Systeme im Bezug auf diese Kriterien.
  2. Anforderungen an Metadaten für PIDs für wissenschaftliche Einrichtungen im Bezug
     auf die untersuchten Anwendungsfälle.
  3. Bewertung der Anwendungsfälle im Bezug auf den Nutzen von Persistent Identifiern.
  4. Einschätzungen zu Organisationsansätzen für ein Identifiersystem für wissenschaftliche
     Einrichtungen im Bezug auf offene Forschungsinfrastrukturen.

Durch die Diskussion werden die Ergebnisse der Analyse der Identifikatoren und die Recherche
nach Lösungen zusammengeführt und in einen gemeinsamen Kontext, der Entwicklung eines
Persistent Identifiers für wissenschaftliche Einrichtungen basierend auf offenen Forschungsin-
frastrukturen gebracht.

                                                                                            13
Identifikatoren für wissenschaftliche Einrichtungen

4 Identifikatoren für wissenschaftliche Einrichtungen
4.1 Die Gemeinsame Normdatei (GND)
Für Körperschaften entstand in den 1970er Jahren die GKD (Gemeinsame Körperschaftdatei),
die aus Körperschaftsdaten der Zeitschriftendatenbank hervorging und 2012 in die Gemeinsame
Nordatei (GND) aufging. Körperschaften werden definiert als „Eine Organisation oder Gruppe
von Personen und /oder Organisationen, die mit einer bestimmten Bezeichnung identifiziert
wird, und die als Einheit handelt” (Patton u. a., 2010, S. 27f.). Dazu gehören auch Tagungen,
Kongresse, Konferenzen, Messen und weitere kurzzeitige vorhandene Organisationen, die noch
bestehen oder in der Vergangenheit bestanden haben.
Innerhalb des Modells der Funktionalen Anforderungen an bibliografische Datensätze (FRBR)
werden Körperschaften als separate bibliografische Entitäten behandelt, deren Bezeichnungen
mit Normdaten kontrolliert und deren Datensätze mit anderen Datensätzen verlinkt werden
können (Ebd., S. 17f.). Beziehungen zwischen Körperschaften sind in FRBR als hierarchische
Beziehungen (untergeordnet, übergeordnet) oder (temporale) Folge-Beziehungen (Namens-
änderungen, gesplittete Körperschaft, fusionierte Körperschaft) modelliert (Ebd., S. 77f.).
Kernelemente eines Normdatensatzes für Körperschaften sind nach dem Resource Description
and Access (RDA) Standards, der seit 2015 für die GND gilt: Name, bevorzugter Name, Ort,
der mit der Körperschaft in Verbindung steht (Ort einer Konferenz, Ort des Hauptsitzes),
Datum, das mit der Körperschaft in Verbindung steht (Datum der Konferenz, Gründungsda-
tum, Auflösungsdatum), in Verbindung stehende Institution (bei Konferenzen), sonstige zur
Körperschaft gehörende Kennzeichnung (Art, sonstige Kennzeichnung) und Identifikator für
die Körperschaft (RDA, S. 545ff.). Mit Identifikatoren sind externe Identifikatoren gemeint,
die mit der vergebenden Stelle in den Datensatz übernommen werden. Jeder Datensatz in
der GND erhält eine Nummer (Identifikator), die diesen Datensatz eindeutig bezeichnet. Die
Fachhochschule Potsdam hat beispielsweise die GND-Nummer 5105272-6.20 GND-Datensätze
können auch im Marc21-XML21 und RDF (Resource Description Framework)22 Format herun-
ter geladen werden. Der RDF-Datensatz zeigt die Properties, die von der GND verzeichnet
werden.

 a gndo:CorporateBody ;
foaf:page  ;
gndo:gndIdentifier "5105272-6" ;
gndo:oldAuthorityNumber "(DE-588)4492533-5" ;
owl:sameAs  ;
dnbt:deprecatedUri "http://d-nb.info/gnd/4492533-5" ;
gndo:oldAuthorityNumber "(DE-588c)4492533-5" , "(DE-588b)5105272-6" ;
gndo:variantNameForTheCorporateBody "FHP","University of Applied Sciences
    Potsdam","FHP (Fachhochschule, Potsdam)" ;
gndo:preferredNameForTheCorporateBody "Fachhochschule Potsdam" ;
20
   Siehe: http://d-nb.info/gnd/5105272-6.
21
   Machine-Readable Cataloging, ein Datenformat für den Austausch bibliografischer Daten. Siehe: https:
    //www.loc.gov/marc/bibliographic/ (Abgerufen am 26. Januar 2018).
22
   Ein Datenformat zur Modellierung von semantischen Aussagen (Subjekt-Prädikat-Objekt) im Internet.

                                                                                                   14
Der International Standard Name Identifier (ISNI)

gndo:gndSubjectCategory  ;
gndo:geographicAreaCode  ;
gndo:homepage  ;
gndo:dateOfEstablishment "1991" ;
gndo:placeOfBusiness 

Im Datensatz sind keine Relationen zu verwandten Organisationen verzeichnet, obwohl die-
se als „untergeordnet” erfasst sind. Für die Fachhochschule Potsdam sind dies insgesamt
13 untergeordnete Einrichtungen: fünf Fachbereiche, das Usbekisch-Deutsche Zentrum für
Architektur und Bauwesen23 , die Gleichstellungsbeauftragte24 , die Potsdam School of Archi-
tecture25 , das Informationszentrum für Informationswissenschaft und -praxis (Potsdam)26 und
das Institut für Information und Dokumentation (Potsdam)27 . Zudem bestehen Datensät-
ze für die vorherige Benennung des Fachbereichs Informationswissenschaften (Fachbereich
Archiv-Bibliothek-Dokumentation28 ) und dem Fachbereich Sozialwesen29 . Der Datensatz des
Fachbereichs Archiv-Bibliothek-Dokumentation verweist auf den neuen Datensatz des neu
benannten Fachbereichs, und ist im RDF-Datensatz über
gndo:succeedingCorporateBody 
definiert. Der Datensatz für den Fachbereich Sozialwesen beinhaltet keine Relationen zu
anderen GND-Datensätzen.
Für Organisationen sind in der GND folgende Rollen vorgesehen: „Urheber von”, „Beteiligt an”
und „Thema in”. Körperschaften sind sowohl Thema von Publikationen als auch geistige Schöp-
fer von Werken.30 In der GND gibt es keine Relationen zwischen Personennormdaten und Kör-
perschaftsnormdaten, also keine Möglichkeit, Affiliationen auszudrücken. Die Datensätze sind
einheitlich über eine URL nach dem Schema 
aufrufbar. Es gibt kein Resolving System. Der Datensatz ist in Linked Data Anwendungen
über die Einbindung der GND-Ontologie vernetzbar aber in den öffentlichen Datensätzen sind
keine weiteren externen Identifikatoren eingebunden.

4.2 Der International Standard Name Identifier (ISNI)
Der International Standard Name Identifier (ISNI) identifiziert Personen oder Organisationen,
die an der Herstellung und/oder Distribution von medialen Inhalten beteiligt sind (vgl. DIN
ISO, 2012). Der Identifikator soll als Brückenidentifikator fungieren und die Nutzung anderer
Identifier erleichtern. Daher enthalten die Datensets nur Kerndaten zur Disambiguierung von
Identitäten und verlinken auf andere Systeme, die mehr Informationen bereit halten. ISNI hat
23
   Siehe: http://d-nb.info/gnd/1069427608.
24
   Siehe: http://d-nb.info/gnd/10026349-5.
25
   Siehe: http://d-nb.info/gnd/16086296-6.
26
   Siehe: http://d-nb.info/gnd/5105274-X.
27
   Siehe: http://d-nb.info/gnd/5129722-X.
28
   Siehe: http://d-nb.info/gnd/5253999-4.
29
   Siehe: http://d-nb.info/gnd/2160393-5.
30
   Lt. RDA 19.2.1.1.1 (RDA, S. 660f.).

                                                                                          15
Der International Standard Name Identifier (ISNI)

zum Ziel, die Auffindbarkeit von Informationsressourcen zu erleichtern, die Disambiguierung
von Namen zu unterstützen und eine Infrastruktur zu stellen, die die Informationsdistribution
für Organisationen erleichtert (vgl. ISNI, 2018a). ISNI führt die Daten zu Identitäten aus
unterschiedlichen Datenbanken aus der ganzen Welt zusammen (vgl. ISNI, 2018b).
Die Kernelemente der Datensätze sind über die Suche in der ISNI Datenbank einsehbar.
Angegeben werden Name, Location/Nationality, Creation Class, Creation Role, Related Names
und Titles (Titel von Publikationen). Zudem können Notes vergeben werden. Unter Sources
wird angezeigt aus welchen Quellen die Informationen stammen. Es kann eine Liste der
Datenelemente auf der ISNI Website31 heruntergeladen werden (vgl. ISNI, 2014). In der
neusten Version von 2014 sind bereits einige der Vorschläge aus durchgeführten Studien zur
Identifikatoren für wissenschaftliche Einrichtungen integriert. Für Organisationen können im
MARC-Feld 710$q Angaben zu organisationType gemacht werden. Eine Liste von Typen
wurde von ISNI definiert. Aus dieser Liste können auch Konsortien, Forschungsgruppen oder
Subscription Services ausgewählt werden. Namen werden in Feld 710 $3 mit folgenden
Attributen aufgenommen: legalName, acronym, nickname, assignedName, transliteratedName,
difusedName, commonForm (default). Zwischen Personen und Organisationen können folgende
Relationen definiert werden:

      •   isRelatedTo
      •   isMemeberof / hasMember
      •   isAffiliatedWith / hasEmployee
      •   contact, no relation oder undefined

Organisationen untereinander können eine Reihe von Relationen haben:

      •   isMemberOf / hasMember
      •   isUnitOf / hasUnit
      •   isSupersededBy / supersedes
      •   isAffiliatedWith
      •   isRelatedTo
      •   formerName
      •   laterName

In der ISO-Norm für die ISNI ist festgelegt, dass, wenn Namensänderungen von Körperschaf-
ten durch Aufteilung oder Zusammenführung geschehen, diese Körperschaften eine neue
ISNI-Nummer erhalten (DIN ISO, 2012, S. 5). Jedoch können Namensänderungen über die
Relationsattribute formerName und laterName nachvollzogen werden.
Aus dem Metadatenschema der ISNI wird nicht ersichtlich, welche Rollen eine Körperschaft
einnehmen kann. Die Suche in der Datenbank ergibt eine Reihe von Titeln, die mit der
Körperschaft assoziiert sind. Da die ISNI vor allem dazu dient, Namen zu disambiguieren,
scheint kein großer Wert auf die Auszeichnung von Rollen für Körperschaften gelegt zu werden,
sie sind meistens creator. Relationen können in der ISNI sowohl zwischen Organisationen
untereinander als auch zwischen Personen und Organisationen angegeben werden. Dadurch
31
     Siehe: http://www.isni.org/content/documents-related-data-submission (Abgerufen          am
      26. Januar 2018).

                                                                                              16
Ringgold Identifier

lassen sich Affiliationen darstellen. Auch Namensänderungen für Organisationen lassen sich
über Relationen nachvollziehen. ISNIs sind einfache numerische Kennzahlen, bestehend aus
16 Zahlen. Sie enthalten keine semantischen Merkmale.32 ISNIs werden als persistente URIs
ausgedrückt, nach dem Schema .33 Für den
Zugriff ist kein Resolver Service vorgesehen. ISNI-Daten können als MARC21 Code und Linked
Data heruntergeladen werden. Die Daten sind unter einer „Open License” lizensiert.34

4.3 Ringgold Identifier
Ringgold ist ein Unternehmen, welches Identifikatoren für Einrichtungen aus einem breiten
Spektrum von Sektoren, beispielsweise auch Krankenhäuser (Typ hospital) oder Verwaltungs-
einrichtungen (Typ govt) anbietet (Delpeuch, 2017). Das Identifiersystem wurde begründet,
um eine Best-Practice-Lösung für die Disambiguierung von Organisationen durch Verlage
zu schaffen (vgl. Ringgold, 2018d). Dabei ging es vor allem um die korrekte Zuordnung
von Transaktionsdaten im Subskriptionsprozess. Das Unternehmen ist eine Registrierungs-
einrichtung für ISNI. Ringgold IDs werden auf ISNI-IDs gemapped und wenn neue Ringgold
IDs erstellt werden, werden diese mit der ISNI Datenbank abgeglichen und ggf. eine neue
ISNI hinzugefügt (vgl. Ringgold, 2018b). ORCID verwendet Ringgold IDs für die Angabe von
Affiliationen. Die Identify Datenbank kann gegen Bezahlung von Organisationen lizensiert
werden. Sie bietet Zugang zu den IDs, zu Zusatzinformationen und zu Datenhierarchien. Für
einen limitierten Gast-Zugang kann sich jeder registrieren35 , über die Kosten für den vollen
Zugriff gibt es auf der Webseite keine genaueren Angaben.
Ringgold IDs sind speziell dafür ausgelegt, Organisationen zu identifizieren. Eine öffentlich
zugängliche Version des Schemas der Datensätze gibt es nicht, jedoch werden Elemente der
Identify Datenbank dokumentiert.36 Standard Kernelemente beinhalten Name, Alternativer Na-
me, Adresse (Ort, Postleitzahl, Region, Land). Ringgold kategorisiert Arten von Organisationen
nach einem eigenen Standard (vgl. Ringgold, 2018f). Alternative Namen von Organisationen
werden mit Hilfe eines Kürzels in verschiedene Arten geordnet, Beispielsweise in Akronyme,
vorherige Namen, Transliterierte Namen, Zusammengelegte Namen. Organisationen werden
nach Sektoren und Typen geordnet. Sektoren sind academic, corporate, government (central
government), hospital, other (non-profit institutions), public (local government), school oder
consortium. Diese werden wiederum in Typen bzw. Schwerpunkte aufgeteilt. Somit ist die
Typisierung sehr granulär. Ein zweites von Ringgold entwickeltes Klassifizierungsschema ist die
Einordnung von Organisationen in Tiers (Ebenen/Stufen) (vgl. Ringgold, 2018e). Auch hier
werden Sektoren angegeben und mit dem Scope (Größe/Reichweite) der Organisation gepaart.
Diese bleiben äquivalent zu den Ringgold Types, es wird jedoch nicht nach Schwerpunkten
sondern nach Größe (anhand der Anzahl von Mitarbeitenden für Wirtschaftliche Einrichtungen)
oder Reichweite (anhand der Menge an Forschungsoutput für akademische Einrichtungen) ge-
32
   Zum Beispiel ist die ISNI für die Fachhochschule Potsdam: 0000 0001 0680 6484.
33
   Beispiel für die Fachhochschule Potsdam: http://isni.org/isni/0000000106806484.
34
   Siehe: Open License, Version 1.0 (2011): http://ddata.over-blog.com/xxxyyy/4/37/99/26/
    licence/Licence-Ouverte-Open-Licence-ENG.pdf (Abgerufen am 26. Januar 2018).
35
   Siehe: https://www.ringgold.com/identify-online-guests (Abgerufen am 26. Januar 2018).
36
   Siehe: https://support.ringgold.com/ (Abgerufen am 26. Januar 2018).

                                                                                            17
Sie können auch lesen