Informatik Spektrum - Dr. Jekyll, Mr. Hyde und Distributed-Ledger-Technologien Social Machines Digital Literacy - GI Radar

Die Seite wird erstellt Katrin Mayr
 
WEITER LESEN
Informatik Spektrum - Dr. Jekyll, Mr. Hyde und Distributed-Ledger-Technologien Social Machines Digital Literacy - GI Radar
Organ der Gesellschaft für Informatik e.V.           Band 45 • Heft 1 • Februar 2022
      und mit ihr assoziierter Organisationen

      Informatik
      Spektrum

                      Dr. Jekyll, Mr. Hyde und Distributed-Ledger-Technologien
                                                               Social Machines
123                                                             Digital Literacy
Informatik Spektrum - Dr. Jekyll, Mr. Hyde und Distributed-Ledger-Technologien Social Machines Digital Literacy - GI Radar
ZUM TITELBILD
     Informatik
        Spektrum                                Organ der Gesellschaft für Informatik e. V. und mit ihr assoziierter Organisationen

       BEISPIEL ALGORITHMISCHER KUNST
       Frieder Nake, Beispiel algorithmischer Kunst aus dem Jahre 1966, ein Ergebnis des Programm-
       systems „Walk-through-Raster“ (hier Walk aus der Serie 2.1-4). Das Blatt hat die Größe 40 x 40 cm.
       Dem Schema dieses Programmsystem liegt eine gedanklich gerasterte Zeichenfläche zugrunde.
       Außerdem steht ein einfaches „Zeichenrepertoire“ zur Verfügung. In diesem Fall besteht es aus
       einem kurzen waagerechten und einem senkrechten Strich gleicher Länge (der Größe des Raster-
       feldes), sowie dem leeren Feld.
       Mit diesen drei Zeichen wird eine Markov-Kette gebildet, die nach einem bestimmten Modus in die
       Zeichenfläche übertragen wird. Dieser Modus ist in unserem Fall diagonal hin- und hergehend. Das
       nächste Zeichen in der Kette wird nach Übergangswahrscheinlichkeiten zufällig ausgewählt, sein
       Erscheinen hängt also vom gerade vorher platzierten Zeichen ab. Die Übergangswahrscheinlich-
       keiten sind nicht für das ganze Bild die gleichen. Sie hängen vielmehr vom Ort ab, an dem wir uns
       beim Zeichnen befinden.
       So kommt es auf einfach zu kontrollierende Weise dazu, dass zu Anfang und gegen Schluss das leere
       Feld deutlich häufiger erscheint. – Diese Art von algorithmischer Planung ästhetischer Objekte war,
       so kann man recht sicher vermuten, in der Mitte der 1960er Jahre anderswo nicht bekannt. –
       Gerechnet auf Telefunken TR4, gezeichnet mit Zuse Graphomat Z64. Programmiert in Algol-60.
       Frieder Nake
       Universität Bremen, FB3 (Informatik)
       E-Mail: nake@uni-bremen.de

A2
Informatik Spektrum - Dr. Jekyll, Mr. Hyde und Distributed-Ledger-Technologien Social Machines Digital Literacy - GI Radar
INHALT
                    Informatik
                       Spektrum
Band 45 | Heft 1 | Februar 2022
                                                                          Organ der Gesellschaft für Informatik e. V. und mit ihr assoziierter Organisationen

                                  EDITORIAL
                                  Thomas Ludwig · Peter Pagel
                           1      Editorial 1/22

                                  HAUPTBEITRÄGE
                                  Christoph Lübbert · Thomas Zeh
                           3      Skizze eines Verfahrens zur Erstellung von Ontologien mittels Formaler
                                  Begriffsanalyse
                                  Marko Kureljusic · Erik Karger
                           13     Data Preprocessing as a Service – Outsourcing der
                                  Datenvorverarbeitung für KI-Modelle mithilfe einer digitalen Plattform
                                  Arno Rolf
                           20     Digital Literacy. Wie die digitale Urteilsfähigkeit der Studierenden
                                  gestärkt werden kann
                                  Mathias Ellmann
                           29     Effektives Lehren und Lernen in der Informatik, Wirtschaftsinformatik
                                  und verwandten Fachgebieten

                                  AKTUELLES SCHLAGWORT
                                  Claude Draude · Christian Gruhl · Gerrit Hornung · Jonathan Kropf · Jörn Lamla ·
                                  Jan Marco Leimeister · Bernhard Sick · Gerd Stumme
                           38     Social Machines

                                  KOLUMNE
                                  Edy Portmann
                           43     Dr. Jekyll, Mr. Hyde und Distributed-Ledger-Technologien

                                  NACHRUF
                                  Hans Langmaack · Gunther Schmidt
                           45     Manfred Paul (1932–2021)

                                  FORUM
                                  Rainer Rehak · Nikolas Becker · Pauline Junginger · Otto Obert
                           47     Gewissensbits – wie würden Sie urteilen?
                                  Ursula Sury
                           50     Verträge auf elektronischem Weg
                                  Rolf Windenberg
                           53     Um etliche Ecken ged8. Gehirn-Jogging auf Basis der math.- und
                                  informatisch-orientierten Rechtschreibreform

                                  MITTEILUNGEN
                           55     Mitteilungen der GI im Informatik Spektrum 1/2022
Informatik Spektrum - Dr. Jekyll, Mr. Hyde und Distributed-Ledger-Technologien Social Machines Digital Literacy - GI Radar
Informatik
                  Spektrum                                         Organ der Gesellschaft für Informatik e. V. und mit ihr assoziierter Organisationen

     Hauptaufgabe dieser Zeitschrift ist die Weiterbil-     Gemeinschaft ist, kann unter bestimmten Voraus-         Prof. Dr. H. Federrath, Universität Hamburg
     dung aller Informatiker durch Veröffentlichung         setzungen an der Ausschüttung der Bibliotheks- und      Prof. O. Günther, Ph. D., Universität Potsdam
     aktueller, praktisch verwertbarer Informationen        Fotokopietantiemen teilnehmen. Nähere Einzelhei-        Prof. Dr. D. Herrmann,
     über technische und wissenschaftliche Fort-            ten können direkt von der Verwertungsgesellschaft       Otto-Friedrich-Universität Bamberg
     schritte aus allen Bereichen der Informatik und        WORT, Abteilung Wissenschaft, Goethestr. 49,            Prof. Dr. W. Hesse, Universität Marburg
     ihrer Anwendungen. Dies soll erreicht werden           80336 München, eingeholt werden.                        Dr. Agnes Koschmider, Universität Kiel
     durch Veröffentlichung von Übersichtsartikeln und            Die Wiedergabe von Gebrauchsnamen, Han-           Dr.-Ing. C. Leng, Google
     einführenden Darstellungen sowie Berichten über        delsnamen, Warenbezeichnungen usw. in dieser            Prof. Dr. F. Mattern, ETH Zürich
     Projekte und Fallstudien, die zukünftige Trends        Zeitschrift berechtigt auch ohne besondere Kenn-        Prof. Dr. Michael Meier, Uni Bonn,
     aufzeigen.                                             zeichnung nicht zu der Annahme, dass solche Namen       Lehrstuhls für IT-Sicherheit
            Es sollen damit unter anderem jene Leser an-    im Sinne der Warenzeichen- und Markenschutz-            Prof. Dr. K.-R. Müller, TU Berlin
     gesprochen werden, die sich in neue Sachgebiete        Gesetzgebung als frei zu betrachten wären und daher     Prof. Dr. W. Nagel, TU Dresden
     der Informatik einarbeiten, sich weiterbilden, sich    von jedermann benutzt werden dürfen.                    Prof. Dr. E. Portmann, Universität Fribourg
     einen Überblick verschaffen wollen, denen aber                                                                 Prof. Dr. F. Puppe, Universität Würzburg
     das Studium der Originalliteratur zu zeitraubend       Vertrieb, Abonnement, Versand                           Prof. Dr. Kai Rannenberg, Uni Frankfurt,
     oder die Beschaffung solcher Veröffentlichungen        Papierausgabe: ISSN 0170-6012                           Mobile Business & Multilateral Security
     nicht möglich ist. Damit kommt als Leser nicht nur     elektronische Ausgabe: ISSN 1432-122X                   Prof. Dr. R.H. Reussner, Universität Karlsruhe
     der ausgebildete Informatikspezialist in Betracht,     Erscheinungsweise: zweimonatlich                        Prof. Dr. S. Rinderle-Ma, Universität Wien
     sondern vor allem der Praktiker, der aus seiner Ta-                                                            Prof. Dr. O. Spaniol, RWTH Aachen
     gesarbeit heraus Anschluss an die wissenschaftliche          Den Bezugspreis können Sie beim Customer          Dr. D. Taubner, München (bis 2020: msg systems ag)
     Entwicklung der Informatik sucht, aber auch der        Service erfragen: customerservice@springernature.       Sven Tissot, Iteratec GmbH, Hamburg
     Studierende an einer Fachhochschule oder Univer-       com. Die Lieferung der Zeitschrift läuft weiter, wenn   Prof. Dr. Herbert Weber, TU Berlin
     sität, der sich Einblick in Aufgaben und Probleme      sie nicht bis zum 30.9. eines Jahres abbestellt wird.
     der Praxis verschaffen möchte.                         Mitglieder der Gesellschaft für Informatik und der       Impressum
            Durch Auswahl der Autoren und der The-          Schweizer Informatiker Gesellschaft erhalten die
     men sowie durch Einflussnahme auf Inhalt und            Zeitschrift im Rahmen ihrer Mitgliedschaft.              Verlag:
     Darstellung – die Beiträge werden von mehreren               Bestellungen oder Rückfragen nimmt jede            Springer, Tiergartenstraße 17,
     Herausgebern referiert – soll erreicht werden, dass    Buchhandlung oder der Verlag entgegen.                   69121 Heidelberg
     möglichst jeder Beitrag dem größten Teil der Le-       SpringerNature, Kundenservice Zeitschriften,
     ser verständlich und lesenswert erscheint. So soll     Tiergartenstr. 15, 69121 Heidelberg, Germany             Redaktion:
     diese Zeitschrift das gesamte Spektrum der Infor-      Tel. +49-6221-345-0, Fax: +49-6221-345-4229,             Peter Pagel, Vanessa Keinert
     matik umfassen, aber nicht in getrennte Sparten        e-mail: customerservice@springernature.com               Tel.: +49 611 787 8329
     mit verschiedenen Leserkreisen zerfallen. Da die       Geschäftszeiten: Montag bis Freitag 8–20 h.              e-mail: Peter.Pagel@springer.com
     Informatik eine sich auch weiterhin                          Bei Adressänderungen muss neben dem Ti-
     stark entwickelnde anwendungsorientierte               tel der Zeitschrift die neue und die alte Adresse
     Wissenschaft ist, die ihre eigenen wissenschaft-       angegeben werden. Adressänderungen sollten               Herstellung:
     lichen und theoretischen Grundlagen zu einem           mindestens 6 Wochen vor Gültigkeit gemeldet              Madeleine Schnurr,
     großen Teil selbst entwickeln muss, will die Zeit-     werden. Hinweis gemäß §4 Abs. 3 der Postdienst-          e-mail: Madeleine.Schnurr@springer.com
     schrift sich an den Problemen der Praxis orien-        Datenschutzverordnung: Bei Anschriftenänderung
     tieren, ohne die Aufgabe zu vergessen, ein solides     des Beziehers kann die Deutsche Post AG dem Verlag       Redaktion Gl-Mitteilungen:
     wissenschaftliches Fundament zu erarbeiten. Zur        die neue Anschrift auch dann mitteilen, wenn kein        Cornelia Winter
     Anwendungsorientierung gehört auch die Be-             Nachsendeauftrag gestellt ist. Hiergegen kann der        Gesellschaft für Informatik e.V. (GI)
     schäftigung mit den Problemen der Auswirkung           Bezieher innerhalb von 14 Tagen nach Erscheinen          Wissenschaftszentrum,
     der Informatikanwendungen auf den Einzelnen,           dieses Heftes bei unserer Abonnementsbetreuung           Ahrstraße 45, D-53175 Bonn,
     den Staat und die Gesellschaft sowie mit Fragen        widersprechen.                                           Tel.: +49 228-302-145, Fax: +49 228-302-167,
     der Informatik-Berufe einschließlich der Ausbil-                                                                Internet: http://www. gi.de,
     dungsrichtlinien und der Bedarfsschätzungen.                                                                    e-mail: gs@gi.de
                                                            Elektronische Version
                                                            springerlink.com
     Urheberrecht                                                                                                    Wissenschaftliche Kommunikation:
     Mit der Annahme eines Beitrags überträgt der Au-       Hinweise für Autoren                                     Anzeigen: Eva Hanenberg
     tor Springer (bzw. dem Eigentümer der Zeitschrift,     http://springer.com/journal/00287                        Abraham-Lincoln-Straße 46
     sofern Springer nicht selbst Eigentümer ist) das                                                                65189 Wiesbaden
     ausschließliche Recht zur Vervielfältigung durch                                                                Tel.: +49 (0)611/78 78-226
     Druck, Nachdruck und beliebige sonstige Verfahren      Hauptherausgeber                                         Fax: +49 (0)611/78 78-430
     das Recht zur Übersetzung für alle Sprachen und        Prof. Dr. Dr. h. c.mult. Wilfried Brauer (1978–1998)     eva.hanenberg@springer.com
     Länder.                                                Prof. Dr. Dr. h. c. Arndt Bode,
            Die Zeitschrift sowie alle in ihr enthaltenen   Technische Universität München (1999–2019)
                                                            Prof. Dr. T. Ludwig,                                     Satz:
     einzelnen Beiträge und Abbildungen sind urhe-                                                                   le-tex publishing services GmbH, Leipzig
     berrechtlich geschützt. Jede Verwertung, die nicht     Deutsches Klimarechenzentrum GmbH, Hamburg
     ausdrücklich vom Urheberrechtsgesetz zugelassen        (seit 2019)
     ist, bedarf der vorherigen schriftlichen Zustim-                                                                Druck:
     mung des Eigentümers. Das gilt insbesondere für        Herausgeber                                              Printforce,
     Vervielfältigungen, Bearbeitungen, Übersetzungen,      Prof. Dr. S. Albers, TU München                          The Netherlands
     Mikroverfilmungen und die Einspeicherung und            Prof. A. Bernstein, Ph. D., Universität Zürich
     Verarbeitung in elektronischen Systemen. Jeder         Prof. Dr. Dr. h. c. Arndt Bode, Technische               springer.com
     Autor, der Deutscher ist oder ständig in der Bundes-   Universität München
                                                                                                                     Eigentümer und Copyright
     republik Deutschland lebt oder Bürger Österreichs,     Prof. Dr. T. Braun, Universität Bern
                                                                                                                     © Springer-Verlag GmbH Deutschland,
     der Schweiz oder eines Staates der Europäischen        Prof. Dr. O. Deussen, Universität Konstanz
                                                                                                                     ein Teil von Springer Nature, 2022

A4
Informatik Spektrum - Dr. Jekyll, Mr. Hyde und Distributed-Ledger-Technologien Social Machines Digital Literacy - GI Radar
springer.com

         Editor-in-Chief:
         Dennis-Kenji Kipker

         International Cybersecurity
         Law Review
         Zeitschrift für Cybersicherheit und Recht
         International Cybersecurity Law Review -
         Zeitschrift für Cybersicherheit und Recht
         The International Cybersecurity Law Review (ICLR) is chiefly aimed at professionals
         interested in developments in international cybersecurity, data security, technology, law
         and regulation. Articles deal with compliance and security regulation, as well as related
         issues around the globe. Thus, ICLR is providing crucial and reliable information for anyone
         who is doing IT related business internationally.
         Die International Cybersecurity Law Review (ICLR) richtet sich vor allem an Fachleute, die
         sich für Entwicklungen in den Bereichen internationale Cybersicherheit, Datensicherheit,
         Technologie, Recht und Regulierung interessieren. Die Artikel befassen sich mit der
         Einhaltung von Vorschriften und Sicherheitsbestimmungen sowie mit verwandten
         Themen rund um den Globus. Somit stellt ICLR entscheidende und zuverlässige
         Informationen für jeden bereit, der international im IT-Bereich tätig ist.

         Jetzt bestellen auf springer.com/shop oder in Ihrer Buchhandlung
A95443
Informatik Spektrum - Dr. Jekyll, Mr. Hyde und Distributed-Ledger-Technologien Social Machines Digital Literacy - GI Radar
springer.com/informatik

         R. Schuhmann, B. Eichhorn (Hrsg.)
         Contractual Management
         Managing Through Contracts
         2020, XXXIII, 404 p. 38 illus., 23 illus. in color. Geb.
         € (D) 53,49 | € (A) 54,99 | *CHF 66.61
         ISBN 978-3-662-58481-1
         € 42,79 | *CHF 53.00
         ISBN 978-3-662-58482-8 (eBook)

         Vertragsmanagement
         neu gedacht
         •   Explores the theoretical foundations of contractual management
         •   Covers a variety of industries, company sizes, contract types, and
             management situations
         •   Case studies illustrate applications of contract management
         The Concept Contractual Management offers a holistic approach to managerial
         decision-making based on contracts or business processes that are related to contracts. It
         explains management from the point of view of the contract, just as it interprets the
         contract from the point of view of management. Thus, the approach highlights the great
         inherent potential of contracts for managing companies, transactions and business
         relationships. The book addresses students as well as practitioners and gives insights into
         the usage of contracts to manage companies or relationships.

         Ihre Vorteile in unserem Online Shop:
         Über 280.000 Titel aus allen Fachgebieten | eBooks sind auf allen
         Endgeräten nutzbar | Kostenloser Versand für Printbücher weltweit

         € (D): gebundener Ladenpreis in Deutschland, € (A): in Österreich. * : unverbindliche Preisempfehlung.
         Alle Preise inkl. MwSt.

         Jetzt bestellen auf springer.com/informatik oder in der Buchhandlung
A85539
Informatik Spektrum - Dr. Jekyll, Mr. Hyde und Distributed-Ledger-Technologien Social Machines Digital Literacy - GI Radar
Informatik Spektrum (2022) 45:1–2
https://doi.org/10.1007/s00287-022-01433-8

    EDITORIAL

Editorial 1/22
Thomas Ludwig1 · Peter Pagel2

Angenommen: 24. Dezember 2021
© The Author(s), under exclusive licence to Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2022

Liebe Leserinnen und Leser,                                                  der Pandemie darin besteht, dass viele, die zuvor skeptisch
                                                                             waren und die Verwendung von Videokonferenz-Software
Sie halten das erste Heft des Jahres 2022 in Händen. Wieder                  und Ähnlichem teils konsequent verweigerten, sich aus der
liegt ein Jahr mit Corona hinter uns, und was an Varianten-                  Not heraus dann doch daran gewöhnt haben. Gelernt haben
reichtum vor uns liegt, das wollen wir gar nicht so genau                    wir dabei, dass diese Hilfsmittel zwar oft sehr nützlich sind,
wissen. Mittlerweile können wir alle G’s schon mindestens                    aber eben auch, dass sie Treffen im wirklichen Leben nicht
einmal vorweisen – vermutlich ist das bei Ihnen teilweise                    vollständig ersetzen können. Das wird sicher auch nach der
ebenso – und wenn wir etwas von G’s höre, dann fällt das                     Pandemie ein Thema bleiben.
schnell in die Kategorie G-enervt.                                              Wie Sie vielleicht bereits erfahren haben, hat sich die
   Nun haben wir also ein volles Jahr unter Pandemiebedin-                   Gesellschaft für Informatik gegen Ende des Jahres 2021
gungen verbracht. Mal mehr, mal weniger eingeschränkt,                       entschieden, den Vertrag mit Springer Nature [korrekt? Ja,
und immer in der Hoffnung auf Besserung. Meine univer-                       passt so] ab 2023 nicht mehr fortzusetzen. Das Informatik
sitäre Lehre erfolgt jetzt abwechselnd per aufgezeichnetem                   Spektrum ist damit nicht länger das Organ der Gesellschaft
Video, als Zoom-Vorlesung oder als Präsenzvorlesung. Lei-                    für Informatik. Das Erscheinen wird aber normal fortge-
der gibt es in diesem Winter nahezu alle zwei Wochen neue                    führt. Mögliche Anpassungen der inhaltlichen Ausrichtung
Regularien. Überraschenderweise hatten wir im Frühjahr                       werden im Jahr 2022 diskutiert werden – was aber auf je-
bei den video-mündlichen Prüfungen festgestellt, dass der                    den Fall bleiben wird ist, dass das Informatik Spektrum
Lernerfolg bei den Studierenden ausgezeichnet war. Ich hat-                  auf hohem Niveau über die ganze Bandbreite der Informa-
te mit mehr Teilnehmern ein insgesamt höheres Leistungs-                     tik berichten wird. Hauptherausgeber ist weiterhin Thomas
niveau festgestellt, und das ist besonders für meine Spezi-                  Ludwig und ich hoffe, dass die Gruppe der Herausgeberin-
alvorlesung Hochleistungsrechnen doch überraschend. Ich                      nen und Herausgeber auch weiterhin aktiv zum Gelingen
nehme an, dass die Videos ein konzentrierteres Lernen ge-                    des Journals beitragen wird. Weitere Informationen werden
statten, da man sich den Stoff in passende Häppchen teilen                   wir Ihnen im Laufe des Jahres 2022 mitteilen.
kann und insbesondere bei Fragen einfach auch zurück-                           Wir wünschen allen Leserinnen und Lesern noch alles
setzen kann. Lustiger Nebeneffekt, Fehler im Vortrag sind                    Gute zum Jahr 2022, und wir hoffen, dass es für alle ein
jetzt eindeutig nachweisbar. „Herr Ludwig hat aber im Vi-                    glückliches und gesundes Jahr werden möge.
deo gesagt, das geht so und so.“ Herr Ludwig musste dann
                                                                             Hinweis des Verlags Der Verlag bleibt in Hinblick auf geografische
diese Folie nochmal, und besser, aufzeichnen und in das Vi-                  Zuordnungen und Gebietsbezeichnungen in veröffentlichten Karten
deo einbauen. Selbes Hemd, selber Dozent – nur die Folie                     und Institutsadressen neutral.
korrigiert. Merkt man fast nicht. Videolehre hat auch ihre
praktischen Seiten.
   Insgesamt lässt sich bei Privatleuten und im professio-
nellen Umfeld beobachten, dass ein positiver Nebeneffekt

 Peter Pagel
     peter.pagel@springer.com

1
     Deutsches Klimarechenzentrum, Hamburg, Deutschland
2
     Springer Fachmedien Wiesbaden GmbH, Wiesbaden,
     Deutschland

                                                                                                                                    K
Informatik Spektrum - Dr. Jekyll, Mr. Hyde und Distributed-Ledger-Technologien Social Machines Digital Literacy - GI Radar
2                   Informatik Spektrum (2022) 45:1–2

    Thomas Ludwig   Peter Pagel

K
Informatik Spektrum - Dr. Jekyll, Mr. Hyde und Distributed-Ledger-Technologien Social Machines Digital Literacy - GI Radar
Informatik Spektrum (2022) 45:3–12
https://doi.org/10.1007/s00287-021-01397-1

    HAUPTBEITRAG

Skizze eines Verfahrens zur Erstellung von Ontologien mittels Formaler
Begriffsanalyse
Christoph Lübbert1 · Thomas Zeh1

Angenommen: 2. August 2021 / Online publiziert: 22. September 2021
© Der/die Autor(en) 2021

Zusammenfassung
Die Formale Begriffsanalyse vermag aus den Daten zu Gegenständen und deren Merkmalen eine Datenstruktur zu er-
mitteln. Es wird ein weitgehend automatisierbares Verfahren vorgestellt, das ausgehend von Elementarsätzen in Form
von RDF-Tripeln in einem iterativen Bottom-up-Prozess mittels Semantischer Netze und der Formalen Begriffsanalyse zu
einem Ontologieschema führt. Neben der Taxonomie der Klassen wird hierbei auch eine Taxonomie der Relationstypen
erstellt. Die durch die Formale Begriffsanalyse automatisch erstellten Merkmalimplikationen können für die Qualitäts-
sicherung herangezogen werden. Führt diese zu Korrekturen und Erweiterungen der Elementarsätze, wird der Prozess
wiederholt. Das resultierende Ontologieschema wird in ein Entity-Relationship-Diagramm überführt, das die Grundlage
für ein konzeptionelles Datenbankschema liefert. Zur Demonstration des Verfahrens wird exemplarisch eine Ontologie
eines Wissensgebiets erstellt.
Alle Überlegungen zur Erstellung des Ontologieschemas lassen sich prinzipiell auch bei der Erstellung und Ausarbeitung
beliebiger semantischer Datenschemata anwenden. Somit bietet diese Bottom-up-Methode die Chance, die Generierung
des Datenbankschemas algorithmisch durch Beispielsammlungen zu unterstützen. Da jeder Schritt im Verfahren nachvoll-
ziehbar und somit von der Person des Modellierers unabhängig ist, liefert das Verfahren einen Beitrag zur Automatisierung
der Modellierung, insbesondere von Ontologien.

Motivation und Ziel                                                  der Entwicklung von Ontologien [2] praktisch genutzt wer-
                                                                     den können.1
Mit der Formalen Begriffsanalyse (FBA) [1] entfalten sich               Anhand eines Beispiels wollen wir ein Verfahren auf-
aus Daten zu Gegenständen und deren Merkmalen automa-                zeigen, mit dem das Modellieren weitgehend automatisch,
tisch Begriffe, unter die diese Gegenstände fallen und die           nachvollziehbar und somit objektivierbar und weniger per-
diese Merkmale beinhalten. Die FBA liefert somit anhand              sonenabhängig gemacht werden kann. Der Artikel richtet
erhobener Daten eine Datenstruktur. Aus Daten lassen sich            sich vor allem an Informatiker und Linguisten und an Ent-
also Metadaten generieren, wie sie für semantische Daten-            wickler von Datenmodellen sowie an Wissensingenieure,
modelle von Wissensgebieten benötigt werden und die bei              die an einer Beschreibung von Weltausschnitten – sei es für
                                                                     die Schaffung von Anwendungssystemen, sei es für Onto-
                                                                     logien – interessiert sind.2

                                                                     Aufgabe und Ausgangssituation

     Christoph Lübbert                                               Es gilt, für ein bestimmtes Wissensgebiet anhand von Aus-
     christoph.luebbert@t-online.de                                  sagen über einige Instanzen ein zugehöriges Ontologie-
 Thomas Zeh
     thomas.zeh@t-online.de
                                                                     1 Eine Aufstellung derartiger Verfahren findet sich bei Priya und Ku-
1
     Ernst-Schröder-Zentrum für Begriffliche                         mar [3].
     Wissensverarbeitung, Fachbereich Mathematik, TU                 2 Der vorliegende Artikel ist eine Kurzfassung des mathematisch fun-

     Darmstadt, Schlossgartenstr. 7, 64289 Darmstadt,                dierten Artikels Ein Verfahren zur Erstellung von Ontologien mittels
     Deutschland                                                     Formaler Begriffsanalyse von den gleichen Autoren [4].

                                                                                                                              K
Informatik Spektrum - Dr. Jekyll, Mr. Hyde und Distributed-Ledger-Technologien Social Machines Digital Literacy - GI Radar
4                                                                                           Informatik Spektrum (2022) 45:3–12

schema zu erstellen. Dies soll auf Basis einer Sammlung          Ein Paar (A, B) heißt ein formaler Begriff im formalen
elementarer Sätze der Form Subjekt-Prädikat-Objekt (S-P-       Kontext K = (G, M, I), wenn gilt
O) geschehen. Die Elementarsätze liegen in Textform oder
als RDF-Tripel [5] vor als sogenannte Statements oder Ur-      A  G; B  M; A "= B und B #= A:
teile, also für wahr gehaltene Aussagen. Um sachlogische
Zusammenhänge zwischen den Termen der Elementarsätze               Dabei heißt A der Umfang, B der Inhalt des formalen
grafisch darzustellen, wird ein Semantisches Netz genutzt.     Begriffs (A, B). Die Menge aller formalen Begriffe des for-
                                                               malen Kontextes K wird mit B(K) bezeichnet. Auf B(K)
                                                               führt man eine Ordnung (reflexive, antisymmetrische, tran-
Formaler Kontext und Begriffsverband                           sitive binäre Relation) ein durch

Nach DIN 2342 ist ein Begriff „eine Denkeinheit, die aus       .A; B/  .A0 ; B 0 / W, A  A0
einer Menge von Gegenständen unter Ermittlung der die-         .und das gilt genau dann; wenn B 0  B/:
sen Gegenständen gemeinsamen Eigenschaften mittels Ab-
straktion gebildet wird“. Der Gegenstandsbegriff wird hier        Die Struktur (B(K), ≤) heißt der Begriffsverband des
sehr weit gefasst. Er umfasst nicht nur materielle und kon-    formalen Kontexts K, da diese Struktur mathematisch stets
krete, sondern beliebige Dinge. Die formale Definition des     einen Verband darstellt.
Begriffs erfolgt in der Formalen Begriffsanalyse. Die FBA         Begriffsverbände können als Liniendiagramme darge-
ist eine auf der Verbandstheorie basierende Methode zur        stellt werden. Diese zeigen recht anschaulich die Daten in
Strukturierung von Daten mittels formaler Kontexte und         ihrer Struktur.
deren Begriffsverbänden. Sie wurde in den 1980er-Jahren
von Rudolf Wille, Bernhard Ganter und Peter Burmeister
eingeführt.                                                    Verfahren
    Es folgen einige grundlegende Definitionen.
    Gegeben sei eine Menge G, deren Elemente man Ge-           Mittels Semantischer Netze und der Formalen Begriffsana-
genstände nennt, und eine Menge M, deren Elemente man          lyse wollen wir ein Verfahren vorstellen, das ausgehend von
Merkmale nennt, sowie eine Relation I  G × M, die man         Elementarsätzen in einem iterativen Bottom-up-Verfahren
Inzidenzrelation nennt. Das Tripel K = (G, M, I) wird dann     zu einem Ontologieschema und einem Entity-Relationship-
als formaler Kontext bezeichnet. Für einen Gegenstand          Diagramm (ERD) [6] führt. Zur Demonstration des Verfah-
g 2 G und ein Merkmal m 2 M liest man (g, m) 2 I als:          rens erstellen wir exemplarisch und im Kleinen eine On-
der Gegenstand g hat das Merkmal m. Ein formaler Kontext       tologie eines Wissensgebiets. Wir wählen hierzu das Wis-
(G, M, I) lässt sich in Form einer Kreuzchentabelle darstel-   sensgebiet Kunstgeschichte und verwenden das Beispiel aus
len: Trifft (g, m) 2 I zu, so bekommt die Zelle (g, m) der     dem Wikipedia-Artikel über Ontologie (Informatik) [7] in
G-M-Tabelle (Inzidenzmatrix) ein Kreuzchen , andern-          leicht modifizierter Form. Wir gehen von den Sachverhalten
falls bleibt sie leer.                                         in der Instanzenebene (unterer Teil der Grafik in Abb. 1)
    Ist K = (G, M, I) ein formaler Kontext und A  G, so       aus und werden im Folgenden zeigen, dass das Ontologie-
ist die Menge der Merkmale, die alle Gegenstände von A         schema (oberer Teil der Grafik) daraus prinzipiell ableitbar
gemeinsam haben                                                ist. Diese Ontologie kann u. a. der Erstellung eines Infor-
                                                               mationssystems für den an Kunstgeschichte interessierten
A "W= fm 2 M j8g 2 A W .g; m/ 2 I g:                           Laien dienen.
                                                                   Wir gehen von den folgenden 11 Aussagen aus:
  Ist B  M, so ist die Menge der Gegenstände, die alle
                                                                  Santi malt Johannes den Täufer.
Merkmale von B gemeinsam haben
                                                                  Galleria dell’Accademia stellt Johannes der Täufer aus.
                                                                  Buonarroti schlägt den David.
B #W= fg 2 Gj8m 2 B W .g; m/ 2 I g:
                                                                  Galleria dell’Accademia stellt den David aus.
                                                                  Picasso malt den Jungen mit der Pfeife.
  Die Operatoren " und # nennt man Ableitungen im
                                                                  Picasso ist Kubist.
Kontext K. Durch sie werden Gegenstandsmengen auf
                                                                  Santi ist Florentiner.
Merkmalsmengen und umgekehrt abgebildet.
                                                                  Buonarroti ist Florentiner.
                                                                  Johannes der Täufer ist eine Ölzeichnung.
                                                                  Der Junge mit der Pfeife ist eine Ölzeichnung.
                                                                  David ist eine Steinskulptur.

K
Informatik Spektrum (2022) 45:3–12                                                                                                                               5

Abb. 1 Beispielontologie
Kunstgeschichte mit Instanzen-                           String                                                                                      String
und Schemaebene. (Mod. nach:                                                                                 erzeugt                   Name
                                                                        Name
https://de.wikipedia.org/wiki/
Ontologie_(Informatik)#/media/                                                          Künstler                            Kunstwerk              ausgestellt
                                                                        Vor-                                 hergestellt

                                      Ontologieschema
Datei:Ontschichten.gif)
                                                         String         name                                    von
                                                                                                                                               Museum
                                                                                   schlägt                     Skulptur                               Name
                                                               Bildhauer                    geschlagen
                                                                                            von                                                       String
                                                                                                                           malt
                                                                                                   Maler
                                                                                                                        gemalt von                 Bild

                                                                     Florentinisch                        Kubist                         benutzt

                                                                                                                       Technik          Name          String

                                                           Pablo            Vorname                malt                       Name              Junge mit
                                                                                                                                                der Pfeife
                                                         Picasso           Name Maler:I1                   Bild:I2benutzt
                                                                                                                                        Name        Ölzeich-
                                                                                                              benutzt        Technik:I3              nung
                                      Instanzen

                                                        Michelangelo       Vorname
                                                                                                                                  Name              David
                                                                                               schlägt
                                                                                                                   ausgestellt
                                                         Buonarroti        Name Bild-                      Skulp-
                                                                                                                                               Galleria dell
                                                                                     hauer:I4              tur:I5                     Name     Accademia
                                                                                                               ausgestellt     Museum:I6
                                                          Raffaelo          Vorname                malt
                                                                                                                                                Johannes
                                                                           Name Maler:I7                                      Name
                                                           Santi                                           Bild:I8                              der Täufer

Abb. 2 Semantisches Netz SN1                                                     Buonarroti                          David                     Steinskulptur
                                                                                                     schlägt                        benutzt

                                     Florentinisch                              istFlorentinisch                 istSteinskulptur
                                                                                                                 istSteinskulptur

                                                                                                                 Johannes
                                                                                                                 DerTäufer                     GalleriaDell´
                                                                                    Santi
                                                                                                      malt                                     Accademia

                                                                                istFlorentinisch                 istÖlzeichnung

                                                                                                                  Junge                        Ölzeichnung
                                     Kubismus                                     Picasso                         MitPfeife
                                                                   pflegtStil                         malt

                                                                                   istKubist                     istÖlzeichnung

                                                                                                                                                      K
6                                                                                             Informatik Spektrum (2022) 45:3–12

Abb. 3 Leitfaden zur Erstellung
                                  Instanzenebene                                                             FBA
des Ontologieschemas
                                  Semantisches Netz SN1 der Instanzen
                                                                                                     x
                                                                            Schritt 1            x
                                                                                                                       Formale
                                                                                                         x       x
                                                                                             x               x         Kontexte
                                                                                                                       KV, KE

                                                      Schritt 4                          Schritt 2
                                  Schemaebene
                                  Semantisches Netz SN2 des Schemas
                                                                            Schritt 3
                                                                                                                     Liniendia-
                                                                                                                     gramme für
                                                                                                                     B(KV), B(KE)

                                                       Schritt 5

                                                                      Ontologieschema als ERD

    Diese Aussagen entsprechen denjenigen des Wikipedia-           Varianten korrekt sind, modellieren wir sie nach der Devise
Beispiels. Bei den Künstlern haben wir die dort fehlenden          nicht entweder-oder sondern sowohl-als auch.
Angaben zum Stil ergänzt. Anders als im Wikipedia-Bei-                 Am einfachen Beispiel der Abb. 2 wollen wir demons-
spiel gibt es hier auf der Instanzenebene nicht die Begriffe,      trieren, wie man, ausgehend von einer Sammlung von Ele-
wie z. B. Maler, Bild, Bildhauer, Skulptur und Museum. Wir         mentarsätzen, mithilfe von FBA-Methoden zur Darstellung
werden zeigen, dass diese Begriffe erst anhand der Elemen-         eines Ontologieschemas gelangt. Die Elementarsätze wer-
tarsätze durch die FBA ermittelt resp. konstruiert werden          den in das Semantische Netz SN1 überführt. Dessen Kno-
und zur Metaebene, also zum Ontologieschema, gehören.              ten, Knotenattribute und Kanten werden im Schritt 1 als
    Es reicht dem Entwickler, wenn er einige Beispiele er-         formale Kontexte der Knoten KV und der Kanten KE in
mittelt hat und sich ein Bild von der „strukturellen Breite“       zwei Tabellen übertragen. Aus diesen Daten der Instan-
der kunstgeschichtlichen Daten gemacht hat. Diese Samm-            zenebene werden im Schritt 2 zwei Liniendiagramme mit
lung von Elementarsätzen stellt die Ausgangsdatensituati-          den durch die FBA ermittelten Begriffen generiert, die der
on dar. Sollten unter den Termen der Elementarsätze Syn-           Schemaebene zuzurechnen sind. Sie werden im Schritt 3
onyma auftauchen, so werden diese durch den Entwickler             in das Semantische Netz SN2 der Klassen überführt. Das
bereinigt, indem er einen bevorzugten Term festlegt; Hom-          Ontologieschema SN2 wird im Rahmen der Qualitätssiche-
onyme werden von ihm berücksichtigt, indem er sie aufteilt         rung überprüft, was im Schritt 4 zu einer Erweiterung und
und sie unterschiedlich benennt.                                   Korrektur der Elementarsätze und somit des Semantischen
    Basierend auf diesen Elementarsätzen erstellt der Ent-         Netzes SN1 der Instanzen führen kann. In diesem Fall er-
wickler ein Semantisches Netz. Hierbei wird jeder Elemen-          folgen die Schritte 1–4 zyklisch. Unser iteratives Bottom-
tarsatz der Form S-P-O auf ein Knotenpaar und eine ge-             up-Verfahren endet, sobald das Ontologieschema alle Kri-
richtete Kante überführt. Ein Elementarsatz kann auch zu           terien der Qualitätsprüfung erfüllt. Dann kann im Schritt 5
einem Attribut des durch das Subjekt bestimmten Knotens            aus SN2 das ERD abgeleitet werden, das die Grundlage für
führen. Die Entscheidung ob Strukturierung mittels Kan-            ein Datenbankschema zur Erstellung der Datenbasis für die
ten oder Knotenattributierung ist in dieser Phase der Onto-        Ontologie ist.
logieentwicklung meist willkürlich. Beispiel: „Picasso ist             Das Vorgehen aus den genannten fünf Schritten ist in
Kubist.“ Soll dieser Elementarsatz als Beziehung pflegtStil        Abb. 3 dargestellt.
zwischen den Knoten Picasso und Kubismus oder als At-
tribut istKubist von Picasso modelliert werden? Da beide

K
Informatik Spektrum (2022) 45:3–12                                                                                                     7

Abb. 4 Der Knotenkontext KV

Schritt 1: Erstellung der formalen Kontexte zum                               Streckenzug erreichbar sind. Entsprechend finden wir die
Semantischen Netz der Instanzen                                               Merkmalsmenge eines Begriffs durch die über den Kreisen
                                                                              stehenden Merkmalsnamen aller aufsteigenden Streckenzü-
Zum vorgegebenen SN1 der Abb. 2 bilden wir die Kreuz-                         ge. Die Verbandsordnung von B(KV) ist später im Schritt 3
chentabelle des Knotenkontexts KV, wobei die Knoten die                       als die Klassentaxonomie im Ontologieschema zu interpre-
Gegenstände sind. Merkmale sind die Knotenattribute so-                       tieren.
wie die Beziehungen, an denen ein Knoten in einer be-                            Entsprechend erzeugen wir aus dem Kantenkontext
stimmten Rolle – als Subjekt oder als Objekt – beteiligt ist –                KE das Liniendiagramm des zugehörigen Begriffsver-
zu anderen Knoten wie auch ggf. zu sich selbst (Abb. 4).                      bands B(KE). Die Verbandsordnung von B(KE) ist zu
   Hiernach bilden wir zum vorgegebenen SN1 der Abb. 2                        interpretieren als die Taxonomie der Relationstypen im
die Kreuzchentabelle des Kantenkontexts KE,3 wobei die                        Ontologieschema, die hier zunächst noch flach ist.
gerichteten Kanten in beide Richtungen die Gegenstände
und die Beziehungstypen die Merkmale sind. Die inverse                        Schritt 3: Erstellung des Ontologieschemas
Richtung eines Beziehungstyps wird durch ein nachgestell-
tes –1 gekennzeichnet (Abb. 5).                                               Das Liniendiagramm von B(KV) in der Abb. 6 zeigt im
                                                                              Wesentlichen bereits das Grundgerüst des Ontologiesche-
Schritt 2: Erstellung der Begriffsverbände zu den                              mas. Die durch die Kreise repräsentierten Begriffe im Li-
formalen Kontexten                                                            niendiagramm haben noch keine Bezeichner. Die Namens-
                                                                              vergabe setzt einen mentalen Akt voraus. Es ist nicht damit
Mit einem bewährten FBA-Tool [10] erzeugen wir aus dem                        getan, dem Knoten ein „Etikett zu verpassen“, sondern es
Knotenkontext KV das Liniendiagramm des zugehörigen                           gilt für den Experten des Wissensgebiets anhand der Ge-
Begriffsverbands B(KV) – siehe Abb. 6. Die Kreise im Li-                      genstandsmenge und der Merkmalsmenge eines jeden Be-
niendiagramm repräsentieren die Begriffe als Paare von Ge-                    griffs im Begriffsverband einen entsprechenden Begriff aus
genstands- und Merkmalsmengen. Die Gegenstandsmenge                           dem zu modellierenden Wissensgebiet ausfindig zu machen.
eines Begriffs finden wir anhand der Gegenstandsnamen,                        Dieser muss alle Gegenstände der Gegenstandsmenge um-
die unter all den Kreisen stehen, die ausgehend von dem                       fassen und alle Merkmale der Merkmalsmenge aufweisen.
zum Begriff gehörenden Kreis durch einen absteigenden                         Die Bezeichnung dieses so gefundenen Begriffs kann dann
                                                                              als Klassenname herangezogen werden.
                                                                                  Nach der Vergabe sprechender Klassennamen folgt die
3 Elemente von Relationen als Gegenstände eines formalen Kontexts             Einbettung der Relationstypen. Hierfür sind für einen Re-
zu betrachten, ist eine Anwendung der von Rudolf Wille eingeführten
                                                                              lationstyp r die jeweils zwei Klassen ausfindig zu machen,
power context families (PCF), die er wie folgt definiert hat: Eine power
context family ist eine Folge K! := (K0, K1, K2, ...) von formalen Kon-       zwischen denen der Relationstyp „aufgehängt“ wird, d. h. es
texten Kk := (Gk, Mk, Ik) mit Gk  (G0)k für k = 1, 2, ... [8] Die formalen   gilt, die zwei vom Umfang kleinsten Klassen zu ermitteln,
Gegenstände von Kk mit k = 1, 2, ... repräsentieren Elemente k-stelliger      zwischen deren Instanzen die Beziehung besteht.
Relationen. In unserer Situation haben wir es neben K1 mit K2, also bi-
                                                                                  Dazu helfen die Ableitungsoperatoren " und # der FBA
nären Relationen, zu tun. Bei der Überführung der semantischen Netze
in PCFs wurde von uns der von Eklund und Groh in [9] beschriebene             wie folgt:
Algorithmus modifiziert.

                                                                                                                               K
8                                                                                           Informatik Spektrum (2022) 45:3–12

Abb. 5 Der Kantenkontext KE

Abb. 6 Der Begriffsverband
B(KV)

   Ist A eine Menge an Gegenständen, zu der der Begriff         sätzen „Henry Moore schlägt Reclining Figure.“, „Henry
mit dem kleinsten Umfang U gesucht wird, der alle Ele-          Moore ist Naturalist.“ und „Reclining Figure ist eine Bron-
mente von A enthält, dann ist U = (A")# die Gegenstands-        zeskulptur.“.
menge, die zum gesuchten Begriff gehört. Dieser eindeutig          Der Schritt 4, also die Überprüfung des Ontologiesche-
bestimmte Begriff entspricht dann der gesuchten Klasse.         mas, kann nicht automatisiert werden. Allenfalls können
Damit können wir das Ontologieschema mit den Relations-         bei der Überprüfung des Ontologieschemas mithilfe der
typen als Semantisches Netz SN2 erstellen (Abb. 7).             Merkmalimplikation (Schlussfolgerungen zwischen Merk-
                                                                malen des formalen Kontexts), deren automatisch durch das
Schritt 4: Überprüfung des Ontologieschemas                     FBA-Programm ConExp erstellten Implikationen als Stütze
                                                                dienen. Derartige Implikationen zwischen Merkmalen sind
Die im Semantischen Netz SN1 abgebildeten Elementar-            im vorliegenden Kontext beispielsweise:
sätze können durch unzureichende Erhebung unvollständig
                                                                  istKubist ! malt und istNaturalist ! schlägt.
oder unzutreffend sein. So fällt z. B. auf, dass die Klasse
Skulptur Unterklasse der Klasse Ausstellungsobjekt ist; d. h.   Lehnt der Experte eine Implikation ab, dann ist er gefor-
jede Skulptur wird ausgestellt. Der Kunstkenner weiß aller-     dert, einen neuen Elementarsatz zu ergänzen (wie es bei der
dings von Fällen, dass es auch Skulpturen gibt, die nicht       obigen Klasse Skulptur der Fall war) oder ggf. einen alten
ausgestellt werden, so z. B. die Skulptur Reclining Figure      – dann falschen – zu streichen. Um die zweite der beiden
des Naturalisten Henry Moore. Dies führt zu den Elementar-      o. a. Implikationen zu widerlegen, reicht es aus, einen neu-

K
Informatik Spektrum (2022) 45:3–12                                                                                                          9

Abb. 7 Ontologieschema als                                                   Top Class
Semantisches Netz SN2

                                                                                                       Kunst-
                                                              Künstler                                 werk

                                                                              Museum      stellt aus              Ausstellungs-
                                                                                                                  objekt
                                                     Maler                 malt
                                                                                                   Bild
                                                                         Florentiner

                                            Kubist                          Bildhauer
                                                                                         schlägt                           Skulptur

                                     Stil             Florenti-                                           Ausstel-                Technik
                                                      nischer                                             lungsbild
                                                      Maler

                                                                         Bottom Class
                                     Legende
                                               : is-a-Beziehung zur Darstellung der Klassentaxonomie
                                               : Relaonstyp

Abb. 8 Begriffsverband der
Knoten B(KV) nach dem zwei-
ten Durchlauf

en Elementarsatz mit einem Naturalisten aufzunehmen, der            Schritt 5: Ableitung des Entity-Relationship-
keine Skulpturen schlägt (Abb. 8).                                  Diagramms
   Die FBA liefert im Liniendiagramm der Kanten die
Relationstypen-Taxonomie, welche bei der konventionellen            Das Ontologieschema in Abb. 10 kann in ein ERD4 über-
Top-down-Methode meist nicht erkannt oder berücksich-               führt werden, wobei nicht alle Knoten und Kanten des SN2
tigt wird. In unserem Fallbeispiel war sie nach dem ersten          in das ERD übernommen werden. Kandidaten für Entitäts-
Durchgang trivial; die Hierarchie war flach. Nach dem               typen sind solche Klassen, für die es betriebliche Funktio-
zweiten Durchlauf ist das Ergebnis wie folgt (Abb. 9).              nen gibt, die sie auch verwenden, und Klassen, die an Re-
   Als Ergebnis des 2. Durchlaufs erhalten wir das folgende         lationstypen beteiligt sind. Im ERD wird zur Darstellung
Klassendiagramm (Abb. 10).                                          der Kardinalitäten die (min, max)-Notation verwendet. Die
                                                                    einzelnen Häufigkeitsangaben werden dem aktuellen Da-
                                                                    tenbestand entnommen. Sie sind bei der Qualitätssicherung
                                                                    zu überprüfen und deren Ergebnis kann genutzt werden, um

                                                                    4 Zur Visualisierung des Ontologieschemas kann auch ein UML-Da-
                                                                    tenstrukturdiagramm genutzt werden.

                                                                                                                                  K
10                                                                                                                  Informatik Spektrum (2022) 45:3–12

Abb. 9 Begriffsverband der Kanten B(KE) nach dem zweiten Durchlauf

Abb. 10 Ontologieschema als                                                        Top Class
Semantisches Netz SN2 nach
dem zweiten Durchlauf                                         Künstler
                                                                                     erzeugt
                                                                                                                                  Kunstwerk

                                                                                    Museum           stellt aus

                                                          Maler                                       Bild                  Ausstellungs-
                                                                                    malt                                    objekt

                                                                      Florentiner Bildhauer                       schlägt            Skulptur

                                                                                                                                                    Technik
                                    Stil
                                             Kubist Florentini-   Florentinischer Naturalistischer      Ausstellungs-       Ausstellungs-     Bronze-
                                                    scher Maler   Bildhauer       Bildhauer             bild                skulptur          skulptur

                                                                                               Bottom Class

                                           Legende
                                                     : is-a-Beziehung zur Darstellung der Klassentaxonomie
                                                     : Relaonstyp

das Datenmodell realitätsgetreuer zu gestalten. So kann im                können aber als Integritätsbedingungen in das konzeptionel-
Beispiel mit dem Datenbestand nach dem zweiten Durch-                     le Datenmodell eingehen und in der Ontologie neben den
lauf gefragt werden, ob es zutrifft, dass ein Bildhauer genau             Merkmalimplikationen die Inferenzmaschine anreichern.
eine Skulptur schlägt, und ob nicht ein Künstler mehrere                     Ein Attribut einer Klasse wird demjenigen Entitätstyp
Stile pflegen kann (Abb. 11).                                             zugeordnet, der innerhalb der Entity-Relationship-Ord-
   Im ERD lässt sich die Taxonomie der Relationstypen                     nungsstruktur von unten nach oben gehend erstmalig alle
nicht ohne weiteres darstellen.                                           Entitäten mit den zugehörigen Attributwerten umfasst.
   Die Implikationen                                                         Aus dem ERD lässt sich dann das konzeptionelle Daten-
                                                                          bankschema für die Ontologie ableiten.
     malt ! erzeugt und schlägt ! erzeugt

K
Informatik Spektrum (2022) 45:3–12                                                                                                      11

Abb. 11 Entity-Relationship-
Diagramm mit der (min, max)-                                                   stellt                     Ausstellungs-
                                                  Museum
Notation                                                         (1,*)          aus           (1,1)          objekt

                                                  Künstler                    erzeugt                       Kunstwerk
                                                                (1,1)                             (1,1)

                                                                                                                  (1,1)
                                                        (1,1)
                                      Bildhauer                  Maler                        Bild                         Skulptur

                                                   pflegt                       malt                        benutzt
                                                                   (1,1)                  (1,1)
                                                        (1,*)                                                     (1,*)
                                     (1,1)                                                                                      (1,1)
                                                    Stil                                                    Technik

                                                                              schlägt

                                             Legende:           Entitätstyp
                                                                Relationstyp
                                                                Generalisierung/Spezialisierung

Potenziale/Nutzenaspekte                                           dem neue Instanzen zu gegebenen Zeiten gegen das Schema
                                                                   laufen, das dann im Konfliktfall differenziert und damit er-
Wir sehen in dem weitgehend automatisierbaren Verfahren            weitert bzw. um strukturelle Neuheiten ergänzt wird. Damit
eine Möglichkeit, den Modellierungsprozess und die Quali-          können die Erweiterung eines Wissensgebietes und auch
tätssicherung zu unterstützen, sowie einen Beitrag zur Kon-        ein Strukturwandel in der Ontologie einfacher berücksich-
sensfindung bei den an der Entwicklung von Ontologien Be-          tigt werden. Überträgt man diesen Prozess auf zwei oder
teiligten. Die Liniendiagramme zum Knoten- und Kanten-             mehr bestehende Ontologien, so kann das Verfahren auch
kontext, das Semantische Netz des Ontologieschemas wie             zur Schemaintegration der Ontologien, basierend auf Aus-
auch die automatisch erkannten logischen Zusammenhänge             zügen aus deren Datenbeständen, genutzt werden.5
durch die Merkmalimplikation werfen inhaltliche Fragen
                                                                   Funding Open Access funding enabled and organized by Projekt
auf und unterstützen damit den Entwickler und den Quali-           DEAL.
tätssicherer zielführend bei der Konzeption des Ontologie-
schemas. Auch ist jeder Schritt im Verfahren nachvollzieh-         Open Access Dieser Artikel wird unter der Creative Commons Na-
                                                                   mensnennung 4.0 International Lizenz veröffentlicht, welche die Nut-
bar und somit von der Person des Modellierers unabhängig.          zung, Vervielfältigung, Bearbeitung, Verbreitung und Wiedergabe in
    Alle Überlegungen zur Erstellung des Ontologieschemas          jeglichem Medium und Format erlaubt, sofern Sie den/die ursprüng-
lassen sich prinzipiell auch bei der Erstellung und Ausar-         lichen Autor(en) und die Quelle ordnungsgemäß nennen, einen Link
beitung beliebiger semantischer Datenschemata anwenden.            zur Creative Commons Lizenz beifügen und angeben, ob Änderungen
                                                                   vorgenommen wurden.
Somit bietet diese Bottom-up-Methode die Chance, die Ge-
nerierung des Datenbankschemas algorithmisch durch Bei-            Die in diesem Artikel enthaltenen Bilder und sonstiges Drittmaterial
spielsammlungen zu unterstützen. Auch kann ein auf an-             unterliegen ebenfalls der genannten Creative Commons Lizenz, sofern
                                                                   sich aus der Abbildungslegende nichts anderes ergibt. Sofern das be-
derem Weg erstelltes semantisches Datenschema mit dem              treffende Material nicht unter der genannten Creative Commons Lizenz
Ergebnis des FBA-basierten Verfahrens verglichen werden,           steht und die betreffende Handlung nicht nach gesetzlichen Vorschrif-
um von den Widersprüchen wie auch den strukturellen Er-            ten erlaubt ist, ist für die oben aufgeführten Weiterverwendungen des
gänzungen – z. B. durch neue Begriffe oder Beziehungen –           Materials die Einwilligung des jeweiligen Rechteinhabers einzuholen.
zu profitieren.                                                    Weitere Details zur Lizenz entnehmen Sie bitte der Lizenzinformation
    Da uns nur einige Instanzen aus der Datenbasis zum             auf http://creativecommons.org/licenses/by/4.0/deed.de.
Ontologieschema führen, das für alle Daten des Wissens-
gebietes gelten soll, muss das induktiv entstandene Ergeb-
nis durch weitere Elementarsätze auf Plausibilität überprüft       5 Einen FBA-basierenden Bottom-up-Ansatz für den Merge-Prozess
werden. Dies kann zu einem Prozess ausgebaut werden, in-           von Ontologien verfolgen auch Stumme und Maedche in [11].

                                                                                                                            K
12                                                                                                           Informatik Spektrum (2022) 45:3–12

Literatur                                                                   7. Wikipedia – Die freie Enzyklopädie Ontologie (Informatik). https://
                                                                               de.wikipedia.org/wiki/Ontologie_%28Informatik%29. Zugegrif-
                                                                               fen: 30 Apr 2021
1. Ganter B, Wille R (1996) Formale Begriffsanalyse (FBA). Springer,
                                                                            8. Wille R (1997) Conceptual graphs and formal concept analysis. In:
   Berlin, Heidelberg
                                                                               Lukose D, Delugach H, Keeler M, Searle L, Sowa JF (Hrsg) Con-
2. Busse J, Humm B, Lübbert C, Moelter F, Reibold A, Rewald M,
                                                                               ceptual structures: fulfilling Peirce’s dream. LNAI, Bd. 1257. Sprin-
   Schlüter V, Seiler B, Tegtmeier E, Zeh T (2014) Was bedeutet ei-
                                                                               ger, Heidelberg, S 290–303
   gentlich Ontologie? – Ein Begriff aus der Philosophie im Licht ver-
                                                                            9. Groh B, Eklund P (1999) Algorithms for Creating Relational Power
   schiedener Disziplinen. Informatik Spektrum 37(4):286–297
                                                                               Context Families from Conceptual Graphs. In: Proceedings 7th-
3. Priya M, Aswani Kumar C (2015) A survey of state of the art of on-
                                                                               International Conference on Conceptional Structures. LNAI, Bd.
   tology construction and merging using formal concept analysis. In-
                                                                               1640, Springer, Heidelberg, S 389–400
   dian J Sci Technol. https://doi.org/10.17485/ijst/2015/v8i24/82808
                                                                           10. Beschreibungen und Downloadmöglichkeiten von Software zur
4. Lübbert C, Zeh T Ein Verfahren zur Erstellung von Ontologien mit-
                                                                               FBA. http://www.ernst-schroeder-zentrum.de/sw.html. Zugegrif-
   tels Formaler Begriffsanalyse (Publikation vorgesehen)
                                                                               fen: 28. Apr. 2021
5. Barrasa J Field engineer: RDF triple stores vs. labeled property gra-
                                                                           11. Stumme G, Maedche A (2001) FCA-merge: a bottom-up approach
   phs: what’s the difference? https://neo4j.com/blog/rdf-triple-store-
                                                                               for merging ontologies. In: Proc. 17th Int’l Joint Conf. Artificial
   vs-labeled-property-graph-difference/
                                                                               Intelligence IJCAI ’01. Morgan Kaufmann, San Francisco
6. Elmasri R, Navathe SB (2015) Fundamentals of database systems.
   Addison Wesley, Boston

K
Informatik Spektrum (2022) 45:13–19
https://doi.org/10.1007/s00287-021-01420-5

    HAUPTBEITRAG

Data Preprocessing as a Service – Outsourcing der
Datenvorverarbeitung für KI-Modelle mithilfe einer digitalen Plattform
Marko Kureljusic1 · Erik Karger1

Angenommen: 5. Oktober 2021 / Online publiziert: 29. Oktober 2021
© Der/die Autor(en) 2021

Zusammenfassung
Sowohl in der Praxis als auch in der Wissenschaft kam es in den vergangenen Jahren zu einem zunehmenden Interesse an
datenintensiven Verfahren, wie der künstlichen Intelligenz. Die Mehrheit dieser Data-Science-Projekte fokussierte sich auf
den Erklärungsgehalt und die Robustheit der Modelle. Vernachlässigt wurde hierbei häufig der Prozess der Datenvorverar-
beitung, obwohl dieser ca. 80 % der Zeit eines Data-Science-Projekts beansprucht. Im Rahmen der Datenvorverarbeitung,
welche auch als Data Preprocessing bezeichnet wird, werden Daten akquiriert, bereinigt, transformiert und reduziert. Das
Ziel dieser Vorgehensweise ist die Generierung eines Datensatzes, welcher sich für Trainings- und Testzwecke der Data-
Science-Modelle eignet. Somit ist das Data Preprocessing ein erforderlicher Prozessschritt, der für das maschinelle Erler-
nen von korrekten Mustern und Zusammenhängen notwendig ist. Häufig scheitern Data-Science-Projekte jedoch an der
mangelhaften Datenvorverarbeitung. So werden beispielsweise fehlerhafte Daten nicht vorab identifiziert, wodurch mögli-
cherweise falsche Zusammenhänge erlernt werden. Dies führt dazu, dass der Erklärungsgehalt der Data-Science-Modelle
signifikant verringert wird. Eine Möglichkeit, dieses Problem zu lösen, ist das Outsourcing der Datenvorverarbeitung an
spezialisierte Fachkräfte. Mithilfe einer Plattform kann ein sicherer und automatisierter Datenaustausch zwischen Kunden
und Dienstleistern gewährleistet werden. Der vorliegende Beitrag thematisiert, wie die Plattform für das Data Preprocessing
genutzt werden kann, um eine effizientere und schnellere Bereitstellung der Daten zu ermöglichen.

Einleitung                                                          ta-Science-Projekten. Vor allem das Extrahieren von Merk-
                                                                    malen aus Daten führt zu einer erhöhten Komplexität und
Mangelnde Datenqualität wird laut aktuellem Stand der               einem hohen zeitlichen Aufwand [3]. Um Algorithmen,
Forschung als einer der wichtigsten Gründe für das Schei-           wie Machine-Learning-basierte Analyseverfahren, auf den
tern von Data-Science-Projekten angesehen [1]. In den bis-          Daten anzuwenden, muss das Data Preprocessing erfolg-
herigen empirischen Studien wird eine Ex-post-Betrachtung           reich abgeschlossen sein. Laut aktuellen Umfragen bean-
vorgenommen, indem diese nachträglich die Ursachen für              sprucht das Data Preprocessing ca. 80 % der Zeit eines Da-
gescheiterte Projekte untersuchen. Es mangelt an empiri-            ta-Science-Projekts und ist maßgeblich für dessen Erfolg
schen Untersuchungen, die aufzeigen, dass eine angemes-             [4].
sene Datenvorverarbeitung das Problem der mangelhaften                 Data Science ist eine multidisziplinäre Wissenschaft, die
Datenqualität eliminieren oder zumindest reduzieren kann.           Expertise in verschiedenen Bereichen erfordert. So sind ins-
Jedoch wird dies in der qualitativen Forschung bereits als          besondere bei dem Data Preprocessing Kenntnisse der Pro-
elementarer Bestandteil zur Gewährleistung der Datenqua-            grammierung, Statistik oder dem Datenmanagement not-
lität angesehen [2].                                                wendig [8]. Darüber hinaus setzt eine qualitativ hochwerti-
    Das Aufbereiten von Rohdaten, welches im Folgenden              ge Aufbereitung von Rohdaten voraus, dass deren Herkunft
auch als Data Preprocessing bezeichnet wird, ist in der Pra-        und Inhalt verstanden werden. Neben technischer Expertise
xis eine der technisch anspruchsvollsten Aufgaben bei Da-           ist daher, je nach Branche, Unternehmen oder Problem-
                                                                    stellung, auch ein bestimmtes domänenspezifisches Know-
                                                                    how der Data-Scientists erforderlich. Aufgrund der unter-
 Marko Kureljusic
                                                                    schiedlichen Rahmenbedingungen und Zielsetzungen von
     marko.kureljusic@uni-due.de
                                                                    Data-Science-Projekten gibt es oftmals kein standardisier-
1
     Campus Essen, NRW, Universität Duisburg-Essen,                 tes Vorgehen, auf das bei der Datenvorverarbeitung zurück-
     Universitätsstraße 12, 45141 Essen, Deutschland                gegriffen werden kann. Aus diesem Grund besteht die Not-

                                                                                                                      K
14                                                                                         Informatik Spektrum (2022) 45:13–19

wendigkeit, dass das Data Preprocessing durch einen Data-       sich strukturierte und unstrukturierte Daten sowie interne
Scientist durchgeführt wird, der auf bestimmte Branchen         und externe Daten vorfinden, die gemeinsam für eine Pro-
spezialisiert ist und Inhalt, Struktur sowie Herkunft der       blemstellung genutzt werden können. Das Ziel von Data
Daten versteht. Allerdings ist der Markt für spezialisierte     Science besteht darin, komplexe Muster und Zusammen-
Fachkräfte sehr kompetitiv, wodurch es für Unternehmen          hänge in einem Datensatz zu identifizieren, um wichtige Er-
herausfordernd ist, diese zu akquirieren und zu halten. So      kenntnisse aus den Daten zu gewinnen [7]. Die identifizier-
geht aus einer vom Stifterverband und McKinsey durchge-         ten Muster bilden die Basis für Machine-Learning-Anwen-
führten Studie hervor, dass bis zum Jahr 2023 ca. 455.000       dungen, welche in der Lage sind, anspruchsvolle Regressi-
zusätzliche Fachkräfte für komplexe Datenanalysen gesucht       ons- und Klassifikationsaufgaben zu lösen. Da im Vorfeld
werden [5].                                                     eines Data-Science-Projekts meistens unklar ist, wie stark
   Der vorliegende Beitrag stellt mit Data Preprocessing as     die Eingangsvariable die Zielvariable beeinflusst, wird häu-
a Service einen neuen, plattformbasierten Ansatz für das        fig eine Vielzahl unterschiedlicher Daten verwendet. Mit-
Outsourcing der Datenvorverarbeitung vor. Auf Basis einer       hilfe von iterativen Testverfahren können die wesentlichen
Plattform entsteht ein neuer Dienstleistungsmarkt, der es er-   Ergebnistreiber im Datensatz identifiziert werden [8]. Dies
möglicht, die Datenvorverarbeitung an spezialisierte Fach-      setzt jedoch voraus, dass die Daten maschinell verarbeitbar
kräfte outzusourcen. Hierdurch soll die Datenqualität opti-     sind. In den meisten Fällen müssen die Rohdaten erst auf-
miert werden, um die Erfolgswahrscheinlichkeit von Data-        wendig angepasst werden, um anschließend Algorithmen
Science-Projekten zu erhöhen.                                   erfolgreich darauf anzuwenden. Die einzelnen Schritte einer
   Zunächst werden im zweiten Kapitel die theoretischen         Datenvorverarbeitung werden in Anlehnung an einschlägi-
Grundlagen beschrieben, indem auf die Schritte des Data         ge Praxishandbücher für Machine Learning, u. a. Géron [9]
Preprocessings sowie auf digitale Geschäftsmodelle einge-       und Chollet [10], nachfolgend dargestellt.
gangen wird. Daraufhin wird im dritten Kapitel das Ge-             Die Abb. 1 veranschaulicht, dass sämtliche Schritte
schäftsmodell Data Preprocessing as a Service vorgestellt.      der Datenvorverarbeitung bei falscher Anwendung Risi-
In Kapitel vier erfolgt eine kritische Diskussion dieses An-    ken nach sich ziehen. Um den Erfolg eines Data-Science-
satzes hinsichtlich der praktischen und theoretischen Not-      Projekts nicht zu gefährden, sollte das Data Preprocessing
wendigkeit sowie der Nachteile und Risiken, die sich durch      daher nicht vernachlässigt werden. Vor dem Hintergrund,
die Anwendung ergeben können. Der Artikel schließt mit          dass es mittlerweile AutoML-Tools gibt, die grundsätzlich
einem Fazit in Kapitel fünf, welches die zentralen Aussagen     ein End-to-end-Learning ermöglichen, stellt sich jedoch
zusammenfasst.                                                  die Frage, welchen Mehrwert eine manuelle Datenvor-
                                                                verarbeitung gegenüber AutoML-Tools bietet. Bekannte
                                                                Beispiele für AutoML-Tools sind unter anderem Auto-
Theoretische Grundlagen                                         sklearn [11], Hyperopt [12] und Auto-Keras [13]. Das Ziel
                                                                sämtlicher AutoML-Tools besteht darin, die Hyperparame-
Im Folgenden wird das Data Preprocessing tiefergehend           ter von Machine-Learning-Algorithmen zu optimieren, um
beleuchtet, indem auf sämtliche relevanten Schritte, von        so das bestmögliche Ergebnis aus der zugrundeliegenden
der Datensammlung bis hin zur optimalen Datenbereitstel-        Datenmenge zu erzielen [14]. Zwar unterstützen AutoML-
lung für Machine-Learning-Anwendungen, eingegangen              Tools einige Schritte der Datenvorverarbeitung, wie die
wird. In diesem Zusammenhang wird auch die Relevanz             Vektorisierung von kategorialen Variablen, jedoch ersetzen
dieser Schritte thematisiert. Da das Data Preprocessing         sie keine vollständige Datenvorverarbeitung durch Data-
in der Praxis aufgrund von zeitlichen, finanziellen oder        Scientists [15]. Vor allem ist im Rahmen der Merkmals-
personellen Gründen häufig vernachlässigt wird, stellt sich     extraktion ein tiefgründiges Verständnis der Datenmengen
die Frage, welchen Mehrwert es für Data-Science-Projekte        und ihrer Zusammenhänge notwendig, um neue Eingangs-
bieten kann. Im Anschluss an die Beantwortung dieser            variablen zu kreieren, die das maschinelle Erlernen von
Frage werden sowohl die Grundlagen digitaler Plattformen        komplexen Mustern erleichtern [16].
vorgestellt als auch deren Notwendigkeit wissenschafts-            Neben AutoML-Tools gibt es auch Machine-Learning-
theoretisch begründet.                                          Dienstleistungen, die auf Basis von Cloud Computing an-
                                                                geboten werden. Charakteristisch hierfür ist, dass große Da-
Data Preprocessing                                              tensätze mit modernen Algorithmen analysiert werden kön-
                                                                nen, ohne die eigene Hardware zu beanspruchen [17]. Diese
In der Regel werden für Data-Science-Projekte Daten aus         werden auch als Machine Learning as a Service bezeich-
unterschiedlichen Ursprungsquellen herangezogen, die sich       net. Bekannte Beispiele hierfür sind IBM Watson, Azure,
sowohl von ihrer Struktur als auch ihrer potenziellen In-       Google Cloud und AWS. Analog zu AutoML-Tools können
formationsqualität differenzieren [6]. Grundsätzlich lassen     im Rahmen von Machine Learning as a Service grundlegen-

K
Sie können auch lesen