Informatik Spektrum - Dr. Jekyll, Mr. Hyde und Distributed-Ledger-Technologien Social Machines Digital Literacy - GI Radar

Die Seite wird erstellt Katrin Mayr

Karriere

Deutsch

Like
Teilen
Einbetten
Vollbild
Folien
HTML Herunterladen
PDF Herunterladen
Missbrauch

←

WEITER LESEN

→

Transkription von Seiteninhalten

Wenn Ihr Browser die Seite nicht korrekt rendert, bitte, lesen Sie den Inhalt der Seite unten

Informatik Spektrum - Dr. Jekyll, Mr. Hyde und Distributed-Ledger-Technologien Social Machines Digital Literacy - GI Radar

Organ der Gesellschaft für Informatik e.V.           Band 45 • Heft 1 • Februar 2022
      und mit ihr assoziierter Organisationen

      Informatik
      Spektrum

                      Dr. Jekyll, Mr. Hyde und Distributed-Ledger-Technologien
                                                               Social Machines
123                                                             Digital Literacy

ZUM TITELBILD
Informatik
Spektrum Organ der Gesellschaft für Informatik e. V. und mit ihr assoziierter Organisationen

BEISPIEL ALGORITHMISCHER KUNST
Frieder Nake, Beispiel algorithmischer Kunst aus dem Jahre 1966, ein Ergebnis des Programm-
systems „Walk-through-Raster“ (hier Walk aus der Serie 2.1-4). Das Blatt hat die Größe 40 x 40 cm.
Dem Schema dieses Programmsystem liegt eine gedanklich gerasterte Zeichenfläche zugrunde.
Außerdem steht ein einfaches „Zeichenrepertoire“ zur Verfügung. In diesem Fall besteht es aus
einem kurzen waagerechten und einem senkrechten Strich gleicher Länge (der Größe des Raster-
feldes), sowie dem leeren Feld.
Mit diesen drei Zeichen wird eine Markov-Kette gebildet, die nach einem bestimmten Modus in die
Zeichenfläche übertragen wird. Dieser Modus ist in unserem Fall diagonal hin- und hergehend. Das
nächste Zeichen in der Kette wird nach Übergangswahrscheinlichkeiten zufällig ausgewählt, sein
Erscheinen hängt also vom gerade vorher platzierten Zeichen ab. Die Übergangswahrscheinlich-
keiten sind nicht für das ganze Bild die gleichen. Sie hängen vielmehr vom Ort ab, an dem wir uns
beim Zeichnen befinden.
So kommt es auf einfach zu kontrollierende Weise dazu, dass zu Anfang und gegen Schluss das leere
Feld deutlich häufiger erscheint. – Diese Art von algorithmischer Planung ästhetischer Objekte war,
so kann man recht sicher vermuten, in der Mitte der 1960er Jahre anderswo nicht bekannt. –
Gerechnet auf Telefunken TR4, gezeichnet mit Zuse Graphomat Z64. Programmiert in Algol-60.
Frieder Nake
Universität Bremen, FB3 (Informatik)
E-Mail: nake@uni-bremen.de

INHALT
                    Informatik
                       Spektrum
Band 45 | Heft 1 | Februar 2022
                                                                          Organ der Gesellschaft für Informatik e. V. und mit ihr assoziierter Organisationen

                                  EDITORIAL
                                  Thomas Ludwig · Peter Pagel
                           1      Editorial 1/22

                                  HAUPTBEITRÄGE
                                  Christoph Lübbert · Thomas Zeh
                           3      Skizze eines Verfahrens zur Erstellung von Ontologien mittels Formaler
                                  Begriffsanalyse
                                  Marko Kureljusic · Erik Karger
                           13     Data Preprocessing as a Service – Outsourcing der
                                  Datenvorverarbeitung für KI-Modelle mithilfe einer digitalen Plattform
                                  Arno Rolf
                           20     Digital Literacy. Wie die digitale Urteilsfähigkeit der Studierenden
                                  gestärkt werden kann
                                  Mathias Ellmann
                           29     Effektives Lehren und Lernen in der Informatik, Wirtschaftsinformatik
                                  und verwandten Fachgebieten

                                  AKTUELLES SCHLAGWORT
                                  Claude Draude · Christian Gruhl · Gerrit Hornung · Jonathan Kropf · Jörn Lamla ·
                                  Jan Marco Leimeister · Bernhard Sick · Gerd Stumme
                           38     Social Machines

                                  KOLUMNE
                                  Edy Portmann
                           43     Dr. Jekyll, Mr. Hyde und Distributed-Ledger-Technologien

                                  NACHRUF
                                  Hans Langmaack · Gunther Schmidt
                           45     Manfred Paul (1932–2021)

                                  FORUM
                                  Rainer Rehak · Nikolas Becker · Pauline Junginger · Otto Obert
                           47     Gewissensbits – wie würden Sie urteilen?
                                  Ursula Sury
                           50     Verträge auf elektronischem Weg
                                  Rolf Windenberg
                           53     Um etliche Ecken ged8. Gehirn-Jogging auf Basis der math.- und
                                  informatisch-orientierten Rechtschreibreform

                                  MITTEILUNGEN
                           55     Mitteilungen der GI im Informatik Spektrum 1/2022

Informatik
Spektrum Organ der Gesellschaft für Informatik e. V. und mit ihr assoziierter Organisationen

Hauptaufgabe dieser Zeitschrift ist die Weiterbil- Gemeinschaft ist, kann unter bestimmten Voraus- Prof. Dr. H. Federrath, Universität Hamburg
dung aller Informatiker durch Veröffentlichung setzungen an der Ausschüttung der Bibliotheks- und Prof. O. Günther, Ph. D., Universität Potsdam
aktueller, praktisch verwertbarer Informationen Fotokopietantiemen teilnehmen. Nähere Einzelhei- Prof. Dr. D. Herrmann,
über technische und wissenschaftliche Fort- ten können direkt von der Verwertungsgesellschaft Otto-Friedrich-Universität Bamberg
schritte aus allen Bereichen der Informatik und WORT, Abteilung Wissenschaft, Goethestr. 49, Prof. Dr. W. Hesse, Universität Marburg
ihrer Anwendungen. Dies soll erreicht werden 80336 München, eingeholt werden. Dr. Agnes Koschmider, Universität Kiel
durch Veröffentlichung von Übersichtsartikeln und Die Wiedergabe von Gebrauchsnamen, Han- Dr.-Ing. C. Leng, Google
einführenden Darstellungen sowie Berichten über delsnamen, Warenbezeichnungen usw. in dieser Prof. Dr. F. Mattern, ETH Zürich
Projekte und Fallstudien, die zukünftige Trends Zeitschrift berechtigt auch ohne besondere Kenn- Prof. Dr. Michael Meier, Uni Bonn,
aufzeigen. zeichnung nicht zu der Annahme, dass solche Namen Lehrstuhls für IT-Sicherheit
Es sollen damit unter anderem jene Leser an- im Sinne der Warenzeichen- und Markenschutz- Prof. Dr. K.-R. Müller, TU Berlin
gesprochen werden, die sich in neue Sachgebiete Gesetzgebung als frei zu betrachten wären und daher Prof. Dr. W. Nagel, TU Dresden
der Informatik einarbeiten, sich weiterbilden, sich von jedermann benutzt werden dürfen. Prof. Dr. E. Portmann, Universität Fribourg
einen Überblick verschaffen wollen, denen aber Prof. Dr. F. Puppe, Universität Würzburg
das Studium der Originalliteratur zu zeitraubend Vertrieb, Abonnement, Versand Prof. Dr. Kai Rannenberg, Uni Frankfurt,
oder die Beschaffung solcher Veröffentlichungen Papierausgabe: ISSN 0170-6012 Mobile Business & Multilateral Security
nicht möglich ist. Damit kommt als Leser nicht nur elektronische Ausgabe: ISSN 1432-122X Prof. Dr. R.H. Reussner, Universität Karlsruhe
der ausgebildete Informatikspezialist in Betracht, Erscheinungsweise: zweimonatlich Prof. Dr. S. Rinderle-Ma, Universität Wien
sondern vor allem der Praktiker, der aus seiner Ta- Prof. Dr. O. Spaniol, RWTH Aachen
gesarbeit heraus Anschluss an die wissenschaftliche Den Bezugspreis können Sie beim Customer Dr. D. Taubner, München (bis 2020: msg systems ag)
Entwicklung der Informatik sucht, aber auch der Service erfragen: customerservice@springernature. Sven Tissot, Iteratec GmbH, Hamburg
Studierende an einer Fachhochschule oder Univer- com. Die Lieferung der Zeitschrift läuft weiter, wenn Prof. Dr. Herbert Weber, TU Berlin
sität, der sich Einblick in Aufgaben und Probleme sie nicht bis zum 30.9. eines Jahres abbestellt wird.
der Praxis verschaffen möchte. Mitglieder der Gesellschaft für Informatik und der Impressum
Durch Auswahl der Autoren und der The- Schweizer Informatiker Gesellschaft erhalten die
men sowie durch Einﬂussnahme auf Inhalt und Zeitschrift im Rahmen ihrer Mitgliedschaft. Verlag:
Darstellung – die Beiträge werden von mehreren Bestellungen oder Rückfragen nimmt jede Springer, Tiergartenstraße 17,
Herausgebern referiert – soll erreicht werden, dass Buchhandlung oder der Verlag entgegen. 69121 Heidelberg
möglichst jeder Beitrag dem größten Teil der Le- SpringerNature, Kundenservice Zeitschriften,
ser verständlich und lesenswert erscheint. So soll Tiergartenstr. 15, 69121 Heidelberg, Germany Redaktion:
diese Zeitschrift das gesamte Spektrum der Infor- Tel. +49-6221-345-0, Fax: +49-6221-345-4229, Peter Pagel, Vanessa Keinert
matik umfassen, aber nicht in getrennte Sparten e-mail: customerservice@springernature.com Tel.: +49 611 787 8329
mit verschiedenen Leserkreisen zerfallen. Da die Geschäftszeiten: Montag bis Freitag 8–20 h. e-mail: Peter.Pagel@springer.com
Informatik eine sich auch weiterhin Bei Adressänderungen muss neben dem Ti-
stark entwickelnde anwendungsorientierte tel der Zeitschrift die neue und die alte Adresse
Wissenschaft ist, die ihre eigenen wissenschaft- angegeben werden. Adressänderungen sollten Herstellung:
lichen und theoretischen Grundlagen zu einem mindestens 6 Wochen vor Gültigkeit gemeldet Madeleine Schnurr,
großen Teil selbst entwickeln muss, will die Zeit- werden. Hinweis gemäß §4 Abs. 3 der Postdienst- e-mail: Madeleine.Schnurr@springer.com
schrift sich an den Problemen der Praxis orien- Datenschutzverordnung: Bei Anschriftenänderung
tieren, ohne die Aufgabe zu vergessen, ein solides des Beziehers kann die Deutsche Post AG dem Verlag Redaktion Gl-Mitteilungen:
wissenschaftliches Fundament zu erarbeiten. Zur die neue Anschrift auch dann mitteilen, wenn kein Cornelia Winter
Anwendungsorientierung gehört auch die Be- Nachsendeauftrag gestellt ist. Hiergegen kann der Gesellschaft für Informatik e.V. (GI)
schäftigung mit den Problemen der Auswirkung Bezieher innerhalb von 14 Tagen nach Erscheinen Wissenschaftszentrum,
der Informatikanwendungen auf den Einzelnen, dieses Heftes bei unserer Abonnementsbetreuung Ahrstraße 45, D-53175 Bonn,
den Staat und die Gesellschaft sowie mit Fragen widersprechen. Tel.: +49 228-302-145, Fax: +49 228-302-167,
der Informatik-Berufe einschließlich der Ausbil- Internet: http://www. gi.de,
dungsrichtlinien und der Bedarfsschätzungen. e-mail: gs@gi.de
Elektronische Version
springerlink.com
Urheberrecht Wissenschaftliche Kommunikation:
Mit der Annahme eines Beitrags überträgt der Au- Hinweise für Autoren Anzeigen: Eva Hanenberg
tor Springer (bzw. dem Eigentümer der Zeitschrift, http://springer.com/journal/00287 Abraham-Lincoln-Straße 46
sofern Springer nicht selbst Eigentümer ist) das 65189 Wiesbaden
ausschließliche Recht zur Vervielfältigung durch Tel.: +49 (0)611/78 78-226
Druck, Nachdruck und beliebige sonstige Verfahren Hauptherausgeber Fax: +49 (0)611/78 78-430
das Recht zur Übersetzung für alle Sprachen und Prof. Dr. Dr. h. c.mult. Wilfried Brauer (1978–1998) eva.hanenberg@springer.com
Länder. Prof. Dr. Dr. h. c. Arndt Bode,
Die Zeitschrift sowie alle in ihr enthaltenen Technische Universität München (1999–2019)
Prof. Dr. T. Ludwig, Satz:
einzelnen Beiträge und Abbildungen sind urhe- le-tex publishing services GmbH, Leipzig
berrechtlich geschützt. Jede Verwertung, die nicht Deutsches Klimarechenzentrum GmbH, Hamburg
ausdrücklich vom Urheberrechtsgesetz zugelassen (seit 2019)
ist, bedarf der vorherigen schriftlichen Zustim- Druck:
mung des Eigentümers. Das gilt insbesondere für Herausgeber Printforce,
Vervielfältigungen, Bearbeitungen, Übersetzungen, Prof. Dr. S. Albers, TU München The Netherlands
Mikroverﬁlmungen und die Einspeicherung und Prof. A. Bernstein, Ph. D., Universität Zürich
Verarbeitung in elektronischen Systemen. Jeder Prof. Dr. Dr. h. c. Arndt Bode, Technische springer.com
Autor, der Deutscher ist oder ständig in der Bundes- Universität München
Eigentümer und Copyright
republik Deutschland lebt oder Bürger Österreichs, Prof. Dr. T. Braun, Universität Bern
© Springer-Verlag GmbH Deutschland,
der Schweiz oder eines Staates der Europäischen Prof. Dr. O. Deussen, Universität Konstanz
ein Teil von Springer Nature, 2022

springer.com

         Editor-in-Chief:
         Dennis-Kenji Kipker

         International Cybersecurity
         Law Review
         Zeitschrift für Cybersicherheit und Recht
         International Cybersecurity Law Review -
         Zeitschrift für Cybersicherheit und Recht
         The International Cybersecurity Law Review (ICLR) is chiefly aimed at professionals
         interested in developments in international cybersecurity, data security, technology, law
         and regulation. Articles deal with compliance and security regulation, as well as related
         issues around the globe. Thus, ICLR is providing crucial and reliable information for anyone
         who is doing IT related business internationally.
         Die International Cybersecurity Law Review (ICLR) richtet sich vor allem an Fachleute, die
         sich für Entwicklungen in den Bereichen internationale Cybersicherheit, Datensicherheit,
         Technologie, Recht und Regulierung interessieren. Die Artikel befassen sich mit der
         Einhaltung von Vorschriften und Sicherheitsbestimmungen sowie mit verwandten
         Themen rund um den Globus. Somit stellt ICLR entscheidende und zuverlässige
         Informationen für jeden bereit, der international im IT-Bereich tätig ist.

         Jetzt bestellen auf springer.com/shop oder in Ihrer Buchhandlung
A95443

springer.com/informatik

R. Schuhmann, B. Eichhorn (Hrsg.)
Contractual Management
Managing Through Contracts
2020, XXXIII, 404 p. 38 illus., 23 illus. in color. Geb.
€ (D) 53,49 | € (A) 54,99 | *CHF 66.61
ISBN 978-3-662-58481-1
€ 42,79 | *CHF 53.00
ISBN 978-3-662-58482-8 (eBook)

Vertragsmanagement
neu gedacht
• Explores the theoretical foundations of contractual management
• Covers a variety of industries, company sizes, contract types, and
management situations
• Case studies illustrate applications of contract management
The Concept Contractual Management offers a holistic approach to managerial
decision-making based on contracts or business processes that are related to contracts. It
explains management from the point of view of the contract, just as it interprets the
contract from the point of view of management. Thus, the approach highlights the great
inherent potential of contracts for managing companies, transactions and business
relationships. The book addresses students as well as practitioners and gives insights into
the usage of contracts to manage companies or relationships.

Ihre Vorteile in unserem Online Shop:
Über 280.000 Titel aus allen Fachgebieten | eBooks sind auf allen
Endgeräten nutzbar | Kostenloser Versand für Printbücher weltweit

€ (D): gebundener Ladenpreis in Deutschland, € (A): in Österreich. * : unverbindliche Preisempfehlung.
Alle Preise inkl. MwSt.

Jetzt bestellen auf springer.com/informatik oder in der Buchhandlung
A85539

Informatik Spektrum (2022) 45:1–2
https://doi.org/10.1007/s00287-022-01433-8

EDITORIAL

Editorial 1/22
Thomas Ludwig1 · Peter Pagel2

Angenommen: 24. Dezember 2021
© The Author(s), under exclusive licence to Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2022

Liebe Leserinnen und Leser, der Pandemie darin besteht, dass viele, die zuvor skeptisch
waren und die Verwendung von Videokonferenz-Software
Sie halten das erste Heft des Jahres 2022 in Händen. Wieder und Ähnlichem teils konsequent verweigerten, sich aus der
liegt ein Jahr mit Corona hinter uns, und was an Varianten- Not heraus dann doch daran gewöhnt haben. Gelernt haben
reichtum vor uns liegt, das wollen wir gar nicht so genau wir dabei, dass diese Hilfsmittel zwar oft sehr nützlich sind,
wissen. Mittlerweile können wir alle G’s schon mindestens aber eben auch, dass sie Treffen im wirklichen Leben nicht
einmal vorweisen – vermutlich ist das bei Ihnen teilweise vollständig ersetzen können. Das wird sicher auch nach der
ebenso – und wenn wir etwas von G’s höre, dann fällt das Pandemie ein Thema bleiben.
schnell in die Kategorie G-enervt. Wie Sie vielleicht bereits erfahren haben, hat sich die
Nun haben wir also ein volles Jahr unter Pandemiebedin- Gesellschaft für Informatik gegen Ende des Jahres 2021
gungen verbracht. Mal mehr, mal weniger eingeschränkt, entschieden, den Vertrag mit Springer Nature [korrekt? Ja,
und immer in der Hoffnung auf Besserung. Meine univer- passt so] ab 2023 nicht mehr fortzusetzen. Das Informatik
sitäre Lehre erfolgt jetzt abwechselnd per aufgezeichnetem Spektrum ist damit nicht länger das Organ der Gesellschaft
Video, als Zoom-Vorlesung oder als Präsenzvorlesung. Lei- für Informatik. Das Erscheinen wird aber normal fortge-
der gibt es in diesem Winter nahezu alle zwei Wochen neue führt. Mögliche Anpassungen der inhaltlichen Ausrichtung
Regularien. Überraschenderweise hatten wir im Frühjahr werden im Jahr 2022 diskutiert werden – was aber auf je-
bei den video-mündlichen Prüfungen festgestellt, dass der den Fall bleiben wird ist, dass das Informatik Spektrum
Lernerfolg bei den Studierenden ausgezeichnet war. Ich hat- auf hohem Niveau über die ganze Bandbreite der Informa-
te mit mehr Teilnehmern ein insgesamt höheres Leistungs- tik berichten wird. Hauptherausgeber ist weiterhin Thomas
niveau festgestellt, und das ist besonders für meine Spezi- Ludwig und ich hoffe, dass die Gruppe der Herausgeberin-
alvorlesung Hochleistungsrechnen doch überraschend. Ich nen und Herausgeber auch weiterhin aktiv zum Gelingen
nehme an, dass die Videos ein konzentrierteres Lernen ge- des Journals beitragen wird. Weitere Informationen werden
statten, da man sich den Stoff in passende Häppchen teilen wir Ihnen im Laufe des Jahres 2022 mitteilen.
kann und insbesondere bei Fragen einfach auch zurück- Wir wünschen allen Leserinnen und Lesern noch alles
setzen kann. Lustiger Nebeneffekt, Fehler im Vortrag sind Gute zum Jahr 2022, und wir hoffen, dass es für alle ein
jetzt eindeutig nachweisbar. „Herr Ludwig hat aber im Vi- glückliches und gesundes Jahr werden möge.
deo gesagt, das geht so und so.“ Herr Ludwig musste dann
Hinweis des Verlags Der Verlag bleibt in Hinblick auf geografische
diese Folie nochmal, und besser, aufzeichnen und in das Vi- Zuordnungen und Gebietsbezeichnungen in veröffentlichten Karten
deo einbauen. Selbes Hemd, selber Dozent – nur die Folie und Institutsadressen neutral.
korrigiert. Merkt man fast nicht. Videolehre hat auch ihre
praktischen Seiten.
Insgesamt lässt sich bei Privatleuten und im professio-
nellen Umfeld beobachten, dass ein positiver Nebeneffekt

Peter Pagel
peter.pagel@springer.com

1
Deutsches Klimarechenzentrum, Hamburg, Deutschland
2
Springer Fachmedien Wiesbaden GmbH, Wiesbaden,
Deutschland

2                   Informatik Spektrum (2022) 45:1–2

    Thomas Ludwig   Peter Pagel

K

Informatik Spektrum (2022) 45:3–12
https://doi.org/10.1007/s00287-021-01397-1

    HAUPTBEITRAG

Skizze eines Verfahrens zur Erstellung von Ontologien mittels Formaler
Begriﬀsanalyse
Christoph Lübbert1 · Thomas Zeh1

Angenommen: 2. August 2021 / Online publiziert: 22. September 2021
© Der/die Autor(en) 2021

Zusammenfassung
Die Formale Begriffsanalyse vermag aus den Daten zu Gegenständen und deren Merkmalen eine Datenstruktur zu er-
mitteln. Es wird ein weitgehend automatisierbares Verfahren vorgestellt, das ausgehend von Elementarsätzen in Form
von RDF-Tripeln in einem iterativen Bottom-up-Prozess mittels Semantischer Netze und der Formalen Begriffsanalyse zu
einem Ontologieschema führt. Neben der Taxonomie der Klassen wird hierbei auch eine Taxonomie der Relationstypen
erstellt. Die durch die Formale Begriffsanalyse automatisch erstellten Merkmalimplikationen können für die Qualitäts-
sicherung herangezogen werden. Führt diese zu Korrekturen und Erweiterungen der Elementarsätze, wird der Prozess
wiederholt. Das resultierende Ontologieschema wird in ein Entity-Relationship-Diagramm überführt, das die Grundlage
für ein konzeptionelles Datenbankschema liefert. Zur Demonstration des Verfahrens wird exemplarisch eine Ontologie
eines Wissensgebiets erstellt.
Alle Überlegungen zur Erstellung des Ontologieschemas lassen sich prinzipiell auch bei der Erstellung und Ausarbeitung
beliebiger semantischer Datenschemata anwenden. Somit bietet diese Bottom-up-Methode die Chance, die Generierung
des Datenbankschemas algorithmisch durch Beispielsammlungen zu unterstützen. Da jeder Schritt im Verfahren nachvoll-
ziehbar und somit von der Person des Modellierers unabhängig ist, liefert das Verfahren einen Beitrag zur Automatisierung
der Modellierung, insbesondere von Ontologien.

Motivation und Ziel                                                  der Entwicklung von Ontologien [2] praktisch genutzt wer-
                                                                     den können.1
Mit der Formalen Begriffsanalyse (FBA) [1] entfalten sich               Anhand eines Beispiels wollen wir ein Verfahren auf-
aus Daten zu Gegenständen und deren Merkmalen automa-                zeigen, mit dem das Modellieren weitgehend automatisch,
tisch Begriffe, unter die diese Gegenstände fallen und die           nachvollziehbar und somit objektivierbar und weniger per-
diese Merkmale beinhalten. Die FBA liefert somit anhand              sonenabhängig gemacht werden kann. Der Artikel richtet
erhobener Daten eine Datenstruktur. Aus Daten lassen sich            sich vor allem an Informatiker und Linguisten und an Ent-
also Metadaten generieren, wie sie für semantische Daten-            wickler von Datenmodellen sowie an Wissensingenieure,
modelle von Wissensgebieten benötigt werden und die bei              die an einer Beschreibung von Weltausschnitten – sei es für
                                                                     die Schaffung von Anwendungssystemen, sei es für Onto-
                                                                     logien – interessiert sind.2

                                                                     Aufgabe und Ausgangssituation

     Christoph Lübbert                                               Es gilt, für ein bestimmtes Wissensgebiet anhand von Aus-
     christoph.luebbert@t-online.de                                  sagen über einige Instanzen ein zugehöriges Ontologie-
 Thomas Zeh
     thomas.zeh@t-online.de
                                                                     1 Eine Aufstellung derartiger Verfahren findet sich bei Priya und Ku-
1
     Ernst-Schröder-Zentrum für Begriffliche                         mar [3].
     Wissensverarbeitung, Fachbereich Mathematik, TU                 2 Der vorliegende Artikel ist eine Kurzfassung des mathematisch fun-

     Darmstadt, Schlossgartenstr. 7, 64289 Darmstadt,                dierten Artikels Ein Verfahren zur Erstellung von Ontologien mittels
     Deutschland                                                     Formaler Begriffsanalyse von den gleichen Autoren [4].

                                                                                                                              K

4 Informatik Spektrum (2022) 45:3–12

schema zu erstellen. Dies soll auf Basis einer Sammlung Ein Paar (A, B) heißt ein formaler Begriff im formalen
elementarer Sätze der Form Subjekt-Prädikat-Objekt (S-P- Kontext K = (G, M, I), wenn gilt
O) geschehen. Die Elementarsätze liegen in Textform oder
als RDF-Tripel [5] vor als sogenannte Statements oder Ur- A G; B M; A "= B und B #= A:
teile, also für wahr gehaltene Aussagen. Um sachlogische
Zusammenhänge zwischen den Termen der Elementarsätze Dabei heißt A der Umfang, B der Inhalt des formalen
grafisch darzustellen, wird ein Semantisches Netz genutzt. Begriffs (A, B). Die Menge aller formalen Begriffe des for-
malen Kontextes K wird mit B(K) bezeichnet. Auf B(K)
führt man eine Ordnung (reflexive, antisymmetrische, tran-
Formaler Kontext und Begriffsverband sitive binäre Relation) ein durch

Nach DIN 2342 ist ein Begriff „eine Denkeinheit, die aus .A; B/ .A0 ; B 0 / W, A A0
einer Menge von Gegenständen unter Ermittlung der die- .und das gilt genau dann; wenn B 0 B/:
sen Gegenständen gemeinsamen Eigenschaften mittels Ab-
straktion gebildet wird“. Der Gegenstandsbegriff wird hier Die Struktur (B(K), ≤) heißt der Begriffsverband des
sehr weit gefasst. Er umfasst nicht nur materielle und kon- formalen Kontexts K, da diese Struktur mathematisch stets
krete, sondern beliebige Dinge. Die formale Definition des einen Verband darstellt.
Begriffs erfolgt in der Formalen Begriffsanalyse. Die FBA Begriffsverbände können als Liniendiagramme darge-
ist eine auf der Verbandstheorie basierende Methode zur stellt werden. Diese zeigen recht anschaulich die Daten in
Strukturierung von Daten mittels formaler Kontexte und ihrer Struktur.
deren Begriffsverbänden. Sie wurde in den 1980er-Jahren
von Rudolf Wille, Bernhard Ganter und Peter Burmeister
eingeführt. Verfahren
Es folgen einige grundlegende Definitionen.
Gegeben sei eine Menge G, deren Elemente man Ge- Mittels Semantischer Netze und der Formalen Begriffsana-
genstände nennt, und eine Menge M, deren Elemente man lyse wollen wir ein Verfahren vorstellen, das ausgehend von
Merkmale nennt, sowie eine Relation I G × M, die man Elementarsätzen in einem iterativen Bottom-up-Verfahren
Inzidenzrelation nennt. Das Tripel K = (G, M, I) wird dann zu einem Ontologieschema und einem Entity-Relationship-
als formaler Kontext bezeichnet. Für einen Gegenstand Diagramm (ERD) [6] führt. Zur Demonstration des Verfah-
g 2 G und ein Merkmal m 2 M liest man (g, m) 2 I als: rens erstellen wir exemplarisch und im Kleinen eine On-
der Gegenstand g hat das Merkmal m. Ein formaler Kontext tologie eines Wissensgebiets. Wir wählen hierzu das Wis-
(G, M, I) lässt sich in Form einer Kreuzchentabelle darstel- sensgebiet Kunstgeschichte und verwenden das Beispiel aus
len: Trifft (g, m) 2 I zu, so bekommt die Zelle (g, m) der dem Wikipedia-Artikel über Ontologie (Informatik) [7] in
G-M-Tabelle (Inzidenzmatrix) ein Kreuzchen , andern- leicht modifizierter Form. Wir gehen von den Sachverhalten
falls bleibt sie leer. in der Instanzenebene (unterer Teil der Grafik in Abb. 1)
Ist K = (G, M, I) ein formaler Kontext und A G, so aus und werden im Folgenden zeigen, dass das Ontologie-
ist die Menge der Merkmale, die alle Gegenstände von A schema (oberer Teil der Grafik) daraus prinzipiell ableitbar
gemeinsam haben ist. Diese Ontologie kann u. a. der Erstellung eines Infor-
mationssystems für den an Kunstgeschichte interessierten
A "W= fm 2 M j8g 2 A W .g; m/ 2 I g: Laien dienen.
Wir gehen von den folgenden 11 Aussagen aus:
Ist B M, so ist die Menge der Gegenstände, die alle
Santi malt Johannes den Täufer.
Merkmale von B gemeinsam haben
Galleria dell’Accademia stellt Johannes der Täufer aus.
Buonarroti schlägt den David.
B #W= fg 2 Gj8m 2 B W .g; m/ 2 I g:
Galleria dell’Accademia stellt den David aus.
Picasso malt den Jungen mit der Pfeife.
Die Operatoren " und # nennt man Ableitungen im
Picasso ist Kubist.
Kontext K. Durch sie werden Gegenstandsmengen auf
Santi ist Florentiner.
Merkmalsmengen und umgekehrt abgebildet.
Buonarroti ist Florentiner.
Johannes der Täufer ist eine Ölzeichnung.
Der Junge mit der Pfeife ist eine Ölzeichnung.
David ist eine Steinskulptur.

Informatik Spektrum (2022) 45:3–12                                                                                                                               5

Abb. 1 Beispielontologie
Kunstgeschichte mit Instanzen-                           String                                                                                      String
und Schemaebene. (Mod. nach:                                                                                 erzeugt                   Name
                                                                        Name
https://de.wikipedia.org/wiki/
Ontologie_(Informatik)#/media/                                                          Künstler                            Kunstwerk              ausgestellt
                                                                        Vor-                                 hergestellt

                                      Ontologieschema
Datei:Ontschichten.gif)
                                                         String         name                                    von
                                                                                                                                               Museum
                                                                                   schlägt                     Skulptur                               Name
                                                               Bildhauer                    geschlagen
                                                                                            von                                                       String
                                                                                                                           malt
                                                                                                   Maler
                                                                                                                        gemalt von                 Bild

                                                                     Florentinisch                        Kubist                         benutzt

                                                                                                                       Technik          Name          String

                                                           Pablo            Vorname                malt                       Name              Junge mit
                                                                                                                                                der Pfeife
                                                         Picasso           Name Maler:I1                   Bild:I2benutzt
                                                                                                                                        Name        Ölzeich-
                                                                                                              benutzt        Technik:I3              nung
                                      Instanzen

                                                        Michelangelo       Vorname
                                                                                                                                  Name              David
                                                                                               schlägt
                                                                                                                   ausgestellt
                                                         Buonarroti        Name Bild-                      Skulp-
                                                                                                                                               Galleria dell
                                                                                     hauer:I4              tur:I5                     Name     Accademia
                                                                                                               ausgestellt     Museum:I6
                                                          Raffaelo          Vorname                malt
                                                                                                                                                Johannes
                                                                           Name Maler:I7                                      Name
                                                           Santi                                           Bild:I8                              der Täufer

Abb. 2 Semantisches Netz SN1                                                     Buonarroti                          David                     Steinskulptur
                                                                                                     schlägt                        benutzt

                                     Florentinisch                              istFlorentinisch                 istSteinskulptur
                                                                                                                 istSteinskulptur

                                                                                                                 Johannes
                                                                                                                 DerTäufer                     GalleriaDell´
                                                                                    Santi
                                                                                                      malt                                     Accademia

                                                                                istFlorentinisch                 istÖlzeichnung

                                                                                                                  Junge                        Ölzeichnung
                                     Kubismus                                     Picasso                         MitPfeife
                                                                   pflegtStil                         malt

                                                                                   istKubist                     istÖlzeichnung

                                                                                                                                                      K

6 Informatik Spektrum (2022) 45:3–12

Abb. 3 Leitfaden zur Erstellung
Instanzenebene FBA
des Ontologieschemas
Semantisches Netz SN1 der Instanzen
x
Schritt 1 x
Formale
x x
x x Kontexte
KV, KE

Schritt 4 Schritt 2
Schemaebene
Semantisches Netz SN2 des Schemas
Schritt 3
Liniendia-
gramme für
B(KV), B(KE)

Schritt 5

Ontologieschema als ERD

Diese Aussagen entsprechen denjenigen des Wikipedia- Varianten korrekt sind, modellieren wir sie nach der Devise
Beispiels. Bei den Künstlern haben wir die dort fehlenden nicht entweder-oder sondern sowohl-als auch.
Angaben zum Stil ergänzt. Anders als im Wikipedia-Bei- Am einfachen Beispiel der Abb. 2 wollen wir demons-
spiel gibt es hier auf der Instanzenebene nicht die Begriffe, trieren, wie man, ausgehend von einer Sammlung von Ele-
wie z. B. Maler, Bild, Bildhauer, Skulptur und Museum. Wir mentarsätzen, mithilfe von FBA-Methoden zur Darstellung
werden zeigen, dass diese Begriffe erst anhand der Elemen- eines Ontologieschemas gelangt. Die Elementarsätze wer-
tarsätze durch die FBA ermittelt resp. konstruiert werden den in das Semantische Netz SN1 überführt. Dessen Kno-
und zur Metaebene, also zum Ontologieschema, gehören. ten, Knotenattribute und Kanten werden im Schritt 1 als
Es reicht dem Entwickler, wenn er einige Beispiele er- formale Kontexte der Knoten KV und der Kanten KE in
mittelt hat und sich ein Bild von der „strukturellen Breite“ zwei Tabellen übertragen. Aus diesen Daten der Instan-
der kunstgeschichtlichen Daten gemacht hat. Diese Samm- zenebene werden im Schritt 2 zwei Liniendiagramme mit
lung von Elementarsätzen stellt die Ausgangsdatensituati- den durch die FBA ermittelten Begriffen generiert, die der
on dar. Sollten unter den Termen der Elementarsätze Syn- Schemaebene zuzurechnen sind. Sie werden im Schritt 3
onyma auftauchen, so werden diese durch den Entwickler in das Semantische Netz SN2 der Klassen überführt. Das
bereinigt, indem er einen bevorzugten Term festlegt; Hom- Ontologieschema SN2 wird im Rahmen der Qualitätssiche-
onyme werden von ihm berücksichtigt, indem er sie aufteilt rung überprüft, was im Schritt 4 zu einer Erweiterung und
und sie unterschiedlich benennt. Korrektur der Elementarsätze und somit des Semantischen
Basierend auf diesen Elementarsätzen erstellt der Ent- Netzes SN1 der Instanzen führen kann. In diesem Fall er-
wickler ein Semantisches Netz. Hierbei wird jeder Elemen- folgen die Schritte 1–4 zyklisch. Unser iteratives Bottom-
tarsatz der Form S-P-O auf ein Knotenpaar und eine ge- up-Verfahren endet, sobald das Ontologieschema alle Kri-
richtete Kante überführt. Ein Elementarsatz kann auch zu terien der Qualitätsprüfung erfüllt. Dann kann im Schritt 5
einem Attribut des durch das Subjekt bestimmten Knotens aus SN2 das ERD abgeleitet werden, das die Grundlage für
führen. Die Entscheidung ob Strukturierung mittels Kan- ein Datenbankschema zur Erstellung der Datenbasis für die
ten oder Knotenattributierung ist in dieser Phase der Onto- Ontologie ist.
logieentwicklung meist willkürlich. Beispiel: „Picasso ist Das Vorgehen aus den genannten fünf Schritten ist in
Kubist.“ Soll dieser Elementarsatz als Beziehung pflegtStil Abb. 3 dargestellt.
zwischen den Knoten Picasso und Kubismus oder als At-
tribut istKubist von Picasso modelliert werden? Da beide

Informatik Spektrum (2022) 45:3–12 7

Abb. 4 Der Knotenkontext KV

Schritt 1: Erstellung der formalen Kontexte zum Streckenzug erreichbar sind. Entsprechend finden wir die
Semantischen Netz der Instanzen Merkmalsmenge eines Begriffs durch die über den Kreisen
stehenden Merkmalsnamen aller aufsteigenden Streckenzü-
Zum vorgegebenen SN1 der Abb. 2 bilden wir die Kreuz- ge. Die Verbandsordnung von B(KV) ist später im Schritt 3
chentabelle des Knotenkontexts KV, wobei die Knoten die als die Klassentaxonomie im Ontologieschema zu interpre-
Gegenstände sind. Merkmale sind die Knotenattribute so- tieren.
wie die Beziehungen, an denen ein Knoten in einer be- Entsprechend erzeugen wir aus dem Kantenkontext
stimmten Rolle – als Subjekt oder als Objekt – beteiligt ist – KE das Liniendiagramm des zugehörigen Begriffsver-
zu anderen Knoten wie auch ggf. zu sich selbst (Abb. 4). bands B(KE). Die Verbandsordnung von B(KE) ist zu
Hiernach bilden wir zum vorgegebenen SN1 der Abb. 2 interpretieren als die Taxonomie der Relationstypen im
die Kreuzchentabelle des Kantenkontexts KE,3 wobei die Ontologieschema, die hier zunächst noch flach ist.
gerichteten Kanten in beide Richtungen die Gegenstände
und die Beziehungstypen die Merkmale sind. Die inverse Schritt 3: Erstellung des Ontologieschemas
Richtung eines Beziehungstyps wird durch ein nachgestell-
tes –1 gekennzeichnet (Abb. 5). Das Liniendiagramm von B(KV) in der Abb. 6 zeigt im
Wesentlichen bereits das Grundgerüst des Ontologiesche-
Schritt 2: Erstellung der Begriﬀsverbände zu den mas. Die durch die Kreise repräsentierten Begriffe im Li-
formalen Kontexten niendiagramm haben noch keine Bezeichner. Die Namens-
vergabe setzt einen mentalen Akt voraus. Es ist nicht damit
Mit einem bewährten FBA-Tool [10] erzeugen wir aus dem getan, dem Knoten ein „Etikett zu verpassen“, sondern es
Knotenkontext KV das Liniendiagramm des zugehörigen gilt für den Experten des Wissensgebiets anhand der Ge-
Begriffsverbands B(KV) – siehe Abb. 6. Die Kreise im Li- genstandsmenge und der Merkmalsmenge eines jeden Be-
niendiagramm repräsentieren die Begriffe als Paare von Ge- griffs im Begriffsverband einen entsprechenden Begriff aus
genstands- und Merkmalsmengen. Die Gegenstandsmenge dem zu modellierenden Wissensgebiet ausfindig zu machen.
eines Begriffs finden wir anhand der Gegenstandsnamen, Dieser muss alle Gegenstände der Gegenstandsmenge um-
die unter all den Kreisen stehen, die ausgehend von dem fassen und alle Merkmale der Merkmalsmenge aufweisen.
zum Begriff gehörenden Kreis durch einen absteigenden Die Bezeichnung dieses so gefundenen Begriffs kann dann
als Klassenname herangezogen werden.
Nach der Vergabe sprechender Klassennamen folgt die
3 Elemente von Relationen als Gegenstände eines formalen Kontexts Einbettung der Relationstypen. Hierfür sind für einen Re-
zu betrachten, ist eine Anwendung der von Rudolf Wille eingeführten
lationstyp r die jeweils zwei Klassen ausfindig zu machen,
power context families (PCF), die er wie folgt definiert hat: Eine power
context family ist eine Folge K! := (K0, K1, K2, ...) von formalen Kon- zwischen denen der Relationstyp „aufgehängt“ wird, d. h. es
texten Kk := (Gk, Mk, Ik) mit Gk (G0)k für k = 1, 2, ... [8] Die formalen gilt, die zwei vom Umfang kleinsten Klassen zu ermitteln,
Gegenstände von Kk mit k = 1, 2, ... repräsentieren Elemente k-stelliger zwischen deren Instanzen die Beziehung besteht.
Relationen. In unserer Situation haben wir es neben K1 mit K2, also bi-
Dazu helfen die Ableitungsoperatoren " und # der FBA
nären Relationen, zu tun. Bei der Überführung der semantischen Netze
in PCFs wurde von uns der von Eklund und Groh in [9] beschriebene wie folgt:
Algorithmus modifiziert.

8 Informatik Spektrum (2022) 45:3–12

Abb. 5 Der Kantenkontext KE

Abb. 6 Der Begriffsverband
B(KV)

Ist A eine Menge an Gegenständen, zu der der Begriff sätzen „Henry Moore schlägt Reclining Figure.“, „Henry
mit dem kleinsten Umfang U gesucht wird, der alle Ele- Moore ist Naturalist.“ und „Reclining Figure ist eine Bron-
mente von A enthält, dann ist U = (A")# die Gegenstands- zeskulptur.“.
menge, die zum gesuchten Begriff gehört. Dieser eindeutig Der Schritt 4, also die Überprüfung des Ontologiesche-
bestimmte Begriff entspricht dann der gesuchten Klasse. mas, kann nicht automatisiert werden. Allenfalls können
Damit können wir das Ontologieschema mit den Relations- bei der Überprüfung des Ontologieschemas mithilfe der
typen als Semantisches Netz SN2 erstellen (Abb. 7). Merkmalimplikation (Schlussfolgerungen zwischen Merk-
malen des formalen Kontexts), deren automatisch durch das
Schritt 4: Überprüfung des Ontologieschemas FBA-Programm ConExp erstellten Implikationen als Stütze
dienen. Derartige Implikationen zwischen Merkmalen sind
Die im Semantischen Netz SN1 abgebildeten Elementar- im vorliegenden Kontext beispielsweise:
sätze können durch unzureichende Erhebung unvollständig
istKubist ! malt und istNaturalist ! schlägt.
oder unzutreffend sein. So fällt z. B. auf, dass die Klasse
Skulptur Unterklasse der Klasse Ausstellungsobjekt ist; d. h. Lehnt der Experte eine Implikation ab, dann ist er gefor-
jede Skulptur wird ausgestellt. Der Kunstkenner weiß aller- dert, einen neuen Elementarsatz zu ergänzen (wie es bei der
dings von Fällen, dass es auch Skulpturen gibt, die nicht obigen Klasse Skulptur der Fall war) oder ggf. einen alten
ausgestellt werden, so z. B. die Skulptur Reclining Figure – dann falschen – zu streichen. Um die zweite der beiden
des Naturalisten Henry Moore. Dies führt zu den Elementar- o. a. Implikationen zu widerlegen, reicht es aus, einen neu-

Informatik Spektrum (2022) 45:3–12                                                                                                          9

Abb. 7 Ontologieschema als                                                   Top Class
Semantisches Netz SN2

                                                                                                       Kunst-
                                                              Künstler                                 werk

                                                                              Museum      stellt aus              Ausstellungs-
                                                                                                                  objekt
                                                     Maler                 malt
                                                                                                   Bild
                                                                         Florentiner

                                            Kubist                          Bildhauer
                                                                                         schlägt                           Skulptur

                                     Stil             Florenti-                                           Ausstel-                Technik
                                                      nischer                                             lungsbild
                                                      Maler

                                                                         Bottom Class
                                     Legende
                                               : is-a-Beziehung zur Darstellung der Klassentaxonomie
                                               : Relaonstyp

Abb. 8 Begriffsverband der
Knoten B(KV) nach dem zwei-
ten Durchlauf

en Elementarsatz mit einem Naturalisten aufzunehmen, der            Schritt 5: Ableitung des Entity-Relationship-
keine Skulpturen schlägt (Abb. 8).                                  Diagramms
   Die FBA liefert im Liniendiagramm der Kanten die
Relationstypen-Taxonomie, welche bei der konventionellen            Das Ontologieschema in Abb. 10 kann in ein ERD4 über-
Top-down-Methode meist nicht erkannt oder berücksich-               führt werden, wobei nicht alle Knoten und Kanten des SN2
tigt wird. In unserem Fallbeispiel war sie nach dem ersten          in das ERD übernommen werden. Kandidaten für Entitäts-
Durchgang trivial; die Hierarchie war flach. Nach dem               typen sind solche Klassen, für die es betriebliche Funktio-
zweiten Durchlauf ist das Ergebnis wie folgt (Abb. 9).              nen gibt, die sie auch verwenden, und Klassen, die an Re-
   Als Ergebnis des 2. Durchlaufs erhalten wir das folgende         lationstypen beteiligt sind. Im ERD wird zur Darstellung
Klassendiagramm (Abb. 10).                                          der Kardinalitäten die (min, max)-Notation verwendet. Die
                                                                    einzelnen Häufigkeitsangaben werden dem aktuellen Da-
                                                                    tenbestand entnommen. Sie sind bei der Qualitätssicherung
                                                                    zu überprüfen und deren Ergebnis kann genutzt werden, um

                                                                    4 Zur Visualisierung des Ontologieschemas kann auch ein UML-Da-
                                                                    tenstrukturdiagramm genutzt werden.

                                                                                                                                  K

10                                                                                                                  Informatik Spektrum (2022) 45:3–12

Abb. 9 Begriffsverband der Kanten B(KE) nach dem zweiten Durchlauf

Abb. 10 Ontologieschema als                                                        Top Class
Semantisches Netz SN2 nach
dem zweiten Durchlauf                                         Künstler
                                                                                     erzeugt
                                                                                                                                  Kunstwerk

                                                                                    Museum           stellt aus

                                                          Maler                                       Bild                  Ausstellungs-
                                                                                    malt                                    objekt

                                                                      Florentiner Bildhauer                       schlägt            Skulptur

                                                                                                                                                    Technik
                                    Stil
                                             Kubist Florentini-   Florentinischer Naturalistischer      Ausstellungs-       Ausstellungs-     Bronze-
                                                    scher Maler   Bildhauer       Bildhauer             bild                skulptur          skulptur

                                                                                               Bottom Class

                                           Legende
                                                     : is-a-Beziehung zur Darstellung der Klassentaxonomie
                                                     : Relaonstyp

das Datenmodell realitätsgetreuer zu gestalten. So kann im                können aber als Integritätsbedingungen in das konzeptionel-
Beispiel mit dem Datenbestand nach dem zweiten Durch-                     le Datenmodell eingehen und in der Ontologie neben den
lauf gefragt werden, ob es zutrifft, dass ein Bildhauer genau             Merkmalimplikationen die Inferenzmaschine anreichern.
eine Skulptur schlägt, und ob nicht ein Künstler mehrere                     Ein Attribut einer Klasse wird demjenigen Entitätstyp
Stile pflegen kann (Abb. 11).                                             zugeordnet, der innerhalb der Entity-Relationship-Ord-
   Im ERD lässt sich die Taxonomie der Relationstypen                     nungsstruktur von unten nach oben gehend erstmalig alle
nicht ohne weiteres darstellen.                                           Entitäten mit den zugehörigen Attributwerten umfasst.
   Die Implikationen                                                         Aus dem ERD lässt sich dann das konzeptionelle Daten-
                                                                          bankschema für die Ontologie ableiten.
     malt ! erzeugt und schlägt ! erzeugt

K

Informatik Spektrum (2022) 45:3–12                                                                                                      11

Abb. 11 Entity-Relationship-
Diagramm mit der (min, max)-                                                   stellt                     Ausstellungs-
                                                  Museum
Notation                                                         (1,*)          aus           (1,1)          objekt

                                                  Künstler                    erzeugt                       Kunstwerk
                                                                (1,1)                             (1,1)

                                                                                                                  (1,1)
                                                        (1,1)
                                      Bildhauer                  Maler                        Bild                         Skulptur

                                                   pflegt                       malt                        benutzt
                                                                   (1,1)                  (1,1)
                                                        (1,*)                                                     (1,*)
                                     (1,1)                                                                                      (1,1)
                                                    Stil                                                    Technik

                                                                              schlägt

                                             Legende:           Entitätstyp
                                                                Relationstyp
                                                                Generalisierung/Spezialisierung

Potenziale/Nutzenaspekte                                           dem neue Instanzen zu gegebenen Zeiten gegen das Schema
                                                                   laufen, das dann im Konfliktfall differenziert und damit er-
Wir sehen in dem weitgehend automatisierbaren Verfahren            weitert bzw. um strukturelle Neuheiten ergänzt wird. Damit
eine Möglichkeit, den Modellierungsprozess und die Quali-          können die Erweiterung eines Wissensgebietes und auch
tätssicherung zu unterstützen, sowie einen Beitrag zur Kon-        ein Strukturwandel in der Ontologie einfacher berücksich-
sensfindung bei den an der Entwicklung von Ontologien Be-          tigt werden. Überträgt man diesen Prozess auf zwei oder
teiligten. Die Liniendiagramme zum Knoten- und Kanten-             mehr bestehende Ontologien, so kann das Verfahren auch
kontext, das Semantische Netz des Ontologieschemas wie             zur Schemaintegration der Ontologien, basierend auf Aus-
auch die automatisch erkannten logischen Zusammenhänge             zügen aus deren Datenbeständen, genutzt werden.5
durch die Merkmalimplikation werfen inhaltliche Fragen
                                                                   Funding Open Access funding enabled and organized by Projekt
auf und unterstützen damit den Entwickler und den Quali-           DEAL.
tätssicherer zielführend bei der Konzeption des Ontologie-
schemas. Auch ist jeder Schritt im Verfahren nachvollzieh-         Open Access Dieser Artikel wird unter der Creative Commons Na-
                                                                   mensnennung 4.0 International Lizenz veröffentlicht, welche die Nut-
bar und somit von der Person des Modellierers unabhängig.          zung, Vervielfältigung, Bearbeitung, Verbreitung und Wiedergabe in
    Alle Überlegungen zur Erstellung des Ontologieschemas          jeglichem Medium und Format erlaubt, sofern Sie den/die ursprüng-
lassen sich prinzipiell auch bei der Erstellung und Ausar-         lichen Autor(en) und die Quelle ordnungsgemäß nennen, einen Link
beitung beliebiger semantischer Datenschemata anwenden.            zur Creative Commons Lizenz beifügen und angeben, ob Änderungen
                                                                   vorgenommen wurden.
Somit bietet diese Bottom-up-Methode die Chance, die Ge-
nerierung des Datenbankschemas algorithmisch durch Bei-            Die in diesem Artikel enthaltenen Bilder und sonstiges Drittmaterial
spielsammlungen zu unterstützen. Auch kann ein auf an-             unterliegen ebenfalls der genannten Creative Commons Lizenz, sofern
                                                                   sich aus der Abbildungslegende nichts anderes ergibt. Sofern das be-
derem Weg erstelltes semantisches Datenschema mit dem              treffende Material nicht unter der genannten Creative Commons Lizenz
Ergebnis des FBA-basierten Verfahrens verglichen werden,           steht und die betreffende Handlung nicht nach gesetzlichen Vorschrif-
um von den Widersprüchen wie auch den strukturellen Er-            ten erlaubt ist, ist für die oben aufgeführten Weiterverwendungen des
gänzungen – z. B. durch neue Begriffe oder Beziehungen –           Materials die Einwilligung des jeweiligen Rechteinhabers einzuholen.
zu profitieren.                                                    Weitere Details zur Lizenz entnehmen Sie bitte der Lizenzinformation
    Da uns nur einige Instanzen aus der Datenbasis zum             auf http://creativecommons.org/licenses/by/4.0/deed.de.
Ontologieschema führen, das für alle Daten des Wissens-
gebietes gelten soll, muss das induktiv entstandene Ergeb-
nis durch weitere Elementarsätze auf Plausibilität überprüft       5 Einen FBA-basierenden Bottom-up-Ansatz für den Merge-Prozess
werden. Dies kann zu einem Prozess ausgebaut werden, in-           von Ontologien verfolgen auch Stumme und Maedche in [11].

                                                                                                                            K

12                                                                                                           Informatik Spektrum (2022) 45:3–12

Literatur                                                                   7. Wikipedia – Die freie Enzyklopädie Ontologie (Informatik). https://
                                                                               de.wikipedia.org/wiki/Ontologie_%28Informatik%29. Zugegrif-
                                                                               fen: 30 Apr 2021
1. Ganter B, Wille R (1996) Formale Begriffsanalyse (FBA). Springer,
                                                                            8. Wille R (1997) Conceptual graphs and formal concept analysis. In:
   Berlin, Heidelberg
                                                                               Lukose D, Delugach H, Keeler M, Searle L, Sowa JF (Hrsg) Con-
2. Busse J, Humm B, Lübbert C, Moelter F, Reibold A, Rewald M,
                                                                               ceptual structures: fulfilling Peirce’s dream. LNAI, Bd. 1257. Sprin-
   Schlüter V, Seiler B, Tegtmeier E, Zeh T (2014) Was bedeutet ei-
                                                                               ger, Heidelberg, S 290–303
   gentlich Ontologie? – Ein Begriff aus der Philosophie im Licht ver-
                                                                            9. Groh B, Eklund P (1999) Algorithms for Creating Relational Power
   schiedener Disziplinen. Informatik Spektrum 37(4):286–297
                                                                               Context Families from Conceptual Graphs. In: Proceedings 7th-
3. Priya M, Aswani Kumar C (2015) A survey of state of the art of on-
                                                                               International Conference on Conceptional Structures. LNAI, Bd.
   tology construction and merging using formal concept analysis. In-
                                                                               1640, Springer, Heidelberg, S 389–400
   dian J Sci Technol. https://doi.org/10.17485/ijst/2015/v8i24/82808
                                                                           10. Beschreibungen und Downloadmöglichkeiten von Software zur
4. Lübbert C, Zeh T Ein Verfahren zur Erstellung von Ontologien mit-
                                                                               FBA. http://www.ernst-schroeder-zentrum.de/sw.html. Zugegrif-
   tels Formaler Begriffsanalyse (Publikation vorgesehen)
                                                                               fen: 28. Apr. 2021
5. Barrasa J Field engineer: RDF triple stores vs. labeled property gra-
                                                                           11. Stumme G, Maedche A (2001) FCA-merge: a bottom-up approach
   phs: what’s the difference? https://neo4j.com/blog/rdf-triple-store-
                                                                               for merging ontologies. In: Proc. 17th Int’l Joint Conf. Artificial
   vs-labeled-property-graph-difference/
                                                                               Intelligence IJCAI ’01. Morgan Kaufmann, San Francisco
6. Elmasri R, Navathe SB (2015) Fundamentals of database systems.
   Addison Wesley, Boston

K

Informatik Spektrum (2022) 45:13–19
https://doi.org/10.1007/s00287-021-01420-5

HAUPTBEITRAG

Data Preprocessing as a Service – Outsourcing der
Datenvorverarbeitung für KI-Modelle mithilfe einer digitalen Plattform
Marko Kureljusic1 · Erik Karger1

Angenommen: 5. Oktober 2021 / Online publiziert: 29. Oktober 2021
© Der/die Autor(en) 2021

Zusammenfassung
Sowohl in der Praxis als auch in der Wissenschaft kam es in den vergangenen Jahren zu einem zunehmenden Interesse an
datenintensiven Verfahren, wie der künstlichen Intelligenz. Die Mehrheit dieser Data-Science-Projekte fokussierte sich auf
den Erklärungsgehalt und die Robustheit der Modelle. Vernachlässigt wurde hierbei häufig der Prozess der Datenvorverar-
beitung, obwohl dieser ca. 80 % der Zeit eines Data-Science-Projekts beansprucht. Im Rahmen der Datenvorverarbeitung,
welche auch als Data Preprocessing bezeichnet wird, werden Daten akquiriert, bereinigt, transformiert und reduziert. Das
Ziel dieser Vorgehensweise ist die Generierung eines Datensatzes, welcher sich für Trainings- und Testzwecke der Data-
Science-Modelle eignet. Somit ist das Data Preprocessing ein erforderlicher Prozessschritt, der für das maschinelle Erler-
nen von korrekten Mustern und Zusammenhängen notwendig ist. Häufig scheitern Data-Science-Projekte jedoch an der
mangelhaften Datenvorverarbeitung. So werden beispielsweise fehlerhafte Daten nicht vorab identifiziert, wodurch mögli-
cherweise falsche Zusammenhänge erlernt werden. Dies führt dazu, dass der Erklärungsgehalt der Data-Science-Modelle
signifikant verringert wird. Eine Möglichkeit, dieses Problem zu lösen, ist das Outsourcing der Datenvorverarbeitung an
spezialisierte Fachkräfte. Mithilfe einer Plattform kann ein sicherer und automatisierter Datenaustausch zwischen Kunden
und Dienstleistern gewährleistet werden. Der vorliegende Beitrag thematisiert, wie die Plattform für das Data Preprocessing
genutzt werden kann, um eine effizientere und schnellere Bereitstellung der Daten zu ermöglichen.

Einleitung ta-Science-Projekten. Vor allem das Extrahieren von Merk-
malen aus Daten führt zu einer erhöhten Komplexität und
Mangelnde Datenqualität wird laut aktuellem Stand der einem hohen zeitlichen Aufwand [3]. Um Algorithmen,
Forschung als einer der wichtigsten Gründe für das Schei- wie Machine-Learning-basierte Analyseverfahren, auf den
tern von Data-Science-Projekten angesehen [1]. In den bis- Daten anzuwenden, muss das Data Preprocessing erfolg-
herigen empirischen Studien wird eine Ex-post-Betrachtung reich abgeschlossen sein. Laut aktuellen Umfragen bean-
vorgenommen, indem diese nachträglich die Ursachen für sprucht das Data Preprocessing ca. 80 % der Zeit eines Da-
gescheiterte Projekte untersuchen. Es mangelt an empiri- ta-Science-Projekts und ist maßgeblich für dessen Erfolg
schen Untersuchungen, die aufzeigen, dass eine angemes- [4].
sene Datenvorverarbeitung das Problem der mangelhaften Data Science ist eine multidisziplinäre Wissenschaft, die
Datenqualität eliminieren oder zumindest reduzieren kann. Expertise in verschiedenen Bereichen erfordert. So sind ins-
Jedoch wird dies in der qualitativen Forschung bereits als besondere bei dem Data Preprocessing Kenntnisse der Pro-
elementarer Bestandteil zur Gewährleistung der Datenqua- grammierung, Statistik oder dem Datenmanagement not-
lität angesehen [2]. wendig [8]. Darüber hinaus setzt eine qualitativ hochwerti-
Das Aufbereiten von Rohdaten, welches im Folgenden ge Aufbereitung von Rohdaten voraus, dass deren Herkunft
auch als Data Preprocessing bezeichnet wird, ist in der Pra- und Inhalt verstanden werden. Neben technischer Expertise
xis eine der technisch anspruchsvollsten Aufgaben bei Da- ist daher, je nach Branche, Unternehmen oder Problem-
stellung, auch ein bestimmtes domänenspezifisches Know-
how der Data-Scientists erforderlich. Aufgrund der unter-
Marko Kureljusic
schiedlichen Rahmenbedingungen und Zielsetzungen von
marko.kureljusic@uni-due.de
Data-Science-Projekten gibt es oftmals kein standardisier-
1
Campus Essen, NRW, Universität Duisburg-Essen, tes Vorgehen, auf das bei der Datenvorverarbeitung zurück-
Universitätsstraße 12, 45141 Essen, Deutschland gegriffen werden kann. Aus diesem Grund besteht die Not-

14 Informatik Spektrum (2022) 45:13–19

wendigkeit, dass das Data Preprocessing durch einen Data- sich strukturierte und unstrukturierte Daten sowie interne
Scientist durchgeführt wird, der auf bestimmte Branchen und externe Daten vorfinden, die gemeinsam für eine Pro-
spezialisiert ist und Inhalt, Struktur sowie Herkunft der blemstellung genutzt werden können. Das Ziel von Data
Daten versteht. Allerdings ist der Markt für spezialisierte Science besteht darin, komplexe Muster und Zusammen-
Fachkräfte sehr kompetitiv, wodurch es für Unternehmen hänge in einem Datensatz zu identifizieren, um wichtige Er-
herausfordernd ist, diese zu akquirieren und zu halten. So kenntnisse aus den Daten zu gewinnen [7]. Die identifizier-
geht aus einer vom Stifterverband und McKinsey durchge- ten Muster bilden die Basis für Machine-Learning-Anwen-
führten Studie hervor, dass bis zum Jahr 2023 ca. 455.000 dungen, welche in der Lage sind, anspruchsvolle Regressi-
zusätzliche Fachkräfte für komplexe Datenanalysen gesucht ons- und Klassifikationsaufgaben zu lösen. Da im Vorfeld
werden [5]. eines Data-Science-Projekts meistens unklar ist, wie stark
Der vorliegende Beitrag stellt mit Data Preprocessing as die Eingangsvariable die Zielvariable beeinflusst, wird häu-
a Service einen neuen, plattformbasierten Ansatz für das fig eine Vielzahl unterschiedlicher Daten verwendet. Mit-
Outsourcing der Datenvorverarbeitung vor. Auf Basis einer hilfe von iterativen Testverfahren können die wesentlichen
Plattform entsteht ein neuer Dienstleistungsmarkt, der es er- Ergebnistreiber im Datensatz identifiziert werden [8]. Dies
möglicht, die Datenvorverarbeitung an spezialisierte Fach- setzt jedoch voraus, dass die Daten maschinell verarbeitbar
kräfte outzusourcen. Hierdurch soll die Datenqualität opti- sind. In den meisten Fällen müssen die Rohdaten erst auf-
miert werden, um die Erfolgswahrscheinlichkeit von Data- wendig angepasst werden, um anschließend Algorithmen
Science-Projekten zu erhöhen. erfolgreich darauf anzuwenden. Die einzelnen Schritte einer
Zunächst werden im zweiten Kapitel die theoretischen Datenvorverarbeitung werden in Anlehnung an einschlägi-
Grundlagen beschrieben, indem auf die Schritte des Data ge Praxishandbücher für Machine Learning, u. a. Géron [9]
Preprocessings sowie auf digitale Geschäftsmodelle einge- und Chollet [10], nachfolgend dargestellt.
gangen wird. Daraufhin wird im dritten Kapitel das Ge- Die Abb. 1 veranschaulicht, dass sämtliche Schritte
schäftsmodell Data Preprocessing as a Service vorgestellt. der Datenvorverarbeitung bei falscher Anwendung Risi-
In Kapitel vier erfolgt eine kritische Diskussion dieses An- ken nach sich ziehen. Um den Erfolg eines Data-Science-
satzes hinsichtlich der praktischen und theoretischen Not- Projekts nicht zu gefährden, sollte das Data Preprocessing
wendigkeit sowie der Nachteile und Risiken, die sich durch daher nicht vernachlässigt werden. Vor dem Hintergrund,
die Anwendung ergeben können. Der Artikel schließt mit dass es mittlerweile AutoML-Tools gibt, die grundsätzlich
einem Fazit in Kapitel fünf, welches die zentralen Aussagen ein End-to-end-Learning ermöglichen, stellt sich jedoch
zusammenfasst. die Frage, welchen Mehrwert eine manuelle Datenvor-
verarbeitung gegenüber AutoML-Tools bietet. Bekannte
Beispiele für AutoML-Tools sind unter anderem Auto-
Theoretische Grundlagen sklearn [11], Hyperopt [12] und Auto-Keras [13]. Das Ziel
sämtlicher AutoML-Tools besteht darin, die Hyperparame-
Im Folgenden wird das Data Preprocessing tiefergehend ter von Machine-Learning-Algorithmen zu optimieren, um
beleuchtet, indem auf sämtliche relevanten Schritte, von so das bestmögliche Ergebnis aus der zugrundeliegenden
der Datensammlung bis hin zur optimalen Datenbereitstel- Datenmenge zu erzielen [14]. Zwar unterstützen AutoML-
lung für Machine-Learning-Anwendungen, eingegangen Tools einige Schritte der Datenvorverarbeitung, wie die
wird. In diesem Zusammenhang wird auch die Relevanz Vektorisierung von kategorialen Variablen, jedoch ersetzen
dieser Schritte thematisiert. Da das Data Preprocessing sie keine vollständige Datenvorverarbeitung durch Data-
in der Praxis aufgrund von zeitlichen, finanziellen oder Scientists [15]. Vor allem ist im Rahmen der Merkmals-
personellen Gründen häufig vernachlässigt wird, stellt sich extraktion ein tiefgründiges Verständnis der Datenmengen
die Frage, welchen Mehrwert es für Data-Science-Projekte und ihrer Zusammenhänge notwendig, um neue Eingangs-
bieten kann. Im Anschluss an die Beantwortung dieser variablen zu kreieren, die das maschinelle Erlernen von
Frage werden sowohl die Grundlagen digitaler Plattformen komplexen Mustern erleichtern [16].
vorgestellt als auch deren Notwendigkeit wissenschafts- Neben AutoML-Tools gibt es auch Machine-Learning-
theoretisch begründet. Dienstleistungen, die auf Basis von Cloud Computing an-
geboten werden. Charakteristisch hierfür ist, dass große Da-
Data Preprocessing tensätze mit modernen Algorithmen analysiert werden kön-
nen, ohne die eigene Hardware zu beanspruchen [17]. Diese
In der Regel werden für Data-Science-Projekte Daten aus werden auch als Machine Learning as a Service bezeich-
unterschiedlichen Ursprungsquellen herangezogen, die sich net. Bekannte Beispiele hierfür sind IBM Watson, Azure,
sowohl von ihrer Struktur als auch ihrer potenziellen In- Google Cloud und AWS. Analog zu AutoML-Tools können
formationsqualität differenzieren [6]. Grundsätzlich lassen im Rahmen von Machine Learning as a Service grundlegen-

Sie können auch lesen