Klassifikation und terminologische Kontrolle: Yahoo!, Open Directory und Oingo im Vergleich

 
WEITER LESEN
Internet-Suchwerkzeuge

     Klassifikation und
     terminologische Kontrolle:
     Yahoo!, Open Directory
     und Oingo im Vergleich
     In Password 11/2000 wurden durch                steht und wird zusammen mit ihrer Such-          sem Phänomen entgegenzuwirken, führt
     einen Retrievaltest die qualitativ              maschine ins Web gestellt. Der erste Schritt     Yahoo! den Business Express Service ein,
     führenden Suchwerkzeuge im Inter-               vom privaten zum öffentlichen Nutzen ist         der dem Antragsteller für US-$199 zumin-
     net bestimmt. In den nächsten Teilen            damit getan. Viele andere Interessierte          dest ein Ja oder Nein garantiert, ob die Site
     unseres State of the Art - Berichts             schliessen sich an und nehmen fortan die         innerhalb der nächsten sieben Arbeitstage
     über Retrievalsysteme im World Wide             Möglichkeit wahr, bei der Ergänzung, Kor-        aufgelistet wird. "Business Express allows
     Web beschreiben wir einzelne inter-             rektur oder Streichung von Sites in Yahoo!       webmasters to pay for guaranteed conside-
     essante Ansätze der Technik der Top-            mitzuwirken. Im rasanten Tempo werden            ration of their sites, not for guaranteed
     Suchwerkzeuge. Den Anfang machen                neue Seiten der Yahoo!-Datenbank hinzu-          listings" (ebd.). Bezahlung garantiert nicht,
     die klassifikatorischen Verzeichnisse           gefügt. Innerhalb von zwei Jahren ist Yahoo!     dass, wie (mit welcher Beschreibung) und
     Yahoo! und das Open Directory-Pro-              längst nicht mehr das Werkzeug einer             wo (in welcher Kategorie) eine Site
     jekt sowie das System Oingo, das im             Handvoll von Studenten. Unser Such-              erscheint. In dieser Beziehung unterschei-
     Rahmen eines "semantischen Retrie-              werkzeug bekommt die URL der Yahoo Cor-          det sich der Business Express in keiner
     vals" das Homonym- und Synonym-                 poration, und ein Redaktionsstab wird mit        Weise vom normalen Submissionprozess.
     problem angeht.                                 der Katalogisierung und dem Updating ein-        Yahoo! - Redakteure haben keine Zeit, alle
                                                     gereichter Eingänge beauftragt.                  Eingänge zu bewältigen. Webmaster
                                                         Yahoo! - Was bedeutet dies? Mag              bekommen durch den neuen Service die
     Was hat Yahoo mit                               man bei dem Namen "Yahoo" vielleicht             Wahl, ob sie eine sofortige Antwort erhal-
     Gullivers Reisen zu tun?                        zunächst an die viehischen Wesen in              ten möchten oder nicht.
                                                     Menschengestalt aus "Gullivers Reisen"                 Yahoo! hält einen Datenspeicher mit

     Y
            ahoo! ist eines der populärsten Such-    von Jonathan Swift denken, steckt hin-           rund einer Million indexierter Doku-
            werkzeuge im In- und Ausland. Was        gegen hinter dem "Yahoo" unseres Such-           mente. Wenn man bedenkt, dass allein
            zeichnet diese Beliebtheit aus, oder     werkzeuges auch das Akronym: Yet Ano-            Google über rund 1,3 Milliarden Einträ-
     anders gefragt, was bietet Yahoo! besser als    ther Hierarchical Officious Oracle. Ob           gen verfügt, so wird bei Yahoo! nur ein
     die Konkurrenz? Werfen wir einen Rück-          Filo und Yang sich als Yahoos (im Sinne          Bruchteil des Web (innerhalb des eige-
     blick auf 1993 und die folgenden Jahre, auf     Swifts) fühlen, sei dahingestellt.               nen Verzeichnisses) vorgehalten. Eine
     jene Zeit, wo Yahoo! kreiert wird, für nur                                                       ausschließliche Nutzung von Yahoo!
     eine kurze Weile in den Kinderschuhen                                                            bedeutet, auf über 99,9% der Inhalte des
     steckt, um sich dann letztendlich zu dem
                                                     Vom Erfolg überrannt?                            World Wide Web zu verzichten. Dies hat
     derzeitigen Suchsystem zu entpuppen. Jerry                                                       auch das Unternehmen erkannt und bie-
     Yang und David Filo, zwei Studenten aus              Akzeptiert werden nahezu alle Typen         tet zusätzlich ein Retrieval in einer Such-
     Palo Alto und Benutzer des WWW, erstel-         von Sites, persönliche oder kommerzielle,        maschine an. Partner war bis Mitte 2000
     len anfangs für den Eigengebrauch Adres-        nur persönliche Sites pornographischen           Inktomi, jetzt ist es Google.
     senlisten jener Sites, die sie besuchten und    Inhalts werden von Anfang an ausge-
     ihnen als interessant erschienen, um zu         schlossen. 1999, nur sechs Jahre nach der
     einem späteren Zeitpunkt eventuell noch         "Gründungszeit" steht der Redaktionsstab
                                                                                                      Die Wiederentdeckung
     einmal zu diesen Sites schnell zurückkeh-       vor dem Chaos einer nicht schaffbaren            der Klassifikation
     ren zu können. Mit dem Zuwachs der Link-        Bewältigung der Eingangsmassen. Danny
     sammlung vergrößert sich gleichzeitig das       Sullivan schreibt: "Submitting to Yahoo has          Charakteristikum von Yahoo! ist
     Problem der effizienten Suche nach diesen       long been one of the more frustrating expe-      seine hierarchische Struktur. Im Ein-
     gesammelten Informationen. Eine Daten-          riences for many webmasters. Submissions         gangsbildschirm finden wir 14 Haupt-
     bank, in der die Verweise zu den WWW-           go in, but no action may be taken for weeks      klassen bzw. Hauptkategorien, von denen
     Sites geordnet und klassifiziert werden, ent-   or months, if at all" (Sullivan 1999). Um die-   aus sich der Nutzer zu Subkategorien

26                                                                                                                            PASSWORD 12/2000
mehrerer Stufen bis hin zu den Sites und      sche Struktur einer (fingierten) hierar-      einer vorläufigen Trefferliste zusam-
                   - neuerdings - Nachrichten herun-             chisch aufgebauten Informationsmenge.         mengetragen. Im Dokumentenspeicher
                   terklicken kann. Wir haben es mit einem       Die linke Seite zeigt den Pfad über Recrea-   haben die Datensätze die Felder:
                   polyhierarchischen Klassifikationssystem      tion ("Dokument" mit der Yahoo!-Doku-         ● Dokumentnummer (in Abb. 2 fett
                   zu tun, d.h. eine Klasse kann durchaus        mentnummer 1), Games (2), Board               gedruckt, z.B. 1)
                   mehr als einen Oberbegriff haben.             Games (3) und Go (4) zu zwei URLs (5          ● Nummer des letzten Unterbegriffs des
                       Wie funktioniert eine Suche bei           und 6), die Go-Sites vertreten. Wenn wir      jeweiligen Dokuments als "Unterbe-
                   Yahoo!? Das Yahoo!-Patent "Information        den rechten Pfad anschauen, sehen wir         griffszeiger" (in unserem Beispiel ist dies:
                   Retrieval From Hierarchical Compound          ebenfalls die Zeichenfolge "Go", jedoch       9, also Boating für Recreation)
                   Documents" zeigt uns die eingesetzte          in einem völlig anderem Kontext als           ● Nummer des Oberbegriffs als "Ober-
                   Technik. "The Game of Go" lautet die          Unterklassen (20, 21 und 22) zu Restau-       begriffszeiger" (gibt es hier nicht)
                   Suchfrage. Der Server, der die Suchfrage      rants (16). Unsere Beispielsuchfrage zielt    ● Text des Dokuments, repräsentiert
                   mit einem Ergebnis beantwortet, ist an        natürlich nur auf die Treffer 4 bis 6         durch den Nachweis (Recreation)
                   einen Dokumentenspeicher und einen            (obwohl hier "Games" als Zeichenfolge         ● Beschreibung
                   Wortindex gekoppelt. Dieser Server            nicht vorkommt); die Nummern 20 bis           ● Assoziationsbegriff (Fun)
                   unterzieht den Suchausdruck (durch Par-       22 müssen ausgeschlossen werden. Eine         ● Hinweis auf Kategorie oder Site.
                   sing) einer Sprachanalyse und versucht,       UND-Verknüpfung der Zeichenfolge                   Wohlgemerkt: Dokumentennach-
                   Dokumente im Dokumentenspeicher pas-          würde keine Treffer ergeben; folglich         weise bedeuten bei Yahoo! Referenzen
                   send zum gegebenen Suchausdruck abzu-         muss der Algorithmus cleverer vorgehen.       für Kategorien oder auch Referenzen für
                   gleichen. Yahoo!-Dokumente sind im                Die Elemente und Funktionen des           Sites. Anhand des Zusammenspiels der
                   Speicher logisch geordnet. Jedes Doku-        Suchsystems stellt Abbildung 2 dar. Die       Dokumentnummer, des Unter- und des
                   ment repräsentiert entweder eine the-         alphabetisch geordneten Nachweise im          Oberbegriffszeigers werden die Knoten
                   matische Kategorie oder eine Site und         Wortindex besitzen als Identifikations-       und Verästelungen im Hierarchiebaum
                   steht als Nachweis im hierarchischen          merkmal die Dokumentnummer, in                beschrieben. Für die Prüfung der Such-
                   Zusammenhang mit anderen Nachwei-             denen das entsprechende Wort vor-             geschwindigkeit, das Update, die Rang-
                   sen. Jeder Nachweis besitzt sowohl eine       kommt. Ignoriert werden als Stoppwör-         folge der Unterbegriffe ("Intervall der Kin-
                   Identifikationsnummer als auch einen          ter Allgemeinwörter wie "the" und "of".       der") und die Gewichtung benutzt die
                   Inhalt. Auswahl und Benennung der Kate-       Mithilfe des Wortindex wird die Suche         Suchmaschine die Funktionen einer
                   gorien und Sites sowie Festlegung der         nach Dokumenten im Speicher beschleu-         Dokumentenprofilordnung (in Abb.2
                   hierarchischen Struktur setzt der Redak-      nigt. Die direkten Abgleichsnachweise         rechts unten). Für den Dokumentnach-
                   tionsstab fest. Abbildung 1 zeigt die logi-   kommen vom Wortindex und werden in            weis 1 gibt es demnach die Unterbe-

Abbildung 1:         Kategorien (Klassen) und Dokumente in der Baumstruktur von Yahoo!
                     Quelle: Yahoo!; Patent Nr. US 5991756

PASSWORD 12/2000                                                                                                                                        27
griffskette ("Kinder") 2 bis 9. Die URL wer-   te Abgleiche nach und nach alle Doku-              Die UND-Verknüpfung von zwei
     den vom Redakteur gewichtet. So ist            mentenketten. In den Abgleichslisten zu        Suchargumenten wird erfüllt, wenn ein
     offenbar die URL 5 doppelt so hoch ein-        einem Treffer erscheinen die Doku-             Suchargument ein direkter Treffer ist und
     geschätzt wie URL 6.                           mentnummer des jeweiligen direkten             das weitere Suchargument entweder im
          Für Yahoo! ist der Unterschied zwi-       Abgleichs, das jeweilige Intervall des indi-   selben Dokumentnachweis oder in einem
     schen einem "direkten" und einem "indi-        rekten Abgleichs sowie "Null" als Ende         Unterbegriff als indirekter Treffer vor-
     rekten" Abgleich von zentraler Bedeu-          der Liste. Diese Aufsplittung der Listen       kommt. Unsere Suche nach "The Game
     tung. Beim direkten Abgleich trifft der        ist wesentlich, wenn mehrere Suchaus-          of Go" eliminiert "The" und "of" als Stopp-
     Suchausdruck den Inhalt des Dokumen-           drücke (z.B. zu einer UND-Verknüpfung)         wörter; der Term "Game" führt zu den
     tennachweises (direkte Treffer bei Go          miteinander verbunden werden sollen.           direkten Treffern 2 und 3; "Go" zu 4, 20-
     wären 4, 20, 21, 22). Beim Abgleich wird       Boolesche Operatoren werden auf die            22. Die Schnittmenge ist leer. Die Unter-
     stets rechts trunkiert; so trifft Yahoo! bei   Abgleichslisten angewandt und als Resul-       begriffe von "Games" (2) liegen in der
     der Eingabe von "Game" auch auf                tat immer wieder neue Listen erstellt,         Kette 3 - 8. In dieser Kette kommt Go (in
     "Games". (Die automatische Trunkierung         solange, bis es nichts mehr zum Abglei-        4) vor und wird damit zu einem indirek-
     ist nur zu umgehen, wenn man den Such-         chen gibt. Schleifenzähler sorgen dafür,       ten Treffer. Mit den daran hängenden
     begriff - wie eine Phrase - in Anführungs-     dass die Suche als ständig neuer               URLs 5 und 6 haben wir die Trefferliste
     zeichen eingibt.) Um herauszufinden, ob        Abgleichsvorgang nicht infinitiv verläuft.     komplett.
     der zu suchende Term z.B. nur in einem              Ein direkter Treffer zu Games ist 2,          Was kann der Nutzer mit dem Sucher-
     der Unterbegriffe des Dokumenten-              indirekte Treffer sind 4 bis 8. Die Dar-       gebnis letztlich anfangen? Wir geben als
     nachweises versteckt ist, prüft und ver-       stellung folgt der Form: Games: 2 ® 3-8        Suchbegriff "Frauen" ein und erhalten 85
     bindet die Suchmaschine durch indirek-         ® Null.                                        Kategorien, 1420 Sites und 185 Nachrich-

     Abbildung 2:           Indexstruktur bei Yahoo!
                            Quelle: Yahoo!; Patent Nr. US 5991756 (leicht modifiziert)
28
Abbildung 3:          Trefferliste zu "Frauen" (Ausschnitt)

                   ten als Resultat (für die ersten Treffer siehe   "Frauen- und Geschlechterforschung",            Sicht - schlechten und nutzlosen Sites über-
                   Abbildung 3). Bei der Sichtung der "Kate-        diese hat als Unterbegriff "Frauenangele-       gehen und nur den "besten Inhalt"
                   gorienbäume" sieht man den "Wald" nicht          genheiten" und von diesen aus gelangt man       erschließen. Die "Editors", die aktiv Seiten
                   mehr. Warum stehen nicht zumindest die           wieder zu den "Frauen" usw. usf. Das lei-       indexieren, sollten ausgewiesene Experten
                   Hauptkategorien geordnet untereinander.          tende Ordnungskriterium bei Yahoo! ist          im jeweiligen Fachgebiet sein, so dass hier
                   In Abb. 3 erblicken wir diverse Klassen, die     uns verborgen geblieben. Wo ist der rote        eine Art Peer Review vonstatten geht.
                   alle mit der Bezeichnung "Frauen" beschrie-      Faden?                                               Ausgang des Projektes war ein gewis-
                   ben worden sind. Die Klassen sind jedoch                                                         ser Frust über Yahoo!, der Rich Skrenta und
                   nicht identisch, das Wort "Frauen" wird                                                          Bob Truel dazu führte, einen anderen Weg
                   homonym verwandt: einmal für die
                                                                    Klassifikation zum                              zu verfolgen: "Get the Web community its-
                   Gesundheit der Frauen, zum anderen für           Mitmachen: Das Open                             elf to work on the directory!" (Sherman
                   ihre Stellung in Firmen oder als Sammlung        Directory-Projekt                               2000, 44). Der erste Projektname 1998 ist
                   von Frauensites in Österreich bzw. Berlin.                                                       "Gnuhoo", eine Kreuzung aus "Gnu" (der
                         Das Klassifikationsgerüst von Yahoo!           Klassifikatorische Inhaltserschließung      verwendeten UNIX-Plattform) und "Yahoo",
                   ist - für eine Klassifikation überraschend       des World Wide Web hat seine praktische         gefolgt von "Newhoo". Mit der Übernahme
                   - an einigen Stellen polyhierarchisch orga-      Grenze in der Kapazität der Indexer. Ein        des Projektes durch Netscape ändert sich
                   nisiert. Die Klasse "Bibliotheks- und Infor-     Unternehmen wie Yahoo! ist nicht in der         die Bezeichnung offiziell in "Open Direc-
                   mationswissenschaft" hat sowohl "Gei-            Lage, eine umfassende Indexierung zu            tory Project (ODP)", intern wird der Name
                   steswissenschaften" als auch "Bibliothe-         finanzieren. Der Ansatzpunkt des Open           "Mozilla Directory" in Anlehnung an den
                   ken" als Oberbegriffe.                           Directory-Projektes liegt darin, überhaupt      Codenamen des Netscape-Browsers
                         Für das Herausgeberteam von Yahoo!         keine festangestellten Indexer zu haben,        gepflegt (deshalb die Homepage: dmoz.org).
                   besteht die Gefahr , dass ihnen die System-      sondern ehrenamtliche freie Mitarbeiter zu           ODP klassiert derzeit (Ende Novem-
                   ordnung aus den Fingern gleitet. Wir konn-       beschäftigen. Grundidee ist: Mit dem Inter-     ber 2000) gut 2,2 Millionen Sites in über
                   ten innerhalb unseres Beispieles aus Abb.        net wächst die Menge der "Netz-Bürger".         320.000 Klassen; der Mitarbeiterstab liegt
                   3 eine Stelle finden, wo die Relationen in       Diese Nutzer können jeweils eine (kleine)       bei rund 32.000. Wie bei Yahoo! wird
                   eine nicht aufhebbare Schleife münden:           Menge des Web beobachten und ihre Beob-         nur ein Bruchteil des Web erfasst, aller-
                   "Frauen" (als Unterbegriff u.a. von "Gesell-     achtungsresultate dem Rest der Gemein-          dings ist hier durchaus mit noch beträcht-
                   schaft und Soziales") hat als Unterbegriff       schaft präsentieren, wobei sie die - in ihrer   lichen Steigerungen zu rechnen.

PASSWORD 12/2000                                                                                                                                             29
Das Klassifikationssystem ist stark prä-   kommen. Eine Anfrage nach "Kultur AND
                                                                                                   Warum nicht auf
     kombiniert aufgebaut. Die oberste Hier-        Unterhaltung" findet in der fortgeschrit-
     archieebene zeigt Abbildung 4. Wie bei         tenen Suche die entsprechende Unter-
                                                                                                   etablierte Klassifika-
     Yahoo! tauchen auch bei OPD identische         klasse für Köln (unter 105 anderen), eine      tionssysteme
     Bezeichnungen in unterschiedlichen Klas-       Frage nach "Köln AND Karneval" wird            zurückgreifen?
     sen auf. Unser Beispiel zeigt dies für "Kul-   nicht fündig, liegt doch "Karneval" zwei
     tur und Unterhaltung". Diese Klassenbe-        Hierarchieniveaus unter "Köln".                     Es ist überraschend, dass sowohl
     zeichnung ist u.a. bei diversen Städten             Ein Problem beim ODP kann in der sub-     Yahoo! als auch das Open Directory-Pro-
     vergeben worden, zudem gibt es eine "all-      jektiven Auswahl der zu indexierenden und      jekt bei der Erarbeitung ihres Klassifika-
     gemeine" Klasse "Kultur und Unterhal-          der nicht auszuwertenden Dokumente lie-        tionsschemas jeweils von vorne anfan-
     tung". Jede dieser Klassen verweist auf        gen. Es wird berichtet, dass ein Mitarbeiter   gen, wo doch etablierte Systeme vorlie-
     unterschiedliche Dokumente.                    eines Unternehmens in seiner Funktion als      gen. Ein Rückgriff auf bibliothekarische
         Nach der zweiten - noch internatio-        Editor bei ODP die Seiten seiner Wettbe-       Werke wie die Dewey Decimal Classifi-
     nalen - Hierarchieebene kommen wir zu          werber aus der Liste entfernt und dafür die    cation (DDC) oder auf Länder-, Aspekt-
     "deutsch" und arbeiten uns über "Kultur        seines eigenen Hauses eingefügt hat (vgl.      bzw. Produktcodes, wie sie vor Jahren
     und Unterhaltung" zu den Kölner Kar-           Sherman 2000, 49). Als Sicherungsme-           von Predicasts entwickelt worden sind,
     nevalsvereinen nach unten durch:               chanismus gegen solchen Missbrauch hat         läge eigentlich nahe.
         Top : World : Deutsch : Regional :         ODP "Meta-Editors" eingesetzt, die für              Es gibt Beispiele von (kleinen) Such-
     Deutschland : Nordrhein-Westfalen :            größere Bereiche des Klassifikationssystems    werkzeugen im Web, die bereits den Ein-
     Städte und Gemeinden : K : Köln : Kul-         zuständig sind und die die Arbeiten der Edi-   satz der DDC vorführen, etwa die Wolver-
     tur und Unterhaltung : Karneval : Gar-         tors überwachen sollen.                        hampton Web Library (WWLib), die seit
     den und Vereine.                                    Angesichts der Kooperationen mit          1995 britische Internet-Informationen klas-
         Die Einführung einer Klassifikati-         ODP scheint das Projekt eine Erfolgsge-        sifikatorisch indexiert. WWLib (vgl. Jenkins
     onsebene, die nach dem Alphabet sortiert       schichte zu werden. Wichtige Suchma-           et al. 1998) indexiert die Web-Dokumen-
     (im Beispiel "K"), was beim OPD öfters         schinen, darunter Google und Oingo,            te automatisch und ordnet jedem Doku-
     vorkommt, kann wohl nur als Kapitula-          bieten die ODP-Klassifikation zusätzlich       ment DDC-Notationen zu. Zunächst wurde
     tion vor den Problemen einer themati-          zu ihren eigenen Services in ihrem             ausschließlich auf die umgangssprachlichen
     schen Ordnung gedeutet werden.                 Suchwerkzeug an. Die Probleme einer            Bezeichnungen der Klassen zurückgegrif-
         Sucht man bei ODP nach konkreten           riesigen, überwuchernden präkombi-             fen, z.B. auf:
     Klassen, so muss das komplette Suchar-         nierten Klassifikation bleiben jedoch               641.568 Cooking for special occasi-
     gument in der Klassenbezeichnung vor-          erhalten.                                      ons Including Christmas.

     Abbildung 4:           Eingangsbildschirm des Open Directory
                            Quelle: Open Directory Project; www.dmoz.org
30
Abbildung 5:          Resultate einer Suchfrage zu "fish" in einem DDC-Web-Katalog
                      Quelle: Wolverhampton Web Library (WWLib); URL: http://www.scit.wlv.ac.uk/wwlib/

     Da die Maschine mit diesem Verfahren nur              Insbesondere der zweite Punkt erscheint    Lexikon und Relationen); ● Indexierung und
zu 40% auf zufriedenstellende Ergebnisse              uns wesentlich, leiden doch die "großen" Web-   ● Such-oberfläche.
kommt, wird die Klassenbezeichnung jeder              Kataloge wie Yahoo! und das Open Directory           Oingo arbeitet begriffs- und nicht wortori-
DDC-Klasse durch Listen von Schlagworten              unter der viel zu kleinen Zahl ausgewerteter    entiert. Die Einträge in der Terminologie sind
und Synonymen stark angereichert.                     Informationen. Mit der Kopplung an die Tech-    demnach "Bedeutungen", identifiziert durch
     Eingesammelt werden die Dokumente                nik der automatischen Spider, wie dies WWLib    nicht-natürlichsprachige Codes (etwa ID 236).
durch einen Spider, der das World Wide Web            vorführt, ist die Menge der Dokumente wesent-   Den Codes sind die entsprechenden Wörter
automatisch durchsucht. Der Indexierungs-             lich nach oben zu verschieben.                  natürlicher Sprachen zugeordnet (z.B. "coffee"
prozess durchläuft zwei Phasen. Zunächst                                                              oder "café"). Derzeit arbeitet Oingo mit der eng-
geschieht eine informationslinguistische und -                                                        lischen und der spanischen Sprache; weitere
statistische Analyse, in deren Verlauf gewich-
                                                      Terminologische Kontrolle                       Sprachen sind geplant. Der Umfang der jetzi-
tete Stichworte aus der Vorlage gewonnen wer-         als Teil "semantischen                          gen Terminologiedatenbank liegt bei rund einer
den. Diese Menge an Termen wird in eine der           Retrievals": Oingo                              Million Einträgen.
zehn Hauptklassen der DDC eingeordnet. Hier-                                                               Wie in einem Thesaurus stehen die Begriffe
nach wird die jeweils bestpassende Unterklas-             Oingo Inc., ein Unternehmen in Los          nicht isoliert zueinander, sondern innerhalb eines
se gesucht usw., bis keine passende weitere           Angeles, wird Ende 1998 von Adam Weis-          semantischen Netzes. Die Relationen zwischen
Unterklasse zu finden ist. In diese Klasse wird       sman und dem jetzigen CEO Gilad Elbaz           den Begriffen stehen für semantische Ähnlich-
das Dokument eingeordnet. Das Retrieval               gegründet. Ein Jahr später arbeitet die Such-   keiten, wie sie durch die Alltagssprache ausge-
geschieht durch Eingabe einer DDC-Notation            maschine im World Wide Web, angetreten          drückt werden. In Abbildung 6 sehen wir die
oder der natürlichsprachigen Bezeichnungen            mit dem Anspruch, "semantisches Retrieval"      Bedeutung von "Java" (als Kaffee) in der semanti-
oder durch das Browsen durch die DDC-Hier-            zu gewährleisten. "We know what you             schen Nähe von der Bedeutung von "Koffein"; die
archien. Sucht man wortorientiert, so bekommt         mean", ist Oingos Motto. Als Suchwerkzeug       Bedeutung von "Java" (als Programmiersprache)
man Ergebnisse aus allen Klassen, die das Wort        der Zweiten Generation baut Oingo auf vor-      steht an einer ganz anderen Stelle im Netz in der
als Bezeichnung enthalten (siehe Abbildung 5          handene Aktivitäten auf und bietet auf deren    Umgebung der Bedeutung von "Perl". Begriffe,
als Resultat einer Anfrage zu "fish").                Basis seinen informationellen Mehrwert.         die durch Phrasen (z.B. "John Lennon") bezeich-
     Wir wollen hier nicht auf Details eingehen,      Kooperationspartner sind AltaVista und das      net werden, sind zum Teil in der "Oingo Lingua"
sondern lediglich die WWLib paradigmatisch            Open Directory-Projekt. Die Kerntechnik von     enthalten. Mit dieser terminologischen Kontrol-
für zwei Aspekte anführen:                            Oingo ist sein Bedeutungsraum (Meaning          le wird sowohl das Homonym- als auch das Syno-

1.     Eine klassifikatorische Erschließung von
       Web-Sites mittels etablierter Klassifika-
tionssysteme (wie der DDC) ist möglich.
                                                      Space), ein Wörterbuch mit terminologischer
                                                      Kontrolle, d.h. mit Homonym- und Syno-
                                                      nymverwaltung, das zur Indexierung und
                                                                                                      nymproblem gemildert.
                                                                                                           Oingos (automatische) Indexierung setzt
                                                                                                      auf die Klassen und Dokumente des Open

2.     Diese klassifikatorische Erschließung kann
       auch - ggf. unterstützt durch intellektuelle
Arbeiten - automatisch geschehen.
                                                      zum Retrieval Verwendung findet. Oingos
                                                      "Infostructure" hat drei Komponenten: ● die
                                                      "Oingo Ontologie" (der Bedeutungsraum mit
                                                                                                      Directory sowie auf die Webseiten bei Alta-
                                                                                                      Vista auf. Die Indexierung ist eine Zuordnung
                                                                                                      der Begriffe (genauer: der ID-Codes) mit infor-

PASSWORD 12/2000                                                                                                                                     31
Abbildung 6:        Semantisches Netz bei Oingo
                         Quelle: Oingo Inc.

     mationsstatistisch errechneten Gewich-     ist auch bei Thesauri bekannt und          Fazit
     tungswerten zu den Klassen bzw. Doku-      akzeptabel. Wenn wir auf einen Nicht-
     menten. Zusätzlich durchsucht Oingo        Deskriptor stoßen und via Benutze-              Mit Yahoo! und dem Open Directory
     Webseiten nach graphischen Informa-        Oberbegriff-Relation auf den Deskriptor    wird ein klassifikatorischer Ansatz zur
     tionen (z.B. einem Bild mit Inschrift      verwiesen werden, geht es uns nicht        Inhaltserschließung von Web-Doku-
     "Java Kaffee" oder einer einschlägigen     anders. Innerhalb des Open Directory       menten verfolgt. Zwei Riesenprobleme
     Clip-Art-Graphik) und ordnet diese eben-   arbeitet Oingos Homonymkontrolle           begleiten beide Unternehmen: Einer viel
     falls den Bedeutungs-IDs zu.               weitgehend zuverlässig und nachvoll-       zu großen Menge an Klassen steht eine -
          Das Suchsystem ist auf Rückkopp-      ziehbar. Bei AltaVista treten jedoch an    gemessen am Web - viel zu kleine Menge
     lung eingerichtet. Wenn ein Nutzer ein     vielen Stellen Unstimmigkeiten auf. So     an Dokumenten gegenüber.
     Wort eingibt, das für mehrere Bedeu-       klappt die "Java"-Suche mit dem                 Problemfall I bei Yahoo! wie beim Open
     tungen steht, wird zurückgefragt. Im       Homonymzusatz "State" sehr wohl bei        Directory ist die Fülle an Klassen, die zudem
     Dialog wird dem Nutzer eine Liste der      ODP, nicht aber bei AltaVista, das in      extrem präkombiniert sind. Es läge nahe,
     Oingo bekannten Homonyme ange-             diesem Fall den Homonymzusatz              hier durch "Anhängezahlen" oder durch
     zeigt, aus der gezielt auszuwählen ist.    mißachtet.                                 "Facetten" entgegenzusteuern. So arbeiten
     In Abbildung 7 führen wir unser "Java"-         Durch den Rückgriff auf die Bedeu-    Profi-Systeme mit facettierten Dokumen-
     Beispiel fort. Nach der Auswahl von        tungs-ID bei der Suche wird nach dem       tationssprachen ja durchaus erfolgreich.
     "coffee (beverage)" werden (auf der lin-   Begriff und nicht (nur) nach dem einge-    Das Predicasts-Codesystem benötigt drei
     ken Bildschirmhälfte) eine nach            gebenen Wort recherchiert. Man kann        Facetten (Produkt, Land, Aspekt), Profo-
     Gewichtung geordnete Rangliste der         davon ausgehen, dass das System die        und arbeitet mit deren vier (Marktsegment,
     ODP-Klassen und (auf der rechten Hälf-     Synonyme der englischen Sprache (mehr      Land, Unternehmen, Aspekt). Unseren
     te) die Top 10 bei AltaVista angezeigt.    oder minder) berücksichtigt. Suchen nach   Web-Klassifikationen wäre mit zwei Facet-
     Da nunmehr ausschließlich mit der          "films" bzw. "movies" bringen - bei ODP,   ten schon weitergeholfen. Eine Facette ent-
     angegebenen Bedeutung ("Kaffee")           nicht bei AltaVista - durchaus ähnliche,   hält die sachthematischen Bezüge, eine
     gesucht wird, verlieren wir natürlich      wenngleich nicht identische Ergebnisse.    zweite die regionalen Bezüge. Durch zwei
     das Spezifische des eigentlich             Für Oingo ist es also relevant, mit wel-   Eingabefenster am Bildschirm dürfte eine
     gewünschten Java-Kaffees. Dieser Fall      chem Wort ein Nutzer einsteigt.            leichte Bedienbarkeit zu gewährleisten sein.

32                                                                                                                 PASSWORD 12/2000
(Dieser Aspekt ist auch beim DDC-Einsatz wichtig. Über Schlüssel zusam-
                                                                                Literatur
mengesetzte DDC-Notationen sind für den Web-Einsatz untauglich, weil
vom Laien nicht verstehbar, und durch facettierte Teilsysteme zu ersetzen.)
Web-Sites können bzw. - je nach Thema - müssen durch mehrere Notatio-                Yahoo!
nen indexiert werden. Dieser Schritt von der Präkombination zur postko-              David Filo; Jerry Yang: Yahoo! unplugged. Your Discovery Guide
ordinierenden Vorgangsweise ist in der Informationspraxis (mit der Ein-         to the Web. - Foster City: IDG Books Worldwide, 1995.
führung der Thesauri) in den 60er Jahren des letzten Jahrhunderts gegan-             Dan Lester: Yahoo! Profile of a Web Database. - In: Database 18
gen worden. Für unsere Web-Directories ist dieser Schritt nunmehr über-         (1995), Nr. 6, S. 47-50.
fällig.                                                                              Alan Neibaur: How to Do Everything with Yahoo! - Osborne
     Problem II betrifft die schmale Dokumentenbasis. Durch den Ein-            McGraw-Hill, 2000.
satz kostenlos arbeitender freier Mitarbeiter hat das Open Directory bes-            Danny Sullivan: Yahoo Opens Express Submission Service. - In:
sere Chancen, auf mehr klassifizierte Dokumente als Yahoo! zu kom-              The Search Engine Report März 1999. URL: http://searchengine-
men. Trotzdem bleiben wir im Promillebereich des Web. An dieser Stel-           watch.internet.com/sereport/99/03-yahoo.html.
le halten wir es für notwendig, über die intellektuelle Erschließung hin-            Jiong Wu: Information Retrieval from Hierarchical Compound Docu-
auszugehen, um auch automatisierte Varianten (wie bei der WWLib)                ments / Yahoo Inc. - Patent Nr. US 5991756 vom 23.11.1999.
einzusetzen.
     Insbesondere das lästige Homonymproblem wird durch das "semantische            The Open Directory
Retrieval" von Oingo (allerdings bisher nur für das Englische und Spanische)        Greg R. Notess: Review of Open Directory.- 2000. URL:
stark gemildert. Über einen Dialog zwischen System und Nutzer wird die          http://www.notess.com/search/dir/dmoz/index.shtml.
gewünschte Bedeutung des eingegebenen Wortes ermittelt und zur weiteren             Chris Sherman: Humans do it better. Inside the Open Directory
Suche verwendet. Zustimmend ist zu vermelden, dass Oingo einen klaren Schritt   Project. - In: Online 24 (2000), Nr. 4, S. 43-50.
hin zur terminologischen Kontrolle gegangen ist, wie er u.a. in (Dokumenta-
ren allseits bekannten) Thesaurusleitfäden oder -normen vorgeschlagen wird.          DDC
     Eine weitere Annäherung der in der Praxis entstandenen, theore-                 Charlotte Jenkins; Mike Jackson; Peter Burden; Jon Wallis: Auto-
tisch nicht "vorbelasteten" klassifikatorischen Suchwerkzeuge auf der           matic classification of Web resources using Java and Dewey Decimal Classi-
einen Seite und der informationswissenschaftlichen Klassifikationsfor-          fication. - In: 7th International World Wide Web Conference. - Brisbane 1998.
schung sowie der bibliothekarischen Klassifikationspraxis auf der ande-         - URL: http://www7.scu.edu.au/programme/posters/1846/com1846.htm.
ren Seite dürfte für beide Teile erfolgversprechend sein.
                                                                                    Oingo
                                                         Mechtild Stock &           Paula J. Hane: Beyond keyword searching - Oingo and Simpli.com
                                                        Wolfgang G. Stock
                                                                                introduce meaning-based searching. - In: Information Today 17 (2000),
                                                                                Nr. 1, S. 57.
                                                                                    Greg R. Notess: Up and coming search technologies. - In: Online
                                                                                24 (2000), Nr. 3, S. 75-77.

Abbildung 7:          Dialog zur Homonymkontrolle bei Oingo
                      Quelle: www.Oingo.com

PASSWORD 12/2000                                                                                                                                          33
Sie können auch lesen