Klassifikation und terminologische Kontrolle: Yahoo!, Open Directory und Oingo im Vergleich
←
→
Transkription von Seiteninhalten
Wenn Ihr Browser die Seite nicht korrekt rendert, bitte, lesen Sie den Inhalt der Seite unten
Internet-Suchwerkzeuge Klassifikation und terminologische Kontrolle: Yahoo!, Open Directory und Oingo im Vergleich In Password 11/2000 wurden durch steht und wird zusammen mit ihrer Such- sem Phänomen entgegenzuwirken, führt einen Retrievaltest die qualitativ maschine ins Web gestellt. Der erste Schritt Yahoo! den Business Express Service ein, führenden Suchwerkzeuge im Inter- vom privaten zum öffentlichen Nutzen ist der dem Antragsteller für US-$199 zumin- net bestimmt. In den nächsten Teilen damit getan. Viele andere Interessierte dest ein Ja oder Nein garantiert, ob die Site unseres State of the Art - Berichts schliessen sich an und nehmen fortan die innerhalb der nächsten sieben Arbeitstage über Retrievalsysteme im World Wide Möglichkeit wahr, bei der Ergänzung, Kor- aufgelistet wird. "Business Express allows Web beschreiben wir einzelne inter- rektur oder Streichung von Sites in Yahoo! webmasters to pay for guaranteed conside- essante Ansätze der Technik der Top- mitzuwirken. Im rasanten Tempo werden ration of their sites, not for guaranteed Suchwerkzeuge. Den Anfang machen neue Seiten der Yahoo!-Datenbank hinzu- listings" (ebd.). Bezahlung garantiert nicht, die klassifikatorischen Verzeichnisse gefügt. Innerhalb von zwei Jahren ist Yahoo! dass, wie (mit welcher Beschreibung) und Yahoo! und das Open Directory-Pro- längst nicht mehr das Werkzeug einer wo (in welcher Kategorie) eine Site jekt sowie das System Oingo, das im Handvoll von Studenten. Unser Such- erscheint. In dieser Beziehung unterschei- Rahmen eines "semantischen Retrie- werkzeug bekommt die URL der Yahoo Cor- det sich der Business Express in keiner vals" das Homonym- und Synonym- poration, und ein Redaktionsstab wird mit Weise vom normalen Submissionprozess. problem angeht. der Katalogisierung und dem Updating ein- Yahoo! - Redakteure haben keine Zeit, alle gereichter Eingänge beauftragt. Eingänge zu bewältigen. Webmaster Yahoo! - Was bedeutet dies? Mag bekommen durch den neuen Service die Was hat Yahoo mit man bei dem Namen "Yahoo" vielleicht Wahl, ob sie eine sofortige Antwort erhal- Gullivers Reisen zu tun? zunächst an die viehischen Wesen in ten möchten oder nicht. Menschengestalt aus "Gullivers Reisen" Yahoo! hält einen Datenspeicher mit Y ahoo! ist eines der populärsten Such- von Jonathan Swift denken, steckt hin- rund einer Million indexierter Doku- werkzeuge im In- und Ausland. Was gegen hinter dem "Yahoo" unseres Such- mente. Wenn man bedenkt, dass allein zeichnet diese Beliebtheit aus, oder werkzeuges auch das Akronym: Yet Ano- Google über rund 1,3 Milliarden Einträ- anders gefragt, was bietet Yahoo! besser als ther Hierarchical Officious Oracle. Ob gen verfügt, so wird bei Yahoo! nur ein die Konkurrenz? Werfen wir einen Rück- Filo und Yang sich als Yahoos (im Sinne Bruchteil des Web (innerhalb des eige- blick auf 1993 und die folgenden Jahre, auf Swifts) fühlen, sei dahingestellt. nen Verzeichnisses) vorgehalten. Eine jene Zeit, wo Yahoo! kreiert wird, für nur ausschließliche Nutzung von Yahoo! eine kurze Weile in den Kinderschuhen bedeutet, auf über 99,9% der Inhalte des steckt, um sich dann letztendlich zu dem Vom Erfolg überrannt? World Wide Web zu verzichten. Dies hat derzeitigen Suchsystem zu entpuppen. Jerry auch das Unternehmen erkannt und bie- Yang und David Filo, zwei Studenten aus Akzeptiert werden nahezu alle Typen tet zusätzlich ein Retrieval in einer Such- Palo Alto und Benutzer des WWW, erstel- von Sites, persönliche oder kommerzielle, maschine an. Partner war bis Mitte 2000 len anfangs für den Eigengebrauch Adres- nur persönliche Sites pornographischen Inktomi, jetzt ist es Google. senlisten jener Sites, die sie besuchten und Inhalts werden von Anfang an ausge- ihnen als interessant erschienen, um zu schlossen. 1999, nur sechs Jahre nach der einem späteren Zeitpunkt eventuell noch "Gründungszeit" steht der Redaktionsstab Die Wiederentdeckung einmal zu diesen Sites schnell zurückkeh- vor dem Chaos einer nicht schaffbaren der Klassifikation ren zu können. Mit dem Zuwachs der Link- Bewältigung der Eingangsmassen. Danny sammlung vergrößert sich gleichzeitig das Sullivan schreibt: "Submitting to Yahoo has Charakteristikum von Yahoo! ist Problem der effizienten Suche nach diesen long been one of the more frustrating expe- seine hierarchische Struktur. Im Ein- gesammelten Informationen. Eine Daten- riences for many webmasters. Submissions gangsbildschirm finden wir 14 Haupt- bank, in der die Verweise zu den WWW- go in, but no action may be taken for weeks klassen bzw. Hauptkategorien, von denen Sites geordnet und klassifiziert werden, ent- or months, if at all" (Sullivan 1999). Um die- aus sich der Nutzer zu Subkategorien 26 PASSWORD 12/2000
mehrerer Stufen bis hin zu den Sites und sche Struktur einer (fingierten) hierar- einer vorläufigen Trefferliste zusam- - neuerdings - Nachrichten herun- chisch aufgebauten Informationsmenge. mengetragen. Im Dokumentenspeicher terklicken kann. Wir haben es mit einem Die linke Seite zeigt den Pfad über Recrea- haben die Datensätze die Felder: polyhierarchischen Klassifikationssystem tion ("Dokument" mit der Yahoo!-Doku- ● Dokumentnummer (in Abb. 2 fett zu tun, d.h. eine Klasse kann durchaus mentnummer 1), Games (2), Board gedruckt, z.B. 1) mehr als einen Oberbegriff haben. Games (3) und Go (4) zu zwei URLs (5 ● Nummer des letzten Unterbegriffs des Wie funktioniert eine Suche bei und 6), die Go-Sites vertreten. Wenn wir jeweiligen Dokuments als "Unterbe- Yahoo!? Das Yahoo!-Patent "Information den rechten Pfad anschauen, sehen wir griffszeiger" (in unserem Beispiel ist dies: Retrieval From Hierarchical Compound ebenfalls die Zeichenfolge "Go", jedoch 9, also Boating für Recreation) Documents" zeigt uns die eingesetzte in einem völlig anderem Kontext als ● Nummer des Oberbegriffs als "Ober- Technik. "The Game of Go" lautet die Unterklassen (20, 21 und 22) zu Restau- begriffszeiger" (gibt es hier nicht) Suchfrage. Der Server, der die Suchfrage rants (16). Unsere Beispielsuchfrage zielt ● Text des Dokuments, repräsentiert mit einem Ergebnis beantwortet, ist an natürlich nur auf die Treffer 4 bis 6 durch den Nachweis (Recreation) einen Dokumentenspeicher und einen (obwohl hier "Games" als Zeichenfolge ● Beschreibung Wortindex gekoppelt. Dieser Server nicht vorkommt); die Nummern 20 bis ● Assoziationsbegriff (Fun) unterzieht den Suchausdruck (durch Par- 22 müssen ausgeschlossen werden. Eine ● Hinweis auf Kategorie oder Site. sing) einer Sprachanalyse und versucht, UND-Verknüpfung der Zeichenfolge Wohlgemerkt: Dokumentennach- Dokumente im Dokumentenspeicher pas- würde keine Treffer ergeben; folglich weise bedeuten bei Yahoo! Referenzen send zum gegebenen Suchausdruck abzu- muss der Algorithmus cleverer vorgehen. für Kategorien oder auch Referenzen für gleichen. Yahoo!-Dokumente sind im Die Elemente und Funktionen des Sites. Anhand des Zusammenspiels der Speicher logisch geordnet. Jedes Doku- Suchsystems stellt Abbildung 2 dar. Die Dokumentnummer, des Unter- und des ment repräsentiert entweder eine the- alphabetisch geordneten Nachweise im Oberbegriffszeigers werden die Knoten matische Kategorie oder eine Site und Wortindex besitzen als Identifikations- und Verästelungen im Hierarchiebaum steht als Nachweis im hierarchischen merkmal die Dokumentnummer, in beschrieben. Für die Prüfung der Such- Zusammenhang mit anderen Nachwei- denen das entsprechende Wort vor- geschwindigkeit, das Update, die Rang- sen. Jeder Nachweis besitzt sowohl eine kommt. Ignoriert werden als Stoppwör- folge der Unterbegriffe ("Intervall der Kin- Identifikationsnummer als auch einen ter Allgemeinwörter wie "the" und "of". der") und die Gewichtung benutzt die Inhalt. Auswahl und Benennung der Kate- Mithilfe des Wortindex wird die Suche Suchmaschine die Funktionen einer gorien und Sites sowie Festlegung der nach Dokumenten im Speicher beschleu- Dokumentenprofilordnung (in Abb.2 hierarchischen Struktur setzt der Redak- nigt. Die direkten Abgleichsnachweise rechts unten). Für den Dokumentnach- tionsstab fest. Abbildung 1 zeigt die logi- kommen vom Wortindex und werden in weis 1 gibt es demnach die Unterbe- Abbildung 1: Kategorien (Klassen) und Dokumente in der Baumstruktur von Yahoo! Quelle: Yahoo!; Patent Nr. US 5991756 PASSWORD 12/2000 27
griffskette ("Kinder") 2 bis 9. Die URL wer- te Abgleiche nach und nach alle Doku- Die UND-Verknüpfung von zwei den vom Redakteur gewichtet. So ist mentenketten. In den Abgleichslisten zu Suchargumenten wird erfüllt, wenn ein offenbar die URL 5 doppelt so hoch ein- einem Treffer erscheinen die Doku- Suchargument ein direkter Treffer ist und geschätzt wie URL 6. mentnummer des jeweiligen direkten das weitere Suchargument entweder im Für Yahoo! ist der Unterschied zwi- Abgleichs, das jeweilige Intervall des indi- selben Dokumentnachweis oder in einem schen einem "direkten" und einem "indi- rekten Abgleichs sowie "Null" als Ende Unterbegriff als indirekter Treffer vor- rekten" Abgleich von zentraler Bedeu- der Liste. Diese Aufsplittung der Listen kommt. Unsere Suche nach "The Game tung. Beim direkten Abgleich trifft der ist wesentlich, wenn mehrere Suchaus- of Go" eliminiert "The" und "of" als Stopp- Suchausdruck den Inhalt des Dokumen- drücke (z.B. zu einer UND-Verknüpfung) wörter; der Term "Game" führt zu den tennachweises (direkte Treffer bei Go miteinander verbunden werden sollen. direkten Treffern 2 und 3; "Go" zu 4, 20- wären 4, 20, 21, 22). Beim Abgleich wird Boolesche Operatoren werden auf die 22. Die Schnittmenge ist leer. Die Unter- stets rechts trunkiert; so trifft Yahoo! bei Abgleichslisten angewandt und als Resul- begriffe von "Games" (2) liegen in der der Eingabe von "Game" auch auf tat immer wieder neue Listen erstellt, Kette 3 - 8. In dieser Kette kommt Go (in "Games". (Die automatische Trunkierung solange, bis es nichts mehr zum Abglei- 4) vor und wird damit zu einem indirek- ist nur zu umgehen, wenn man den Such- chen gibt. Schleifenzähler sorgen dafür, ten Treffer. Mit den daran hängenden begriff - wie eine Phrase - in Anführungs- dass die Suche als ständig neuer URLs 5 und 6 haben wir die Trefferliste zeichen eingibt.) Um herauszufinden, ob Abgleichsvorgang nicht infinitiv verläuft. komplett. der zu suchende Term z.B. nur in einem Ein direkter Treffer zu Games ist 2, Was kann der Nutzer mit dem Sucher- der Unterbegriffe des Dokumenten- indirekte Treffer sind 4 bis 8. Die Dar- gebnis letztlich anfangen? Wir geben als nachweises versteckt ist, prüft und ver- stellung folgt der Form: Games: 2 ® 3-8 Suchbegriff "Frauen" ein und erhalten 85 bindet die Suchmaschine durch indirek- ® Null. Kategorien, 1420 Sites und 185 Nachrich- Abbildung 2: Indexstruktur bei Yahoo! Quelle: Yahoo!; Patent Nr. US 5991756 (leicht modifiziert) 28
Abbildung 3: Trefferliste zu "Frauen" (Ausschnitt) ten als Resultat (für die ersten Treffer siehe "Frauen- und Geschlechterforschung", Sicht - schlechten und nutzlosen Sites über- Abbildung 3). Bei der Sichtung der "Kate- diese hat als Unterbegriff "Frauenangele- gehen und nur den "besten Inhalt" gorienbäume" sieht man den "Wald" nicht genheiten" und von diesen aus gelangt man erschließen. Die "Editors", die aktiv Seiten mehr. Warum stehen nicht zumindest die wieder zu den "Frauen" usw. usf. Das lei- indexieren, sollten ausgewiesene Experten Hauptkategorien geordnet untereinander. tende Ordnungskriterium bei Yahoo! ist im jeweiligen Fachgebiet sein, so dass hier In Abb. 3 erblicken wir diverse Klassen, die uns verborgen geblieben. Wo ist der rote eine Art Peer Review vonstatten geht. alle mit der Bezeichnung "Frauen" beschrie- Faden? Ausgang des Projektes war ein gewis- ben worden sind. Die Klassen sind jedoch ser Frust über Yahoo!, der Rich Skrenta und nicht identisch, das Wort "Frauen" wird Bob Truel dazu führte, einen anderen Weg homonym verwandt: einmal für die Klassifikation zum zu verfolgen: "Get the Web community its- Gesundheit der Frauen, zum anderen für Mitmachen: Das Open elf to work on the directory!" (Sherman ihre Stellung in Firmen oder als Sammlung Directory-Projekt 2000, 44). Der erste Projektname 1998 ist von Frauensites in Österreich bzw. Berlin. "Gnuhoo", eine Kreuzung aus "Gnu" (der Das Klassifikationsgerüst von Yahoo! Klassifikatorische Inhaltserschließung verwendeten UNIX-Plattform) und "Yahoo", ist - für eine Klassifikation überraschend des World Wide Web hat seine praktische gefolgt von "Newhoo". Mit der Übernahme - an einigen Stellen polyhierarchisch orga- Grenze in der Kapazität der Indexer. Ein des Projektes durch Netscape ändert sich nisiert. Die Klasse "Bibliotheks- und Infor- Unternehmen wie Yahoo! ist nicht in der die Bezeichnung offiziell in "Open Direc- mationswissenschaft" hat sowohl "Gei- Lage, eine umfassende Indexierung zu tory Project (ODP)", intern wird der Name steswissenschaften" als auch "Bibliothe- finanzieren. Der Ansatzpunkt des Open "Mozilla Directory" in Anlehnung an den ken" als Oberbegriffe. Directory-Projektes liegt darin, überhaupt Codenamen des Netscape-Browsers Für das Herausgeberteam von Yahoo! keine festangestellten Indexer zu haben, gepflegt (deshalb die Homepage: dmoz.org). besteht die Gefahr , dass ihnen die System- sondern ehrenamtliche freie Mitarbeiter zu ODP klassiert derzeit (Ende Novem- ordnung aus den Fingern gleitet. Wir konn- beschäftigen. Grundidee ist: Mit dem Inter- ber 2000) gut 2,2 Millionen Sites in über ten innerhalb unseres Beispieles aus Abb. net wächst die Menge der "Netz-Bürger". 320.000 Klassen; der Mitarbeiterstab liegt 3 eine Stelle finden, wo die Relationen in Diese Nutzer können jeweils eine (kleine) bei rund 32.000. Wie bei Yahoo! wird eine nicht aufhebbare Schleife münden: Menge des Web beobachten und ihre Beob- nur ein Bruchteil des Web erfasst, aller- "Frauen" (als Unterbegriff u.a. von "Gesell- achtungsresultate dem Rest der Gemein- dings ist hier durchaus mit noch beträcht- schaft und Soziales") hat als Unterbegriff schaft präsentieren, wobei sie die - in ihrer lichen Steigerungen zu rechnen. PASSWORD 12/2000 29
Das Klassifikationssystem ist stark prä- kommen. Eine Anfrage nach "Kultur AND Warum nicht auf kombiniert aufgebaut. Die oberste Hier- Unterhaltung" findet in der fortgeschrit- archieebene zeigt Abbildung 4. Wie bei tenen Suche die entsprechende Unter- etablierte Klassifika- Yahoo! tauchen auch bei OPD identische klasse für Köln (unter 105 anderen), eine tionssysteme Bezeichnungen in unterschiedlichen Klas- Frage nach "Köln AND Karneval" wird zurückgreifen? sen auf. Unser Beispiel zeigt dies für "Kul- nicht fündig, liegt doch "Karneval" zwei tur und Unterhaltung". Diese Klassenbe- Hierarchieniveaus unter "Köln". Es ist überraschend, dass sowohl zeichnung ist u.a. bei diversen Städten Ein Problem beim ODP kann in der sub- Yahoo! als auch das Open Directory-Pro- vergeben worden, zudem gibt es eine "all- jektiven Auswahl der zu indexierenden und jekt bei der Erarbeitung ihres Klassifika- gemeine" Klasse "Kultur und Unterhal- der nicht auszuwertenden Dokumente lie- tionsschemas jeweils von vorne anfan- tung". Jede dieser Klassen verweist auf gen. Es wird berichtet, dass ein Mitarbeiter gen, wo doch etablierte Systeme vorlie- unterschiedliche Dokumente. eines Unternehmens in seiner Funktion als gen. Ein Rückgriff auf bibliothekarische Nach der zweiten - noch internatio- Editor bei ODP die Seiten seiner Wettbe- Werke wie die Dewey Decimal Classifi- nalen - Hierarchieebene kommen wir zu werber aus der Liste entfernt und dafür die cation (DDC) oder auf Länder-, Aspekt- "deutsch" und arbeiten uns über "Kultur seines eigenen Hauses eingefügt hat (vgl. bzw. Produktcodes, wie sie vor Jahren und Unterhaltung" zu den Kölner Kar- Sherman 2000, 49). Als Sicherungsme- von Predicasts entwickelt worden sind, nevalsvereinen nach unten durch: chanismus gegen solchen Missbrauch hat läge eigentlich nahe. Top : World : Deutsch : Regional : ODP "Meta-Editors" eingesetzt, die für Es gibt Beispiele von (kleinen) Such- Deutschland : Nordrhein-Westfalen : größere Bereiche des Klassifikationssystems werkzeugen im Web, die bereits den Ein- Städte und Gemeinden : K : Köln : Kul- zuständig sind und die die Arbeiten der Edi- satz der DDC vorführen, etwa die Wolver- tur und Unterhaltung : Karneval : Gar- tors überwachen sollen. hampton Web Library (WWLib), die seit den und Vereine. Angesichts der Kooperationen mit 1995 britische Internet-Informationen klas- Die Einführung einer Klassifikati- ODP scheint das Projekt eine Erfolgsge- sifikatorisch indexiert. WWLib (vgl. Jenkins onsebene, die nach dem Alphabet sortiert schichte zu werden. Wichtige Suchma- et al. 1998) indexiert die Web-Dokumen- (im Beispiel "K"), was beim OPD öfters schinen, darunter Google und Oingo, te automatisch und ordnet jedem Doku- vorkommt, kann wohl nur als Kapitula- bieten die ODP-Klassifikation zusätzlich ment DDC-Notationen zu. Zunächst wurde tion vor den Problemen einer themati- zu ihren eigenen Services in ihrem ausschließlich auf die umgangssprachlichen schen Ordnung gedeutet werden. Suchwerkzeug an. Die Probleme einer Bezeichnungen der Klassen zurückgegrif- Sucht man bei ODP nach konkreten riesigen, überwuchernden präkombi- fen, z.B. auf: Klassen, so muss das komplette Suchar- nierten Klassifikation bleiben jedoch 641.568 Cooking for special occasi- gument in der Klassenbezeichnung vor- erhalten. ons Including Christmas. Abbildung 4: Eingangsbildschirm des Open Directory Quelle: Open Directory Project; www.dmoz.org 30
Abbildung 5: Resultate einer Suchfrage zu "fish" in einem DDC-Web-Katalog Quelle: Wolverhampton Web Library (WWLib); URL: http://www.scit.wlv.ac.uk/wwlib/ Da die Maschine mit diesem Verfahren nur Insbesondere der zweite Punkt erscheint Lexikon und Relationen); ● Indexierung und zu 40% auf zufriedenstellende Ergebnisse uns wesentlich, leiden doch die "großen" Web- ● Such-oberfläche. kommt, wird die Klassenbezeichnung jeder Kataloge wie Yahoo! und das Open Directory Oingo arbeitet begriffs- und nicht wortori- DDC-Klasse durch Listen von Schlagworten unter der viel zu kleinen Zahl ausgewerteter entiert. Die Einträge in der Terminologie sind und Synonymen stark angereichert. Informationen. Mit der Kopplung an die Tech- demnach "Bedeutungen", identifiziert durch Eingesammelt werden die Dokumente nik der automatischen Spider, wie dies WWLib nicht-natürlichsprachige Codes (etwa ID 236). durch einen Spider, der das World Wide Web vorführt, ist die Menge der Dokumente wesent- Den Codes sind die entsprechenden Wörter automatisch durchsucht. Der Indexierungs- lich nach oben zu verschieben. natürlicher Sprachen zugeordnet (z.B. "coffee" prozess durchläuft zwei Phasen. Zunächst oder "café"). Derzeit arbeitet Oingo mit der eng- geschieht eine informationslinguistische und - lischen und der spanischen Sprache; weitere statistische Analyse, in deren Verlauf gewich- Terminologische Kontrolle Sprachen sind geplant. Der Umfang der jetzi- tete Stichworte aus der Vorlage gewonnen wer- als Teil "semantischen gen Terminologiedatenbank liegt bei rund einer den. Diese Menge an Termen wird in eine der Retrievals": Oingo Million Einträgen. zehn Hauptklassen der DDC eingeordnet. Hier- Wie in einem Thesaurus stehen die Begriffe nach wird die jeweils bestpassende Unterklas- Oingo Inc., ein Unternehmen in Los nicht isoliert zueinander, sondern innerhalb eines se gesucht usw., bis keine passende weitere Angeles, wird Ende 1998 von Adam Weis- semantischen Netzes. Die Relationen zwischen Unterklasse zu finden ist. In diese Klasse wird sman und dem jetzigen CEO Gilad Elbaz den Begriffen stehen für semantische Ähnlich- das Dokument eingeordnet. Das Retrieval gegründet. Ein Jahr später arbeitet die Such- keiten, wie sie durch die Alltagssprache ausge- geschieht durch Eingabe einer DDC-Notation maschine im World Wide Web, angetreten drückt werden. In Abbildung 6 sehen wir die oder der natürlichsprachigen Bezeichnungen mit dem Anspruch, "semantisches Retrieval" Bedeutung von "Java" (als Kaffee) in der semanti- oder durch das Browsen durch die DDC-Hier- zu gewährleisten. "We know what you schen Nähe von der Bedeutung von "Koffein"; die archien. Sucht man wortorientiert, so bekommt mean", ist Oingos Motto. Als Suchwerkzeug Bedeutung von "Java" (als Programmiersprache) man Ergebnisse aus allen Klassen, die das Wort der Zweiten Generation baut Oingo auf vor- steht an einer ganz anderen Stelle im Netz in der als Bezeichnung enthalten (siehe Abbildung 5 handene Aktivitäten auf und bietet auf deren Umgebung der Bedeutung von "Perl". Begriffe, als Resultat einer Anfrage zu "fish"). Basis seinen informationellen Mehrwert. die durch Phrasen (z.B. "John Lennon") bezeich- Wir wollen hier nicht auf Details eingehen, Kooperationspartner sind AltaVista und das net werden, sind zum Teil in der "Oingo Lingua" sondern lediglich die WWLib paradigmatisch Open Directory-Projekt. Die Kerntechnik von enthalten. Mit dieser terminologischen Kontrol- für zwei Aspekte anführen: Oingo ist sein Bedeutungsraum (Meaning le wird sowohl das Homonym- als auch das Syno- 1. Eine klassifikatorische Erschließung von Web-Sites mittels etablierter Klassifika- tionssysteme (wie der DDC) ist möglich. Space), ein Wörterbuch mit terminologischer Kontrolle, d.h. mit Homonym- und Syno- nymverwaltung, das zur Indexierung und nymproblem gemildert. Oingos (automatische) Indexierung setzt auf die Klassen und Dokumente des Open 2. Diese klassifikatorische Erschließung kann auch - ggf. unterstützt durch intellektuelle Arbeiten - automatisch geschehen. zum Retrieval Verwendung findet. Oingos "Infostructure" hat drei Komponenten: ● die "Oingo Ontologie" (der Bedeutungsraum mit Directory sowie auf die Webseiten bei Alta- Vista auf. Die Indexierung ist eine Zuordnung der Begriffe (genauer: der ID-Codes) mit infor- PASSWORD 12/2000 31
Abbildung 6: Semantisches Netz bei Oingo Quelle: Oingo Inc. mationsstatistisch errechneten Gewich- ist auch bei Thesauri bekannt und Fazit tungswerten zu den Klassen bzw. Doku- akzeptabel. Wenn wir auf einen Nicht- menten. Zusätzlich durchsucht Oingo Deskriptor stoßen und via Benutze- Mit Yahoo! und dem Open Directory Webseiten nach graphischen Informa- Oberbegriff-Relation auf den Deskriptor wird ein klassifikatorischer Ansatz zur tionen (z.B. einem Bild mit Inschrift verwiesen werden, geht es uns nicht Inhaltserschließung von Web-Doku- "Java Kaffee" oder einer einschlägigen anders. Innerhalb des Open Directory menten verfolgt. Zwei Riesenprobleme Clip-Art-Graphik) und ordnet diese eben- arbeitet Oingos Homonymkontrolle begleiten beide Unternehmen: Einer viel falls den Bedeutungs-IDs zu. weitgehend zuverlässig und nachvoll- zu großen Menge an Klassen steht eine - Das Suchsystem ist auf Rückkopp- ziehbar. Bei AltaVista treten jedoch an gemessen am Web - viel zu kleine Menge lung eingerichtet. Wenn ein Nutzer ein vielen Stellen Unstimmigkeiten auf. So an Dokumenten gegenüber. Wort eingibt, das für mehrere Bedeu- klappt die "Java"-Suche mit dem Problemfall I bei Yahoo! wie beim Open tungen steht, wird zurückgefragt. Im Homonymzusatz "State" sehr wohl bei Directory ist die Fülle an Klassen, die zudem Dialog wird dem Nutzer eine Liste der ODP, nicht aber bei AltaVista, das in extrem präkombiniert sind. Es läge nahe, Oingo bekannten Homonyme ange- diesem Fall den Homonymzusatz hier durch "Anhängezahlen" oder durch zeigt, aus der gezielt auszuwählen ist. mißachtet. "Facetten" entgegenzusteuern. So arbeiten In Abbildung 7 führen wir unser "Java"- Durch den Rückgriff auf die Bedeu- Profi-Systeme mit facettierten Dokumen- Beispiel fort. Nach der Auswahl von tungs-ID bei der Suche wird nach dem tationssprachen ja durchaus erfolgreich. "coffee (beverage)" werden (auf der lin- Begriff und nicht (nur) nach dem einge- Das Predicasts-Codesystem benötigt drei ken Bildschirmhälfte) eine nach gebenen Wort recherchiert. Man kann Facetten (Produkt, Land, Aspekt), Profo- Gewichtung geordnete Rangliste der davon ausgehen, dass das System die und arbeitet mit deren vier (Marktsegment, ODP-Klassen und (auf der rechten Hälf- Synonyme der englischen Sprache (mehr Land, Unternehmen, Aspekt). Unseren te) die Top 10 bei AltaVista angezeigt. oder minder) berücksichtigt. Suchen nach Web-Klassifikationen wäre mit zwei Facet- Da nunmehr ausschließlich mit der "films" bzw. "movies" bringen - bei ODP, ten schon weitergeholfen. Eine Facette ent- angegebenen Bedeutung ("Kaffee") nicht bei AltaVista - durchaus ähnliche, hält die sachthematischen Bezüge, eine gesucht wird, verlieren wir natürlich wenngleich nicht identische Ergebnisse. zweite die regionalen Bezüge. Durch zwei das Spezifische des eigentlich Für Oingo ist es also relevant, mit wel- Eingabefenster am Bildschirm dürfte eine gewünschten Java-Kaffees. Dieser Fall chem Wort ein Nutzer einsteigt. leichte Bedienbarkeit zu gewährleisten sein. 32 PASSWORD 12/2000
(Dieser Aspekt ist auch beim DDC-Einsatz wichtig. Über Schlüssel zusam- Literatur mengesetzte DDC-Notationen sind für den Web-Einsatz untauglich, weil vom Laien nicht verstehbar, und durch facettierte Teilsysteme zu ersetzen.) Web-Sites können bzw. - je nach Thema - müssen durch mehrere Notatio- Yahoo! nen indexiert werden. Dieser Schritt von der Präkombination zur postko- David Filo; Jerry Yang: Yahoo! unplugged. Your Discovery Guide ordinierenden Vorgangsweise ist in der Informationspraxis (mit der Ein- to the Web. - Foster City: IDG Books Worldwide, 1995. führung der Thesauri) in den 60er Jahren des letzten Jahrhunderts gegan- Dan Lester: Yahoo! Profile of a Web Database. - In: Database 18 gen worden. Für unsere Web-Directories ist dieser Schritt nunmehr über- (1995), Nr. 6, S. 47-50. fällig. Alan Neibaur: How to Do Everything with Yahoo! - Osborne Problem II betrifft die schmale Dokumentenbasis. Durch den Ein- McGraw-Hill, 2000. satz kostenlos arbeitender freier Mitarbeiter hat das Open Directory bes- Danny Sullivan: Yahoo Opens Express Submission Service. - In: sere Chancen, auf mehr klassifizierte Dokumente als Yahoo! zu kom- The Search Engine Report März 1999. URL: http://searchengine- men. Trotzdem bleiben wir im Promillebereich des Web. An dieser Stel- watch.internet.com/sereport/99/03-yahoo.html. le halten wir es für notwendig, über die intellektuelle Erschließung hin- Jiong Wu: Information Retrieval from Hierarchical Compound Docu- auszugehen, um auch automatisierte Varianten (wie bei der WWLib) ments / Yahoo Inc. - Patent Nr. US 5991756 vom 23.11.1999. einzusetzen. Insbesondere das lästige Homonymproblem wird durch das "semantische The Open Directory Retrieval" von Oingo (allerdings bisher nur für das Englische und Spanische) Greg R. Notess: Review of Open Directory.- 2000. URL: stark gemildert. Über einen Dialog zwischen System und Nutzer wird die http://www.notess.com/search/dir/dmoz/index.shtml. gewünschte Bedeutung des eingegebenen Wortes ermittelt und zur weiteren Chris Sherman: Humans do it better. Inside the Open Directory Suche verwendet. Zustimmend ist zu vermelden, dass Oingo einen klaren Schritt Project. - In: Online 24 (2000), Nr. 4, S. 43-50. hin zur terminologischen Kontrolle gegangen ist, wie er u.a. in (Dokumenta- ren allseits bekannten) Thesaurusleitfäden oder -normen vorgeschlagen wird. DDC Eine weitere Annäherung der in der Praxis entstandenen, theore- Charlotte Jenkins; Mike Jackson; Peter Burden; Jon Wallis: Auto- tisch nicht "vorbelasteten" klassifikatorischen Suchwerkzeuge auf der matic classification of Web resources using Java and Dewey Decimal Classi- einen Seite und der informationswissenschaftlichen Klassifikationsfor- fication. - In: 7th International World Wide Web Conference. - Brisbane 1998. schung sowie der bibliothekarischen Klassifikationspraxis auf der ande- - URL: http://www7.scu.edu.au/programme/posters/1846/com1846.htm. ren Seite dürfte für beide Teile erfolgversprechend sein. Oingo Mechtild Stock & Paula J. Hane: Beyond keyword searching - Oingo and Simpli.com Wolfgang G. Stock introduce meaning-based searching. - In: Information Today 17 (2000), Nr. 1, S. 57. Greg R. Notess: Up and coming search technologies. - In: Online 24 (2000), Nr. 3, S. 75-77. Abbildung 7: Dialog zur Homonymkontrolle bei Oingo Quelle: www.Oingo.com PASSWORD 12/2000 33
Sie können auch lesen