Extraktion von durch PubMed verlinkten Volltexten mit Hilfe von Machine Learning - Studienarbeit
←
→
Transkription von Seiteninhalten
Wenn Ihr Browser die Seite nicht korrekt rendert, bitte, lesen Sie den Inhalt der Seite unten
Mathematisch Naturwissenschaftliche Fakultät II Institut für Informatik Extraktion von durch PubMed verlinkten Volltexten mit Hilfe von Machine Learning Studienarbeit Betreuer: Ulf Leser Martin Beckmann 30. April 2013
Inhaltsverzeichnis 1 Einleitung 2 1.1 Idee . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 2 Related Work 5 3 LinkOuts 6 4 Trainingsdaten 9 5 Evaluation 13 5.1 Klassifizierung durch eine Support Vector Maschine . . . . . . . . . . . . . 14 5.1.1 Grundlagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 5.1.2 Ergebnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 5.1.3 Fehleranalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 5.2 Klassifizierung durch einen Naive-Bayes-Klassifikator . . . . . . . . . . . . 17 5.2.1 Grundlagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 5.2.2 Ergebnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 5.2.3 Fehleranalsye . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 5.3 Features mit hohem Einfluss . . . . . . . . . . . . . . . . . . . . . . . . . . 21 6 Schlussbetrachtung 23 6.1 Umgang mit robots.txt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 6.2 Future Work . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 7 Danksagung 26 8 Appendix 27 9 Eidesstattliche Erklärung 30 1
1 Einleitung Um in der Forschung die bestehenden Erkenntnissen zu einem gewählten Thema zu er- halten, besteht der erste Schritt meist darin, sich einen Überblick über bestehende Pu- blikationen zum Thema zu verschaffen. Im biomedizinischen Bereich wird dabei meist PubMed als Anlaufstelle genutzt [FPMP08]. Diese Datenbank verfügt über knapp 18 Millionen englische Artikel 1 , zu denen bei circa 12 Millionen Artikeln die Abstracts vor- handen sind. Abstracts bieten eine gute Zusammenfassung der Thematik des Artikels. Einen Mehrwert an Informationen gegenüber diesen Abstracts haben aber die Volltex- te zu den Artikeln, wobei PubMed hierfür auf andere Seiten verlinkt mit sogenannten LinkOuts [ML01]. LinkOuts sind Verweise auf andere Seiten und Datenbanken, in denen weiterführende Informationen zum Artikel stehen. Volltexte sind aber nicht alle frei ver- fügbar, sondern können ein Abonnement benötigen oder Geld kosten. Die Seite PMC(PubMed Central) hat es sich zur Aufgabe gemacht, den Teil aller frei zugänglichen Volltexte zentral verfügbar zu machen und bietet dies momentan für knapp 2,4 Millionen Artikel an2 . Sucht man aber bei PubMed nach allen englischen Artikeln mit frei zugänglichen Volltexten, so werden ungefähr 3,7 Millionen Einträge angezeigt3 . Das liegt vermutlich daran, dass sich PubMed Central mit den Verlagen der Journals abspre- chen muss, um die Artikel anzeigen zu dürfen, während von PubMed nur auf die Seiten der Verlage verwiesen wird. Außerdem muss beachtet werden, dass PubMed Central aus- drücklich vorschreibt, dass die Volltexte nicht automatisch von ihrer Seite heruntergeladen werden dürfen (das ist auch an der robots.txt [Pea98] erkennbar) und verweisen dafür auf einen FTP-Service, der nur ungefähr 400.000 Artikel zur Verfügung stellt. Demzufolge wä- re es wünschenswert, die frei verfügbaren Volltexte zu nutzen, die von PubMed verlinkt werden. Voraussetzung dafür ist in jedem Fall, dass der Volltext auf der verlinkten Seite noch extrahiert werden muss. Dieser ist meist durch einen Link auf ein Pdf-Dokument erhältlich, kann aber auch in anderen Formen vorliegen, wie beispielsweise als Text direkt eingebettet im HTML-Dokument. Auch dort müssen die Lizenzbedingungen der Anbieter berücksichtigt werden. In dieser Arbeit wird eine Idee entwickelt, implementiert und evaluiert, mit der dieses Problem der Extraktion der Volltexte von den verlinkten Seiten gelöst werden kann. Da- zu wird zunächst in Kapitel 1.1 der Ansatz vorgestellt. In Kapitel 2 werden Arbeiten vorgestellt, die sich mit einer ähnlichen Aufgabe beschäftigen. Kapitel 3 erläutert das Konzept der LinkOuts von PubMed, die benutzt werden, um auf Seiten von Publishern für den Volltexte zu verlinken. Danach wird in Kapitel 4 beschrieben, wie Trainingsdaten für die Aufgabe erstellt wurden und in Kapitel 5 werden die Methoden zur Problemlösung evaluiert. Abschließend werden in Kapitel 6 die Ergebnisse der Arbeit zusammengefasst 1 Stand 10.12.2012 2 Stand 10.12.2012 3 siehe http://www.ncbi.nlm.nih.gov/pubmed/?term=english[language]+AND+loattrfree+full+text[sb] 2
und Möglichkeiten der Verbesserung und weiterer Schritte vorgestellt. Da auch bei den Seiten der Publisher darauf geachtet werden muss, welche Inhalte automatisch erfasst werden dürfen, beschäftigt sich das Unterkapitel 6.1 mit der Analyse der verschiedenen robots.txt’s. 3
1.1 Idee Wenn ein LinkOut von PubMed zu einem Verlag verfolgt wird, besteht das Problem dar- in, auf der Seite den Link zur gewünschten Datei zu finden (sei es ein Pdf-Dokument oder eine Datei im XML-Format). Es kann auch der Fall auftreten, dass kein solcher Link existiert, da der Artikel womöglich als Klartext im HTML-Code enthalten ist. In diesem speziellen Fall besteht die Möglichkeit, mit Hilfe von Boilerplate Detection [KFN10], den Artikel zu isolieren und als Klartext zu speichern. Diese Herangehensweise ermöglicht es auch mit Seiten zu arbeiten, die gar keinen Link auf Pdf- oder XML-Dokumente besitzen. Ist ein solcher Link allerdings vorhanden, so ist für das Finden des richtigen Links ei- ne Klassifikation sinnvoll, um nur die erfolgsversprechenden Links zu betrachten. So ist instinktiv klar, das eine verlinkte Datei, die auf „.pdf“ endet, der gewünschte Volltext im Pdf-Format sein könnte. Es ist auch ersichtlich, dass ein Anchor mit dem Text „free full text“ mit hoher Wahrscheinlichkeit auf eine Datei mit dem Volltext verweist. Dass diese beide Eigenschaften nicht notwendig sind, sieht man auf einer Internetseite von Dovepress 4 . Darin besitzt der Anchor keinen Text, sondern nur ein Bild, und der Link („http://www.dovepress.com/getfile.php?fileID=14210“) endet auch nicht auf „.pdf“, auch wenn es auf ein Pdf-Dokument verlinkt. Insgesamt können zum Beispiel folgende Features zur Beschreibung von Links hilfreich sein: • Endet der Link auf „.pdf“? • Welche Wörter werden in dem Anchortext und darum herum verwendet? • Welche Begriffe werden in den möglichen Tag-Attributen „alt“ und „title“ benutzt? • Ist in dem Anchor ein Bild statt eines Textes? • Sollte der Anchor ein Bild beinhalten, welchen Dateinamen hat dieses Bild dann? Diese Eigenschaften werden dabei als binäre Features abgebildet. Im Falle der benutzen Wörter im Anchortext wird eine Menge von binären Werten eingeführt, die für jedes Wort angeben, ob es im Text enthalten ist oder nicht. Die Benutzung des TF-IDF-Scores der Wörter wäre auch denkbar gewesen, bei dem sowohl die Häufigkeit eines Wortes bei einem gegebenen Link berücksichtigt wird, als auch die Häufigkeit, das das Wort bei anderen Links auftaucht. Dies wurde in dieser Arbeit allerdings nicht gemacht, da ein gegebenes Wort bei einem Link meist nur ein einziges Mal auftaucht. Um die Klassifikation automatisch durchführen zu können, soll anhand einer manuell annotierten Trainingsmenge eine SVM und ein Naive-Bayes-Klassifikator gelernt werden. 4 http://www.dovepress.com/overcoming-resistance-and-barriers-to-the-use-of-local-estrogen-therap- peer-reviewed-article-IJWH 4
2 Related Work Nach unserer Kenntnis wurde in der vergangenen Zeit keine Arbeit veröffentlicht, die sich ebenfalls mit dem Erkennen von Links zu Volltexten der in PubMed angebotenen biome- dizinischen Artikel beschäftigt. Die Aufgabe lässt sich am ehesten mit der eines Focused Crawler vergleichen. Bei einem solchen Crawler geht es darum, für ein gegebenes Thema relevante Seiten aus dem Internet zu finden, indem nach und nach einzelne Internetseiten heruntergeladen und darin befindliche Links weiter untersucht werden. Die Suche ist fo- kussiert, da nur solche Links weiter verfolgt werden sollen, die als relevant angenommen werden. Die in dieser Arbeit anfallende Aufgabe für eine gegebene Seite den relevanten Link (oder Links) zu finden, entspricht also einem Focused Crawler, der bei einer Tiefe von 1 abbricht. Auch bei Focused Crawler wird oft der Text eines Anchors oder der darum befindliche Text genutzt, um die Relevanz des Links zu bestimmen. Dabei kann sich der benutz- te Text auf den Anchortext beschränken [McB94]. Oft wird stattdessen auch ein Fens- ter einer bestimmten Größe um den Anchor herum gewählt [CDR+ 98]. Bezieht man die strukturellen Informationen, die durch die HTML-Tags gegeben sind, mit ein, so können die Wörter in den „umliegenden“ Textblöcken in Verbindung mit dem jeweiligen Ab- stand als Features benutzt werden [CPS02]. In [Pan03] wird anhand des DOM-Trees ein aggregation-path gebildet vom Anchor bis zum root-Element (dem HTML-Tag). Somit konnte überprüft werden, welches Element auf dem aggregation-path am besten einen ge- gebenen Link repräsentiert. Zur Evaluation des Verfahrens von [Pan03] wurden manuell Zusammenfassungen der verlinkten Seiten erstellt und die Ähnlichkeit der Linkkontexte zu der Beschreibung der verlinkten Seite berechnet. Dabei stellte der Autor fest, dass beim Benutzen des Anchortext ein höherer durchschnittlicher Ähnlichkeitswert berechnet wird, als wenn man Knoten nimmt, die höher aggregation-path liegen. Dafür besteht aber eine höhere Wahrscheinlichkeit für Zero-Simularity. Er stellte fest, dass der nächsthöhere Knoten des Anchors einen guten Kompromiss geben würde. 5
Abbildung 1: Anzeige zu einem Artikel bei PubMed. Die LinkOuts sind rot markiert. Unten links werden alle vorhandenen LinkOuts angezeigt, während oben rechts die bevor- zugten Links stehen. 3 LinkOuts Um für einen biomedizinischen Artikel nicht nur die Abstracts zu erhalten, sondern den gesamten Volltext, verweist PubMed mit sogenannten LinkOuts auf Seiten von anderen Anbietern. Diese LinkOuts sieht man einerseits direkt auf der Seite von PubMed zu dem Artikel (Siehe Abbildung 1). Andererseits können die von PubMed zur Verfügung gestell- ten E-Utilities 5 genutzt werden. Der Vorteil an den E-Utilities besteht darin, dass man sich gleichzeitig für mehrere Artikel die LinkOuts zurückgeben lassen kann. Dazu sendet man einen Request an eine fcgi-Seite von PubMed und gibt als Parameter eine Liste von PMIDs an. Eine PMID (PubMed-ID) ist eine eindeutige ID für einen Artikel. Als Resultat erhält man ein XML-Dokument mit den gewünschten LinkOuts (siehe Abbildung 2). 5 Für eine Einführung, siehe http://www.ncbi.nlm.nih.gov/books/NBK25500/ 6
Abbildung 2: Beispiel für die zurückgegebene XML-Datei bei der Suche nach LinkOuts mit Hilfe von E-Utilities. Für jede PMID wird ein IdUrlSet-Knoten erstellt (in diesem Fall nur einer), der wiederum für jeden LinkOut einen ObjUrl-Knoten enthält. Zu den LinkOuts werden zusätzliche Informationen in Form von Category und Attributes angegeben. Wie in Abbildung 2 erkennbar ist, werden LinkOuts in verschiedene Kategorien unterteilt. Diese umfassen neben den Kategorien „Full Text Sources“ und „Medical“ unter anderem noch die Kategorien „Education“, „Molecular Biology Databases“, „Chemical Informati- on“ und „Research Materials“. Von diesen Kategorien ist für diese Arbeit nur „Full Text Sources“ relevant. Jeder LinkOut verfügt weiterhin über Attribute, die unter Anderem angeben, ob es sich um eine freie Quelle handelt („free resource“), ob man sich dafür auf der Seite registrieren muss („registration required“) oder ob man ein Abonnement haben muss beziehungswei- se Geld dafür ausgeben („subscription/membership/fee required“). Bei der Untersuchung von ungefähr 33000 LinkOuts der Kategorie „Full Text Sources“ für eine zufällig gewählte Teilmenge der 3,8 Millionen englischen Artikel mit frei verfügbarem Volltext, ergab sich die in Tabelle 1 zu sehende Verteilung. Darin kann man sehen, dass LinkOuts genau dann das Attribut „free resource“ besitzen, wenn das Attribut „subscription/membership/fee required“ nicht gesetzt ist. Alle anderen Ressourcen, inklusive derer, die eine Registration benötigen, werden als kostenlos eingestuft. Um eine automatische Extraktion des Volltextes zu gewährleisten, können Quellen, die ei- ne Registrierung erfordern, nicht verwendet werden. Demnach werden nur solche LinkOuts betrachtet, die zur Kategorie „Full Text Sources“ gehören, das Attribut „free resource“ be- sitzen und weder das Attribut „subscription/membership/fee required“ noch das Attribut 7
Registrierung Abonnement weder noch kostenlos 217 0 16519 nicht kostenlos 0 17226 0 Tabelle 1: Aufteilung der kostenlosen (mit dem Attribut „free resource“) und nicht kos- tenlosen Artikel (ohne das Attribut „free resource“) auf die Kategorien Registration (mit dem Attribut „registration required“), Abonnement(„subscription/membership/fee requi- red“) und Artikel ohne beides (ohne die Attribute „registration required“ und „subscrip- tion/membership/fee required“). Es gibt keine LinkOuts bei denen sowohl das Attribut „registration required“ als auch das Attribut „subscription/membership/fee required“ ge- setzt ist. „registration required“. Auf einer Menge von 40000 zufällig gewählten, von PubMed als englisch und frei verfügbar angegebenen Artikeln wurde überprüft, ob auch alle diese Artikel einen für die automati- sche Extraktion nützlichen LinkOut besitzen. Zunächst wurden alle Artikel entfernt, die einen LinkOut zu PMC haben, da nur solche Artikel neu gefunden werden sollen, die nicht schon über PMC zugänglich sind. Dies waren 23395 Artikel, was dem Verhältnis von 2,4 Millionen Artikeln in PMC gegenüber 3,7 Millionen Artikeln in PubMed nahe kommt. Bei Artikeln, die auch über PubMed Central angeboten werden ist eine Extraktion über andere Verleger nicht sinnvoll, da der Artikel entweder einfacher über den FTP-Service von PubMed Central erhältlich ist oder aber davon auszugehen ist, dass dieser auch bei den anderen Verlagen nicht gänzlich kostenlos erhältlich ist. Von den restlichen 16605 Ar- tikeln hatten gerade einmal 249 Artikel keinen nützlichen LinkOut. Interessant ist, dass von den 249 Artikeln 32 auch keine Volltextquellen hatten, wenn man die Quellen dazu nimmt, die eine Registration verlangen. 8
Annotator A Annotator B Übereinstimmung PDF 300 278 278 HTML 40 52 29 XML 25 21 19 Sonstige 0 0 0 Insgesamt 365 351 326 Tabelle 2: Aufteilung der erfassten Links der beiden Annotatoren auf die verschiedenen Arten. 4 Trainingsdaten Um das in Kapitel 1.1 erwähnte Lernverfahren durchführen zu können, werden voranno- tierte Trainingsdaten benötigt. Diese positiven und negativen Beispiele für relevante Links erlauben das Erlernen eines Modells, dass darüber entscheidet, ob ein Link relevant ist oder nicht. Dementsprechend wurden zwei Wissenschaftler gebeten, für eine Menge von 300 Inter- netseiten, die von PubMed über LinkOuts verlinkt sind, alle Anchor zu markieren, die auf Volltexte des Artikels verweisen. Zusätzlich sollten sie angeben, ob es sich bei dem Ziel des Links um ein Pdf-Dokument handelt, XML, ein anderes Format, oder ob der Artikel im HTML der verlinkten Seite eingebettet ist. Sollte es sich bei der von PubMed verlinkten Seite selbst schon um ein Pdf-Dokument halten, so wird diese nicht weiter be- rücksichtigt. Die Trainingsmenge wurde aus den frei verfügbaren Artikeln von PubMed gewählt, wo- bei mehrere Artikel von verschiedenen Anbietern verwendet wurden. Dadurch wird die Trainingsmenge nicht durch einige stark vertretene Publisher dominiert und es kann eine Cross-Validation durchgeführt werden, bei dem von jedem Publisher Artikel sowohl in der Trainingsmenge als auch in der Evaluationsmenge sind (siehe Kapitel 5). Eine Auflistung der verwendeten Publisher befindet sich im Appedix (Kapitel 8). Für das Lernverfahren sollen nur die Links als relevant angesehen werden, die von beiden Annotatoren gleichermaßen markiert wurden. Wurde der gleiche Anchor von beiden An- notatoren mit unterschiedlichen Angaben des Formats als relevant eingestuft, so wird der Link trotzdem als relevant eingestuft und der Typ als „sonstiges“ angegeben. Eine weitere Besonderheit sind gleiche Links, die mehrfach auf einer Seite erscheinen (sie- he Abbildung 3). Sollten beide Annotatoren einen der Links als relevant angeben, aber nur einer auch den zweiten Link berücksichtigen, so soll auch für den zweiten Annotator implizit der zweite Link als relevant angenommen werden. Insgesamt wurden von Annotator A 365 Links erkannt und von Annotator B 351. Eine Übersicht über die Art der erkannten Links ist in Tabelle 2 zu sehen. Außerdem werden auch die Überschneidungen in den erkannten Links angezeigt, bei denen sowohl der Link selbst, als auch der Typ des Links gleich angegeben wurden. Insgesamt ergab sich eine 9
Abbildung 3: Auf dieser Seite (http://onlinelibrary.wiley.com/doi/10.1002/lt.21921/abstract) gibt es drei gleiche Links auf ein Pdf-Dokument (rote Kasten) und zwei Links auf eine Seite, in der der Artikel im HTML eingebettet ist (blaue Kasten). Schnittmenge von 326 Links, bei denen sich die Annotatoren sowohl einig darüber waren, das der Link relevant sei, als auch über die Art der Zieldatei. Bei 19 der von beiden An- notatoren als relevant erkannten Links waren sie sich uneinig über die Art des Linkziels. Annotator A gab bei diesen 19 Links an, dass es sich um einen Link zu einem PDF handelt, während Annotator B diesen als Link zu einem HTML-Dokument angab. Das lässt sich dadurch erklären, dass der Linktext auf ein PDF-Dokument hinwies, die verlinkte Seite dann aber kein PDF-Dokument war, sondern nur wiederum einen Link zum eigentlichen PDF-Dokument enthielt. 20 Links, die von Annotator A als relevant angegeben wurden, wurden von Annotator B nicht angegeben, anders herum waren es 6. Eine Erklärung, warum die jeweiligen Links nicht als relevant angegeben wurden, ist in den Tabellen 3 und 4 zu sehen. Somit ergibt sich insgesamt eine Menge von 345 Links, die als relevant angesehen werden. Eine Vertei- lung dieser Links auf die jeweiligen Dateiarten ist in Tabelle 5 zu sehen. Neben den 345 10
# an Links Typ Begründung 6 XML Linktext weist auf XML hin, wird aber auf der verlinkten Seite nicht angezeigt 5 HTML Linktext („Article“) weist auf Volltext hin, wird aber auf der ver- linkten Seite nicht angezeigt 3 PDF Das verlinkte PDF-Dokument beinhaltet nur den Abstract 3 HTML Die verlinkte Seite weist nur darauf hin, dass der Volltext noch nicht verfügbar ist 3 HTML Linktext („Enhanced Full Text“) weist auf Volltext hin, wird aber auf der verlinkten Seite nicht angezeigt Tabelle 3: Begründung von Annotator B, warum er von Annotator A als relevant einge- stufte Links nicht als relevant eingestuft hat. # an Links Typ Begründung 2 XML Das XML-Dokument beinhaltet nur das Abstract oder die Article Citation 4 HTML Der Link verweist auf eine Seite, in der alle Artikel des Journals aufgelistet sind Tabelle 4: Begründung von Annotator A, warum er von Annotator B als relevant einge- stufte Links nicht als relevant eingestuft hat. relevanten Links auf den Seiten, ergibt sich eine Menge von 20830 irrelevanten Links. Wie sich diese beiden Mengen auf die einzelnen Seiten verteilt ist in Abbildung 4 zu sehen. Der Großteil der Seite hat bis zu 120 irrelevante Links und keine oder bis zu 2 relevante Links (86 %). Die anderen Seiten haben entweder mehr relevante Links (insgesamt 10 Mal) oder mehr als 120 irrelevante Links (insgesamt 32 Mal). Auf diesen 32 Seiten befindet sich ungefähr die Hälfte der irrelevanten Links. relevant PDF 278 HTML 29 XML 19 Sonstige 19 Insgesamt 345 Tabelle 5: Aufteilung der als relevant eingestuften Links auf die verschiedenen Zielformate. 11
Abbildung 4: Die Abbildung zeigt die Verteilung der relevanten und nicht relevanten Links auf die 300 Internetseiten. Pro Seite gibt es bis zu 5 relevante Links und 656 irrelevante Links. 12
5 Evaluation Wie bereits in Kapitel 4 kurz erwähnt wurde, soll eine Evaluation auf einer Menge von 300 Internetseiten durchgeführt werden, auf die von PubMed als Anbieter von Volltexten ver- wiesen wird. Diese Seiten wurden von zwei Wissenschaftlern untersucht, so dass für jeden Link bekannt ist, ob er relevant ist und auf welche Art von Dokument verlinkt wird. Die 300 Seiten wurden dabei so gewählt, dass von jedem Publisher gleich viele Seiten genutzt werden, so dass eine Cross-Validation möglich ist, bei der Seiten des gleichen Publishers sowohl in der Trainingsmenge (80 %), als auch in der Evaluationsmenge enthalten sind (20%). Neben der Cross-Validation soll auch ein Cross-Learning durchgeführt werden, bei dem ein gegebener Publisher entweder in der Trainingsmenge enthalten ist oder in der Evaluationsmenge, aber nicht in beiden. Dadurch sollen die beiden Fälle simuliert werden, in dem ein Volltext von einem bekannten Publisher oder aber von einem unbekannten Pu- blisher extrahiert werden soll. Die Güte der Klassifikation lässt sich anhand von Precision, Recall und F-Meature ange- ben. Dazu werden die klassifizierten Links in vier Gruppen aufgeteilt: • True Positive (TP): Der Link ist relevant und wird auch als relevant klassifiziert • False Positive (FP): Der Link ist nicht relevant, wird aber als relevant klassifiziert • True Negative (TN): Der Link ist nicht relevant und wird auch als nicht relevant klassifiziert • False Negative (FN): Der Link ist relevant, wird aber als nicht relevant klassifiziert Die Precision einer Klassifikation gibt an, wie viele der als relevant eingestuften Links wirklich relevant sind und ergibt sich aus der Formel T PT+F P P . Der Recall gibt hingegen an, wie viele der relevanten Links als relevant erkannt wurden. Die Formel dafür ist T PT+F P N . Beide Werte liegen im Bereich von 0 bis 1 und ein Klassifikator ist gut, wenn die Werte hoch sind. Precision und Recall bedingen sich gegenseitig. So ist es möglich einen der beiden Werte zu erhöhen und dabei aber den anderen zu verringern. Wenn ein Klassifikator beispielsweise alle Links als relevant klassifiziert, so liegt der Recall bei 1, wo hingegen die Precision bei 0 liegen wird. Andererseits wird die Precision sehr hoch, wenn nur Links als relevant eingestuft werden, bei denen es besonders ersichtlich ist, dass der Link relevant ist. Dabei wird wiederum der Recall gering ausfallen. Ein Klassifikator ist somit am Besten, wenn sowohl die Precision als auch der Recall hoch sind. Diese Eigenschaft fließt beim F-Meature ein. Dieser ergibt sich aus der Kombination ·R von Precision (P ) und Recall (R) wie folgt 2·P P +R . 13
5.1 Klassifizierung durch eine Support Vector Maschine 5.1.1 Grundlagen Die Trainingsmenge wird dazu genutzt, eine SVM (Support Vector Maschine) [Kec01] zu trainieren. Das Modell, das durch eine SVM gelernt wird, besteht aus einer Hyperebene, anhand derer neue Links bezüglich ihrer Relevanz eingestuft werden können. Dazu werden Links in einen Feature-Vector überführt und somit in einen Vector Space abgebildet. Wie bereits in Kapitel 1.1 erwähnt, bestehen die Features eines Links aus den Wörtern im Anchortext und in den Tag-Attributen „alt“ und „title“, sowie den Eigenschaften, ob ein Bild in dem Anchor enthalten ist und ob die verlinkte Datei auf „.pdf“ endet. Sollte ein Bild im Anchor benutzt werden, so wird auch deren Dateiname als Feature aufgenommen. Wie anhand der korrekt annotierter Trainingsdaten die Hyperebene ermittelt wird, würde den Rahmen dieser Arbeit überschreiten. Nachdem in der Trainingsphase das Modell für die Support Vector Maschine gelernt wurde, können neue Links klassifiziert werden. Dazu werden auch diese in einen Feature-Vector überführt. Abhängig davon, auf welcher Seite bezüglich der Hyperebene sich der Vektor befindet, wird der Link als relevant eingestuft (siehe Abbildung 5). Als Implementation für die Support Vector Maschine wurde jlibsvm6 von David Sör- gel verwendet, eine Javaportierung der in C geschriebenen LIBSVM[CL11]. Dabei stehen neben der linearen Kernelfunktionen auch andere Kernelfunktionen zur Verfügung, wie beispielsweise der Gaussian-RBF-Kernel oder ein Polynomial-Kernel. Diese sind beson- ders dafür geeignet nicht linear trennbare Klassen zu separieren, da die Trennebene keine Hyperebene sein muss. Dafür besteht allerdings die erhöhte Gefahr des Overfittings, da die beiden Kernel einen zusätzlichen Parameter besitzen, der frei gewählt werden kann. Aus diesem Grund wurde für die Evaluation die lineare Kernelfunktion gewählt, so dass nur ein freier Parameter besteht. Dieser Parameter C gibt an, wie sehr eine Fehlklassi- fikation eines einzelnen Links bestraft werden soll. Kleine Werte für C erhöhen die An- zahl an Fehlklassifikation in der Trainingsmenge, können dadurch aber ein Overfitting verhindern. Hohe Werte hingegen verringern die Anzahl an Fehlklassifikationen in den Trainingsdaten[Joa02]. 5.1.2 Ergebnisse Um einen guten Wert für C zu ermitteln, wurden mehrere Läufe durchgeführt mit C = 2i für i ∈ [−3, −2, . . . , 5] (Siehe Abbildung 6). Dabei zeigt sich, dass im Falle der Cross- Validation ein niedriger Wert für C sinnvoll ist. Das lässt sich dadurch erklären, dass die Daten in der Trainings- und Evaluationsmenge ähnlich sind und somit das Problem des Overfittings nicht gegeben ist. Anders verhält es sich bei dem Cross-Learning. Da in diesem Fall Seiten eines Publishers immer nur in der Trainings- oder Evaluationsmenge 6 http://dev.davidsoergel.com/trac/jlibsvm/ 14
Abbildung 5: Die Abbildung zeigt einen zweidimensionalen Featureraum. Die rote Li- nie entspricht der gelernten Hyperebene einer SVM, die die Entitäten in zwei Gruppen (gelb/blau) teilt. enthalten sind, sind die Mengen heterogener und es ist sinnvoller einen höheren Wert für C zu wählen. Den besten Mittelwert bei der Cross-Validation und dem Cross-Learning ergibt das Setzen von C auf den Wert 1. Dieses Ergebnis entspricht auch der Aussage in [SJA99], die besagt, dass bei Features mit Werten im Intervall [0, B] das Setzen von C auf den Wert von B sinnvoll ist. Da in unserem Fall alle Werte 0 oder 1 sind, entspricht B genau 1. In Abbildung 7 und 8 sieht man das Ergebnis der Evaluation für die fünf Läufe jeweils für die Cross-Validation und das Cross-Learning mit Precision, Recall und F-Meature. Es zeigt sich, dass die Ergebnisse der Cross-Validation (F-Meature: 95,86 %) besser sind, als die des Cross-Learning (82,38 %). Das lässt sich damit erklären, dass bei der Cross- Validation in der Trainingsmenge sehr ähnliche Links wie in der Evaluationsmenge ent- halten sind. Das Ergebis von 82,38 % beim Cross-Learning zeigt allerdings auch, dass der Aufbau der relevanten Links bei verschiedenen Publishern durchaus ähnlich ist. 15
Abbildung 6: Das Diagramm zeigt die Veränderung der F-Meature von Cross-Learning und Cross-Validation für verschiedene Werte des Parameters C. Der höchste durchschnitt- liche F-Meature liegt bei 89,12 % für C = 1,0. 5.1.3 Fehleranalyse Bei der Cross-Validation gab es insgesamt 6 False Positives, also Links, die eigentlich nicht relevant sind, aber von der SVM als relevant eingestuft wurden. Diese Menge wurde mit den Angaben der Annotatoren verglichen. Dabei stellte sich heraus, dass drei der sechs Links von einem der Annotatoren als relevant angegeben wurden, aber nicht von dem zweiten Annotator. Es sind genau die drei Links, die eigentlich auf den Volltext verweisen sollten, aber auf der Seite vermerkt war, dass der Volltext noch nicht verfügbar ist. Beim Cross-Learning waren es 65 fälschlicherweise als relevant klassifizierte Links. Davon wurden acht Links vom ersten Annotator als relevant eingestuft. Dazu gehören zwei Links, die auf ein XML verweisen, drei Links mit dem Linktext „Enhanced Full Text“ und die drei Links, die auch schon bei der Cross-Validation falsch eingestuft wurden. Außerdem befindet sich unter den 65 Links ein Link, der nur vom zweiten Annotator als relevant angegeben wurde, der aber nur auf das xml-Dokument für den Abstract des Artikels ver- weist. 5 der 6 False Positives aus der Cross-Validation mit der SVM wurden auch beim Cross-Learning falsch klassifiziert. Die SVM klassifizierte beim Cross-Learning außerdem 57 Links fälschlicherweise als irrele- vant, bei der Cross-Validierung waren es lediglich 22. Dabei fällt auf, dass die Schnittmen- ge beider False Negative-Mengen mit 19 Links sehr hoch ist. Somit sind Links, die bei der Cross-Validierung schwer zu klassifizieren sind, auch beim Cross-Learning problematisch. 16
Abbildung 7: Das Diagramm zeigt Precision, Recall und F-Meature der 5 Läufe der 5-fold Cross-Validation mit einer SVM für C = 1,0. Eine genaue Betrachtung der Links aus den False-Negative- und False-Positive-Mengen wird in Kapitel 5.2.3 durchgeführt. 5.2 Klassifizierung durch einen Naive-Bayes-Klassifikator 5.2.1 Grundlagen Neben der Klassifizierung durch eine SVM wurde auch ein Naive-Bayes-Klassifikator [Mit97] benutzt. Dabei wird einem Link l eine Klasse c zugeordnet, bei der die beding- te Wahrscheinlichkeit p(c|l) am größten ist unter allen Klassen ci . Im gegeben Fall gibt es genau zwei Klassen, nämlich die Klasse der relevanten Links crelevant und die Klasse der irrelevanten Links cirrelevant . Unter Verwendung von Bayes Theorem lässt sich p(c|l) folgendermaßen umformen: p(l|c) · p(c) p(c|l) = p(l) Da p(l) unabhängig von der Klasse c ist und nach dem höchsten Wert für p(c|l) gesucht wird, kann dieser Faktor vernachlässigt werden. p(l|c) · p(c) p(c|l) = p(l) ≈ p(l|c) · p(c) Wie auch bei der Benutzung einer SVM, wird ein Link bei der Naive Bayes Methode durch seine Features repräsentiert. Beim Naive Bayes Ansatz wird davon ausgegangen, 17
Abbildung 8: Das Diagramm zeigt Precision, Recall und F-Meature der 5 Läufe des 5-fold Cross-Learning mit einer SVM für C = 1,0. dass sich die Features gegenseitig nicht bedingen, wodurch folgende Umformung möglich ist: p(c|l) ≈ p(l|c) · p(c) ≈ p(f1 (l), f2 (l), . . . , fn (l)|c) · p(c) ≈ p(f1 (l)|c) · p(f2 (l)|c) · . . . · p(fn (l)|c) · p(c) Die sich ergebenden Terme der bedingten Wahrscheinlichkeiten eines Wertes für ein Fea- ture gegeben eine Klasse c (p(fi (l)|c)) und die Wahrscheinlichkeit einer Klasse p(c) lassen sich durch die Trainingsdaten approximieren. p(c) wird dabei durch die relative Häufig- keit ersetzt, dass ein Link in der Trainingsmenge der Klasse c zugewiesen wurde und (p(fi (l)|c)) entspricht der relativen Häufigkeit, dass ein Link der Klasse c bei dem i-ten Feature den Wert fi (l) hat. Es wird ein λ-Smoothing [Mit97] durchgeführt, so dass im Falle von p(fi (l)|c) = 0 nicht der Wert 0 benutzt wird, sondern ein konstant gewähltes λ. Dadurch wird verhindert, dass die Gesamtwahrscheinlichkeit von p(c|l) auf 0 fällt, sobald ein p(fi (l)|c) = 0 gilt. 5.2.2 Ergebnisse In Abbildung 9 und 10 sind die Ergebnisse der Evaluation mit dem Naive-Bayes-Klassifikator zu sehen. Die durchschnittlichen F-Meatures liegen dabei bei 93,13% für die Cross-Validation und 84,37% für das Cross-Learning. Somit unterscheiden sich die beiden Klassifikatoren 18
Abbildung 9: Das Diagramm zeigt Precision, Recall und F-Meature der 5 Läufe der 5-fold Cross-Validation mit einem Naive-Bayes-Klassifikator. von SVM und Naive-Bayes nicht besonderlich. Während der Naive-Bayes-Klassifikator im Fall des Cross-Learning um knapp 2% besser abschneidet, ist die SVM in der Cross- Validation um 2,7 Prozentpunkte besser. 5.2.3 Fehleranalsye In den Recall-Werten liegen die Ergebnisse der Naive-Bayes-Klassifikatoren hinter denen der SVM. Dies ergibt sich aus einer größeren Menge an False Negatives. Bei der Cross- Validation sind es 28 statt 22 und beim Cross-Learning 59 statt 57 fälschlicherweise als irrelevant angegebene Links. Die 28 False Negatives bei der Cross-Validation sind auch unter den 59 Links für das Cross-Learning. Die Schnittmenge der False Negatives bei der Cross-Validation zwischen dem Naive-Bayes-Klassifikator und der SVM liegt bei 20 von 22 bzw. 28 Links, beim Cross-Learning sind es 43 von 57 beziehungsweise 59 Links. Somit lässt sich sagen, dass die beiden Klassifikatoren sehr ähnliche Fehler bei der Klassifizierung machen in Bezug auf die False Negatives. Insgesamt wurden 73 Links mindestens ein Mal fälschlicher Weise als irrelevant angegeben. Davon bestehen 27 Links nur aus einem Bild, ohne weitere Wörter. Die Dateinamen dieser Bilder lauten „pdf1“, „full“, „full_1“, „bu_fulltext“, „xml“, „pdficonsmall“. In 10 Fällen bestand der Linktext nur aus dem Dateinamen der Verlinkten Datei wie beispielsweise „emm035-05-13.pdf“. In weiteren 10 Fällen bestand der Linktext aus dem Titel des Papers und der ausschlaggebene Hinweis „Downloads“ stand in der Überschrift über dem Link. 19
Abbildung 10: Das Diagramm zeigt Precision, Recall und F-Meature der 5 Läufe des 5-fold Cross-Learning mit einem Naive-Bayes-Klassifikator. Die restlichen Links hatten Texte wie „pdf in english“, „article in xml format“, „free article“ und „download xml“. Diese wurden allerdings immer nur in einem Fall falsch zugeordnet, wahlweise von der SVM oder dem Naive-Bayes-Klassifikator im Falle des Cross-Learnings. Unter den 19 False Positives des Naive-Bayes-Klassifikators bei der Cross-Validation waren 6 Links nicht relevant, da sie nur von einem der Annotatoren angegeben wurden, beim Cross-Learning waren es 9 von 45 Links. Dabei wurden die 19 False Positives aus der Cross-Validation auch beim Cross-Learning falsch klassifiziert. Die Überschneidung der fehlerhaften Klassifikationen zwischen der SVM und dem Naive-Bayes-Klassifikator ist bei den False Positives nicht so stark, wie bei den False Negatives. Von den 66 False Positives bei der SVM und den 45 False Positives beim Naive-Bayes-Klassifikator besteht eine Überschneidung von 18 Links. Somit ergibt sich eine Menge von 93 Links, die mindestens ein Mal fälschlicher Weise als relevant angegeben wurden. Entfernt man die Links, die von genau einem der beiden Annotatoren als relevant angegeben wurden, so verbleiben 81 Links. Darunter sind 16 Links auf Abstracts der Article, 10 Links auf andere Features für den Artikel wie eTOC Alerts und Article Citations, 11 Links zu Downloadseiten für Zusatzsoftware wie beispielsweise dem Acrobat Reader und 6 Links auf das Journal, in dem der Artikel enthalten ist. Interessant ist, dass unter den 81 False Positives auch 20 Links sind, die zwar nicht als relevant von den Annotatoren angegeben wurden, aber trotzdem auf den Volltext verweisen. Dabei ist dieser Link aber nur ein weiterer Link, der zusätzlich auf den Volltext verweist. 20
5.3 Features mit hohem Einfluss Bei dem Verfahren des Naive Bayes lassen sich die Features angeben, die am einflussreichen bei der Zuweisung zu einer Klasse sind. Diese entsprechen genau den Features, bei denen die Differenz zwischen p(fi (l)|cirrelevant ) und p(fi (l)|crelevant ) am höchsten ist. Die Diffe- renz gibt somit den Einflussfaktor eines Features an. Ist dabei der Wert p(fi (l)|crelevant ) größer als p(fi (l)|cirrelevant ), so ist das Feature repräsentativ für die Klasse crelevant , ist er aber kleiner, so handelt es sich bei dem Feature um einen Repräsentanten für die Klasse cirrelevant . Am Beispiel der Ergebnisse des Cross-Learning, bei der nur PDF-Dokumente als relevant angesehen werden, wurden für jeden der fünf Läufe die zehn Features mit dem höchsten Einflussfaktor ermittelt. Dabei wurde unterschieden zwischen den Repräsentanten der bei- den verschiedenen Klassen. Abbildung 11 zeigt die Features an, die bei allen Läufen unter den Top-10 der Repräsentanten der Klasse crelevant waren, zusammen mit ihrem Einfluss- faktor. Im Gegensatz dazu gab es keine signifikanten Repräsentanten für die Klasse cirrelevant . Das lässt sich mit der Heterogenität der irrelevanten Links erklären. Diese beinhalten sowohl Links im Menü, als auch Links auf andere Publisher und Werbeblöcke. Dadurch sind auch die benutzten Wörter in solchen Links sehr unterschiedlich. 21
Abbildung 11: Die Features, die für die Kategorie crelevant am einflussreichsten sind, bei der nur Links auf PDF-Dokumente als relevant angesehen werden. Angezeigt wird die Diffe- renz zwischen p(fi (l)|cirrelevant ) und p(fi (l)|crelevant ), wobei in diesem Fall p(fi (l)|crelevant ) jeweils größer ist als p(fi (l)|cirrelevant ). Die Features „EndsWithPDF“ und „hasIMG“ ent- sprechen den Eigenschaften des Links, ob die verlinkte Datei auf pdf endet, beziehungs- weise ob der Link in einem Bild enthalten ist. 22
keine Angaben unerwünscht gestattet gesamt 117 52 121 in % 40,3 17,9 41,7 Tabelle 6: Aufteilung der Links anhand der Angaben in den robots.txt. Existiert keine robots.txt für die Domain, so wird der Link unter „keine Angaben“ eingestuft. 6 Schlussbetrachtung Diese Arbeit konnte zeigen, dass neben dem Zugriff auf PubMed Central auch eine andere Möglichkeit besteht, die Volltexte von Artikeln von PubMed zu erhalten. Dabei kann eine größere Menge von Volltexten erzeugt werden als durch den FTP-Service von PubMed Central, bei der allerdings das Problem der unterschiedlichen Dateiformate und Texten in PDF-Dokumenten behoben werden muss. Die F-Meature-Werte von bis zu 95% bei der Benutzung einer SVM zeigen dabei, dass die Einstufung in relevante und nicht relevante Links sehr gut durchführbar ist, was sich darauf zurückführen lässt, dass für relevante Links oftmals ähnliche Wörter benutzt werden wie „pdf“ oder „article“. Auch andere Fea- tures sind hilfreich bei der Einstufung, wie beispielsweise, ob der Verweis des Links auf „.pdf“ endet. Der Vergleich der Ergebnisse von Cross-Validation und Cross-Learning legen nahe, dass in den Trainingsdaten möglichst viele Verlage vertreten sein sollten, da somit die besonderen Eigenschaften Einfluss nehmen können in die Einstufung. Dies sorgt für einen Anstieg der F-Meaturewerte von 82 auf 95 %. 6.1 Umgang mit robots.txt Wie bereits erwähnt, sollte beim automatischen Herunterladen der Inhalte von Webseiten auf die Forderungen der Anbieter geachtet werden, um sich vor rechtlichen Maßnahmen zu schützen. In welcher Form diese Forderungen angegeben werden, kann unterschiedlich sein. Durchgesetzt hat sich allerdings die Nutzung des Robots Exclusion Standards in Form einer robots.txt [Pea98]. Dabei handelt es sich weniger um eine Sperre als eher eine Richtlinie. Darin können Webseitenbetreiber angeben, welche Seiten automatisch von Webcrawlern heruntergeladen und indexiert werden dürfen. Die vordefinierte Syntax erlaubt es, die Datei automatisch zu verarbeiten. Die 290 verschiedenen Links (unter den 345 als relevant angegebenen Links befinden sich Duplikate), die von den beiden wissenschaftlichen Mitarbeitern als relevant angegeben wurden, verteilen sich auf 60 Domains. Von diesen 60 Domains haben 26 keine robots.txt erstellt. Dadurch können nur für 173 Links überprüft werden, ob Regeln bestehen, die das automatische Herunterladen verbieten. Dies ist bei 52 Links der Fall, für die restlichen 121 Links bestehen keine Regeln, die das Herunterladen verbieten (Siehe Tabelle 6). Unterlässt man nur das Herunterladen der Dateien, die explizit für Webcrawler gesperrt sind, und behält dabei die Dateien der Domain, für die keine robots.txt existiert, so bleiben 82,1 %. 23
Abbildung 12: Beispiel für Links mit Bildern, in denen die Begriffe PDF oder XML stehen. Entnommen von http://jkms.org/DOIx.php?id=10.3346/jkms.2003.18.1.69 Rechnet man diesen Anteil auf die 3,7 Mio. Artikel bei PubMed mit frei verfügbaren Volltexten hoch, so erhält man eine Menge von 3 Mio. Auch wenn diese Zahl durch die geringe Stichprobe nicht dem exakten Wert entsprechen wird, so bietet es einen Ansatz darauf, dass eine Vielzahl an kostenlosen Volltexten ohne Missachtung der robots.txt verfügbar sind. 6.2 Future Work Zwei mögliche Ansätze werden in dieser Studienarbeit nicht weiter betrachtet. Einerseits könnten die Bilder, die in einem Anchor verwendet werden, mit einem OCR- Tool analysiert werden um so zu erkennen, ob im Bild die Worte „PDF“ oder „XML“ verwendet werden . Dies könnte die Erkennung der richtigen Links auf einer Seite verbes- sern (Siehe Abbildung 12). Andererseits könnte, wie in Kapitel 1.1 bereits beschrieben, mit Hilfe von Boilerplate Detection [KFN10] der Volltext extrahiert und als Klartext zu gespeichert werden, wenn 24
dieser direkt auf einer verlinkten Seite eingebettet ist. Um die Klassifikation der relevan- ten Blöcke auf der Internetseite zu verbessern, könnte dabei auf das womöglich schon entdeckte Pdf-Dokument zurückgegriffen werden. 25
7 Danksagung Besonderer Dank gilt meinen Freunden Arne Binder und Ralf Havemann, die sich bereit erklärt habe, die nötigen Annotationsaufgaben zu übernehmen, die benötigt wurden, um die SVM- und Naive Bayes-Modelle zu lernen und zu evaluieren. 26
8 Appendix Liste der benutzten Verlage für die Trainingsdaten: • American Academy of Family Physi- • First Affiliated Hospital, Zhejiang cians University School of Medicine • Arthur C Huntley MD, California Di- • Fundacao de Pesquisas Cientificas de gital Library Ribeirao Preto • Asian Pacific Organization for Cancer • Hindawi Publishing Corporation Prevention • Hong Kong Academy of Medicine • Australian Family Physician Press • Aves Yayincilik • Hormones • Baishideng Publishing Group Co., Li- • IAVI Report mited • Indian Pediatrics • Baskent University, Publishers • Institute of Rural Health • Biochemistry (Moscow) • International Braz J Urol • BioMed Central • Inter-Research Science Center • Blackwell Publishing • Istituto zooprofilattico sperimentale • Canadian Association of Emergency dell Abruzzo e del Molise G. Caporale Physicians • Iuliu Hatieganu Medical Publishing House • Canadian Dental Association • John Libbey Eurotext • Canadian Society for Pharmaceutical Sciences • John Wiley & Sons, Inc. • CDC - Morbidity and Mortality Wee- • JOP. Journal of the Pancreas (Online) kly Report • KoreaMed • Chinese Medical Association Publis- • Korean Society for Biochemistry & hing House Molecular Biology • Department of Veterans Affairs, Re- • Korean Society for Biochemistry and habilitation Research & Development Molecular Biology Service • Landes Bioscience • European Centre for Disease Preven- tion and Control (ECDC) • Longwoods Publishing 27
• LookUs Bilisim • Shanghai Association of Integrative Medicine;Shanghai Changhai Hospi- • Masson (France) tal,China • Medical Journals • Shanghai Scientific and Technical Pu- • Medycyna Praktyczna blishers • Molecular Vision • The Alan Guttmacher Institute • National Coordinating Centre for He- • The International Journal of Develop- alth Technology Assessment mental Biology • Nature Publishing Group • The Journal of Infection in Developing Countries • Pacific Sympsium On Biocomputing • The Korean Association of Internal • Pain Physician Medicine • Portland Press • The Korean Society for Parasitology • Primary Care Respiratory Society UK • The Korean Spciety for Microbiology and Biotechnology. • Scandinavian Journal of Work, Envi- ronment & Health • US Food & Drug Administration • Scientific Electronic Library Online • Yonsei University College of Medicine 28
Literatur [CDR+ 98] Chakrabarti, S. ; Dom, B. ; Raghavan, P. ; Rajagopalan, S. ; Gib- son, D. ; Kleinberg, J.: Automatic resource compilation by analyzing hyper- link structure and associated text. In: Computer Networks and ISDN Systems 30 (1998), Nr. 1, 65–74. http://www.sciencedirect.com/science/article/ pii/S0169755298000877 [CL11] Chang, Chih-Chung ; Lin, Chih-Jen: LIBSVM: A library for support vec- tor machines. In: ACM Transactions on Intelligent Systems and Technology 2 (2011), S. 27:1–27:27. – Software available at http://www.csie.ntu.edu.tw/ ~cjlin/libsvm [CPS02] Chakrabarti, S. ; Punera, K. ; Subramanyam, M.: Accelerated focused crawling through online relevance feedback. In: Proceedings of the 11th interna- tional conference on World Wide Web, 2002, 148–159 [FPMP08] Falagas, M. E. ; Pitsouni, E. I. ; Malietzis, G. A. ; Pappas, G.: Com- parison of PubMed, Scopus, web of science, and Google scholar: strengths and weaknesses. In: The FASEB Journal 22 (2008), Nr. 2, S. 338–342 [Joa02] Joachims, T.: Learning to Classify Text Using Support Vector Machines. Klu- wer Acad. Publ., 2002 (The Springer International Series in Engineering and Computer Science Series). – 40 S. http://books.google.de/books?id= GNTZjXHjB7kC. – ISBN 9780792376798 [Kec01] Kecman, Vojislav: Learning and soft computing: support vector machines, neural networks, and fuzzy logic models. The MIT press, 2001. – 121–192 S. [KFN10] Kohlschütter, C. ; Fankhauser, P. ; Nejdl, W.: Boilerplate detection using shallow text features. In: Proceedings of the third ACM international conference on Web search and data mining, 2010, 441–450 [McB94] McBryan, O. A.: GENVL and WWWW: Tools for taming the web. In: Pro- ceedings of the First International World Wide Web Conference Bd. 341, 1994 [Mit97] Mitchell, Tom: Machine Learning. New York : McGraw-Hill, 1997. – 154–200 S. – ISBN 0070428077 [ML01] McEntyre, J. ; Lipman, D.: PubMed: bridging the information gap. In: Canadian Medical Association Journal 164 (2001), Nr. 9, 1317–1319. http: //www.ecmaj.ca/content/164/9/1317.short 29
[Pan03] Pant, G.: Deriving link-context from HTML tag tree. In: Proceedings of the 8th ACM SIGMOD workshop on Research issues in data mining and knowledge discovery, 2003, 49–55 [Pea98] Peacock, Ian: Showing Robots the Door. In: Ariadne (1998), Nr. 15. http: //www.ariadne.ac.uk/issue15/robots [SJA99] Scholkopf, C. ; Jc, Burges ; Aj, Smola ; Press, M. I. T. (Hrsg.): Advances in Kernel Methods. MIT Press, 1999. – 226–227 S. 9 Eidesstattliche Erklärung Hiermit versichere ich (Martin Beckmann), dass ich diese Arbeit selbstständig verfasst ha- be und keine außer den im Anhang angegebenen Quellen und Hilfsmitteln genutzt habe. Alle Formulierungen und Tabellen die anderen Quellen wörtlich oder sinngemäß entnom- men wurden, sind kenntlich gemacht. Ebenso sind alle Bilder und Graphiken kenntlich gemacht, die direkt übernommen oder äquivalent reproduziert wurden. 30
Sie können auch lesen