Extraktion von durch PubMed verlinkten Volltexten mit Hilfe von Machine Learning - Studienarbeit

Die Seite wird erstellt Melina Winkler
 
WEITER LESEN
Extraktion von durch PubMed verlinkten Volltexten mit Hilfe von Machine Learning - Studienarbeit
Mathematisch Naturwissenschaftliche Fakultät II
Institut für Informatik

 Extraktion von durch PubMed verlinkten
 Volltexten mit Hilfe von Machine Learning
                      Studienarbeit
                    Betreuer: Ulf Leser

                     Martin Beckmann

                       30. April 2013
Extraktion von durch PubMed verlinkten Volltexten mit Hilfe von Machine Learning - Studienarbeit
Inhaltsverzeichnis
1 Einleitung                                                                                                      2
  1.1 Idee . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .                          4

2 Related Work                                                                                                    5

3 LinkOuts                                                                                                         6

4 Trainingsdaten                                                                                                   9

5 Evaluation                                                                                                      13
  5.1 Klassifizierung durch eine Support Vector Maschine .        .   .   .   .   .   .   .   .   .   .   .   .   14
      5.1.1 Grundlagen . . . . . . . . . . . . . . . . . . .      .   .   .   .   .   .   .   .   .   .   .   .   14
      5.1.2 Ergebnisse . . . . . . . . . . . . . . . . . . . .    .   .   .   .   .   .   .   .   .   .   .   .   14
      5.1.3 Fehleranalyse . . . . . . . . . . . . . . . . . .     .   .   .   .   .   .   .   .   .   .   .   .   16
  5.2 Klassifizierung durch einen Naive-Bayes-Klassifikator       .   .   .   .   .   .   .   .   .   .   .   .   17
      5.2.1 Grundlagen . . . . . . . . . . . . . . . . . . .      .   .   .   .   .   .   .   .   .   .   .   .   17
      5.2.2 Ergebnisse . . . . . . . . . . . . . . . . . . . .    .   .   .   .   .   .   .   .   .   .   .   .   18
      5.2.3 Fehleranalsye . . . . . . . . . . . . . . . . . .     .   .   .   .   .   .   .   .   .   .   .   .   19
  5.3 Features mit hohem Einfluss . . . . . . . . . . . . . .     .   .   .   .   .   .   .   .   .   .   .   .   21

6 Schlussbetrachtung                                                                    23
  6.1 Umgang mit robots.txt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
  6.2 Future Work . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

7 Danksagung                                                                                                      26

8 Appendix                                                                                                        27

9 Eidesstattliche Erklärung                                                                                       30

                                             1
1       Einleitung
Um in der Forschung die bestehenden Erkenntnissen zu einem gewählten Thema zu er-
halten, besteht der erste Schritt meist darin, sich einen Überblick über bestehende Pu-
blikationen zum Thema zu verschaffen. Im biomedizinischen Bereich wird dabei meist
PubMed als Anlaufstelle genutzt [FPMP08]. Diese Datenbank verfügt über knapp 18
Millionen englische Artikel 1 , zu denen bei circa 12 Millionen Artikeln die Abstracts vor-
handen sind. Abstracts bieten eine gute Zusammenfassung der Thematik des Artikels.
Einen Mehrwert an Informationen gegenüber diesen Abstracts haben aber die Volltex-
te zu den Artikeln, wobei PubMed hierfür auf andere Seiten verlinkt mit sogenannten
LinkOuts [ML01]. LinkOuts sind Verweise auf andere Seiten und Datenbanken, in denen
weiterführende Informationen zum Artikel stehen. Volltexte sind aber nicht alle frei ver-
fügbar, sondern können ein Abonnement benötigen oder Geld kosten.
Die Seite PMC(PubMed Central) hat es sich zur Aufgabe gemacht, den Teil aller frei
zugänglichen Volltexte zentral verfügbar zu machen und bietet dies momentan für knapp
2,4 Millionen Artikel an2 . Sucht man aber bei PubMed nach allen englischen Artikeln mit
frei zugänglichen Volltexten, so werden ungefähr 3,7 Millionen Einträge angezeigt3 . Das
liegt vermutlich daran, dass sich PubMed Central mit den Verlagen der Journals abspre-
chen muss, um die Artikel anzeigen zu dürfen, während von PubMed nur auf die Seiten
der Verlage verwiesen wird. Außerdem muss beachtet werden, dass PubMed Central aus-
drücklich vorschreibt, dass die Volltexte nicht automatisch von ihrer Seite heruntergeladen
werden dürfen (das ist auch an der robots.txt [Pea98] erkennbar) und verweisen dafür auf
einen FTP-Service, der nur ungefähr 400.000 Artikel zur Verfügung stellt. Demzufolge wä-
re es wünschenswert, die frei verfügbaren Volltexte zu nutzen, die von PubMed verlinkt
werden. Voraussetzung dafür ist in jedem Fall, dass der Volltext auf der verlinkten Seite
noch extrahiert werden muss. Dieser ist meist durch einen Link auf ein Pdf-Dokument
erhältlich, kann aber auch in anderen Formen vorliegen, wie beispielsweise als Text direkt
eingebettet im HTML-Dokument. Auch dort müssen die Lizenzbedingungen der Anbieter
berücksichtigt werden.
In dieser Arbeit wird eine Idee entwickelt, implementiert und evaluiert, mit der dieses
Problem der Extraktion der Volltexte von den verlinkten Seiten gelöst werden kann. Da-
zu wird zunächst in Kapitel 1.1 der Ansatz vorgestellt. In Kapitel 2 werden Arbeiten
vorgestellt, die sich mit einer ähnlichen Aufgabe beschäftigen. Kapitel 3 erläutert das
Konzept der LinkOuts von PubMed, die benutzt werden, um auf Seiten von Publishern
für den Volltexte zu verlinken. Danach wird in Kapitel 4 beschrieben, wie Trainingsdaten
für die Aufgabe erstellt wurden und in Kapitel 5 werden die Methoden zur Problemlösung
evaluiert. Abschließend werden in Kapitel 6 die Ergebnisse der Arbeit zusammengefasst
    1
      Stand 10.12.2012
    2
      Stand 10.12.2012
    3
      siehe http://www.ncbi.nlm.nih.gov/pubmed/?term=english[language]+AND+loattrfree+full+text[sb]

                                                2
und Möglichkeiten der Verbesserung und weiterer Schritte vorgestellt. Da auch bei den
Seiten der Publisher darauf geachtet werden muss, welche Inhalte automatisch erfasst
werden dürfen, beschäftigt sich das Unterkapitel 6.1 mit der Analyse der verschiedenen
robots.txt’s.

                                          3
1.1       Idee
Wenn ein LinkOut von PubMed zu einem Verlag verfolgt wird, besteht das Problem dar-
in, auf der Seite den Link zur gewünschten Datei zu finden (sei es ein Pdf-Dokument
oder eine Datei im XML-Format). Es kann auch der Fall auftreten, dass kein solcher Link
existiert, da der Artikel womöglich als Klartext im HTML-Code enthalten ist. In diesem
speziellen Fall besteht die Möglichkeit, mit Hilfe von Boilerplate Detection [KFN10], den
Artikel zu isolieren und als Klartext zu speichern. Diese Herangehensweise ermöglicht es
auch mit Seiten zu arbeiten, die gar keinen Link auf Pdf- oder XML-Dokumente besitzen.
Ist ein solcher Link allerdings vorhanden, so ist für das Finden des richtigen Links ei-
ne Klassifikation sinnvoll, um nur die erfolgsversprechenden Links zu betrachten. So ist
instinktiv klar, das eine verlinkte Datei, die auf „.pdf“ endet, der gewünschte Volltext
im Pdf-Format sein könnte. Es ist auch ersichtlich, dass ein Anchor mit dem Text „free
full text“ mit hoher Wahrscheinlichkeit auf eine Datei mit dem Volltext verweist. Dass
diese beide Eigenschaften nicht notwendig sind, sieht man auf einer Internetseite von
Dovepress 4 . Darin besitzt der Anchor keinen Text, sondern nur ein Bild, und der Link
(„http://www.dovepress.com/getfile.php?fileID=14210“) endet auch nicht auf „.pdf“, auch
wenn es auf ein Pdf-Dokument verlinkt.
Insgesamt können zum Beispiel folgende Features zur Beschreibung von Links hilfreich
sein:

       • Endet der Link auf „.pdf“?

       • Welche Wörter werden in dem Anchortext und darum herum verwendet?

       • Welche Begriffe werden in den möglichen Tag-Attributen „alt“ und „title“ benutzt?

       • Ist in dem Anchor ein Bild statt eines Textes?

       • Sollte der Anchor ein Bild beinhalten, welchen Dateinamen hat dieses Bild dann?

Diese Eigenschaften werden dabei als binäre Features abgebildet. Im Falle der benutzen
Wörter im Anchortext wird eine Menge von binären Werten eingeführt, die für jedes Wort
angeben, ob es im Text enthalten ist oder nicht. Die Benutzung des TF-IDF-Scores der
Wörter wäre auch denkbar gewesen, bei dem sowohl die Häufigkeit eines Wortes bei einem
gegebenen Link berücksichtigt wird, als auch die Häufigkeit, das das Wort bei anderen
Links auftaucht. Dies wurde in dieser Arbeit allerdings nicht gemacht, da ein gegebenes
Wort bei einem Link meist nur ein einziges Mal auftaucht.
Um die Klassifikation automatisch durchführen zu können, soll anhand einer manuell
annotierten Trainingsmenge eine SVM und ein Naive-Bayes-Klassifikator gelernt werden.

   4
    http://www.dovepress.com/overcoming-resistance-and-barriers-to-the-use-of-local-estrogen-therap-
peer-reviewed-article-IJWH

                                                  4
2    Related Work
Nach unserer Kenntnis wurde in der vergangenen Zeit keine Arbeit veröffentlicht, die sich
ebenfalls mit dem Erkennen von Links zu Volltexten der in PubMed angebotenen biome-
dizinischen Artikel beschäftigt. Die Aufgabe lässt sich am ehesten mit der eines Focused
Crawler vergleichen. Bei einem solchen Crawler geht es darum, für ein gegebenes Thema
relevante Seiten aus dem Internet zu finden, indem nach und nach einzelne Internetseiten
heruntergeladen und darin befindliche Links weiter untersucht werden. Die Suche ist fo-
kussiert, da nur solche Links weiter verfolgt werden sollen, die als relevant angenommen
werden. Die in dieser Arbeit anfallende Aufgabe für eine gegebene Seite den relevanten
Link (oder Links) zu finden, entspricht also einem Focused Crawler, der bei einer Tiefe
von 1 abbricht.
Auch bei Focused Crawler wird oft der Text eines Anchors oder der darum befindliche
Text genutzt, um die Relevanz des Links zu bestimmen. Dabei kann sich der benutz-
te Text auf den Anchortext beschränken [McB94]. Oft wird stattdessen auch ein Fens-
ter einer bestimmten Größe um den Anchor herum gewählt [CDR+ 98]. Bezieht man die
strukturellen Informationen, die durch die HTML-Tags gegeben sind, mit ein, so können
die Wörter in den „umliegenden“ Textblöcken in Verbindung mit dem jeweiligen Ab-
stand als Features benutzt werden [CPS02]. In [Pan03] wird anhand des DOM-Trees ein
aggregation-path gebildet vom Anchor bis zum root-Element (dem HTML-Tag). Somit
konnte überprüft werden, welches Element auf dem aggregation-path am besten einen ge-
gebenen Link repräsentiert. Zur Evaluation des Verfahrens von [Pan03] wurden manuell
Zusammenfassungen der verlinkten Seiten erstellt und die Ähnlichkeit der Linkkontexte
zu der Beschreibung der verlinkten Seite berechnet. Dabei stellte der Autor fest, dass
beim Benutzen des Anchortext ein höherer durchschnittlicher Ähnlichkeitswert berechnet
wird, als wenn man Knoten nimmt, die höher aggregation-path liegen. Dafür besteht aber
eine höhere Wahrscheinlichkeit für Zero-Simularity. Er stellte fest, dass der nächsthöhere
Knoten des Anchors einen guten Kompromiss geben würde.

                                            5
Abbildung 1: Anzeige zu einem Artikel bei PubMed. Die LinkOuts sind rot markiert.
Unten links werden alle vorhandenen LinkOuts angezeigt, während oben rechts die bevor-
zugten Links stehen.

3         LinkOuts
Um für einen biomedizinischen Artikel nicht nur die Abstracts zu erhalten, sondern den
gesamten Volltext, verweist PubMed mit sogenannten LinkOuts auf Seiten von anderen
Anbietern. Diese LinkOuts sieht man einerseits direkt auf der Seite von PubMed zu dem
Artikel (Siehe Abbildung 1). Andererseits können die von PubMed zur Verfügung gestell-
ten E-Utilities 5 genutzt werden. Der Vorteil an den E-Utilities besteht darin, dass man
sich gleichzeitig für mehrere Artikel die LinkOuts zurückgeben lassen kann. Dazu sendet
man einen Request an eine fcgi-Seite von PubMed und gibt als Parameter eine Liste von
PMIDs an. Eine PMID (PubMed-ID) ist eine eindeutige ID für einen Artikel. Als Resultat
erhält man ein XML-Dokument mit den gewünschten LinkOuts (siehe Abbildung 2).
    5
        Für eine Einführung, siehe http://www.ncbi.nlm.nih.gov/books/NBK25500/

                                                   6
Abbildung 2: Beispiel für die zurückgegebene XML-Datei bei der Suche nach LinkOuts mit
Hilfe von E-Utilities. Für jede PMID wird ein IdUrlSet-Knoten erstellt (in diesem Fall nur
einer), der wiederum für jeden LinkOut einen ObjUrl-Knoten enthält. Zu den LinkOuts
werden zusätzliche Informationen in Form von Category und Attributes angegeben.

 Wie in Abbildung 2 erkennbar ist, werden LinkOuts in verschiedene Kategorien unterteilt.
Diese umfassen neben den Kategorien „Full Text Sources“ und „Medical“ unter anderem
noch die Kategorien „Education“, „Molecular Biology Databases“, „Chemical Informati-
on“ und „Research Materials“. Von diesen Kategorien ist für diese Arbeit nur „Full Text
Sources“ relevant.
Jeder LinkOut verfügt weiterhin über Attribute, die unter Anderem angeben, ob es sich
um eine freie Quelle handelt („free resource“), ob man sich dafür auf der Seite registrieren
muss („registration required“) oder ob man ein Abonnement haben muss beziehungswei-
se Geld dafür ausgeben („subscription/membership/fee required“). Bei der Untersuchung
von ungefähr 33000 LinkOuts der Kategorie „Full Text Sources“ für eine zufällig gewählte
Teilmenge der 3,8 Millionen englischen Artikel mit frei verfügbarem Volltext, ergab sich
die in Tabelle 1 zu sehende Verteilung. Darin kann man sehen, dass LinkOuts genau dann
das Attribut „free resource“ besitzen, wenn das Attribut „subscription/membership/fee
required“ nicht gesetzt ist. Alle anderen Ressourcen, inklusive derer, die eine Registration
benötigen, werden als kostenlos eingestuft.
Um eine automatische Extraktion des Volltextes zu gewährleisten, können Quellen, die ei-
ne Registrierung erfordern, nicht verwendet werden. Demnach werden nur solche LinkOuts
betrachtet, die zur Kategorie „Full Text Sources“ gehören, das Attribut „free resource“ be-
sitzen und weder das Attribut „subscription/membership/fee required“ noch das Attribut

                                             7
Registrierung   Abonnement     weder noch
              kostenlos                   217              0         16519
              nicht kostenlos               0          17226             0

Tabelle 1: Aufteilung der kostenlosen (mit dem Attribut „free resource“) und nicht kos-
tenlosen Artikel (ohne das Attribut „free resource“) auf die Kategorien Registration (mit
dem Attribut „registration required“), Abonnement(„subscription/membership/fee requi-
red“) und Artikel ohne beides (ohne die Attribute „registration required“ und „subscrip-
tion/membership/fee required“). Es gibt keine LinkOuts bei denen sowohl das Attribut
„registration required“ als auch das Attribut „subscription/membership/fee required“ ge-
setzt ist.

„registration required“.
Auf einer Menge von 40000 zufällig gewählten, von PubMed als englisch und frei verfügbar
angegebenen Artikeln wurde überprüft, ob auch alle diese Artikel einen für die automati-
sche Extraktion nützlichen LinkOut besitzen. Zunächst wurden alle Artikel entfernt, die
einen LinkOut zu PMC haben, da nur solche Artikel neu gefunden werden sollen, die nicht
schon über PMC zugänglich sind. Dies waren 23395 Artikel, was dem Verhältnis von 2,4
Millionen Artikeln in PMC gegenüber 3,7 Millionen Artikeln in PubMed nahe kommt.
Bei Artikeln, die auch über PubMed Central angeboten werden ist eine Extraktion über
andere Verleger nicht sinnvoll, da der Artikel entweder einfacher über den FTP-Service
von PubMed Central erhältlich ist oder aber davon auszugehen ist, dass dieser auch bei
den anderen Verlagen nicht gänzlich kostenlos erhältlich ist. Von den restlichen 16605 Ar-
tikeln hatten gerade einmal 249 Artikel keinen nützlichen LinkOut. Interessant ist, dass
von den 249 Artikeln 32 auch keine Volltextquellen hatten, wenn man die Quellen dazu
nimmt, die eine Registration verlangen.

                                            8
Annotator A    Annotator B     Übereinstimmung
              PDF                   300             278                 278
              HTML                   40              52                  29
              XML                    25              21                  19
              Sonstige                0               0                   0
              Insgesamt             365             351                 326

Tabelle 2: Aufteilung der erfassten Links der beiden Annotatoren auf die verschiedenen
Arten.

4    Trainingsdaten
Um das in Kapitel 1.1 erwähnte Lernverfahren durchführen zu können, werden voranno-
tierte Trainingsdaten benötigt. Diese positiven und negativen Beispiele für relevante Links
erlauben das Erlernen eines Modells, dass darüber entscheidet, ob ein Link relevant ist
oder nicht.
Dementsprechend wurden zwei Wissenschaftler gebeten, für eine Menge von 300 Inter-
netseiten, die von PubMed über LinkOuts verlinkt sind, alle Anchor zu markieren, die
auf Volltexte des Artikels verweisen. Zusätzlich sollten sie angeben, ob es sich bei dem
Ziel des Links um ein Pdf-Dokument handelt, XML, ein anderes Format, oder ob der
Artikel im HTML der verlinkten Seite eingebettet ist. Sollte es sich bei der von PubMed
verlinkten Seite selbst schon um ein Pdf-Dokument halten, so wird diese nicht weiter be-
rücksichtigt.
Die Trainingsmenge wurde aus den frei verfügbaren Artikeln von PubMed gewählt, wo-
bei mehrere Artikel von verschiedenen Anbietern verwendet wurden. Dadurch wird die
Trainingsmenge nicht durch einige stark vertretene Publisher dominiert und es kann eine
Cross-Validation durchgeführt werden, bei dem von jedem Publisher Artikel sowohl in der
Trainingsmenge als auch in der Evaluationsmenge sind (siehe Kapitel 5). Eine Auflistung
der verwendeten Publisher befindet sich im Appedix (Kapitel 8).
Für das Lernverfahren sollen nur die Links als relevant angesehen werden, die von beiden
Annotatoren gleichermaßen markiert wurden. Wurde der gleiche Anchor von beiden An-
notatoren mit unterschiedlichen Angaben des Formats als relevant eingestuft, so wird der
Link trotzdem als relevant eingestuft und der Typ als „sonstiges“ angegeben.
Eine weitere Besonderheit sind gleiche Links, die mehrfach auf einer Seite erscheinen (sie-
he Abbildung 3). Sollten beide Annotatoren einen der Links als relevant angeben, aber
nur einer auch den zweiten Link berücksichtigen, so soll auch für den zweiten Annotator
implizit der zweite Link als relevant angenommen werden.
 Insgesamt wurden von Annotator A 365 Links erkannt und von Annotator B 351. Eine
Übersicht über die Art der erkannten Links ist in Tabelle 2 zu sehen. Außerdem werden
auch die Überschneidungen in den erkannten Links angezeigt, bei denen sowohl der Link
selbst, als auch der Typ des Links gleich angegeben wurden. Insgesamt ergab sich eine

                                            9
Abbildung 3: Auf dieser Seite (http://onlinelibrary.wiley.com/doi/10.1002/lt.21921/abstract)
gibt es drei gleiche Links auf ein Pdf-Dokument (rote Kasten) und zwei Links auf eine
Seite, in der der Artikel im HTML eingebettet ist (blaue Kasten).

Schnittmenge von 326 Links, bei denen sich die Annotatoren sowohl einig darüber waren,
das der Link relevant sei, als auch über die Art der Zieldatei. Bei 19 der von beiden An-
notatoren als relevant erkannten Links waren sie sich uneinig über die Art des Linkziels.
Annotator A gab bei diesen 19 Links an, dass es sich um einen Link zu einem PDF handelt,
während Annotator B diesen als Link zu einem HTML-Dokument angab. Das lässt sich
dadurch erklären, dass der Linktext auf ein PDF-Dokument hinwies, die verlinkte Seite
dann aber kein PDF-Dokument war, sondern nur wiederum einen Link zum eigentlichen
PDF-Dokument enthielt.
20 Links, die von Annotator A als relevant angegeben wurden, wurden von Annotator B
nicht angegeben, anders herum waren es 6. Eine Erklärung, warum die jeweiligen Links
nicht als relevant angegeben wurden, ist in den Tabellen 3 und 4 zu sehen. Somit ergibt
sich insgesamt eine Menge von 345 Links, die als relevant angesehen werden. Eine Vertei-
lung dieser Links auf die jeweiligen Dateiarten ist in Tabelle 5 zu sehen. Neben den 345

                                           10
# an Links    Typ      Begründung
6             XML  Linktext weist auf XML hin, wird aber auf der verlinkten Seite
                   nicht angezeigt
5             HTML Linktext („Article“) weist auf Volltext hin, wird aber auf der ver-
                   linkten Seite nicht angezeigt
3             PDF  Das verlinkte PDF-Dokument beinhaltet nur den Abstract
3             HTML Die verlinkte Seite weist nur darauf hin, dass der Volltext noch
                   nicht verfügbar ist
3             HTML Linktext („Enhanced Full Text“) weist auf Volltext hin, wird aber
                   auf der verlinkten Seite nicht angezeigt

Tabelle 3: Begründung von Annotator B, warum er von Annotator A als relevant einge-
stufte Links nicht als relevant eingestuft hat.

# an Links    Typ      Begründung
2             XML  Das XML-Dokument beinhaltet nur das Abstract oder die Article
                   Citation
4             HTML Der Link verweist auf eine Seite, in der alle Artikel des Journals
                   aufgelistet sind

Tabelle 4: Begründung von Annotator A, warum er von Annotator B als relevant einge-
stufte Links nicht als relevant eingestuft hat.

relevanten Links auf den Seiten, ergibt sich eine Menge von 20830 irrelevanten Links. Wie
sich diese beiden Mengen auf die einzelnen Seiten verteilt ist in Abbildung 4 zu sehen. Der
Großteil der Seite hat bis zu 120 irrelevante Links und keine oder bis zu 2 relevante Links
(86 %). Die anderen Seiten haben entweder mehr relevante Links (insgesamt 10 Mal) oder
mehr als 120 irrelevante Links (insgesamt 32 Mal). Auf diesen 32 Seiten befindet sich
ungefähr die Hälfte der irrelevanten Links.

                                                 relevant
                                  PDF                278
                                  HTML                29
                                  XML                 19
                                  Sonstige            19
                                  Insgesamt          345

Tabelle 5: Aufteilung der als relevant eingestuften Links auf die verschiedenen Zielformate.

                                            11
Abbildung 4: Die Abbildung zeigt die Verteilung der relevanten und nicht relevanten Links
auf die 300 Internetseiten. Pro Seite gibt es bis zu 5 relevante Links und 656 irrelevante
Links.

                                           12
5     Evaluation
Wie bereits in Kapitel 4 kurz erwähnt wurde, soll eine Evaluation auf einer Menge von 300
Internetseiten durchgeführt werden, auf die von PubMed als Anbieter von Volltexten ver-
wiesen wird. Diese Seiten wurden von zwei Wissenschaftlern untersucht, so dass für jeden
Link bekannt ist, ob er relevant ist und auf welche Art von Dokument verlinkt wird. Die
300 Seiten wurden dabei so gewählt, dass von jedem Publisher gleich viele Seiten genutzt
werden, so dass eine Cross-Validation möglich ist, bei der Seiten des gleichen Publishers
sowohl in der Trainingsmenge (80 %), als auch in der Evaluationsmenge enthalten sind
(20%). Neben der Cross-Validation soll auch ein Cross-Learning durchgeführt werden, bei
dem ein gegebener Publisher entweder in der Trainingsmenge enthalten ist oder in der
Evaluationsmenge, aber nicht in beiden. Dadurch sollen die beiden Fälle simuliert werden,
in dem ein Volltext von einem bekannten Publisher oder aber von einem unbekannten Pu-
blisher extrahiert werden soll.
Die Güte der Klassifikation lässt sich anhand von Precision, Recall und F-Meature ange-
ben. Dazu werden die klassifizierten Links in vier Gruppen aufgeteilt:

    • True Positive (TP): Der Link ist relevant und wird auch als relevant klassifiziert

    • False Positive (FP): Der Link ist nicht relevant, wird aber als relevant klassifiziert

    • True Negative (TN): Der Link ist nicht relevant und wird auch als nicht relevant
      klassifiziert

    • False Negative (FN): Der Link ist relevant, wird aber als nicht relevant klassifiziert

Die Precision einer Klassifikation gibt an, wie viele der als relevant eingestuften Links
wirklich relevant sind und ergibt sich aus der Formel T PT+F
                                                           P
                                                             P
                                                               . Der Recall gibt hingegen an,
wie viele der relevanten Links als relevant erkannt wurden. Die Formel dafür ist T PT+F  P
                                                                                           N
                                                                                             .
Beide Werte liegen im Bereich von 0 bis 1 und ein Klassifikator ist gut, wenn die Werte
hoch sind.
Precision und Recall bedingen sich gegenseitig. So ist es möglich einen der beiden Werte zu
erhöhen und dabei aber den anderen zu verringern. Wenn ein Klassifikator beispielsweise
alle Links als relevant klassifiziert, so liegt der Recall bei 1, wo hingegen die Precision
bei 0 liegen wird. Andererseits wird die Precision sehr hoch, wenn nur Links als relevant
eingestuft werden, bei denen es besonders ersichtlich ist, dass der Link relevant ist. Dabei
wird wiederum der Recall gering ausfallen.
Ein Klassifikator ist somit am Besten, wenn sowohl die Precision als auch der Recall hoch
sind. Diese Eigenschaft fließt beim F-Meature ein. Dieser ergibt sich aus der Kombination
                                                   ·R
von Precision (P ) und Recall (R) wie folgt 2·P P +R
                                                      .

                                             13
5.1      Klassifizierung durch eine Support Vector Maschine
5.1.1      Grundlagen

Die Trainingsmenge wird dazu genutzt, eine SVM (Support Vector Maschine) [Kec01] zu
trainieren. Das Modell, das durch eine SVM gelernt wird, besteht aus einer Hyperebene,
anhand derer neue Links bezüglich ihrer Relevanz eingestuft werden können. Dazu werden
Links in einen Feature-Vector überführt und somit in einen Vector Space abgebildet. Wie
bereits in Kapitel 1.1 erwähnt, bestehen die Features eines Links aus den Wörtern im
Anchortext und in den Tag-Attributen „alt“ und „title“, sowie den Eigenschaften, ob ein
Bild in dem Anchor enthalten ist und ob die verlinkte Datei auf „.pdf“ endet. Sollte ein
Bild im Anchor benutzt werden, so wird auch deren Dateiname als Feature aufgenommen.
Wie anhand der korrekt annotierter Trainingsdaten die Hyperebene ermittelt wird, würde
den Rahmen dieser Arbeit überschreiten. Nachdem in der Trainingsphase das Modell für
die Support Vector Maschine gelernt wurde, können neue Links klassifiziert werden. Dazu
werden auch diese in einen Feature-Vector überführt. Abhängig davon, auf welcher Seite
bezüglich der Hyperebene sich der Vektor befindet, wird der Link als relevant eingestuft
(siehe Abbildung 5).
  Als Implementation für die Support Vector Maschine wurde jlibsvm6 von David Sör-
gel verwendet, eine Javaportierung der in C geschriebenen LIBSVM[CL11]. Dabei stehen
neben der linearen Kernelfunktionen auch andere Kernelfunktionen zur Verfügung, wie
beispielsweise der Gaussian-RBF-Kernel oder ein Polynomial-Kernel. Diese sind beson-
ders dafür geeignet nicht linear trennbare Klassen zu separieren, da die Trennebene keine
Hyperebene sein muss. Dafür besteht allerdings die erhöhte Gefahr des Overfittings, da
die beiden Kernel einen zusätzlichen Parameter besitzen, der frei gewählt werden kann.
Aus diesem Grund wurde für die Evaluation die lineare Kernelfunktion gewählt, so dass
nur ein freier Parameter besteht. Dieser Parameter C gibt an, wie sehr eine Fehlklassi-
fikation eines einzelnen Links bestraft werden soll. Kleine Werte für C erhöhen die An-
zahl an Fehlklassifikation in der Trainingsmenge, können dadurch aber ein Overfitting
verhindern. Hohe Werte hingegen verringern die Anzahl an Fehlklassifikationen in den
Trainingsdaten[Joa02].

5.1.2      Ergebnisse

Um einen guten Wert für C zu ermitteln, wurden mehrere Läufe durchgeführt mit C = 2i
für i ∈ [−3, −2, . . . , 5] (Siehe Abbildung 6). Dabei zeigt sich, dass im Falle der Cross-
Validation ein niedriger Wert für C sinnvoll ist. Das lässt sich dadurch erklären, dass
die Daten in der Trainings- und Evaluationsmenge ähnlich sind und somit das Problem
des Overfittings nicht gegeben ist. Anders verhält es sich bei dem Cross-Learning. Da in
diesem Fall Seiten eines Publishers immer nur in der Trainings- oder Evaluationsmenge
  6
      http://dev.davidsoergel.com/trac/jlibsvm/

                                                  14
Abbildung 5: Die Abbildung zeigt einen zweidimensionalen Featureraum. Die rote Li-
nie entspricht der gelernten Hyperebene einer SVM, die die Entitäten in zwei Gruppen
(gelb/blau) teilt.

enthalten sind, sind die Mengen heterogener und es ist sinnvoller einen höheren Wert für
C zu wählen. Den besten Mittelwert bei der Cross-Validation und dem Cross-Learning
ergibt das Setzen von C auf den Wert 1. Dieses Ergebnis entspricht auch der Aussage in
[SJA99], die besagt, dass bei Features mit Werten im Intervall [0, B] das Setzen von C
auf den Wert von B sinnvoll ist. Da in unserem Fall alle Werte 0 oder 1 sind, entspricht
B genau 1.
 In Abbildung 7 und 8 sieht man das Ergebnis der Evaluation für die fünf Läufe jeweils
für die Cross-Validation und das Cross-Learning mit Precision, Recall und F-Meature.
Es zeigt sich, dass die Ergebnisse der Cross-Validation (F-Meature: 95,86 %) besser sind,
als die des Cross-Learning (82,38 %). Das lässt sich damit erklären, dass bei der Cross-
Validation in der Trainingsmenge sehr ähnliche Links wie in der Evaluationsmenge ent-
halten sind. Das Ergebis von 82,38 % beim Cross-Learning zeigt allerdings auch, dass der
Aufbau der relevanten Links bei verschiedenen Publishern durchaus ähnlich ist.

                                           15
Abbildung 6: Das Diagramm zeigt die Veränderung der F-Meature von Cross-Learning
und Cross-Validation für verschiedene Werte des Parameters C. Der höchste durchschnitt-
liche F-Meature liegt bei 89,12 % für C = 1,0.

5.1.3   Fehleranalyse

Bei der Cross-Validation gab es insgesamt 6 False Positives, also Links, die eigentlich nicht
relevant sind, aber von der SVM als relevant eingestuft wurden. Diese Menge wurde mit
den Angaben der Annotatoren verglichen. Dabei stellte sich heraus, dass drei der sechs
Links von einem der Annotatoren als relevant angegeben wurden, aber nicht von dem
zweiten Annotator. Es sind genau die drei Links, die eigentlich auf den Volltext verweisen
sollten, aber auf der Seite vermerkt war, dass der Volltext noch nicht verfügbar ist.
Beim Cross-Learning waren es 65 fälschlicherweise als relevant klassifizierte Links. Davon
wurden acht Links vom ersten Annotator als relevant eingestuft. Dazu gehören zwei Links,
die auf ein XML verweisen, drei Links mit dem Linktext „Enhanced Full Text“ und die
drei Links, die auch schon bei der Cross-Validation falsch eingestuft wurden. Außerdem
befindet sich unter den 65 Links ein Link, der nur vom zweiten Annotator als relevant
angegeben wurde, der aber nur auf das xml-Dokument für den Abstract des Artikels ver-
weist. 5 der 6 False Positives aus der Cross-Validation mit der SVM wurden auch beim
Cross-Learning falsch klassifiziert.
Die SVM klassifizierte beim Cross-Learning außerdem 57 Links fälschlicherweise als irrele-
vant, bei der Cross-Validierung waren es lediglich 22. Dabei fällt auf, dass die Schnittmen-
ge beider False Negative-Mengen mit 19 Links sehr hoch ist. Somit sind Links, die bei der
Cross-Validierung schwer zu klassifizieren sind, auch beim Cross-Learning problematisch.

                                             16
Abbildung 7: Das Diagramm zeigt Precision, Recall und F-Meature der 5 Läufe der 5-fold
Cross-Validation mit einer SVM für C = 1,0.

Eine genaue Betrachtung der Links aus den False-Negative- und False-Positive-Mengen
wird in Kapitel 5.2.3 durchgeführt.

5.2     Klassifizierung durch einen Naive-Bayes-Klassifikator
5.2.1   Grundlagen

Neben der Klassifizierung durch eine SVM wurde auch ein Naive-Bayes-Klassifikator
[Mit97] benutzt. Dabei wird einem Link l eine Klasse c zugeordnet, bei der die beding-
te Wahrscheinlichkeit p(c|l) am größten ist unter allen Klassen ci . Im gegeben Fall gibt
es genau zwei Klassen, nämlich die Klasse der relevanten Links crelevant und die Klasse
der irrelevanten Links cirrelevant . Unter Verwendung von Bayes Theorem lässt sich p(c|l)
folgendermaßen umformen:
                                               p(l|c) · p(c)
                                      p(c|l) =
                                                   p(l)
Da p(l) unabhängig von der Klasse c ist und nach dem höchsten Wert für p(c|l) gesucht
wird, kann dieser Faktor vernachlässigt werden.

                                          p(l|c) · p(c)
                                 p(c|l) =
                                              p(l)
                                        ≈ p(l|c) · p(c)

Wie auch bei der Benutzung einer SVM, wird ein Link bei der Naive Bayes Methode
durch seine Features repräsentiert. Beim Naive Bayes Ansatz wird davon ausgegangen,

                                            17
Abbildung 8: Das Diagramm zeigt Precision, Recall und F-Meature der 5 Läufe des 5-fold
Cross-Learning mit einer SVM für C = 1,0.

dass sich die Features gegenseitig nicht bedingen, wodurch folgende Umformung möglich
ist:

                   p(c|l) ≈ p(l|c) · p(c)
                          ≈ p(f1 (l), f2 (l), . . . , fn (l)|c) · p(c)
                          ≈ p(f1 (l)|c) · p(f2 (l)|c) · . . . · p(fn (l)|c) · p(c)

Die sich ergebenden Terme der bedingten Wahrscheinlichkeiten eines Wertes für ein Fea-
ture gegeben eine Klasse c (p(fi (l)|c)) und die Wahrscheinlichkeit einer Klasse p(c) lassen
sich durch die Trainingsdaten approximieren. p(c) wird dabei durch die relative Häufig-
keit ersetzt, dass ein Link in der Trainingsmenge der Klasse c zugewiesen wurde und
(p(fi (l)|c)) entspricht der relativen Häufigkeit, dass ein Link der Klasse c bei dem i-ten
Feature den Wert fi (l) hat. Es wird ein λ-Smoothing [Mit97] durchgeführt, so dass im
Falle von p(fi (l)|c) = 0 nicht der Wert 0 benutzt wird, sondern ein konstant gewähltes λ.
Dadurch wird verhindert, dass die Gesamtwahrscheinlichkeit von p(c|l) auf 0 fällt, sobald
ein p(fi (l)|c) = 0 gilt.

5.2.2   Ergebnisse

In Abbildung 9 und 10 sind die Ergebnisse der Evaluation mit dem Naive-Bayes-Klassifikator
zu sehen. Die durchschnittlichen F-Meatures liegen dabei bei 93,13% für die Cross-Validation
und 84,37% für das Cross-Learning. Somit unterscheiden sich die beiden Klassifikatoren

                                                18
Abbildung 9: Das Diagramm zeigt Precision, Recall und F-Meature der 5 Läufe der 5-fold
Cross-Validation mit einem Naive-Bayes-Klassifikator.

von SVM und Naive-Bayes nicht besonderlich. Während der Naive-Bayes-Klassifikator
im Fall des Cross-Learning um knapp 2% besser abschneidet, ist die SVM in der Cross-
Validation um 2,7 Prozentpunkte besser.

5.2.3   Fehleranalsye

In den Recall-Werten liegen die Ergebnisse der Naive-Bayes-Klassifikatoren hinter denen
der SVM. Dies ergibt sich aus einer größeren Menge an False Negatives. Bei der Cross-
Validation sind es 28 statt 22 und beim Cross-Learning 59 statt 57 fälschlicherweise als
irrelevant angegebene Links. Die 28 False Negatives bei der Cross-Validation sind auch
unter den 59 Links für das Cross-Learning. Die Schnittmenge der False Negatives bei der
Cross-Validation zwischen dem Naive-Bayes-Klassifikator und der SVM liegt bei 20 von
22 bzw. 28 Links, beim Cross-Learning sind es 43 von 57 beziehungsweise 59 Links. Somit
lässt sich sagen, dass die beiden Klassifikatoren sehr ähnliche Fehler bei der Klassifizierung
machen in Bezug auf die False Negatives.
Insgesamt wurden 73 Links mindestens ein Mal fälschlicher Weise als irrelevant angegeben.
Davon bestehen 27 Links nur aus einem Bild, ohne weitere Wörter. Die Dateinamen dieser
Bilder lauten „pdf1“, „full“, „full_1“, „bu_fulltext“, „xml“, „pdficonsmall“. In 10 Fällen
bestand der Linktext nur aus dem Dateinamen der Verlinkten Datei wie beispielsweise
„emm035-05-13.pdf“. In weiteren 10 Fällen bestand der Linktext aus dem Titel des Papers
und der ausschlaggebene Hinweis „Downloads“ stand in der Überschrift über dem Link.

                                             19
Abbildung 10: Das Diagramm zeigt Precision, Recall und F-Meature der 5 Läufe des 5-fold
Cross-Learning mit einem Naive-Bayes-Klassifikator.

Die restlichen Links hatten Texte wie „pdf in english“, „article in xml format“, „free article“
und „download xml“. Diese wurden allerdings immer nur in einem Fall falsch zugeordnet,
wahlweise von der SVM oder dem Naive-Bayes-Klassifikator im Falle des Cross-Learnings.
Unter den 19 False Positives des Naive-Bayes-Klassifikators bei der Cross-Validation waren
6 Links nicht relevant, da sie nur von einem der Annotatoren angegeben wurden, beim
Cross-Learning waren es 9 von 45 Links. Dabei wurden die 19 False Positives aus der
Cross-Validation auch beim Cross-Learning falsch klassifiziert. Die Überschneidung der
fehlerhaften Klassifikationen zwischen der SVM und dem Naive-Bayes-Klassifikator ist bei
den False Positives nicht so stark, wie bei den False Negatives. Von den 66 False Positives
bei der SVM und den 45 False Positives beim Naive-Bayes-Klassifikator besteht eine
Überschneidung von 18 Links. Somit ergibt sich eine Menge von 93 Links, die mindestens
ein Mal fälschlicher Weise als relevant angegeben wurden. Entfernt man die Links, die
von genau einem der beiden Annotatoren als relevant angegeben wurden, so verbleiben
81 Links. Darunter sind 16 Links auf Abstracts der Article, 10 Links auf andere Features
für den Artikel wie eTOC Alerts und Article Citations, 11 Links zu Downloadseiten für
Zusatzsoftware wie beispielsweise dem Acrobat Reader und 6 Links auf das Journal, in
dem der Artikel enthalten ist. Interessant ist, dass unter den 81 False Positives auch 20
Links sind, die zwar nicht als relevant von den Annotatoren angegeben wurden, aber
trotzdem auf den Volltext verweisen. Dabei ist dieser Link aber nur ein weiterer Link, der
zusätzlich auf den Volltext verweist.

                                              20
5.3     Features mit hohem Einfluss
Bei dem Verfahren des Naive Bayes lassen sich die Features angeben, die am einflussreichen
bei der Zuweisung zu einer Klasse sind. Diese entsprechen genau den Features, bei denen
die Differenz zwischen p(fi (l)|cirrelevant ) und p(fi (l)|crelevant ) am höchsten ist. Die Diffe-
renz gibt somit den Einflussfaktor eines Features an. Ist dabei der Wert p(fi (l)|crelevant )
größer als p(fi (l)|cirrelevant ), so ist das Feature repräsentativ für die Klasse crelevant , ist er
aber kleiner, so handelt es sich bei dem Feature um einen Repräsentanten für die Klasse
cirrelevant .
Am Beispiel der Ergebnisse des Cross-Learning, bei der nur PDF-Dokumente als relevant
angesehen werden, wurden für jeden der fünf Läufe die zehn Features mit dem höchsten
Einflussfaktor ermittelt. Dabei wurde unterschieden zwischen den Repräsentanten der bei-
den verschiedenen Klassen. Abbildung 11 zeigt die Features an, die bei allen Läufen unter
den Top-10 der Repräsentanten der Klasse crelevant waren, zusammen mit ihrem Einfluss-
faktor.
Im Gegensatz dazu gab es keine signifikanten Repräsentanten für die Klasse cirrelevant . Das
lässt sich mit der Heterogenität der irrelevanten Links erklären. Diese beinhalten sowohl
Links im Menü, als auch Links auf andere Publisher und Werbeblöcke. Dadurch sind auch
die benutzten Wörter in solchen Links sehr unterschiedlich.

                                                 21
Abbildung 11: Die Features, die für die Kategorie crelevant am einflussreichsten sind, bei der
nur Links auf PDF-Dokumente als relevant angesehen werden. Angezeigt wird die Diffe-
renz zwischen p(fi (l)|cirrelevant ) und p(fi (l)|crelevant ), wobei in diesem Fall p(fi (l)|crelevant )
jeweils größer ist als p(fi (l)|cirrelevant ). Die Features „EndsWithPDF“ und „hasIMG“ ent-
sprechen den Eigenschaften des Links, ob die verlinkte Datei auf pdf endet, beziehungs-
weise ob der Link in einem Bild enthalten ist.

                                                  22
keine Angaben       unerwünscht   gestattet
                    gesamt               117              52        121
                    in %                40,3            17,9       41,7

Tabelle 6: Aufteilung der Links anhand der Angaben in den robots.txt. Existiert keine
robots.txt für die Domain, so wird der Link unter „keine Angaben“ eingestuft.

6     Schlussbetrachtung
Diese Arbeit konnte zeigen, dass neben dem Zugriff auf PubMed Central auch eine andere
Möglichkeit besteht, die Volltexte von Artikeln von PubMed zu erhalten. Dabei kann eine
größere Menge von Volltexten erzeugt werden als durch den FTP-Service von PubMed
Central, bei der allerdings das Problem der unterschiedlichen Dateiformate und Texten in
PDF-Dokumenten behoben werden muss. Die F-Meature-Werte von bis zu 95% bei der
Benutzung einer SVM zeigen dabei, dass die Einstufung in relevante und nicht relevante
Links sehr gut durchführbar ist, was sich darauf zurückführen lässt, dass für relevante
Links oftmals ähnliche Wörter benutzt werden wie „pdf“ oder „article“. Auch andere Fea-
tures sind hilfreich bei der Einstufung, wie beispielsweise, ob der Verweis des Links auf
„.pdf“ endet. Der Vergleich der Ergebnisse von Cross-Validation und Cross-Learning legen
nahe, dass in den Trainingsdaten möglichst viele Verlage vertreten sein sollten, da somit
die besonderen Eigenschaften Einfluss nehmen können in die Einstufung. Dies sorgt für
einen Anstieg der F-Meaturewerte von 82 auf 95 %.

6.1    Umgang mit robots.txt
Wie bereits erwähnt, sollte beim automatischen Herunterladen der Inhalte von Webseiten
auf die Forderungen der Anbieter geachtet werden, um sich vor rechtlichen Maßnahmen
zu schützen. In welcher Form diese Forderungen angegeben werden, kann unterschiedlich
sein. Durchgesetzt hat sich allerdings die Nutzung des Robots Exclusion Standards in
Form einer robots.txt [Pea98]. Dabei handelt es sich weniger um eine Sperre als eher
eine Richtlinie. Darin können Webseitenbetreiber angeben, welche Seiten automatisch
von Webcrawlern heruntergeladen und indexiert werden dürfen. Die vordefinierte Syntax
erlaubt es, die Datei automatisch zu verarbeiten.
Die 290 verschiedenen Links (unter den 345 als relevant angegebenen Links befinden sich
Duplikate), die von den beiden wissenschaftlichen Mitarbeitern als relevant angegeben
wurden, verteilen sich auf 60 Domains. Von diesen 60 Domains haben 26 keine robots.txt
erstellt. Dadurch können nur für 173 Links überprüft werden, ob Regeln bestehen, die das
automatische Herunterladen verbieten. Dies ist bei 52 Links der Fall, für die restlichen 121
Links bestehen keine Regeln, die das Herunterladen verbieten (Siehe Tabelle 6). Unterlässt
man nur das Herunterladen der Dateien, die explizit für Webcrawler gesperrt sind, und
behält dabei die Dateien der Domain, für die keine robots.txt existiert, so bleiben 82,1 %.

                                            23
Abbildung 12: Beispiel für Links mit Bildern, in denen die Begriffe PDF oder XML stehen.
Entnommen von http://jkms.org/DOIx.php?id=10.3346/jkms.2003.18.1.69

Rechnet man diesen Anteil auf die 3,7 Mio. Artikel bei PubMed mit frei verfügbaren
Volltexten hoch, so erhält man eine Menge von 3 Mio. Auch wenn diese Zahl durch die
geringe Stichprobe nicht dem exakten Wert entsprechen wird, so bietet es einen Ansatz
darauf, dass eine Vielzahl an kostenlosen Volltexten ohne Missachtung der robots.txt
verfügbar sind.

6.2   Future Work
Zwei mögliche Ansätze werden in dieser Studienarbeit nicht weiter betrachtet.
Einerseits könnten die Bilder, die in einem Anchor verwendet werden, mit einem OCR-
Tool analysiert werden um so zu erkennen, ob im Bild die Worte „PDF“ oder „XML“
verwendet werden . Dies könnte die Erkennung der richtigen Links auf einer Seite verbes-
sern (Siehe Abbildung 12).
 Andererseits könnte, wie in Kapitel 1.1 bereits beschrieben, mit Hilfe von Boilerplate
Detection [KFN10] der Volltext extrahiert und als Klartext zu gespeichert werden, wenn

                                          24
dieser direkt auf einer verlinkten Seite eingebettet ist. Um die Klassifikation der relevan-
ten Blöcke auf der Internetseite zu verbessern, könnte dabei auf das womöglich schon
entdeckte Pdf-Dokument zurückgegriffen werden.

                                            25
7    Danksagung
Besonderer Dank gilt meinen Freunden Arne Binder und Ralf Havemann, die sich bereit
erklärt habe, die nötigen Annotationsaufgaben zu übernehmen, die benötigt wurden, um
die SVM- und Naive Bayes-Modelle zu lernen und zu evaluieren.

                                        26
8    Appendix
Liste der benutzten Verlage für die Trainingsdaten:

    • American Academy of Family Physi-         • First Affiliated Hospital, Zhejiang
      cians                                       University School of Medicine

    • Arthur C Huntley MD, California Di-       • Fundacao de Pesquisas Cientificas de
      gital Library                               Ribeirao Preto

    • Asian Pacific Organization for Cancer     • Hindawi Publishing Corporation
      Prevention
                                                • Hong Kong Academy of Medicine
    • Australian Family Physician                 Press

    • Aves Yayincilik                           • Hormones

    • Baishideng Publishing Group Co., Li-      • IAVI Report
      mited
                                                • Indian Pediatrics
    • Baskent University, Publishers            • Institute of Rural Health
    • Biochemistry (Moscow)                     • International Braz J Urol
    • BioMed Central                            • Inter-Research Science Center
    • Blackwell Publishing                      • Istituto zooprofilattico sperimentale
    • Canadian Association of Emergency           dell Abruzzo e del Molise G. Caporale
      Physicians                                • Iuliu Hatieganu Medical Publishing
                                                  House
    • Canadian Dental Association
                                                • John Libbey Eurotext
    • Canadian Society for Pharmaceutical
      Sciences                                  • John Wiley & Sons, Inc.

    • CDC - Morbidity and Mortality Wee-        • JOP. Journal of the Pancreas (Online)
      kly Report
                                                • KoreaMed
    • Chinese Medical Association Publis-
                                                • Korean Society for Biochemistry &
      hing House
                                                  Molecular Biology
    • Department of Veterans Affairs, Re-
                                                • Korean Society for Biochemistry and
      habilitation Research & Development
                                                  Molecular Biology
      Service
                                                • Landes Bioscience
    • European Centre for Disease Preven-
      tion and Control (ECDC)                   • Longwoods Publishing

                                          27
• LookUs Bilisim                              • Shanghai Association of Integrative
                                                Medicine;Shanghai Changhai Hospi-
• Masson (France)
                                                tal,China
• Medical Journals
                                              • Shanghai Scientific and Technical Pu-
• Medycyna Praktyczna                           blishers

• Molecular Vision                            • The Alan Guttmacher Institute

• National Coordinating Centre for He-        • The International Journal of Develop-
  alth Technology Assessment                    mental Biology

• Nature Publishing Group                     • The Journal of Infection in Developing
                                                Countries
• Pacific Sympsium On Biocomputing
                                              • The Korean Association of Internal
• Pain Physician                                Medicine

• Portland Press                              • The Korean Society for Parasitology

• Primary Care Respiratory Society UK         • The Korean Spciety for Microbiology
                                                and Biotechnology.
• Scandinavian Journal of Work, Envi-
  ronment & Health                            • US Food & Drug Administration

• Scientific Electronic Library Online        • Yonsei University College of Medicine

                                         28
Literatur
[CDR+ 98] Chakrabarti, S. ; Dom, B. ; Raghavan, P. ; Rajagopalan, S. ; Gib-
        son, D. ; Kleinberg, J.: Automatic resource compilation by analyzing hyper-
        link structure and associated text. In: Computer Networks and ISDN Systems
        30 (1998), Nr. 1, 65–74. http://www.sciencedirect.com/science/article/
        pii/S0169755298000877

[CL11]    Chang, Chih-Chung ; Lin, Chih-Jen: LIBSVM: A library for support vec-
          tor machines. In: ACM Transactions on Intelligent Systems and Technology 2
          (2011), S. 27:1–27:27. – Software available at http://www.csie.ntu.edu.tw/
          ~cjlin/libsvm

[CPS02] Chakrabarti, S. ; Punera, K. ; Subramanyam, M.: Accelerated focused
        crawling through online relevance feedback. In: Proceedings of the 11th interna-
        tional conference on World Wide Web, 2002, 148–159

[FPMP08] Falagas, M. E. ; Pitsouni, E. I. ; Malietzis, G. A. ; Pappas, G.: Com-
       parison of PubMed, Scopus, web of science, and Google scholar: strengths and
       weaknesses. In: The FASEB Journal 22 (2008), Nr. 2, S. 338–342

[Joa02]   Joachims, T.: Learning to Classify Text Using Support Vector Machines. Klu-
          wer Acad. Publ., 2002 (The Springer International Series in Engineering and
          Computer Science Series). –    40 S. http://books.google.de/books?id=
          GNTZjXHjB7kC. – ISBN 9780792376798

[Kec01] Kecman, Vojislav: Learning and soft computing: support vector machines,
        neural networks, and fuzzy logic models. The MIT press, 2001. – 121–192 S.

[KFN10] Kohlschütter, C. ; Fankhauser, P. ; Nejdl, W.: Boilerplate detection
        using shallow text features. In: Proceedings of the third ACM international
        conference on Web search and data mining, 2010, 441–450

[McB94] McBryan, O. A.: GENVL and WWWW: Tools for taming the web. In: Pro-
        ceedings of the First International World Wide Web Conference Bd. 341, 1994

[Mit97] Mitchell, Tom: Machine Learning. New York : McGraw-Hill, 1997. – 154–200
        S. – ISBN 0070428077

[ML01]    McEntyre, J. ; Lipman, D.: PubMed: bridging the information gap. In:
          Canadian Medical Association Journal 164 (2001), Nr. 9, 1317–1319. http:
          //www.ecmaj.ca/content/164/9/1317.short

                                          29
[Pan03] Pant, G.: Deriving link-context from HTML tag tree. In: Proceedings of the
        8th ACM SIGMOD workshop on Research issues in data mining and knowledge
        discovery, 2003, 49–55

[Pea98] Peacock, Ian: Showing Robots the Door. In: Ariadne (1998), Nr. 15. http:
        //www.ariadne.ac.uk/issue15/robots

[SJA99] Scholkopf, C. ; Jc, Burges ; Aj, Smola ; Press, M. I. T. (Hrsg.): Advances
        in Kernel Methods. MIT Press, 1999. – 226–227 S.

9    Eidesstattliche Erklärung
Hiermit versichere ich (Martin Beckmann), dass ich diese Arbeit selbstständig verfasst ha-
be und keine außer den im Anhang angegebenen Quellen und Hilfsmitteln genutzt habe.
Alle Formulierungen und Tabellen die anderen Quellen wörtlich oder sinngemäß entnom-
men wurden, sind kenntlich gemacht. Ebenso sind alle Bilder und Graphiken kenntlich
gemacht, die direkt übernommen oder äquivalent reproduziert wurden.

                                           30
Sie können auch lesen