Grid Computing, eine Einf uhrung

Die Seite wird erstellt Mats Peters
 
WEITER LESEN
Grid Computing, eine Einf uhrung
Grid Computing, eine Einführung
                         Johann Siegele
                14. November 2004, Innsbruck

               640K ought to be enough for anybody.“
              ”
                          Bill Gates, 1981

Seminararbeit für das Seminar “Grid Computing “(LV.Nr 703404)

Lehrveranstaltungsleiter: T. Fahringer

Geschrieben von: Johann Siegele (Mat.Nr. 0016995)
Grid Computing, eine Einf uhrung
Seminar “Grid Computing “                                                          WS 2004/05

Inhaltsverzeichnis
1 Kurzfassung                                                                                           3

2 Einleitung                                                                                           3

3 Grid Computing                                                                                        5
  3.1 Geschichte . . . . . . . . . . . . . . . .   .   .   .   .   .   .   .   .   .   .   .   .   .    5
  3.2 Anwendungstypen des Grids . . . . . .        .   .   .   .   .   .   .   .   .   .   .   .   .    9
      3.2.1 Rechen-Grids . . . . . . . . . .       .   .   .   .   .   .   .   .   .   .   .   .   .    9
      3.2.2 Daten Grids . . . . . . . . . . .      .   .   .   .   .   .   .   .   .   .   .   .   .   10
      3.2.3 Kollaborative Grid Computing .         .   .   .   .   .   .   .   .   .   .   .   .   .   11
  3.3 Komponenten des Grid Computing . .           .   .   .   .   .   .   .   .   .   .   .   .   .   13
      3.3.1 Portal/User interface . . . . . .      .   .   .   .   .   .   .   .   .   .   .   .   .   13
      3.3.2 Security im Grid . . . . . . . .       .   .   .   .   .   .   .   .   .   .   .   .   .   13
      3.3.3 Broker . . . . . . . . . . . . . .     .   .   .   .   .   .   .   .   .   .   .   .   .   14
      3.3.4 Scheduler . . . . . . . . . . . .      .   .   .   .   .   .   .   .   .   .   .   .   .   15
      3.3.5 Datenmanagement . . . . . . .          .   .   .   .   .   .   .   .   .   .   .   .   .   15
      3.3.6 Job und Ressourcemanagement            .   .   .   .   .   .   .   .   .   .   .   .   .   17
  3.4 Anwendungsbeispiele für Grids . . . .       .   .   .   .   .   .   .   .   .   .   .   .   .   18
  3.5 Probleme . . . . . . . . . . . . . . . .     .   .   .   .   .   .   .   .   .   .   .   .   .   19
  3.6 Ausblick in die Zukunft . . . . . . . . .    .   .   .   .   .   .   .   .   .   .   .   .   .   19

4 Zusammenfassung                                                                                      20

                                     2
Grid Computing, eine Einf uhrung
Seminar “Grid Computing “                                             WS 2004/05

1       Kurzfassung
Dieses Dokuments soll einen ersten Einblick / Überblick geben, was hinter
dem Schlagwort Grid Computing eigentlich genau steckt. Nach einer kurzen
Einleitung, welche die Motivation um so ein Projekt, wie Grid-Computing,
auf die Beine zustellen, erklären soll werde ich einen geschichtlichen Über-
blick über die Entstehung des Computers bis hin zum Grid-Computing ge-
ben. Aber es werden auch aktuelle Anwendunungen des Grid-Computing
angeführt, sowie die Unterscheidungen der verschiedenen Gridtypen, welche
wären, Rechen-Grids, Daten-Grids und Koloberative-Grids. Weiters wird der
Aufbau und somit die Komponenten des Grid Computing beschrieben. Was
ist zum Beispiel ein Broker oder ein Scheduler und wer sorgt dafür, dass
meine Anwendung läuft. Wie sieht es mit der Sicherheit im Grid Computing
aus, welche Rolle spielt diese. Aber es nicht alles Gold was glänzt und so
werde ich auch einige Probleme beschreiben. Und zuguterletzt wird noch ein
Blick in die Zukunft des Grid-Computing gewagt.

2       Einleitung
Zurzeit stellen rund 5,2 Millionen Menschen, in mehr als 200 Ländern, ihre
freien Rechenkapazitäten via Web der Suche nach ausserirdischer Intelligenz
tagtäglich zurverfügung. Statt zwischen zwei Anwendungen den Computer
im Leerlauf dösen zulassen, verschenken sie ihre Ressourcen an das seit Mai
1999 bestehende kalifornische Forschungsprojekt SETI@home 1 . Für dieses
Projekt werten diese Computer Radioteleskop-Daten aus dem Weltall, wel-
che sehr groß sind, nach Auffälligkeiten aus.

  Einige Daten zum SETI@home Projekt: siehe Tabelle 1, Seite 18.
Auch 42382 Österreicher [16] beteiligen sich an der Suche nach E.T.

   Nicht nur Weltraumforscher und Alien-Sucher haben Bedarf an großen
Rechenressourcen angemeldet. Nein, die Ansprüche an Leistungskraft und
Arbeitsspeichern von Maschinen wachsen überall. Insbesonders in der Wis-
senschaft, Produktionsentwicklung, Betriebswirtschaft (z.B: Risikoberechnun-
gen) und vielen anderen Bereichen. Die Zeit ist vorbei wo 640 KBytes alles
    1
    Search      for     Extraterrestrial       Intelligence.   Mehr   Info   unter:
http://setiathome.ssl.berkeley.edu/

                                           3
Seminar “Grid Computing “                                                 WS 2004/05

sind, was man benötigt.

Obwohl jeder nach mehr Leistungskraft und Arbeitsspeicher schreit liegt
Weltweit sehr, sehr viel davon brach und wird nicht genutzt. Beispiele: UNIX
Server “serving“etwa nur 10% der Zeit. Und die meisten Desktop-Maschinen
stehen bis zu 95% der Zeit ohne Arbeit da.

   SETI hat “Distributed Computing“populär gemacht. Es verteilt die Re-
chenarbeiten online und bündelt diese. Schnell fanden sich natürlich Nachah-
mer. Die Technik des vernetzten Rechnens ist inzwischen jedoch einen Schritt
weiter, sie erlaubt über die Arbeitsteilung hinaus, Computerkraft, Daten und
Anwendungen nach dem Peer-to-Peer 2 Prinzip allgemein zugänglich, und je
nach Bedarf abrufbar zumachen. Dieses Verfahren nennt sich Grid Com-
puting.

       [..]The concept of Grid computing is simple: With Grid compu-
       ting you can unite pools of servers, storage systems and networks
       into one large system to deliver non-trivial qualities of service. To
       an end user or application, it looks like one big virtual computing
       system.[..] [14]

   Das Wort Grid wird dabei vom “Strom-Netz“abgeleitet. Das Ziel ist es,
dass diese Ressourcen so einfach verfügbar sind, wie der Strom aus der Steck-
dose.

   2
    Peer-to-Peer (engl. peer “Gleichgestellter“, “Ebenbürtiger“oder “Altersgenosse/in“).
In Peer-to-Peer-Systemen ist diese Rollenverteilung aufgehoben. Jeder Host in einem Com-
puternetzwerk ist ein peer, denn er kann Client und Server gleichzeitig sein.

                                           4
Seminar “Grid Computing “                                      WS 2004/05

3         Grid Computing
3.1         Geschichte
Zuerst möchte ich eine kurze geschichtliche Übersich über die Entwicklung
des Computers, der Supercomputer und die Entstehung des Internets geben.

3000 v. Chr. Die Erfindung des Abakus in Babylon. Das Prinzip war es
     Steine in Rillen im Sand zulegen. Diese Form änderte sich im Laufe der
     Zeit (2500 Jahre) zu Stäbchen und Perlen in einem Holzgehäuse.

1644 n. Chr. - 1672 Blaise Pascal entwicketlte 1644 eine einfache mecha-
     nische Maschine zum Addieren von Zahlen. Ungefähr 1672 entwickel-
     te Gottlieb Leibnitz eine mechanische Rechenmaschine, die die vier
     Grundrechnungsarten beherrschte.

18. Jh. Alessandro Volta entdeckte den elektrischen Strom.

1876 erfand Alexander Graham Bell das Telefon

19. Jh. Neben der Entdeckung des Stroms, bildet die von Georg Boole ent-
     wickelte boolsche Algebra einen der Grundsteine für die heutige Com-
     putertechnologie.

1936 - 1945 1936 stellte Konrad Zuse die erste binär arbeitende, programm-
     gesteuerte Rechenmaschinen mit den Namen Z1(mechanisch), Z2 und
     Z3 (elektrisch)vor. 1943 entstand “Colossus“, er war der erste elek-
     tronische Digitalcomputer. Er bestand aus 1500 Vakuumröhren. 1945
     wurde dann 18000 Elektronenröhren für “ENIAC 3“verwendet. Mit
     Hilfe dieses Monstrums konnten einige hundert Multiplikationen pro
     Sekunde durchgeführt werden. Die Programmierung erfolgt durch um-
     stecken und umlöten von Drähten.

1956 Durch die Entwicklung des Transistors in den Bell Laboratorien wurde
    eine Verkleinerung des Computers eingeläutet.

1957 Schoss die Sowjetunion den Sputnik-Satelliten ins All. Heutzutage
    spielt die Datenübertragung per Satellit eine große Rolle.
    3
        (Electronic Numerical Integrator And Computer)

                                             5
Seminar “Grid Computing “                                        WS 2004/05

1958 Der erste voll transistorisierte Supercomputer Cray CDC 1604 wird
    von Seymour Cray (1925 - 1996) vorgestellt.

1966 - 1969 plante das zur ARPA4 , welches vom US - Verteidigungsmini-
     sterium ins Leben gerufen wurde, gehörige IPTO 5 alle Computerzen-
     tren der ARPA miteinander zu verbinden. Im Herbst 1969 gelang dies
     dann. Das Netz wurde ARPANET genannt und bestand aus vier Kno-
     ten. Das dies gelungen war macht es für das heutige Internet so wichtig,
     weil es geschafft wurde Rechner unterschiedlicher Art miteinander zu
     verbinden.

1970 - 1975 1971 produziert Intel seinen ersten Mikrochip für Taschen-
     rechner. 1974 wird der erste Home-Computer mit dem Namen ALTAIR
     mit Intels 8080-Chip ausgestattet. Ebenfalls wurde da “Transmission
     Control Protocol / Internet Protocol“enwickelt und wurde 1975 erst-
     mals eingesetzt.

1981 Am 12.8 stellte IBM den ersten PC vor. Er enthielt den 8088-Chip von
    Intel mit einer Taktfrequenz von 4,77 MHz und 64 KByte RAM, was
    man für mehr als genug hielt. Das Betriebssystem kam von der Firma
    Microsoft und hieß MS-DOS.

1982 - 1984 1982 stellt Intel den 80286 vor, welcher 1984 vom AT-PC ab-
     gelöst wird, dieser enthielt einen 80286-Chip von Intel und eine 20 MB
     Festplatte. 1985 kam dann der 386er von Intel auf den Markt, welcher
     aber 1989 durch den 80486 wiederum abgelöst wurde.

1985 wurde der Multiprozessor Supercomputer Cray 2 mit 1,9 Giga-Flops
    vorgestellt.

1990 Tim Berners-Lee und Robert Cailiau nehmen ein hausinternes Tele-
    fonbuch in Betrieb. Damit legten sie den Grundstein für ein Medium,
    dass aus der heutigen Zeit nicht mehr wegzudenken ist. Das World
    Wide Web, auch Internet genannt. Tim Berners-Lee entwickelte das
    Hyperlink-System, um Dokumente mit einem Inhalt, allen zugänglich
    zu machen. Das surfen im Netz war erfunden.
  4
      ( Advanced Research Projects Agency )
  5
      (Information Processing Techniques Office)

                                            6
Seminar “Grid Computing “                                             WS 2004/05

1991 stellte der Finnische Student Linus Torvalds den ersten Linux-Kernel
    ins Internet.

1992 bring Microsoft Windows 3.1 auf den Markt. Bill Gates legte damit
    seinen Grundstein zum Multimillionär.

1993 - 1997 Der Netscape Browser wurde erfunden. Die Kommerzialisiung
     des Internets erhielt eine neue Komponente. Jeder konnte diesen bedie-
     nen. Intel bring den Intel Pentium mit 60 MHZ auf den Markt welcher
     bis 1997 auf 233 MHZ hochgetaktet wird. Windows NT kommt 1993
     auf den Markt, 1995 Windows 95. 1996 hat das Internet bereits 50
     Millionen Nutzer.

1998 - 2003 1998 kommt Windows 98 auf den Markt, Bill Gates vermögen
     beläuft sich auf 60 Milliarden Dollar. 2000 - 2002 ist der schnellste Su-
     percomputer der IBM ASCO white mit 12,3 Tera-Flops (Spitze). 2002
     wurde in Japan dann der bis dahin schnellste Supercomputer gebaut,
     der “Earth Simulator“, er kommt auf eine Leistung von 35,86 Tera-
     Flops.

2004 Die Benutzeranzahl im Internet steigt täglich. Intel ist mit dem Pentim
    4 auf dem Markt, getaktet bis 3,6 GHZ. Am Fr. 05.11.2004 wurde be-
    kannt, dass der neue Supercomputer Blue-Gene/L-System einen neuen
    Rekord mit 70,72 Tera-Flops aufstellte. Der Supercomputer ist zurzeit
    erst zu einem Viertel fertig. Soll wenn er fertig ist auf 300 Tera-Flops
    kommen.

    Zurück zum Grid Computing. Seinen Ursprung nimmt das Grid Compu-
ting 6 in den 90er Jahren. Die Anfänge des Grid Computing liegen in den
rechnerintensiven Bereichen, High-Performance-Computing (HPC) 7 .
Bald sah man aber in den Supercomputern nicht mehr das Ultimative, man
suchte nach neuen möglichkeiten mehr Rechenleistung zurverfügung zu ha-
ben. Die Lösung sah man im Grid Computing
  6
     (englisch: “Gitter-Berechnung“)
  7
      Hochleistungsrechnen (englisch: high performance computing HPC) versteht man
alle Rechenanwendungen, deren Komplexität oder Umfang eine Berechnung auf einfachen
Arbeitsplatzmaschinen unsinnig macht.

                                         7
Seminar “Grid Computing “                                       WS 2004/05

Es gibt 3 Ausbaustufen des Grids:

Cluster sind laut Definition von IBM kein Grid

          What’s not a grid? A cluster, a network attached storage de-
          vice, a scientific instrument, a network; these aren’t grids.
          Each might be an important component of a grid, but by itself,
          it doesn’t constitute a grid.[14]

     Aber dennoch kann diese Art von kein Grid herangezogen werden um
     Grid Sofware zutesten.

Intragrid ist die erste Richtige Ausbaustufe des Grids. Hier werden hetero-
     gene Netze aufgebaut. Das Problem, welches hierbei entsteht ist, dass

        • Verschiedene Prozessortypen
        • Verschiedene Betriebsysteme
        • Unterschiedliche Kapazitäten
        • Unterschiedliche Geräte sind verfügbar
        • ...

     zusammenwirken müssen. Diese Unterschiede müssen gehandelt wer-
     den, um zu einem Grid zusammengeschlossen werden. So können bei-
     spielsweise Rechner eines Unternehmens vernetzt werden und einfache
     Scheduling Mechanismen implementiert werden.

Intergrid Ist eine weitere Ausbaustufe des Intragrid. Hier werden immer
     mehr Computer Weltweit mit in das Grid aufgenommen. Ab dieser
     Ausbaustufe kommen weitere Factoren mit ins Spiel, wie Sicherheit,
     Policies und Scheduling.

                                     8
Seminar “Grid Computing “                                                WS 2004/05

               Abbildung 1: Die 3 Stufen des Grids (Quelle: adapidert von
                                      Computerbild.de)

3.2      Anwendungstypen des Grids
3.2.1     Rechen-Grids
Rechen-Grids 8 ist der Begriff denn man für den Zusammenschluss der Re-
chenleistung vieler high-performance servern, denn der Großteil eines Rechen-
Grid besteht aus solchen, verwendet. Wie schon in der Einleitung erwähnt
dösen viele Server die meiste Zeit nur vor sich hin. Genau da setzt das Rechen-
Grid an. Das Rechen-Grid macht sich diese Server, welche gerade keine Arbeit
haben, zunutze und verwendeten ihre Ressourcen für rechenintensive Anwen-
dungen, welche selbst mit einem Supercomputer schwer zu handhaben wären.
Natürlich sind einige Dinge zuberücksichtigen:

      • Ähnlich dem parallelen Rechnen, darf durch die Übertragung der Daten
        kein höherer Zeitaufwand entstehen. Das heißt, mit Übertragung der
        Daten und Berechnung sollte ich schneller zum Ergebnis kommen als
        sonst.
  8
      (eng. computational grid) wird aber auch verteiltes Supercomputing genannt

                                           9
Seminar “Grid Computing “                                          WS 2004/05

   • Natürlich muss der Rechner, auch die ihm gestellte Aufgabe Hardware
     und Softwaretechnisch lösen können.

Das Ziel, die Anwendungen nicht nur von einem Rechner im Grid lösen zu-
lassen, sondern von mehreren. Wer sich beim parallelen Rechnen auskennt,
weiß, dass der folgende Satz nicht zwangsläufig stimmen muss. Wenn ich
die Aufgabe auf 12 Maschinen verteile, bekomme ich das Ergebnis 12 mal so
schnell als sonst. Was hier berücksichtig werden muss, ist die Kommunika-
tion zwischen den “Jobs“, der zugriff auf gemeinsame Daten und somit die
Abhängigkeit der einzelnen “Jobs“zueinander. Was hier zum Problem wer-
den kann ist, zB. das Nutzen gemeinsamer Daten, oder der Algorithmus ist
nicht an beliebig viele “Jobs“aufteilbar. Hier spricht man dann von der Ska-
lierbarkeit einer Anwendung.
Wie sehen nun solche geeigneten Anwendungen aus? Sie sollten sein:

   • Rechnerintensive Anwendungen, die einzelne Rechner überfordert.

   • Die Anwendung muss gut unterteilbar sein.

   • Keine Benutzerinteraktionen notwendig

   • Der genaue Durchsatz ist schwer vorhersagbar, daher muss entweder
     genug Kapazität vorhanden sein oder die Anwendung sollte nicht zeit-
     kritisch sein.

   • Es sollten möglichst wenig bwz. kleinere Datenzugriffe notwendig sein.

   • Es sollten möglichst in sich abgeschlossene Anwendung sein.

Diese und weitere Anforderungen an eine Anwendung finden sie hier: [10].

3.2.2     Daten Grids
        “Access to distributed data is typically as important as access to
        distributed computational ressources.“[7]

Für einige wissenschaftlichen Anwendungen werden einige Gigabyte oder so-
gar Petabyte an Daten benötigt. Um diesen Zugang zu den Daten zu ermögli-
chen gibt es das Daten Grid. In diesem Grid stellt jeder Benutzer Speicher-
platz für die Daten anderer User zurverfügung. Auf diese Daten kann dann
durch das Grid zugegriffen werden, wobei wieder der Sicherheitsgedanke im

                                       10
Seminar “Grid Computing “                                        WS 2004/05

Vordergrund steht, denn nicht jeder will, dass jeder auf seine Daten Zugriff
hat. Dies muss im Daten-Grid genauso gemanagt werden wie der Austausch
der Daten.
Datensicherung
Wo Daten sind, können Daten verloren gehn. Um dem Vorzubeugen können
Daten mehrfach im Grid abgelegt werden, und bei Verlust einer “Datenbank
“greift man auf die Nächste zu. Ein entscheidender Vorteil, der sich aus der
Mehrfachenablage der Daten im Netz ergibt ist, dass die Daten nicht über
das gesamte Netzwerk übertragen werden müssen, sondern von einer nahe
liegenden Maschine bezogen werden können.
Anwendung
Ein Beispiel für die wissenschaftliche Anwendung findet sich bei der Atom-
physikergemeinschaft CERN. Diese will ab 2007 im Rahmen des Large-Hardon-
Collider-Projectes (LHC) enorm große Datenmengen verarbeiten. Es wird
von 12 bis 14 Petabyte Daten pro Jahr gesprochen, dies entspricht 20 Millio-
nen Cds. Beim LHC handelt es sich um den bislang leistungsfähigsten Teil-
chenbeschleuniger, welche Aufschlüsse über den Ursprung des Universums
liefern soll. Bei solchen Datenmengen ist natürlich auch die Übertragungsra-
te wichtig, so wurden in 30 Minuten mehr als 1 TeraByte an Daten über eine
große Entfernung übertragen. Auch wurde mit einer Geschwindigkeit von 1
GigaByte pro Sekunde auf ein Band gesichert. Mehr Information finden sie
hier [8] und hier [9].

3.2.3   Kollaborative Grid Computing
Neben Großrechnern in Firmen und wissenschaftlichen Einrichtungen, stehen
aber weltweit auch Millionen von Desktop-Maschinen mit Anschluss zum In-
ternet in Haushalten und Betrieben. Wie in der Einleitung gezeigt, befinden
sich hier, durchschnittlich die Maschinen bis zu 95% der Zeit am Tag im
Leerlauf. Das Projekt SETI@home (siehe Einleitung), macht sich eben diese
leerstehenden Ressourcen zueigen und nutzt diese zur Suche nach ET. Dieses
Projekt arbeitet nach dem Prinzip des Kollaborativen-Grids.
Aber es müssen nicht nur Desktop-Maschinen, sein welche zusammengefaßt
werden. Nein es können ebenso Spezialgeräte integriert sein, wie Elektronen-
mikroskope, vielleicht sogar der Teilchenbeschleuniger aus dem LHC Projekt.
Auf einigen Maschinen ist eventuell teure Software, welche benutzt werden

                                     11
Seminar “Grid Computing “                                          WS 2004/05

kann. Auf all diese Ressourcen kann aus dem Kollaborativen-Grid heraus zu-
gegriffen werden.
All dies kann natürlich nicht willkürlich benutzt werden, sondern es braucht
eine Organisation, eine so genannte virtuelle Organisation (VO) welche die
Ressourcen kontrolliert und deren Austausch überwacht. Was hier natürlich
wieder eine wichtige Rolle spielt ist die Sicherheit, unter anderem ist wichtig,
dass die Organisation keine Information, Daten und Ressourcen nach außen
dringen läßt, sprich in sich geschlossen ist. Jeder Benutzer des Kollaborativen-
Grids, gehört einer solchen virtuellen Organisation an, welche wiederum ein
Teil eines noch größeren Grids sein kann. Solche virtuelle Organisationen
haben nach Ian Foster 9 eine besondere Bedeutung so sagt er:
        “It is our belief that VOs have the potential to change dramati-
        cally the way we use computers to solve problems, much as the
        web changed how we exchange information “
Neben den Ressourcen auf die zugegriffen werden kann, kann natürlich jeder
User auch auf die Daten im Grid zugreifen, womit sich ein Daten-Grid eben-
so ergibt.
Diese Form des Grids, ist jene, die uns Allen ermöglichen soll das Grid-
Computing zunutzen. Damit stellt sich jedoch gleich die nächste Frage, wer
kontrolliert den Zugriff auf die Ressourcen.
Es stehen hier verschiedene Methoden zur verfügung um “Jobs “für die zur-
verfügung stehenden Ressourcen zu organisieren und zu überwachen.
      • Reservation, der Gebrauch der Ressource wird einfach reserviert. Der
        Zugriff erfolgt dann zu dem Zeitpunkt an dem die Ressource reserviert
        wurde.
      • Scheduling, wird später noch erklärt. Nur soviel, die benötigte Res-
        source wird selbständig im Grid gesucht. zb: eine Maschine die gerade
        nichts zutun hat.
      • Scavening hier sendet eine Maschine ihren Status an eine zentrale
        Instanz. Auf diese Art können sich Maschinen melden, die gerade local
        nichts zutun haben und können in der Zwischenzeit einen Job aus dem
        Grid übernehmen.
  9
    Chefs der Mathematik- und Informatikabteilung am Argonne-Nationallaboratorium
und Professor für Informatik an der Universität Chicago

                                       12
Seminar “Grid Computing “                                         WS 2004/05

3.3     Komponenten des Grid Computing
Im nachfolgenden möchte ich einen Überblick über die verschiedenen Kompo-
nenten eines Grids geben, einige der hier aufgelisteten Komponenten werden
nicht immer benötigt, dies hängt von der Architektur des Grids ab. So kann
zB. der Scheduler wie oben beschrieben durch verschiedene andere Techniken
ersetzt werden. Es soll aber dazudienen um generell einen Überblick über die
Komponenten und deren Funktion im Grid zubekommen.

3.3.1   Portal/User interface
Ein Endbenutzer des Grids will sich nicht mit Quellcode herumschlagen,
um mit dem Grid arbeiten zu können, er will sich nicht zuerst sein eigenes
Programm schreiben müssen. Nein er will den Stecker in die Dose stecken
und will dann seine Applicationen laufen lassen können. Ähnlich wie beim
Internetsurfen.
Ein Grid Portal kann ihm das ermöglichen. Er kann durch das Portal, die ihm
zurverfügung stehenden Ressourcen nutzen. Somit sieht der Nutzer ähnlich
wie beim Strom aus der Steckdose nicht woher die Energie kommt. Um solche
Portale zuerzeugen steht beispielsweise Grid Portal Toolkit 3 zuverfügung.
Weiter Informationen finden sie hier: [12]

               Abbildung 2: Portal/User interface (Quelle: [1])

3.3.2   Security im Grid
Angesichts der Möglichkeiten die das Grid seinen Benutzern bieten kann, hat
eine Frage oberste Priorität. Wie sorge ich dafür, dass nicht jeder beliebige
auf die vorhandenen Daten, Rechenleistungen, usw. zugreifen kann und sich
diese somit zunutze machen kann. Vielleicht wüerde jemand sogar auf die Idee

                                      13
Seminar “Grid Computing “                                          WS 2004/05

kommen diese gewaltige Rechenkraft dazu zu verwenden um Sicherheitssy-
steme zuhacken. Nicht nur Hacker Attacken sondern auch Betriebsspionage
hindert die meisten Betriebe und Forschungsgruppen daran, ihr Grid aufs
Internet auszuweiten. So sagt zum Beispiel Harald Lesch, Astrophysiker an
der Universität München: “Allein der letzte Hackerangriff aus Bulgarien auf
unser Intranet verbietet es, externe Pcs in das Fakultäts-Grid mit einzube-
ziehn.“
Diese Securitymechanismen müssen Authentifizierung, Autorisierung und so-
weiter unterstützen. Eines der Tools überhaupt im Grid ist Globus Toolkit.
Dies Tool bietet auch eine GSI 10 , welches ein sehr guter security mechanis-
mus ist.

        [..]The GSI includes an OpenSSL implementation. It also provi-
        des a single sign-on mechanism, so that once a user is authen-
        ticated, a proxy certificate is created and used when performing
        actions within the grid. [..] The portal will then be responsible
        for signing in to the grid, either using the user’s credentials or
        using a generic set of credentials for all authorized users of the
        portal.[..] [1]

                    Abbildung 3: Security im Grid (Quelle: [1])

3.3.3     Broker
Wenn sich nun ein Benutzer erfolgreich ins Grid eingeloggt hat, will er natürlich
seine Anwendung laufen lassen. Um dies tun zukönnen muss er zuerst her-
ausfinden welche Ressourcen überhaupt vorhanden sind und welchen Status
diese haben. Hierfür gibt es MDS 11 . Dieses System ist wiederum Teil des
 10
      Grid Security Infrastructure
 11
      Monitoring and Discovery System

                                        14
Seminar “Grid Computing “                                      WS 2004/05

Globus Toolkits.
MDS kann eben dazu verwendet werden, um herauszufinden welche Res-
sourcen überhaupt vorhanden sind und welchen Status diese haben. Weitere
Informationen finden sie hier: [17]

                      Abbildung 4: Broker (Quelle: [1])

3.3.4   Scheduler
Ein Scheduler findet die Maschine, welche vom User ausgewählt wurde, oder
sucht sich selber die passende Maschine für den Job aus. Weiters wird er
dazu verwendet um die Ausführung des Jobs zu überwachen und bei nicht
korrekter Ausführung, diesen an eine andere Maschine zuübermitteln.

                    Abbildung 5: Scheduler (Quelle: [1])

3.3.5   Datenmanagement
Wenn zB. eine Application (z.B: ein Java Programm) zu einer Maschine im
Grid gesendet werden muss, um dieses dort auszuführen, braucht es auch hier
ein Management. Dieses Daten management muss die Sicherheit aufrecht er-
halten, muss dafür sorgen, dass die Daten an ihren angegeben Platz kommen.
Globus Toolkit 2.0 bietet auch hier Lösungen an:

                                     15
Seminar “Grid Computing “                                        WS 2004/05

   • GridFTP, baut auf dem bekannten FTP12 Protokol aus dem Internet
     auf. Doch es hat einige Erweiterungen gegenüber dem FTP Protokol,
     so verwendet es zB. GSI 13 welche für die Identifizierung des Users
     zuständig ist. Weiters können auch von Server zu Server Daten übert-
     ragen werden (third-party), sowie parallele und partielle Datenübert-
     ragung ist möglich.

   • Data Replication, es gibt 2 Tools um verschiedene Kopien von Da-
     ten, gespeichert in verschiedenen Systemen, verteilt auf das Grid, zu
     managen. Einmal Replica Catalog und zum anderen Replica Ma-
     nagement.

   • GASS 14 , erlaubt zB. einer Application mittels eines URLs, welcher
     auch in Form eines HTTP Url angegeben werden kann, auf Daten,
     verteilt im Grid, Zugriff.

Weiter Informationen finden zum Datenmanagement in Globus Toolkit 2.0
finden sie hier: [4]
Globus Toolkit 2.0 ist natürlich nur eine Möglichkeit, so steht auch zB. das
Globus Toolkit 3.2 zuverfügung. Information zum Thema Datenmanagement
in Globus Toolkit 3.2 finden sie hier: [3]

                   Abbildung 6: Datenmanagement (Quelle: [1])

 12
      File transfer Protocol
 13
      Grid Security Infrastructure
 14
      Globus Access to Secondary Storage

                                           16
Seminar “Grid Computing “                                      WS 2004/05

3.3.6     Job und Ressourcemanagement
Wenn wir uns nun erfolgreich im Grid angemeldet haben, unsere Maschinen
gefunden haben, die wir brauchen, all unsere Daten (zB. ein Java Programm)
an die Maschinen geschickt haben, welche diese benötigen, wollen wir nun
unseren “Job “ausführen. Um diesen Job auszuführen, hilft uns GRAM15 .
GRAM kann auf einer Maschine im Grid einen Job starten, dessen Status
abfragen und uns das Resultat zurücksenden, wenn der Job fertig ist. Für
mehr Informationen zu GRAM lesen sie hier [5] nach.

           Abbildung 7: Job und Ressource management (Quelle: [1])

 15
      Grid Ressource Allocation Manager

                                          17
Seminar “Grid Computing “                                         WS 2004/05

3.4    Anwendungsbeispiele für Grids
Hier einige Grid Projekte:
Seti@home Seti@home war der erste Versuch die nicht genutzeten Re-
     chenleistungen und Ressourcen, dazu zunutzen um rechenintesive An-
     wendungen laufen zulassen. Seti@home ist auf der Suche nach unre-
     gelmässigkeiten im All. Seti@home habe ich schon näher in der Einlei-
     tung beschrieben (siehe Kapitel 2, Seite 3).
      Hier einige Daten zum Projekt:

                             Total                   Letzten 24 Stunden
 Benutzer                    5236846                 970
 zurückgesendete            1627790254              1452015
 Ergebnisse
 Totale CPU zeit             2117874,146 Jahre       1071,240 Jahre
 Floating Point Opera-       5.932567e+21            5.662858e+18(65.54
 tions                                               TeraFLOPs/sec)
 durchschnittliche           11 hr 23 min 50.6 sec   6 hr 27 min 46.0 sec
 CPU Zeit pro Ar-
 beitsstation

           Tabelle 1: Statistik SETI@home [16], Stand 07.11.04

Large-Hardon-Collider-Projectes (LHC) Dieses Projekt wird von der
    Atomphysikergemeinschaft CERN, CERN wo unter anderem auch das
    Internet seinen Ursprung hat, betrieben. Hier wird das Grid dazu ver-
    wendet um riesige Datenmengen zuverarbeiten, welche der bisher lei-
    stungsfähigste Teilchenbeschleuniger der Welt erzeugt. Das Ziel der
    Projektes ist es, den Ursprung des Universums zu entschlüsseln. (siehe
    Kapitel 3.2.2, Seite 10);
GIMS Great Internet Mersenne Prime Search, hier kann man mithelfen
   mögliche Mersenne-Primzahlen zufinden.
Compute Against Cancer Wird von der Firma Parabon betrieben, und
   will damit die Krebsforschung beschleunigen. Bei diesem Projekt wird
   simuliert wie die Krebszellen auf die verschiedene Medikamente reagie-
   ren.

                                       18
Seminar “Grid Computing “                                         WS 2004/05

    Dies sind nur ein kleiner Bruchteil, der Projekte, die gerade laufen. Wei-
tere Projekte finden sie hier [15].

3.5      Probleme
Eines der größten Probleme, mit dem das Grid Computing zukämpfen hat
ist, dass die Grid Standardisierung langsam voran geht. Um das zusammen-
fassen von unzähligen Rechnern, Datenbanken, und Speicherkomponenten zu
einem riesigen, virtuellen Computer gewährleisten zukönnen, bedarf es einer
ausgeklügelten Middleware und stabiler Standard-Schnittstellen.
“Im Prinzip muss die Grid-Infrastruktur den heutigen Web-Services ähneln“,
sagt dazu Joseph Reger16 . Die Entwicklung geht sehr schleppend voran, die
Probleme sind neben den anspruchsvollen technischen Rahmenbedingungen
auch firmenpolitische Interessenslagen. “Vor Ende 2006 wird es keine allge-
mein akzeptierten Standardschnittschnellen im Grid-Bereich geben“, so Re-
gers Einschatzung.
Das nicht-vorhandensein von Grid-Standards heißt natürlich nicht, dass es
noch keine Grid-ähnliche Struktur gibt. Es existieren solche Strukturen in
Wissenschaftsgemeinschaften wie auch auf dem freien Markt.
Ein weiteres Problem werden die befürchteten Hacker-Attacken darstellen.
Sehen sie dazu, unter Kapitel. 3.3.2 nach, Sicherheit im Grid.

3.6      Ausblick in die Zukunft
Zurzeit dient das Internet vorwiegend als Transportmittel, Informationsspei-
cher. Das soll sich ändern, es soll nicht nur mehr Datenaustausch betrieben
werden, vielmehr soll die ganze Rechenleistung gebündelt werden und zu ei-
nem riesigen, virtuellen Computer mit verteilten Rechner - und Speicherka-
pazität werden. Dies wird jetzt schon als die nächste Generation des Internets
gesehen. Die dadurch enstehenden Rechenleitung für die Wissenschaft und
Forschung wäre durch einen Supercomputer nicht einmal annähernd zu errei-
chen. Diese Leistungen, Rechenleistung, Speicherkapazität oder Anwendun-
gen, sollten, so wird es immer wieder in der Literatur erwähnt, wie Strom
aus der Steckdose Unternehmen zurverfügung stehen.
Das dies nicht nur Zukunftsmusik bleibt sorgt unter anderem auch die Eu-
ropäische Kommision, dies fördert nämlich mit 52 Millionen Euro zwölf EU
 16
      Chief Technology Officer bei Fujitsu Siemens Computers

                                          19
Seminar “Grid Computing “                                         WS 2004/05

- Forschungsprojekte, die Grid Technologie für Hochleistungs - Rechennetze
aus den Forschungslabors in die Unternehmen bringen wollen.
Neben den Technischen Aspekten, darf man eines nicht aus den Augen ver-
lieren, und das ist die Nutzung des Grids als kommerzielles Gut. Grid Lei-
stung soll in Zukunft, wie schon öfter gesagt, wie Strom aus der Steckdose,
verfügbar sein, dass heißt das jeder, genau wie beim Internet, Zugriff darauf
hat. Daraus folgt, dass sich Betreiber und Anbieter finden werden die ge-
gen Bezahlung die Nachfrage nach Ressourcen erfüllen. Welcher Markt sich
hier auftun kann, ist schwer einzuschätzen, aber man kann annehmen, dass
es dem Internet in nichts nachstehen wird.

4     Zusammenfassung
Ich persönlich sehe auch im Grid Computing eine große Chance. Dies be-
zieht sich nicht nur auf die Entdeckung von ET oder des Ursprungs des
Universums. Nein, mit der Möglichkeit des Grids ist es zB. einer kleinen For-
schungsgruppe möglich, zugriff auf für sie zuteure Geräte zuhaben, denn nicht
jeder kann sich einen Teilchenbeschleuniger leisten. Aber auch riesige Daten-
mengen wären für solche Forschungsgruppen zugänglich. Wer weiss vielleicht
wird mit Hilfe des Grid Computing wirklich einmal Krebs ausgerottet. Worin
ich aber eines der größten Probleme sehe, ist die Absicherung des Grids vor
Hackern. Es ist ja schon das Internet ein gefundenes Fressen für viele Hacker,
wie ist es dann erst, wenn sie die möglichkeit haben Teilchenbeschleuniger
zu steuern, oder Elektronenmikroskope verwenden können. Hier verstehe ich
absolut den Zweifel jener Firmen und Forschungsgruppen, die den Schritt
vom Intragrid zum Intergrid noch nicht wagen. Das Grid Computing steckt
noch in den Kinderschuhen, und bis es aus der Steckdose zu uns kommt wird
es wohl noch einige Jahre dauern.

Literatur
[1]      Bart Jacob, IBM       Grid computing: What are the key
         components, zu finden auf der Homepage: http://www-
         106.ibm.com/developerworks/grid/library/gr-overview/. Technical
         report, 2003.

                                      20
Seminar “Grid Computing “                                  WS 2004/05

[2]     CHIP     Online,     Kim    Kranz          Das    Internet   als
        Superrechners,      zu    finden      auf     der     Homepage:
        http://www.chip.de/artikel/c artikel 10837960.html?tid1=19508&tid2=0.
        Technical report, 2003.

[3]     the Globus Alliance.     Data Management Documentation, zu
        finden auf der zu finden auf der Homepage: http://www-
        unix.globus.org/toolkit/docs/3.2/datamanagement.html. Techni-
        cal report, 2004.

[4]     the Globus Alliance. Data Management, zu finden auf der Homepa-
        ge: http://www.globus.org/toolkit/data-management.html. Tech-
        nical report, 2003.

[5]     the     Globus     Alliance.           GRAM:      Key      Con-
        cepts,    zu   finden    auf    der  Homepage:     http://www-
        unix.globus.org/toolkit/docs/3.2/gram/key/index.html. Technical
        report, 2004.

[6]     the Globus Alliance. The Globus Data Grid Effort, zu finden auf
        der Homepage: http://www.globus.org/datagrid/. Technical re-
        port, 2002.

[7]     the Golem.de. CERN: Fortschritte beim Grid-Computing, zu finden
        auf der Homepage: http://www.golem.de/0407/32225.html. Tech-
        nical report, 2004.

[8]     the Golem.de.         CERN: Weltweites wissenschaftliches
        Datengrid geht online, zu finden auf der Homepage:
        http://www.golem.de/0310/27790.html Technical report, 2003.

[9]     the Golem.de. CERN: Fortschritte beim Grid-Computing, zu finden
        auf der Homepage: http://www.golem.de/0407/32225.html. Tech-
        nical report, 2004.

[10]    Grohmann      Ralf,   Dr.   Wedeniwski  Sebastian       Die
        IBM ZetaGrid Lösugn: zu finden auf der Homepage:
        http://www.zetagrid.net/zeta/ZetaGRID4customers de.pdf.
        Technical report, 2004.

                                  21
Seminar “Grid Computing “                                      WS 2004/05

[11]    Heidenblut     Norbert.          Grid-Computing:   zu     fin-
        den     auf   der     Homepage:    http://www.mathematik.uni-
        ulm.de/sai/ss03/inetsem/src/heidenblutharbeit.pdf. Technical
        report, 2003.

[12]    Maytal Dahan, Mary Thomas, Akhil SethEric, Ro-
        berts Jay Boisseau      Build grid portals with Grid Por-
        tal Toolkit 3, zu finden auf der Homepage: http://www-
        106.ibm.com/developerworks/grid/library/gr-gridport/. Technical
        report, 2003.

[13]    Jürgen Höling. Es wird gridisiert - obwohl die Standards noch dau-
        ern, Zu finden auf derHomepage: http://www.silicon.de/cpo/hgr-
        csh/detail.php?nr=16062. Technical report, 2004.

[14]    IBM. So what is grid computing anyway, zu finden auf der
        Homepage: http://www-106.ibm.com/developerworks/library/gr-
        starthere.html. Technical report, 2004.

[15]    Rechenkraft.net. Du kannst der medizinischen Forschung helfen,
        zu finden auf der Homepage: http://rechenkraft.net/indexjs.html.
        Technical report, 2004.

[16]    SETI@home.         Statistic, zu finden auf       der Homepage:
        http://setiathome.ssl.berkeley.edu/totals.html.     Technical re-
        port, 07.11.2004.

[17]    Vladimir Silva . Querying the Grid with the Globus Toolkit
        Monitoring and Discovery Service, zu finden auf der Homepa-
        ge:    http://www-106.ibm.com/developerworks/grid/library/gr-
        mds.html. Technical report, 01.04.2003.

[18]    Besonderen Dank, von meiner Seite aus, an Google.at. Zu finden
        auf der Homepage: http://www.google.at.

                                    22
Sie können auch lesen