VMWARE VSPHERE BITFUSION-BENUTZERHANDBUCH - MAI 2021 AKTUALISIERT UND UMFASST NUN VMWARE VSPHERE BITFUSION 3.5 VMWARE VSPHERE BITFUSION 3.0

Die Seite wird erstellt Milena Schott
 
WEITER LESEN
VMware vSphere
Bitfusion-
Benutzerhandbuch
11. Mai 2021
Aktualisiert und umfasst nun VMware vSphere Bitfusion 3.5
VMware vSphere Bitfusion 3.0
VMware vSphere Bitfusion-Benutzerhandbuch

Die aktuellste technische Dokumentation finden Sie auf der VMware-Website unter:

https://docs.vmware.com/de/

VMware, Inc.                                     VMware Global, Inc.
3401 Hillview Ave.                               Zweigniederlassung Deutschland
Palo Alto, CA 94304                              Willy-Brandt-Platz 2
www.vmware.com                                   81829 München
                                                 Germany
                                                 Tel.: +49 (0) 89 3706 17 000
                                                 Fax: +49 (0) 89 3706 17 333
                                                 www.vmware.com/de

               ©
Copyright          2020-2021 VMware, Inc. Alle Rechte vorbehalten. Urheberrechts- und Markenhinweise.

VMware, Inc.                                                                                            2
Inhalt

     1 Informationen zu VMware vSphere Bitfusion-Benutzerhandbuch 5

     2 Grundlegendes zu VMware vSphere Bitfusion 6

     3 Starten von Anwendungen in vSphere Bitfusion 10
               Starten von Anwendungen mit dem Befehl „Run“                10
               Zuweisen von GPUs mit dem Befehl RUN         11
               Partitionieren des GPU-Arbeitsspeichers      11
               Beispiele für die GPU-Partitionierung   12
               Starten von Anwendungen mit reservierten GPUs               14

     4 Verwalten von vSphere Bitfusion-Servern 16
               Hinzufügen nachfolgender vSphere Bitfusion-Server                16
               Entfernen eines vSphere Bitfusion-Servers         20
               Konfigurieren der Netzwerkeinstellungen eines vSphere Bitfusion-Servers                 21
                  Hinzufügen einer Netzwerkschnittstelle         21
                  Konfigurieren einer Netzwerkschnittstelle           23
                  Entfernen einer Netzwerkschnittstelle      24
                  vSphere Bitfusion-vApp-Eigenschaften           25
               Ändern der Einstellungen eines vSphere Bitfusion-Servers               27
               Durchführen einer Integritätsprüfung eines vSphere Bitfusion-Servers               28
               Liste der vSphere Bitfusion-Integritätsprüfungen            29
               Erstellen von vSphere Bitfusion-Serverprotokollen            30
               Anzeigen von vSphere Bitfusion-Serverprotokollen                 30
               Anzeigen von GPU-Informationen zu einem vSphere Bitfusion-Server                  31

     5 Verwalten von vSphere Bitfusion-Clients 32
               Deaktivieren oder Löschen eines vSphere Bitfusion-Clients               32
               Ändern der Einstellungen eines vSphere Bitfusion-Clients               33
               Anzeigen von GPU-Informationen zu einem vSphere Bitfusion-Client                  33

     6 Verwalten von vSphere Bitfusion 35
               Sichern eines vSphere Bitfusion-Clusters     36
               Wiederherstellen eines vSphere Bitfusion-Clusters            37
               Starten und Beenden des vSphere Bitfusion-Dienstes                38
               Herunterladen von vSphere Bitfusion-Überwachungsdaten                   39
               Festlegen eines globalen Anzeigeaktualisierungsintervalls              39
               Verwenden einer Teilmengenliste von vSphere Bitfusion-Servern                40

VMware, Inc.                                                                                                3
VMware vSphere Bitfusion-Benutzerhandbuch

               vSphere Bitfusion-Konfigurationsdateien   40
               vSphere Bitfusion-Befehlsreferenz   41
               Überwachen von vSphere Bitfusion im vSphere Bitfusion-Plug-In     45
               Überwachen von vSphere Bitfusion in der CLI     46

     7 Fehlerbehebung für vSphere Bitfusion 48
               Änderungen der vSphere Bitfusion-Client-ID     48
               Gelöschte vSphere Bitfusion-Clients können GPUs anfordern    48
               vSphere Bitfusion-Client kann keine Verbindung zu den vSphere Bitfusion-Servern herstellen
                    49
               vSphere Bitfusion-Server kann nicht gestartet werden   50

VMware, Inc.                                                                                                4
Informationen zu VMware
vSphere Bitfusion-
Benutzerhandbuch
                                                                                           1
Das VMware vSphere Bitfusion-Benutzerhandbuch enthält Informationen zur Verwendung und
                                ®         ®
Konfiguration von VMware vSphere Bitfusion .

Wir bei VMware legen Wert auf die Verwendung neutraler Sprache. Um dieses Prinzip bei
unseren Kunden und Partnern sowie innerhalb der internen Community zu fördern, erstellen wir
Inhalte mit neutraler Sprache.

Im VMware vSphere Bitfusion-Benutzerhandbuch wird die Zuteilung, Partitionierung und das
Anhängen von GPUs an Arbeitslasten sowie die Konfiguration und Überwachung von vSphere
Bitfusion beschrieben.

Zielgruppe
Dieses Handbuch richtet sich an erfahrene Benutzer, die mit ESXi, vCenter Server und der
Befehlszeilenschnittstelle (CLI) vertraut sind.

VMware, Inc.                                                                                   5
Grundlegendes zu VMware
vSphere Bitfusion                                                                            2
VMware vSphere Bitfusion virtualisiert Hardwarebeschleunigung, wie z. B. grafische
Verarbeitungseinheiten (GPUs), um einen Pool mit gemeinsam genutzten, netzwerkzugänglichen
Ressourcen zur Verfügung zu stellen, die Arbeitslasten für künstliche Intelligenz (AI) und Machine
Learning (ML) unterstützen.

vSphere Bitfusion – Architektur
vSphere Bitfusion verfügt über eine Client-Server-Architektur. Das Produkt ermöglicht mehreren
Client-VMs, die Anwendungen für künstliche Intelligenz (AI) und Machine Learning (ML)
ausführen, gemeinsam auf Remote-GPUs auf virtuellen Maschinen zuzugreifen, die vSphere
Bitfusion-Serversoftware ausführen. Sie führen die Anwendungen auf den vSphere Bitfusion-
Clientmaschinen aus, während die GPUs, die eine Beschleunigung bieten, auf den vSphere
Bitfusion-Servermaschinen in einem Netzwerk installiert sind. Die Anwendungen können Dateien
öffnen, Arbeitsspeicher zuteilen und CUDA aufrufen, als ob sie auf einer Maschine mit lokalen
GPUs ausgeführt werden würden.

Die folgende Abbildung ist ein Beispiel für einen kleinen vSphere Bitfusion-Cluster, wie z. B. eine
Gruppe von vSphere Bitfusion-Server-Client-Maschinen und vCenter Server in einem Switch-
Netzwerk. Eine minimale vSphere Bitfusion-Clusterkonfiguration ist ein Client, ein Server und ein
vCenter Server. Sie können große Cluster mit mehreren Clients und Servern erstellen.

VMware, Inc.                                                                                          6
VMware vSphere Bitfusion-Benutzerhandbuch

Abbildung 2-1. Kleiner vSphere Bitfusion-Cluster – Beispiel

                                   Verteilte Datenbank

                                         vSphere
                                         Bitfusion-
                                         Appliance

                                                                                     1
                                          ESXi 7                                              vCenter
                                                                                               Server

                                   GPU                GPU

                                                                                                 2

                                     Synchronisierung
                                    der Kommunikation

                                                                                             vSphere
                                                                                             Bitfusion-
           Verteilte Datenbank                              Verteilte Datenbank
                                                                                             Client-VM

                                                                                     3
                vSphere                                           vSphere
                Bitfusion-                                        Bitfusion-
                Appliance                                         Appliance
                                                                                         ESXi 6.7 oder höher

                 ESXi 7                                            ESXi 7

          GPU                GPU                            GPU                GPU

1   Der primäre vSphere Bitfusion-Server registriert ein vSphere Bitfusion-Plug-In bei vCenter
    Server.

2   Das vSphere Bitfusion-Plug-In ermöglicht eine vSphere Bitfusion-Client-VM.

3   Der vSphere Bitfusion-Client hat autorisierten Zugriff auf alle vSphere Bitfusion-Server im
    vSphere Bitfusion-Cluster.

Hinweis Bevor Sie VMware vSphere Bitfusion verwenden, müssen Sie einen vSphere Bitfusion-
Server bereitstellen und einen vSphere Bitfusion-Client installieren und aktivieren. Weitere
Informationen finden Sie im VMware vSphere Bitfusion-Installationshandbuch.

VMware, Inc.                                                                                                   7
VMware vSphere Bitfusion-Benutzerhandbuch

vSphere Bitfusion-Funktionalität
Wenn Sie eine KI- oder ML-Anwendung auf dem vSphere Bitfusion-Client starten, fängt vSphere
Bitfusion die CUDA-Aufrufe der Anwendung ab und sieht die Daten- und Datenzeiger der
Aufrufe. Der vSphere Bitfusion-Server benötigt keine Verbindung zu den Daten, sondern nur zum
vSphere Bitfusion-Client. Der Client überträgt die Daten und die restlichen CUDA-Aufrufe an den
Server. Der vSphere Bitfusion-Server verarbeitet die Aufrufe und gibt die Ergebnisse an den
Client zurück.

Für die Ausführung von AI- und ML-Anwendungen kann vSphere Bitfusion die folgenden
Vorgänge ausführen.

n   Dynamische Zuteilung und Zugriff auf GPU-Ressourcen von vSphere Bitfusion-Servern aus.

    Anwendungen können GPU-Ressourcen gemeinsam nutzen, die nicht für einzelne Maschinen
    dediziert sind, und Sie können jede Anwendung auf einer konfigurierten Maschine, einem
    Container und einer Umgebung ausführen. Anwendungen verbrauchen GPU-
    Beschleunigungsdienste aus einem Pool von vSphere Bitfusion-Servern über ein Netzwerk
    hinweg und verbrauchen die Ressourcen nur für die Zeitdauer, die eine Anwendung oder
    Sitzung ausgeführt wird. GPUs werden wieder in den Pool aufgenommen, wenn
    Anwendungen oder Sitzungen abgeschlossen wurden.

n   Zugriff auf Partitionen von GPU-Ressourcen für die gleichzeitige gemeinsame Nutzung mit
    anderen Anwendungen.

    Eine weitere Möglichkeit, GPUs gemeinsam zu nutzen, ist die Partitionierung der GPUs. Der
    Arbeitsspeicher einer physischen GPU kann in Bruchteile einer beliebigen Größe aufgeteilt
    werden und gleichzeitig verschiedenen Anwendungen zugeteilt werden. vSphere Bitfusion
    führt die Freigabe mit einer Interpositionstechnologie durch. vSphere Bitfusion fängt API-
    Aufrufe ab, die normalerweise an eine lokale Beschleunigung auf einem PCIe-Hostbus
    adressiert sind, und sendet die API-Aufrufe und zugehörige Daten über ein Netzwerk.
    vSphere Bitfusion stellt Freigabedienste für AI- und ML-Anwendungen bereit und unterstützt
    die CUDA-API zur Ansteuerung von NVIDIA-GPUs.

Komponenten für vSphere Bitfusion
vSphere Bitfusion-Server
    vSphere Bitfusion-Server wird auf einem ESXi-Host mit lokal installierten GPUs als VMware-
    Appliance ausgeführt, bei der es sich um eine vorkonfigurierte virtuelle Maschine (VM) mit
    vorab gepackter Software und gepackten Diensten handelt. Der Server benötigt Zugriff auf
    die lokalen GPUs, in der Regel über VMware vSphere® DirectPath I/O™.

vSphere Bitfusion-Client

    vSphere Bitfusion-Client wird auf VMs ausgeführt, auf denen die AI- und ML-Anwendungen
    ausgeführt werden.

vSphere Bitfusion-Plug-In

VMware, Inc.                                                                                     8
VMware vSphere Bitfusion-Benutzerhandbuch

    Die vSphere Bitfusion-Server registrieren ein vSphere Bitfusion-Plug-In bei VMware vCenter
    Server. Das-Plug-In stellt die Überwachung und Verwaltung von vSphere Bitfusion-Clients und
    -Servern bereit.

vSphere Bitfusion-Cluster

    vSphere Bitfusion-Cluster ist der Satz aller vSphere Bitfusion-Server und -Clients in einer
    vCenter Server-Instanz.

vSphere Bitfusion-Gruppe

    Der vSphere Bitfusion-Client erstellt während des Installationsvorgangs eine vSphere
    Bitfusion-Gruppe. Nur die Gruppenmitglieder können vSphere Bitfusion verwenden.
    Bestimmte Konfigurationsdateien werden mit den entsprechenden Berechtigungen
    eingerichtet, und die Gruppenmitglieder übernehmen die entsprechenden Grenzwerte, um
    effektiv mit vSphere Bitfusion arbeiten zu können.

vSphere Client

    Über den vSphere Client können Sie mithilfe eines Webbrowsers eine Verbindung mit
    vCenter Server-Instanzen herstellen, um Ihre vSphere-Infrastruktur zu verwalten. Sie greifen
    auf das vSphere Bitfusion-Plug-In über den vSphere Client zu.

Befehlszeilenschnittstelle (CLI)

    Sie können vSphere Bitfusion-Server und -Clients mithilfe von Befehlen über die
    Befehlszeilenschnittstelle (CLI) verwalten.

vCenter Server

    vCenter Server ist die Serververwaltungssoftware, die eine zentrale Plattform für die
    Steuerung Ihrer vSphere-Umgebung bereitstellt.

VMware, Inc.                                                                                       9
Starten von Anwendungen in
vSphere Bitfusion                                                                        3
Sie können eine Anwendung im gesamten GPU-Arbeitsspeicher oder nur in einer dedizierten
Partition des Arbeitsspeichers ausführen. vSphere Bitfusion kann eine GPU zuweisen, eine
Anwendung ausführen und die GPU-Zuweisung mit einem einzelnen CLI-Befehl aufheben oder Sie
können einzelne Befehle verwenden, um diese Aufgaben auszuführen.

Dieses Kapitel enthält die folgenden Themen:

n   Starten von Anwendungen mit dem Befehl „Run“

n   Zuweisen von GPUs mit dem Befehl RUN

n   Partitionieren des GPU-Arbeitsspeichers

n   Beispiele für die GPU-Partitionierung

n   Starten von Anwendungen mit reservierten GPUs

Starten von Anwendungen mit dem Befehl „Run“
Der vSphere Bitfusion-Client kann Machine Learning-Anwendungen auf gemeinsam genutzten
Remote-GPUs ausführen. Mithilfe des Befehls run können Sie eine einzelne Anwendung in
vSphere Bitfusion starten.

Der vSphere Bitfusion-Befehl, mit dem eine Anwendung gestartet wird, ist run mit einem
obligatorischen Argument für die Anzahl der GPUs. Um vSphere Bitfusion-Argumente von
Anwendungen zu unterscheiden, verwenden Sie ein Trennzeichen mit zwei Bindestrichen oder
setzen die Anwendung in Anführungszeichen. Sie starten eine Anwendung in vSphere Bitfusion,
indem Sie die Platzhalterwerte durch tatsächliche Werte ersetzen und einen der folgenden
Befehle ausführen.

n   bitfusion run -n num_gpus other switches -- applications and arguments

n   bitfusion run -n num_gpus other switches "applications and arguments"

Indem Sie den Befehl run ausführen, können Sie die folgenden drei Aufgaben durchführen.

1   Zuteilen von GPUs aus dem gemeinsam genutzten Pool

2   Starten einer Anwendung in einer Umgebung, die auf die GPUs zugreifen kann, wenn die
    Anwendung CUDA-Aufrufe ausgibt

3   Aufheben der Zuteilung der GPUs, wenn die Anwendung geschlossen wird

VMware, Inc.                                                                                  10
VMware vSphere Bitfusion-Benutzerhandbuch

Der Befehl run schließt die Befehle request_gpus, client und release_gpus ein. Sie können die
einzelnen Befehle verwenden, um GPUs zuzuteilen und mehrere Anwendungen auf denselben
GPUs auszuführen. Weitere Informationen finden Sie unter Starten von Anwendungen mit
reservierten GPUs.

Zuweisen von GPUs mit dem Befehl RUN
Sie können den Befehl run ausführen, um GPUs für eine einzelne Anwendung zuzuteilen. Die
Anwendung wird in allen Arbeitsspeicherressourcen der GPUs ausgeführt.

Alle GPUs, die mithilfe des Befehls run angefordert werden, müssen über einen einzelnen
vSphere Bitfusion-Server zugeteilt werden. Auf dem Server müssen die GPUs als verschiedene
Geräte mit unterschiedlichen PCIe-Adressen aufgeführt werden.

Die KI-Anwendung, asimov_i.py, verwendet beispielsweise zwei Argumente: die Anzahl der
GPUs und eine Batchgröße.

n     Wenn die Anwendung 1 GPU erwartet, führen Sie bitfusion run -n 1 -- python
      asimov_i.py --num_gpus=1 --batchsz=64 aus

n     Wenn die Anwendung 2 GPUs erwartet, führen Sie bitfusion run -n 2 -- python
      asimov_i.py --num_gpus=2 --batchsz=64 aus

Standardmäßig wartet vSphere Bitfusion 30 Minuten, bis genügend GPUs zur Verfügung stehen.
Verwenden Sie zum Ändern des Standardzeitraums das Argument --timeout value, -t value.
Geben Sie die Zeitüberschreitung in Sekunden oder Zeit und Einheit ein, wie z. B. Sekunden (s),
Minuten (m) und Stunden (h).

Sie können beispielsweise die folgenden Werte für das Argument value definieren.
10                                   10 Sekunden

10s                                  10 Sekunden

10m                                  10 Minuten

10h                                  10 Stunden

Partitionieren des GPU-Arbeitsspeichers
Sie können Ihre Anwendung in einer dedizierten Partition des Arbeitsspeichers einer GPU
durchführen. Andere Anwendungen können den verbleibenden Arbeitsspeicher der GPU
verwenden.

Bei den GPU-Partitionierungsargumenten handelt es sich um optionale run-Befehlsargumente.
Sie verwenden die Argumente, um Ihre Anwendung in einer Partition eines GPU-Arbeitsspeichers
zu verwenden.

n     Der GPU-Partitionierungsvorgang ist dynamisch. Wenn Sie einen run-Befehl mit einem
      Argument starten, weist vSphere Bitfusion eine Partition zu, bevor die Anwendung ausgeführt
      wird, und hebt die Zuweisung anschließend wieder auf.

VMware, Inc.                                                                                      11
VMware vSphere Bitfusion-Benutzerhandbuch

n   Die Anwendungen, die GPUs gleichzeitig nutzen, sind durch die Verwendung separater
    Clientprozesse, Netzwerkdatenströme, Serverprozesse und Arbeitsspeicherpartitionen
    voneinander isoliert.

n   vSphere Bitfusion partitioniert nur den Arbeitsspeicher der GPU und nicht die Computing-
    Ressource. Eine Anwendung ist strikt nur in der zugewiesenen Arbeitsspeicherpartition
    enthalten, kann aber bei Bedarf auf die vollständige Computing-Ressource zugreifen. Wenn
    dieselben Computingzellen erforderlich sind, konkurrieren die Anwendungen um
    Computingressourcen, andernfalls werden die Anwendungen gleichzeitig ausgeführt.

Die Partitionsgröße kann in MB oder als Bruchteil des gesamten GPU-Arbeitsspeichers
angegeben werden.

Partitionieren der Arbeitsspeichergröße der GPU nach Bruchteil (Zahl > 0,0 und
VMware vSphere Bitfusion-Benutzerhandbuch

Wenn Sie mehrere GPUs anforderten, teilen alle GPUs dieselbe Menge an Arbeitsspeicher zu. Die
Angabe der Bruchteilgröße muss auf der GPU mit dem geringsten Speicherplatz basieren.

In folgendem Beispiel fordert das Argument -p 33% des Arbeitsspeichers für jede der beiden
angeforderten GPUs an. Die GPUs müssen sich physisch auf demselben Server befinden. Wenn
es sich bei den GPUs um Geräte mit 16 GB handelt oder wenn die kleinste GPU ein Gerät mit 16
GB darstellt, werden ungefähr 5461 MB für jede GPU zugeteilt. Während keine anderen
Anwendungen ausgeführt werden, kann asimov_i.py auf die volle Rechenleistung der beiden
GPUs zugreifen.

Führen Sie bitfusion run -n 2 -p 0.33 -- python asimov_i.py --num_gpus=1 --batchsz=64
aus

Über einen einzelnen Client auf derselben GPU können Sie mehrere Anwendungen gleichzeitig
ausführen.

Um beispielsweise zwei gleichzeitige Anwendungsinstanzen im Hintergrund zu starten, führen Sie
beide Befehle aus.

1     bitfusion run -n 1 -p 0.66 -- python asimov_i.py --num_gpus=1 --batchsz=64 &

2     bitfusion run -n 1 -p 0.33 -- python asimov_i.py --num_gpus=1 --batchsz=32 &

Systemverwaltungsschnittstelle von NVIDIA (nvidia-smi)
Sie können die Überwachungsanwendung nvidia-smi der NVIDIA-
Systemverwaltungsschnittstelle ausführen, um die Partitionsgröße der GPU oder die auf einem
vSphere Bitfusion-Server verfügbaren Ressourcen zu überprüfen. In der Regel wird die
Anwendung auf dem Server bereitgestellt, wenn Sie den NVIDIA-Treiber installieren.

Anwendungen, die auf den vSphere Bitfusion-Clients ausgeführt werden, benötigen nicht den
NVIDIA-Treiber, erfordern jedoch möglicherweise die nvidia-smi-Anwendung, um beispielsweise
die Funktionen der GPU zu verstehen oder die GPU-Arbeitsspeicher-Größe zu bestimmen. Zur
Unterstützung solcher Vorgänge wird seit vSphere Bitfusion 3.0 die nvidia-smi-Anwendung auf
allen vSphere Bitfusion-Clients bereitgestellt. vSphere Bitfusion kopiert die Anwendung vom
Server auf den Client.

Um beispielsweise eine Partition mit 1024 MB auf einer GPU anzufordern, führen Sie bitfusion
run -n 1 -m 1024 -- nvidia-smi aus.

In der Ausgabe der nvidia-smi-Anwendung wird der angeforderte Partitionswert von 1024MiB
angezeigt.

    Requested resources:
    Server List: 172.16.31.241:56001
    Client idle timeout: 0 min
    Wed Sep 23 15:21:17 2020
    +-----------------------------------------------------------------------------+
    | NVIDIA-SMI 440.100       Driver Version: 440.64.00    CUDA Version: 10.2     |
    |-------------------------------+----------------------+----------------------+
    | GPU Name         Persistence-M| Bus-Id         Disp.A | Volatile Uncorr. ECC |
    | Fan Temp Perf Pwr:Usage/Cap|             Memory-Usage | GPU-Util Compute M. |

VMware, Inc.                                                                                   13
VMware vSphere Bitfusion-Benutzerhandbuch

    |===============================+======================+======================|
    |   0 Tesla T4             Off | 00000000:13:00.0 Off |                     0 |
    | N/A   36C    P8     9W / 70W |       0MiB / 1024MiB |       0%      Default |
    +-------------------------------+----------------------+----------------------+

    +-----------------------------------------------------------------------------+
    | Processes:                                                       GPU Memory |
    | GPU        PID   Type   Process name                             Usage      |
    |=============================================================================|
    | No running processes found                                                  |
    +-----------------------------------------------------------------------------+

Starten von Anwendungen mit reservierten GPUs
Sie können eine Anzahl von GPUs zuteilen und mehrere Anwendungen auf denselben GPUs
ausführen.

Während der Befehl run GPUs zuteilt, Anwendungen ausführt und die Zuteilung aller GPUs
aufhebt, verfügt vSphere Bitfusion über drei einzelne Befehle, um dieselben Aufgaben
auszuführen. Mit den einzelnen Befehlen können Sie dieselbe GPU für mehrere Anwendungen
verwenden und haben mehr Kontrolle, wenn Sie vSphere Bitfusion in andere Tools und
Workflows integrieren, wie z. B. die Planungssoftware SLURM.

n     Führen Sie request_gpus aus, um GPUs zuzuteilen.

n     Führen Sie client aus, um Anwendungen in einer Umgebung zu starten, die auf die GPUs
      zugreifen kann, wenn die Anwendung CUDA-Aufrufe ausgibt.

n     Führen Sie zum Aufheben der Zuteilung der GPUs release_gpus aus.

      Hinweis Mit dem Befehl request_gpus werden eine Datei und Umgebungsvariablen erstellt,
      die an andere Tools weitergeleitet werden können. Die Tools können den Befehl client mit
      derselben Zuteilungskonfiguration ausführen.

Die Argumente für den Befehl run werden zwischen den Befehlen request_gpus und client
aufgeteilt.

Um die Verwendung der einzelnen Befehle zu verstehen, lesen Sie den folgenden Beispiel-
Workflow, der die AI-Anwendung asimov_i.py verwendet.

1     Um GPUs zum Starten von mehreren und sequenziellen Anwendungen zuzuteilen, führen Sie
      bitfusion request_gpus -n 1 -m 5461 aus.

        Requested resources:
        Server List: 172.16.31.241:56001
        Client idle timeout: 0 min

VMware, Inc.                                                                                     14
VMware vSphere Bitfusion-Benutzerhandbuch

2   Um eine Anwendung durch Ausführung des Befehls client zu starten, führen Sie bitfusion
    client nvidia-smi aus.

      Wed Sep 23 15:26:02 2020
      +-----------------------------------------------------------------------------+
      | NVIDIA-SMI 440.100      Driver Version: 440.64.00    CUDA Version: 10.2     |
      |-------------------------------+----------------------+----------------------+
      | GPU Name         Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
      | Fan Temp Perf Pwr:Usage/Cap|            Memory-Usage | GPU-Util Compute M. |
      |===============================+======================+======================|
      |   0 Tesla T4             Off | 00000000:13:00.0 Off |                     0 |
      | N/A   36C    P8    10W / 70W |       0MiB / 5461MiB |       0%      Default |
      +-------------------------------+----------------------+----------------------+

      +-----------------------------------------------------------------------------+
      | Processes:                                                       GPU Memory |
      | GPU        PID   Type   Process name                             Usage       |
      |=============================================================================|
      | No running processes found                                                   |
      +-----------------------------------------------------------------------------
      +                                            |

3   Um eine weitere Anwendung durch Ausführung des Befehls client zu starten, führen Sie
    bitfusion client -- python asimov_i.py --num_gpus=1 --batchsz=64 aus.

4   Um die Zuteilung der GPUs aufzuheben, führen Sie bitfusion release_gpus aus.

VMware, Inc.                                                                                 15
Verwalten von vSphere Bitfusion-
Servern                                                                                  4
Mithilfe des vSphere Bitfusion-Plug-In- und der CLI-Befehlen können Sie die vSphere Bitfusion-
Server in Ihrem Cluster hinzufügen, entfernen, konfigurieren und überwachen.

Dieses Kapitel enthält die folgenden Themen:

n   Hinzufügen nachfolgender vSphere Bitfusion-Server

n   Entfernen eines vSphere Bitfusion-Servers

n   Konfigurieren der Netzwerkeinstellungen eines vSphere Bitfusion-Servers

n   Ändern der Einstellungen eines vSphere Bitfusion-Servers

n   Durchführen einer Integritätsprüfung eines vSphere Bitfusion-Servers

n   Liste der vSphere Bitfusion-Integritätsprüfungen

n   Erstellen von vSphere Bitfusion-Serverprotokollen

n   Anzeigen von vSphere Bitfusion-Serverprotokollen

n   Anzeigen von GPU-Informationen zu einem vSphere Bitfusion-Server

Hinzufügen nachfolgender vSphere Bitfusion-Server
Sie können Ihrem vSphere Bitfusion-Cluster weitere Server hinzufügen, wenn Sie weitere GPU-
Ressourcen benötigen.

Nach dem Start des primären vSphere Bitfusion-Servers registriert vSphere Bitfusion ein vSphere
Bitfusion-Plug-In im vCenter Server, wodurch ein einzelner vSphere Bitfusion-Cluster mit einem
vSphere Bitfusion-Server entsteht. Nachdem das vSphere Bitfusion-Plug-In registriert wurde,
können Sie nachfolgende Server hinzufügen, indem Sie die Schritte in diesem Vorgang
durchführen. Das vSphere Bitfusion-Plug-In verwendet die Konfigurationsdaten des primären
Servers, wodurch eine schnellere Bereitstellung der nachfolgenden Server möglich ist.

Alternativ dazu können Sie einen neuen Server zu Ihrem vSphere Bitfusion-Cluster hinzufügen,
indem Sie das Bereitstellungsverfahren für den primären Server ausführen. Sie stellen die
vSphere Bitfusion-Appliance auf einer virtuellen Maschine (VM) bereit, passen die vSphere
Bitfusion-OVF-Vorlage an, übergeben die GPUs an die vSphere Bitfusion-Server-VM und
aktivieren die VM als vSphere Bitfusion-Server.

VMware, Inc.                                                                                     16
VMware vSphere Bitfusion-Benutzerhandbuch

Zusätzliche vSphere Bitfusion-Server müssen zur selben vCenter Server-Instanz wie der erste
vSphere Bitfusion-Server gehören.

Voraussetzungen

n   Stellen Sie sicher, dass Sie einen primären vSphere Bitfusion-Server installiert haben.

n   Stellen Sie sicher, dass der vSphere Bitfusion-Server bei vCenter Server registriert ist.

Verfahren

1   Klicken Sie in der Ansicht Hosts und Cluster in vCenter Server mit der rechten Maustaste auf
    einen ESXi-Host und wählen Sie Bitfusion > Bithost-Server installieren aus.

    Das Dialogfeld Bitfusion-Server installieren wird angezeigt.

2   Geben Sie auf der Seite OVA-Image auswählen die URL der vSphere Bitfusion-OVA-Datei ein
    oder navigieren Sie zu der Datei und klicken Sie auf Weiter.

3   Überprüfen Sie auf der Seite Vorlagendetails verifizieren die Details der OVA-Vorlage und
    klicken Sie auf Weiter.

4   Geben Sie auf der Seite Namen und Hostnamen auswählen einen Namen für die virtuelle
    Maschine sowie einen Hostnamen für den vSphere Bitfusion-Server ein und klicken Sie auf
    Weiter.

    Optional können Sie eine Host-ID für den vSphere Bitfusion-Server angeben, z. B. wenn Sie
    ein Upgrade Ihres vSphere Bitfusion-Servers durchführen. Wenn Sie diesen Schritt
    überspringen, wird eine Host-ID generiert und automatisch zugewiesen.

5   Definieren Sie auf der Seite Speicher auswählen, wo und wie die Dateien der bereitgestellten
    VM gespeichert werden sollen, und klicken Sie auf Weiter.

6   Geben Sie auf der Seite Netzwerk auswählen die Netzwerkkonfiguration für
    Netzwerkadapter 1 ein und klicken Sie auf Weiter.

    Sie müssen die Konfiguration für Netzwerkadapter 1 angeben, der für die Verwaltung und den
    Datenverkehr verwendet wird. Netzwerkadapter 1 muss mit einem Netzwerk verbunden sein,
    das mit der vCenter Server-Instanz kommuniziert.
    Wenn Ihr vSphere Bitfusion-Server zusätzliche Netzwerkadapter für den Datenverkehr
    benötigt, können Sie auf Netzwerkadapter hinzufügen klicken und die Netzwerkkonfiguration
    für den zusätzlichen Adapter angeben.

    Option                                  Beschreibung

    Netzwerkadapter                         Wählen Sie im Dropdown-Menü ein Netzwerk aus.

    Adaptertyp                              Wählen Sie einen Netzwerkadapter aus, der der virtuellen Maschine
                                            zugewiesen werden soll.

                                            Hinweis vSphere Bitfusion unterstützt VMXNET3- und PVRDMA-Adapter.

    DHCP/Feste IP                           Geben Sie an, ob ein DHCP-Server die Adresse des Netzwerkadapters
                                            zuweist oder ob Sie eine feste IPv4-Adresse verwenden.

VMware, Inc.                                                                                                     17
VMware vSphere Bitfusion-Benutzerhandbuch

    Option                                  Beschreibung

    IPv4-Adresse                            Geben Sie die IPv4-Adresse des Netzwerkadapters ein. Bei Verwendung von
                                            DHCP lassen Sie dieses Textfeld leer.

                                            Hinweis IPv6 wird nicht unterstützt.

    Netzmaske                               Wählen Sie im Dropdown-Menü eine Netzmaske aus.
                                            Wenn Ihr Netzwerk beispielsweise eine /24-Netzmaske verwendet, wählen
                                            Sie 24 (255.255.255.0) aus.
                                            .

    Gateway                                 Geben Sie die mit der Appliance zu verwendende Netzwerk-Gateway-
                                            Adresse ein. Bei Verwendung von DHCP lassen Sie dieses Textfeld leer.

    MTU                                     Geben Sie eine MTU-Größe ein. Der Standardwert ist 1500. Geben Sie für
                                            eine optimale Leistung eine MTU-Größe an, die der von Ihrer
                                            Netzwerkhardware unterstützten maximalen MTU-Größe entspricht.

                                            Hinweis Wenn Sie eine MTU-Größe von mehr als 1500 festlegen, stellen Sie
                                            sicher, dass die Netzwerk-Switches in Ihrem Datencenter für Jumbo-Frames
                                            aktiviert sind.

    DNS-Server                              Geben Sie die mit der Appliance zu verwendende DNS-Serveradresse ein.
                                            Bei Verwendung von DHCP lassen Sie dieses Textfeld leer.

    DNS-Suchdomänen                         Geben Sie die mit der Appliance zu verwendende Adresse der DNS-
                                            Suchdomäne ein. Bei Verwendung von DHCP lassen Sie dieses Textfeld leer.

    NTP                                     Geben Sie die mit der Appliance zu verwendende NTP-Serveradresse ein.
                                            Wenn Sie DHCP verwenden und der DHCP-Server das Versenden von
                                            Informationen zum NTP-Server unterstützt, lassen Sie dieses Textfeld leer.

7   Fügen Sie auf der Seite GPUs auswählen GPUs zum nachfolgenden Server hinzu und klicken
    Sie auf Weiter.

    a     Klicken Sie auf GPU hinzufügen.

    b     Wählen Sie im Dropdown-Menü GPU hinzufügen eine GPU aus.

VMware, Inc.                                                                                                             18
VMware vSphere Bitfusion-Benutzerhandbuch

    c    (Optional) Geben Sie den Gesamtspeicher der GPU an.

         Das vSphere Bitfusion-Plug-In verwendet den aggregierten GPU-Arbeitsspeicher aller
         GPUs, die Sie auf der Seite GPUs auswählen hinzufügen, um die Werte für die
         Mindestgröße des Arbeitsspeichers und die empfohlene zugeordnete E/A-Größe des
         Arbeitsspeichers der virtuellen Maschine Ihres vSphere Bitfusion-Servers zu berechnen.

    d    (Optional) Um die NVIDIA-Lizenz zu akzeptieren, aktivieren Sie das Kontrollkästchen
         NVIDIA-Treiber herunterladen und installieren.

         Wenn Sie die NVIDIA-Lizenz akzeptieren, lädt vSphere Bitfusion den NVIDIA-Treiber, die
         CUDA-Bibliotheken und den NVIDIA Fabric Manager herunter und installiert sie beim
         ersten Start der virtuellen Maschine.

         Hinweis Wenn Sie vSphere Bitfusion in einer Umgebung ohne Internetzugriff betreiben,
         beispielsweise in einem Air-Gap-Netzwerk, aktivieren Sie dieses Kontrollkästchen nicht.
         Nach der Bereitstellung der vSphere Bitfusion-Appliance müssen Sie die NVIDIA-Software
         manuell herunterladen und installieren.

    Wenn Ihr vSphere Bitfusion-Server zusätzliche GPUs benötigt, können Sie erneut auf GPU-
    Gerät hinzufügen klicken und die Einstellungen für die GPU angeben.

8   Geben Sie auf der Seite Server anpassen die vSphere Bitfusion-Serverdetails an und klicken
    Sie auf Weiter.

    a    Geben Sie die Anzahl der CPUs für die virtuelle Maschine an.

    b    Geben Sie die MMIO-Größe (Memory Mapped I/O) der virtuellen Maschine in GB an.

    c    (Optional) Geben Sie ein Kennwort für das Kundenkonto ein.

         Nach Abschluss der Bereitstellung verwenden Sie das Kundenbenutzerkonto, um sich
         über die Konsolen-Shell oder mithilfe von SSH beim vSphere Bitfusion-Server anzumelden.
         Wenn Sie diesen Schritt überspringen, können Sie sich nicht beim nachfolgenden Server
         anmelden.

    d    (Optional) Aktivieren Sie das Kontrollkästchen VM nach dem Erstellen einschalten.

         Sie können das Kontrollkästchen deaktivieren, wenn Sie Änderungen an der virtuellen
         Maschine vornehmen, bevor Sie sie einschalten.

9   Überprüfen Sie auf der Seite Übersicht die Bereitstellungsdetails und klicken Sie auf
    Beenden..

Ergebnisse

Im Bereich „Kürzlich bearbeitete Aufgaben“ wird einen neue Aufgabe für die Installation des
vSphere Bitfusion-Servers angezeigt. Nach Abschluss der Aufgabe wird die neue Appliance in
der ausgewählten Ressource erstellt.

Wenn dem Cluster ein neuer vSphere Bitfusion-Server beitritt, stellt vCenter Server ein Token, ein
Zertifikat und eine Konfiguration für den Zugriff auf den vSphere Bitfusion-Cluster bereit.

VMware, Inc.                                                                                      19
VMware vSphere Bitfusion-Benutzerhandbuch

Entfernen eines vSphere Bitfusion-Servers
Um die Fehlerbehebung oder Wartung auf einem vSphere Bitfusion-Server durchzuführen,
müssen Sie den Server aus dem vSphere Bitfusion-Cluster entfernen.

Wenn Sie einen vSphere Bitfusion-Server zu Wartungs- oder Fehlerbehebungszwecken
ausschalten, ändert sich der Integritätsstatus des vSphere Bitfusion-Clusters. Wenn sich der
Cluster nicht in einem fehlerfreien Zustand befindet, können Sie keine vSphere Bitfusion-Server
hinzufügen und keinen Clustersicherungsvorgang durchführen. Wenn die Hälfte der Server
ausgeschaltet wird, ist der Cluster nicht mehr funktionsfähig. Wenn Sie einen Server für einen
längeren Zeitraum ausschalten, können Sie mögliche Risiken vermeiden, indem Sie den Server
aus dem Cluster entfernen.

Wenn Sie folgendes Verfahren durchführen, wird der Server sofort aus dem vSphere Bitfusion-
Cluster entfernt. Alle ausgeführten Anwendungen, die die GPUs verwenden, erhalten einen
sofortigen GPU-Ausfall und geben in der Regel eine Fehlerbedingung zurück.

Voraussetzungen

n   Verhindern Sie neue Clientverbindungen mit dem jeweiligen Server in den
    Servereinstellungen.

n   Stellen Sie sicher, dass auf dem Server keine laufenden Anwendungen ausgeführt werden.

Verfahren

1   Im vSphere Client wählen Sie Menü > Bitfusion aus.

2   Wählen Sie auf der Registerkarte Server einen Server aus der Liste aus.

3   Wählen Sie im Dropdown-Menü Aktionen die Option Löschen aus.

4   Klicken Sie im Bestätigungsdialogfeld auf Löschen.

5   Warten Sie, bis der Server nicht mehr auf der Registerkarte Server aufgeführt ist.

    Der Löschvorgang kann bis zu 10 Minuten und länger dauern. Während dieser Zeit wird der
    Backing-Speicher neu verteilt. Alternativ können Sie überprüfen, ob der Löschvorgang
    abgeschlossen ist, indem Sie den Befehl nodetool status im Terminal eines ausgeführten
    Servers ausführen.

6   (Optional) Löschen Sie die virtuelle Maschine (VM) des Servers.

    Wenn Sie die entfernte VM versehentlich einschalten, werden vSphere Bitfusion-Plug-In- und
    -Clusterinformationen überschrieben.

Ergebnisse

Sie haben den ausgewählten Server aus dem vSphere Bitfusion-Cluster entfernt.

VMware, Inc.                                                                                      20
VMware vSphere Bitfusion-Benutzerhandbuch

Nächste Schritte

Um die VM oder die zugrunde liegende Hardware wiederzuverwenden, können Sie eine der
folgenden Aufgaben durchführen.

n     Wenn Sie den Server aus dem Cluster gelöscht haben, ohne die VM zu löschen, löschen Sie
      die Konfigurationsdatei /etc/bitfusion/bitfusion-manager.yaml auf der VM, aktivieren Sie
      die VM erneut als vSphere Bitfusion-Server, starten Sie den vSphere Bitfusion-Dienst neu und
      schalten Sie die VM ein. Weitere Informationen finden Sie unter Aktivieren des vSphere
      Bitfusion-Clients im VMware vSphere Bitfusion-Installationshandbuch Starten und Beenden
      des vSphere Bitfusion-Dienstes.

n     Wenn Sie die Server-VM gelöscht haben, können Sie die zugrunde liegende Hardware als
      vSphere Bitfusion-Server wiederverwenden, indem Sie eine VM erstellen und die vSphere
      Bitfusion-Serverappliance bereitstellen. Weitere Informationen finden Sie unter Hinzufügen
      nachfolgender vSphere Bitfusion-Server.

Konfigurieren der Netzwerkeinstellungen eines vSphere
Bitfusion-Servers
Nachdem Sie einen vSphere Bitfusion-Server bereitgestellt haben, können Sie Ihren vSphere
Bitfusion-Server mit mehreren Netzwerken verbinden, indem Sie Netzwerkschnittstellen
hinzufügen, entfernen und ändern.

Sie können die virtuelle Maschine eines vSphere Bitfusion-Servers mit bis zu vier Netzwerken
verbinden. Wenn Sie keinen DHCP-Server verwenden, können Sie die IPv4-Adresse, das CIDR-
Präfix und die MTU-Größe eines Netzwerks festlegen. Sie können auch eine
Netzwerkgatewayadresse, eine DNS-Serveradresse, eine DNS-Suchdomänenadresse und eine
NTP-Serveradresse für das Verwaltungsnetzwerk angeben.

aus                                                 Beschreibung

Netzwerkadapter 1                                   Dieses Netzwerk wird für die Verwaltung und den
                                                    Datenverkehr verwendet.

Netzwerkadapter 2                                   Dieses Netzwerk wird nur für den Datenverkehr
                                                    verwendet.

Netzwerkadapter 3                                   Dieses Netzwerk wird nur für den Datenverkehr
                                                    verwendet.

Netzwerkadapter 4                                   Dieses Netzwerk wird nur für den Datenverkehr
                                                    verwendet.

Hinzufügen einer Netzwerkschnittstelle
Sie können die virtuelle Maschine Ihres vSphere Bitfusion-Servers mit bis zu vier Netzwerken
verbinden.

VMware, Inc.                                                                                          21
VMware vSphere Bitfusion-Benutzerhandbuch

Während der Bereitstellung eines vSphere Bitfusion-Servers müssen Sie mindestens
Netzwerkadapter 1 konfigurieren, der für die Verwaltung und den Datenverkehr verwendet wird.
Die Netzwerkadapter 2, 3 und 4 sind optional und werden nur für den Datenverkehr verwendet.
Um Netzwerkschnittstellen für Datenverkehr hinzuzufügen, nachdem der Bereitstellungsvorgang
Ihres Servers abgeschlossen ist, führen Sie dieses Verfahren durch.

Hinweis Jeder Netzwerkadapter muss mit einem separaten Netzwerk verbunden sein. vSphere
Bitfusion wählt das Netzwerk aus, das für Datenübertragungen an den vSphere Bitfusion-Server
am effizientesten ist.

Voraussetzungen

n   Stellen Sie sicher, dass Sie über das Recht Virtuelle Maschine.Konfiguration.Gerät
    hinzufügen oder entfernen verfügen.

n   Stellen Sie sicher, dass die virtuelle Maschine des vSphere Bitfusion-Servers ausgeschaltet ist.

Verfahren

1   Klicken Sie im vSphere Client mit der rechten Maustaste auf die vSphere Bitfusion-Server-VM
    und wählen Sie Einstellungen bearbeiten aus.

2   Klicken Sie auf der Registerkarte Virtuelle Hardware auf die Schaltfläche Neues Gerät
    hinzufügen.

3   Wählen Sie unter Netzwerk die Option Netzwerkadapter aus.

4   Wählen Sie im Dropdown-Menü Neues Netzwerk ein Netzwerk aus, mit dem die virtuelle
    Maschine verbunden werden soll.

5   Erweitern Sie den Abschnitt Neues Netzwerk und wählen Sie im Dropdown-Menü
    Adaptertyp den Netzwerkadapter aus, der der virtuellen Maschine zugewiesen werden soll.

    vSphere Bitfusion unterstützt VMXNET3- und PVRDMA-Adapter.

6   Klicken Sie auf OK.

Ergebnisse

Sie haben einen neuen Netzwerkadapter zur virtuellen Maschine Ihres vSphere Bitfusion-Servers
hinzugefügt.

Nächste Schritte

n   Sie können bis zu vier Netzwerkadapter hinzufügen.

n   Aktivieren Sie den Adapter auf dem vSphere Bitfusion-Server und geben Sie zusätzliche
    Einstellungen an, wenn Sie DHCP nicht verwenden. Weitere Informationen hierzu finden Sie
    unter Konfigurieren einer Netzwerkschnittstelle.

VMware, Inc.                                                                                      22
VMware vSphere Bitfusion-Benutzerhandbuch

Konfigurieren einer Netzwerkschnittstelle
Um einen Netzwerkadapter zu konfigurieren und die IPv4-Adresse, das CIDR-Präfix und die MTU-
Größe des Netzwerks anzugeben, müssen Sie vApp-Eigenschaften konfigurieren. vSphere
Bitfusion verwendet die Werte dieser Eigenschaften und konfiguriert das Netzwerk während des
Startens der virtuellen Maschine.

Der folgende Vorgang enthält Informationen zum Aktivieren und Festlegen der
Netzwerkkonfiguration für Netzwerkadapter 2 durch Konfigurieren der vApp-Eigenschaften. Sie
können die Konfiguration der anderen Netzwerkadapter ändern, indem Sie die eigenschaften
ersetzen, die in diesem Verfahren verwendet werden. Eine Liste aller vApp-Eigenschaften, die Sie
ändern können, finden Sie unter vSphere Bitfusion-vApp-Eigenschaften.

Voraussetzungen

n   Stellen Sie sicher, dass Sie über das Recht vApp.vApp-Anwendungskonfiguration verfügen.

n   Stellen Sie sicher, dass die virtuelle Maschine des vSphere Bitfusion-Servers ausgeschaltet ist.

Verfahren

1   Wählen Sie in der Ansicht Hosts und Cluster in vCenter Server die virtuelle Maschine einer
    vSphere Bitfusion.

2   Wählen Sie in der Registerkarte Konfigurieren Einstellungen > vApp-Optionen.

3   Wählen Sie im Bereich Eigenschaften die Eigenschaft
    guestinfo.bitfusion.host.net2.configure aus und klicken Sie auf Wert festlegen.

4   Aktivieren Sie im Dialogfeld Wert festlegen den Schalter und klicken Sie auf OK.

5   Wenn Sie DHCP nicht verwenden, wählen Sie eine Eigenschaft aus und geben Sie den Wert
    für Netzwerkadapter 2 an.

    Eigenschaft                                      Wert

    guestinfo.bitfusion.host.net2.ipv4address        Geben Sie eine IPv4-Adresse ein. Beispiel:
                                                     192.168.200.111.

    guestinfo.bitfusion.host.net2.netmask            Wählen Sie im Dropdown-Menü einen Netzmaskenwert
                                                     aus.

    guestinfo.bitfusion.host.net2.mtu                Geben Sie eine gültige MTU-Größe ein. Beispielsweise
                                                     9000.

Ergebnisse

Sie haben Netzwerkadapter 2 konfiguriert.

Nächste Schritte

Sie können die anderen Netzwerkadapter konfigurieren, indem Sie die entsprechenden
Eigenschaften ersetzen und dasselbe Verfahren verwenden. Weitere Informationen hierzu finden
Sie unter vSphere Bitfusion-vApp-Eigenschaften.

VMware, Inc.                                                                                                23
VMware vSphere Bitfusion-Benutzerhandbuch

Entfernen einer Netzwerkschnittstelle
Sie können einen Netzwerkadapter entfernen, wenn beispielsweise die virtuelle Maschine eines
vSphere Bitfusion-Servers kein Netzwerk mehr verwendet.

Voraussetzungen

n   Stellen Sie sicher, dass Sie über das Recht Virtuelle Maschine.Konfiguration.Gerät
    hinzufügen oder entfernen verfügen.

n   Stellen Sie sicher, dass Sie über das Recht vApp.vApp-Anwendungskonfiguration verfügen.

n   Stellen Sie sicher, dass die virtuelle Maschine des vSphere Bitfusion-Servers ausgeschaltet ist.

Verfahren

1   Wählen Sie im vSphere Client die vSphere Bitfusion-Server-VM und anschließend
    Einstellungen bearbeiten aus.

2   Um auf der Registerkarte Virtuelle Hardware eine Netzwerkschnittstelle zu löschen, klicken

    Sie auf das Symbol zum Entfernen (                               ) neben dem
    Netzwerkadapter.

3   Klicken Sie auf OK.

4   Wählen Sie in der Ansicht Hosts und Cluster in vCenter Server die virtuelle Maschine der
    vSphere Bitfusion aus.

5   Wählen Sie in der Registerkarte Konfigurieren Einstellungen > vApp-Optionen.

6   Wählen Sie im Bereich Eigenschaften eine Eigenschaft aus und klicken Sie auf Wert
    festlegen.

    n    Wenn Sie Netzwerkadapter 2 gelöscht haben, wählen Sie
         guestinfo.bitfusion.host.net2.configure.

    n    Wenn Sie Netzwerkadapter 3 gelöscht haben, wählen Sie
         guestinfo.bitfusion.host.net3.configure.

    n    Wenn Sie Netzwerkadapter 4 gelöscht haben, wählen Sie
         guestinfo.bitfusion.host.net4.configure.

7   Deaktivieren Sie im Dialogfeld Wert festlegen den Schalter und klicken Sie auf OK.

Ergebnisse

Sie haben den Netzwerkadapter entfernt, und die virtuelle Maschine Ihres vSphere Bitfusion-
Servers ist nicht mit diesem Netzwerk verbunden.

VMware, Inc.                                                                                      24
VMware vSphere Bitfusion-Benutzerhandbuch

vSphere Bitfusion-vApp-Eigenschaften
Eine Liste aller vApp-Eigenschaften, die Sie ändern können, indem Sie deren Werte ändern.

Bitfusion-Serversetup
Eigenschaft                                        Wert

guestinfo.bitfusion.host.hostname                  Der Hostname für den Server.
                                                   Als gültige Zeichen für Hostnamen können die ASCII-
                                                   Zeichen A bis Z (sowohl Groß- als auch Kleinbuchstaben),
                                                   die Ziffern 0 bis 9 und der Bindestrich (-) verwendet
                                                   werden. Ein Hostname darf nicht mit einem Bindestrich
                                                   beginnen.

guestinfo.bitfusion.server.vcenter-guid            Die vCenter Server-GUID.

guestinfo.bitfusion.server.vcenter-url             Die vCenter Server-URL.

guestinfo.bitfusion.server.vcenter-username        Der Benutzername für die vCenter Server-Instanz.

guestinfo.bitfusion.server.vcenter-password        Das Kennwort für die vCenter Server-Instanz.

guestinfo.bitfusion.host.install_nvidia_packages   Schieben Sie die Umschalttaste auf die Position EIN, um die
                                                   NVIDIA-Software herunterzuladen und zu installieren, oder
                                                   auf die Position AUS, um diesen Vorgang zu überspringen.

Netzwerkadapter 1 (Verwaltung und Daten)
Eigenschaft                                        Wert

guestinfo.bitfusion.host.net1.ipv4address          Die IPv4-Adresse des Netzwerkadapters. Bei Verwendung
                                                   von DHCP lassen Sie diesen Wert leer.

                                                   Hinweis IPv6 wird nicht unterstützt.

guestinfo.bitfusion.host.net1.netmask              Das Netzwerk für die CIDR-Einstellungen (Classless Inter-
                                                   Domain Routing).

guestinfo.bitfusion.host.net1.mtu                  Die MTU-Größe. Der Standardwert ist 1500. Geben Sie für
                                                   eine optimale Leistung eine MTU-Größe von 4000 oder
                                                   höher an. Sie können dieses Textfeld für den Standardwert
                                                   leer lassen.

                                                   Hinweis Wenn Sie eine MTU-Größe von mehr als 1500
                                                   festlegen, stellen Sie sicher, dass die Netzwerk-Switches in
                                                   Ihrem Datencenter für Jumbo-Frames aktiviert sind.

guestinfo.bitfusion.host.net1.gateway              Die mit der Appliance zu verwendende Netzwerk-
                                                   Gateway-Adresse. Bei Verwendung von DHCP lassen Sie
                                                   dieses Textfeld leer.

guestinfo.bitfusion.host.net1.dns                  Die mit der Appliance zu verwendende DNS-
                                                   Serveradresse. Bei Verwendung von DHCP lassen Sie
                                                   dieses Textfeld leer.

VMware, Inc.                                                                                                   25
VMware vSphere Bitfusion-Benutzerhandbuch

Eigenschaft                                 Wert

guestinfo.bitfusion.host.net1.domain        Die mit der Appliance zu verwendende Adresse der DNS-
                                            Suchdomäne. Bei Verwendung von DHCP lassen Sie dieses
                                            Textfeld leer.

guestinfo.bitfusion.host.net1.ntp           Die mit der Appliance zu verwendende NTP-Serveradresse.
                                            Wenn Sie DHCP verwenden und der DHCP-Server das
                                            Versenden von Informationen zum NTP-Server unterstützt,
                                            lassen Sie dieses Textfeld leer.

Netzwerkadapter 2 (Daten)
Eigenschaft                                 Wert

guestinfo.bitfusion.host.net2.configure     Aktivieren oder deaktivieren Sie den Schalter, um diese
                                            Schnittstelle zu konfigurieren oder nicht.

guestinfo.bitfusion.host.net2.ipv4address   Die IPv4-Adresse des Netzwerkadapters. Bei Verwendung
                                            von DHCP lassen Sie diesen Wert leer.

                                            Hinweis IPv6 wird nicht unterstützt.

guestinfo.bitfusion.host.net2.netmask       Das Netzwerk für die CIDR-Einstellungen (Classless Inter-
                                            Domain Routing).

guestinfo.bitfusion.host.net2.mtu           Die MTU-Größe. Der Standardwert ist 1500. Geben Sie für
                                            eine optimale Leistung eine MTU-Größe von 4000 oder
                                            höher an. Sie können dieses Textfeld für den Standardwert
                                            leer lassen.

                                            Hinweis Wenn Sie eine MTU-Größe von mehr als 1500
                                            festlegen, stellen Sie sicher, dass die Netzwerk-Switches in
                                            Ihrem Datencenter für Jumbo-Frames aktiviert sind.

Netzwerkadapter 3 (Daten)
Eigenschaft                                 Wert

guestinfo.bitfusion.host.net3.configure     Aktivieren oder deaktivieren Sie den Schalter, um diese
                                            Schnittstelle zu konfigurieren oder nicht.

guestinfo.bitfusion.host.net3.ipv4address   Die IPv4-Adresse des Netzwerkadapters. Bei Verwendung
                                            von DHCP lassen Sie diesen Wert leer.

                                            Hinweis IPv6 wird nicht unterstützt.

guestinfo.bitfusion.host.net3.netmask       Das Netzwerk für die CIDR-Einstellungen (Classless Inter-
                                            Domain Routing).

guestinfo.bitfusion.host.net3.mtu           Die MTU-Größe. Der Standardwert ist 1500. Geben Sie für
                                            eine optimale Leistung eine MTU-Größe von 4000 oder
                                            höher an. Sie können dieses Textfeld für den Standardwert
                                            leer lassen.

                                            Hinweis Wenn Sie eine MTU-Größe von mehr als 1500
                                            festlegen, stellen Sie sicher, dass die Netzwerk-Switches in
                                            Ihrem Datencenter für Jumbo-Frames aktiviert sind.

VMware, Inc.                                                                                            26
VMware vSphere Bitfusion-Benutzerhandbuch

Netzwerkadapter 4 (Daten)
Eigenschaft                                       Wert

guestinfo.bitfusion.host.net4.configure           Aktivieren oder deaktivieren Sie den Schalter, um diese
                                                  Schnittstelle zu konfigurieren oder nicht.

guestinfo.bitfusion.host.net4.ipv4address         Die IPv4-Adresse des Netzwerkadapters. Bei Verwendung
                                                  von DHCP lassen Sie diesen Wert leer.

                                                  Hinweis IPv6 wird nicht unterstützt.

guestinfo.bitfusion.host.net4.netmask             Das Netzwerk für die CIDR-Einstellungen (Classless Inter-
                                                  Domain Routing).

guestinfo.bitfusion.host.net4.mtu                 Die MTU-Größe. Der Standardwert ist 1500. Geben Sie für
                                                  eine optimale Leistung eine MTU-Größe von 4000 oder
                                                  höher an. Sie können dieses Textfeld für den Standardwert
                                                  leer lassen.

                                                  Hinweis Wenn Sie eine MTU-Größe von mehr als 1500
                                                  festlegen, stellen Sie sicher, dass die Netzwerk-Switches in
                                                  Ihrem Datencenter für Jumbo-Frames aktiviert sind.

Ändern der Einstellungen eines vSphere Bitfusion-Servers
Sie können die serverspezifischen Einstellungen über das vSphere Bitfusion-Plug-In ändern, wie z.
B. Zulassen neuer Clientverbindungen und Eingeben eines Metrikintervalls.

In folgendem Verfahren werden lediglich die Einstellungen für einen bestimmten vSphere
Bitfusion-Server geändert. Sie können die globalen Einstellungen für alle vSphere Bitfusion-Server
auf der Registerkarte Einstellungen > Globale Standardeinstellungen des Servers ändern.

Verfahren

1   Im vSphere Client wählen Sie Menü > Bitfusion aus.

2   Wählen Sie auf der Registerkarte Server einen Server aus der Liste aus.

3   Wählen Sie im Dropdown-Menü Aktionen die Option Einstellungen aus.

4   Ändern Sie bei Bedarf eine oder mehrere Servereinstellungen.

    n    Aktivieren oder deaktivieren Sie das Kontrollkästchen Neue Clientverbindungen
         zulassen.

         Um einen vSphere Bitfusion-Server ordnungsgemäß herunterzufahren und Wartung oder
         Fehlerbehebung durchzuführen, können Sie das Kontrollkästchen Neue
         Clientverbindungen zulassen deaktivieren. Mit dieser Aktion wird verhindert, dass
         vSphere Bitfusion-Clients neue Anwendungen auf den GPUs der vSphere Bitfusion-Server
         ausführen, während Sie darauf warten, dass alle laufenden Anwendungen beendet
         werden.

    n    Zum Festlegen einer Häufigkeit zur Erfassung von Serverstatistiken geben Sie unter
         Metrikintervall einen Wert in Sekunden ein.

VMware, Inc.                                                                                                  27
VMware vSphere Bitfusion-Benutzerhandbuch

    n    Zum Verwenden der globalen Servereinstellungen für diesen vSphere Bitfusion-Server
         klicken Sie auf Standardwerte abgleichen.

5   Klicken Sie auf Speichern.

Durchführen einer Integritätsprüfung eines vSphere
Bitfusion-Servers
Sie können neben Leistung und Stabilität auch die Systemressourcen und Softwareversionen
eines vSphere Bitfusion-Servers überprüfen, indem Sie eine Integritätsprüfung durchführen.

Sie können den Integritätsstatus eines ausgewählten vSphere Bitfusion-Servers überprüfen und
gegebenenfalls Fehlerbehebung durchführen. Bei der Integritätsprüfung werden Leistung und
Stabilität sowie die Systemressourcen und Softwareversionen eines ausgewählten vSphere
Bitfusion-Servers und die vCenter Server-Umgebung des Servers analysiert. Bei einer
Integritätsprüfung können folgende Status zurückgegeben werden: „Bestanden“, „Grenzwertig“
und „Schwerwiegend“.

Bei einer Integritätsprüfung wird beispielsweise sichergestellt, dass alle Knoten ausgeführt
werden, genügend freier Speicher verfügbar und die Verbindung mit vCenter Server hergestellt
ist. Weitere Informationen zum Anzeigen der Liste aller verfügbaren Integritätsprüfungen finden
Sie unter Liste der vSphere Bitfusion-Integritätsprüfungen.

Indem Sie im folgenden Verfahren eine Integritätsprüfung deaktivieren, können Sie die
Integritätsprüfungseinstellungen nur für den spezifischen vSphere Bitfusion-Server ändern. Eine
deaktivierte Integritätsprüfung wird weiterhin im Hintergrund durchgeführt. Der Status der
Prüfung hat jedoch keinen Einfluss auf den allgemeinen Integritätsstatus des auf der
Registerkarte Server angezeigten Servers. Sie können die globalen
Integritätsprüfungseinstellungen für alle vSphere Bitfusion-Server auf der Registerkarte
Einstellungen > Globale Standardeinstellungen des Servers ändern.

Verfahren

1   Im vSphere Client wählen Sie Menü > Bitfusion aus.

2   Wählen Sie auf der Registerkarte Server einen Server aus der Liste aus.

3   Wählen Sie im Dropdown-Menü Aktionen die Option Integrität aus.

    Das Dialogfeld Systemzustandsprotokolle wird mit den Ergebnissen der Integritätsprüfungen
    geöffnet. Der Status, Typ, Name und die Details der Prüfung werden angezeigt.

4   (Optional) Klicken Sie zum Deaktivieren einer bestimmten Integritätsprüfung auf die
    Umschaltfläche.

5   Klicken Sie auf Speichern und beenden.

Nächste Schritte

n   Anzeigen von vSphere Bitfusion-Serverprotokollen

n   Sichern eines vSphere Bitfusion-Clusters

VMware, Inc.                                                                                      28
VMware vSphere Bitfusion-Benutzerhandbuch

Liste der vSphere Bitfusion-Integritätsprüfungen
vSphere Bitfusion führt die folgenden Prüfungen durch, wenn die Integritätsprüfung eines Servers
über das vSphere Bitfusion-Plug-In initiiert wird.

Liste der Integritätsprüfungen
Name               Typ                 Beschreibung

cass_buckets       Stabilität          Validiert die von Cassandra verwendete Bucket-Zuordnung, um Nutzungsdaten
                                       und andere Elemente zu speichern.

cass_node_num      Stabilität          Bestätigt, dass für Cassandra und Bitfusion dieselbe Anzahl an Servern im Cluster
                                       angezeigt wird.

cass_nodetool      Stabilität          Bestätigt, dass der fehlerfreie Zustand des Clusters für Cassandra angezeigt wird.

cass_replication   Stabilität          Bestätigt den Replizierungsfaktor.

compute_mode       Stabilität          Bestätigt, dass der Rechenmodus für die GPUs entsprechend festgelegt ist.

network            Stabilität          Überprüft, ob verworfene Pakete im Netzwerk vorhanden sind.

ecc                Stabilität          Überprüft, ob auf den GPUs ECC-Fehler auftreten.

gpu_api            Stabilität          Bestätigt, dass die GPU-APIs übereinstimmen.

pci_nvml           Stabilität          Bestätigt, dass alle GPUs aufgezählt werden können.

pci_p2p            Stabilität          Stellt sicher, dass PCIe-P2P unterstützt wird.

temperature        Stabilität          Stellt sicher, dass die Temperatur der GPUs unter 100 Grad Celsius liegt.

vcenter_check      Stabilität          Stellt sicher, dass der Server eine Verbindung mit vCenter Server herstellen kann.

xid                Stabilität          Überprüft, ob GPU-Xid-Fehler vorhanden sind.

bogomips           Leistung            Validiert die Leistung. Die Metrik wird vom Linux-Kernel verwendet.

hostmem            Leistung            Stellt sicher, dass auf dem System ausreichend Hostarbeitsspeicher vorhanden ist.

iface_compat       Leistung            Stellt sicher, dass die Netzwerkkonfiguration gültig ist.

memops             Leistung            Stellt sicher, dass memops für die GPUs aktiviert ist.

mtu                Leistung            Stellt sicher, dass Jumbo-Frames für das Netzwerk aktiviert sind.

nvidia_stats       Leistung            Validiert die Statistiken für die GPUs.

nvidia_topo        Leistung            Validiert die Hosttopologie.

pci_width          Leistung            Überprüft, ob die GPUs die maximale PCIe-Lane-Kapazität verwenden.

ulimit_n           Leistung            Stellt sicher, dass die maximale Beschränkung für Dateideskriptoren geeignet ist.

diskspace          Systemressource     Bestätigt den freien Speicherplatz auf dem Server.

install            Systemressource     Validiert die Bitfusion-Installation.

pciinfo            Systemressource     Validiert die PCI-Konfiguration.

shadow_mem         Systemressource     Stellt sicher, dass mindestens dieselbe Menge an Systemspeicher vorhanden ist,
                                       da sich auf den GPUs Frame-Pufferspeicher befindet.

cuda_version       Softwareversion     Überprüft die CUDA-Version.

VMware, Inc.                                                                                                               29
Sie können auch lesen