VMWARE VSPHERE BITFUSION-BENUTZERHANDBUCH - MAI 2021 AKTUALISIERT UND UMFASST NUN VMWARE VSPHERE BITFUSION 3.5 VMWARE VSPHERE BITFUSION 3.0
←
→
Transkription von Seiteninhalten
Wenn Ihr Browser die Seite nicht korrekt rendert, bitte, lesen Sie den Inhalt der Seite unten
VMware vSphere Bitfusion- Benutzerhandbuch 11. Mai 2021 Aktualisiert und umfasst nun VMware vSphere Bitfusion 3.5 VMware vSphere Bitfusion 3.0
VMware vSphere Bitfusion-Benutzerhandbuch Die aktuellste technische Dokumentation finden Sie auf der VMware-Website unter: https://docs.vmware.com/de/ VMware, Inc. VMware Global, Inc. 3401 Hillview Ave. Zweigniederlassung Deutschland Palo Alto, CA 94304 Willy-Brandt-Platz 2 www.vmware.com 81829 München Germany Tel.: +49 (0) 89 3706 17 000 Fax: +49 (0) 89 3706 17 333 www.vmware.com/de © Copyright 2020-2021 VMware, Inc. Alle Rechte vorbehalten. Urheberrechts- und Markenhinweise. VMware, Inc. 2
Inhalt 1 Informationen zu VMware vSphere Bitfusion-Benutzerhandbuch 5 2 Grundlegendes zu VMware vSphere Bitfusion 6 3 Starten von Anwendungen in vSphere Bitfusion 10 Starten von Anwendungen mit dem Befehl „Run“ 10 Zuweisen von GPUs mit dem Befehl RUN 11 Partitionieren des GPU-Arbeitsspeichers 11 Beispiele für die GPU-Partitionierung 12 Starten von Anwendungen mit reservierten GPUs 14 4 Verwalten von vSphere Bitfusion-Servern 16 Hinzufügen nachfolgender vSphere Bitfusion-Server 16 Entfernen eines vSphere Bitfusion-Servers 20 Konfigurieren der Netzwerkeinstellungen eines vSphere Bitfusion-Servers 21 Hinzufügen einer Netzwerkschnittstelle 21 Konfigurieren einer Netzwerkschnittstelle 23 Entfernen einer Netzwerkschnittstelle 24 vSphere Bitfusion-vApp-Eigenschaften 25 Ändern der Einstellungen eines vSphere Bitfusion-Servers 27 Durchführen einer Integritätsprüfung eines vSphere Bitfusion-Servers 28 Liste der vSphere Bitfusion-Integritätsprüfungen 29 Erstellen von vSphere Bitfusion-Serverprotokollen 30 Anzeigen von vSphere Bitfusion-Serverprotokollen 30 Anzeigen von GPU-Informationen zu einem vSphere Bitfusion-Server 31 5 Verwalten von vSphere Bitfusion-Clients 32 Deaktivieren oder Löschen eines vSphere Bitfusion-Clients 32 Ändern der Einstellungen eines vSphere Bitfusion-Clients 33 Anzeigen von GPU-Informationen zu einem vSphere Bitfusion-Client 33 6 Verwalten von vSphere Bitfusion 35 Sichern eines vSphere Bitfusion-Clusters 36 Wiederherstellen eines vSphere Bitfusion-Clusters 37 Starten und Beenden des vSphere Bitfusion-Dienstes 38 Herunterladen von vSphere Bitfusion-Überwachungsdaten 39 Festlegen eines globalen Anzeigeaktualisierungsintervalls 39 Verwenden einer Teilmengenliste von vSphere Bitfusion-Servern 40 VMware, Inc. 3
VMware vSphere Bitfusion-Benutzerhandbuch vSphere Bitfusion-Konfigurationsdateien 40 vSphere Bitfusion-Befehlsreferenz 41 Überwachen von vSphere Bitfusion im vSphere Bitfusion-Plug-In 45 Überwachen von vSphere Bitfusion in der CLI 46 7 Fehlerbehebung für vSphere Bitfusion 48 Änderungen der vSphere Bitfusion-Client-ID 48 Gelöschte vSphere Bitfusion-Clients können GPUs anfordern 48 vSphere Bitfusion-Client kann keine Verbindung zu den vSphere Bitfusion-Servern herstellen 49 vSphere Bitfusion-Server kann nicht gestartet werden 50 VMware, Inc. 4
Informationen zu VMware vSphere Bitfusion- Benutzerhandbuch 1 Das VMware vSphere Bitfusion-Benutzerhandbuch enthält Informationen zur Verwendung und ® ® Konfiguration von VMware vSphere Bitfusion . Wir bei VMware legen Wert auf die Verwendung neutraler Sprache. Um dieses Prinzip bei unseren Kunden und Partnern sowie innerhalb der internen Community zu fördern, erstellen wir Inhalte mit neutraler Sprache. Im VMware vSphere Bitfusion-Benutzerhandbuch wird die Zuteilung, Partitionierung und das Anhängen von GPUs an Arbeitslasten sowie die Konfiguration und Überwachung von vSphere Bitfusion beschrieben. Zielgruppe Dieses Handbuch richtet sich an erfahrene Benutzer, die mit ESXi, vCenter Server und der Befehlszeilenschnittstelle (CLI) vertraut sind. VMware, Inc. 5
Grundlegendes zu VMware vSphere Bitfusion 2 VMware vSphere Bitfusion virtualisiert Hardwarebeschleunigung, wie z. B. grafische Verarbeitungseinheiten (GPUs), um einen Pool mit gemeinsam genutzten, netzwerkzugänglichen Ressourcen zur Verfügung zu stellen, die Arbeitslasten für künstliche Intelligenz (AI) und Machine Learning (ML) unterstützen. vSphere Bitfusion – Architektur vSphere Bitfusion verfügt über eine Client-Server-Architektur. Das Produkt ermöglicht mehreren Client-VMs, die Anwendungen für künstliche Intelligenz (AI) und Machine Learning (ML) ausführen, gemeinsam auf Remote-GPUs auf virtuellen Maschinen zuzugreifen, die vSphere Bitfusion-Serversoftware ausführen. Sie führen die Anwendungen auf den vSphere Bitfusion- Clientmaschinen aus, während die GPUs, die eine Beschleunigung bieten, auf den vSphere Bitfusion-Servermaschinen in einem Netzwerk installiert sind. Die Anwendungen können Dateien öffnen, Arbeitsspeicher zuteilen und CUDA aufrufen, als ob sie auf einer Maschine mit lokalen GPUs ausgeführt werden würden. Die folgende Abbildung ist ein Beispiel für einen kleinen vSphere Bitfusion-Cluster, wie z. B. eine Gruppe von vSphere Bitfusion-Server-Client-Maschinen und vCenter Server in einem Switch- Netzwerk. Eine minimale vSphere Bitfusion-Clusterkonfiguration ist ein Client, ein Server und ein vCenter Server. Sie können große Cluster mit mehreren Clients und Servern erstellen. VMware, Inc. 6
VMware vSphere Bitfusion-Benutzerhandbuch Abbildung 2-1. Kleiner vSphere Bitfusion-Cluster – Beispiel Verteilte Datenbank vSphere Bitfusion- Appliance 1 ESXi 7 vCenter Server GPU GPU 2 Synchronisierung der Kommunikation vSphere Bitfusion- Verteilte Datenbank Verteilte Datenbank Client-VM 3 vSphere vSphere Bitfusion- Bitfusion- Appliance Appliance ESXi 6.7 oder höher ESXi 7 ESXi 7 GPU GPU GPU GPU 1 Der primäre vSphere Bitfusion-Server registriert ein vSphere Bitfusion-Plug-In bei vCenter Server. 2 Das vSphere Bitfusion-Plug-In ermöglicht eine vSphere Bitfusion-Client-VM. 3 Der vSphere Bitfusion-Client hat autorisierten Zugriff auf alle vSphere Bitfusion-Server im vSphere Bitfusion-Cluster. Hinweis Bevor Sie VMware vSphere Bitfusion verwenden, müssen Sie einen vSphere Bitfusion- Server bereitstellen und einen vSphere Bitfusion-Client installieren und aktivieren. Weitere Informationen finden Sie im VMware vSphere Bitfusion-Installationshandbuch. VMware, Inc. 7
VMware vSphere Bitfusion-Benutzerhandbuch vSphere Bitfusion-Funktionalität Wenn Sie eine KI- oder ML-Anwendung auf dem vSphere Bitfusion-Client starten, fängt vSphere Bitfusion die CUDA-Aufrufe der Anwendung ab und sieht die Daten- und Datenzeiger der Aufrufe. Der vSphere Bitfusion-Server benötigt keine Verbindung zu den Daten, sondern nur zum vSphere Bitfusion-Client. Der Client überträgt die Daten und die restlichen CUDA-Aufrufe an den Server. Der vSphere Bitfusion-Server verarbeitet die Aufrufe und gibt die Ergebnisse an den Client zurück. Für die Ausführung von AI- und ML-Anwendungen kann vSphere Bitfusion die folgenden Vorgänge ausführen. n Dynamische Zuteilung und Zugriff auf GPU-Ressourcen von vSphere Bitfusion-Servern aus. Anwendungen können GPU-Ressourcen gemeinsam nutzen, die nicht für einzelne Maschinen dediziert sind, und Sie können jede Anwendung auf einer konfigurierten Maschine, einem Container und einer Umgebung ausführen. Anwendungen verbrauchen GPU- Beschleunigungsdienste aus einem Pool von vSphere Bitfusion-Servern über ein Netzwerk hinweg und verbrauchen die Ressourcen nur für die Zeitdauer, die eine Anwendung oder Sitzung ausgeführt wird. GPUs werden wieder in den Pool aufgenommen, wenn Anwendungen oder Sitzungen abgeschlossen wurden. n Zugriff auf Partitionen von GPU-Ressourcen für die gleichzeitige gemeinsame Nutzung mit anderen Anwendungen. Eine weitere Möglichkeit, GPUs gemeinsam zu nutzen, ist die Partitionierung der GPUs. Der Arbeitsspeicher einer physischen GPU kann in Bruchteile einer beliebigen Größe aufgeteilt werden und gleichzeitig verschiedenen Anwendungen zugeteilt werden. vSphere Bitfusion führt die Freigabe mit einer Interpositionstechnologie durch. vSphere Bitfusion fängt API- Aufrufe ab, die normalerweise an eine lokale Beschleunigung auf einem PCIe-Hostbus adressiert sind, und sendet die API-Aufrufe und zugehörige Daten über ein Netzwerk. vSphere Bitfusion stellt Freigabedienste für AI- und ML-Anwendungen bereit und unterstützt die CUDA-API zur Ansteuerung von NVIDIA-GPUs. Komponenten für vSphere Bitfusion vSphere Bitfusion-Server vSphere Bitfusion-Server wird auf einem ESXi-Host mit lokal installierten GPUs als VMware- Appliance ausgeführt, bei der es sich um eine vorkonfigurierte virtuelle Maschine (VM) mit vorab gepackter Software und gepackten Diensten handelt. Der Server benötigt Zugriff auf die lokalen GPUs, in der Regel über VMware vSphere® DirectPath I/O™. vSphere Bitfusion-Client vSphere Bitfusion-Client wird auf VMs ausgeführt, auf denen die AI- und ML-Anwendungen ausgeführt werden. vSphere Bitfusion-Plug-In VMware, Inc. 8
VMware vSphere Bitfusion-Benutzerhandbuch Die vSphere Bitfusion-Server registrieren ein vSphere Bitfusion-Plug-In bei VMware vCenter Server. Das-Plug-In stellt die Überwachung und Verwaltung von vSphere Bitfusion-Clients und -Servern bereit. vSphere Bitfusion-Cluster vSphere Bitfusion-Cluster ist der Satz aller vSphere Bitfusion-Server und -Clients in einer vCenter Server-Instanz. vSphere Bitfusion-Gruppe Der vSphere Bitfusion-Client erstellt während des Installationsvorgangs eine vSphere Bitfusion-Gruppe. Nur die Gruppenmitglieder können vSphere Bitfusion verwenden. Bestimmte Konfigurationsdateien werden mit den entsprechenden Berechtigungen eingerichtet, und die Gruppenmitglieder übernehmen die entsprechenden Grenzwerte, um effektiv mit vSphere Bitfusion arbeiten zu können. vSphere Client Über den vSphere Client können Sie mithilfe eines Webbrowsers eine Verbindung mit vCenter Server-Instanzen herstellen, um Ihre vSphere-Infrastruktur zu verwalten. Sie greifen auf das vSphere Bitfusion-Plug-In über den vSphere Client zu. Befehlszeilenschnittstelle (CLI) Sie können vSphere Bitfusion-Server und -Clients mithilfe von Befehlen über die Befehlszeilenschnittstelle (CLI) verwalten. vCenter Server vCenter Server ist die Serververwaltungssoftware, die eine zentrale Plattform für die Steuerung Ihrer vSphere-Umgebung bereitstellt. VMware, Inc. 9
Starten von Anwendungen in vSphere Bitfusion 3 Sie können eine Anwendung im gesamten GPU-Arbeitsspeicher oder nur in einer dedizierten Partition des Arbeitsspeichers ausführen. vSphere Bitfusion kann eine GPU zuweisen, eine Anwendung ausführen und die GPU-Zuweisung mit einem einzelnen CLI-Befehl aufheben oder Sie können einzelne Befehle verwenden, um diese Aufgaben auszuführen. Dieses Kapitel enthält die folgenden Themen: n Starten von Anwendungen mit dem Befehl „Run“ n Zuweisen von GPUs mit dem Befehl RUN n Partitionieren des GPU-Arbeitsspeichers n Beispiele für die GPU-Partitionierung n Starten von Anwendungen mit reservierten GPUs Starten von Anwendungen mit dem Befehl „Run“ Der vSphere Bitfusion-Client kann Machine Learning-Anwendungen auf gemeinsam genutzten Remote-GPUs ausführen. Mithilfe des Befehls run können Sie eine einzelne Anwendung in vSphere Bitfusion starten. Der vSphere Bitfusion-Befehl, mit dem eine Anwendung gestartet wird, ist run mit einem obligatorischen Argument für die Anzahl der GPUs. Um vSphere Bitfusion-Argumente von Anwendungen zu unterscheiden, verwenden Sie ein Trennzeichen mit zwei Bindestrichen oder setzen die Anwendung in Anführungszeichen. Sie starten eine Anwendung in vSphere Bitfusion, indem Sie die Platzhalterwerte durch tatsächliche Werte ersetzen und einen der folgenden Befehle ausführen. n bitfusion run -n num_gpus other switches -- applications and arguments n bitfusion run -n num_gpus other switches "applications and arguments" Indem Sie den Befehl run ausführen, können Sie die folgenden drei Aufgaben durchführen. 1 Zuteilen von GPUs aus dem gemeinsam genutzten Pool 2 Starten einer Anwendung in einer Umgebung, die auf die GPUs zugreifen kann, wenn die Anwendung CUDA-Aufrufe ausgibt 3 Aufheben der Zuteilung der GPUs, wenn die Anwendung geschlossen wird VMware, Inc. 10
VMware vSphere Bitfusion-Benutzerhandbuch Der Befehl run schließt die Befehle request_gpus, client und release_gpus ein. Sie können die einzelnen Befehle verwenden, um GPUs zuzuteilen und mehrere Anwendungen auf denselben GPUs auszuführen. Weitere Informationen finden Sie unter Starten von Anwendungen mit reservierten GPUs. Zuweisen von GPUs mit dem Befehl RUN Sie können den Befehl run ausführen, um GPUs für eine einzelne Anwendung zuzuteilen. Die Anwendung wird in allen Arbeitsspeicherressourcen der GPUs ausgeführt. Alle GPUs, die mithilfe des Befehls run angefordert werden, müssen über einen einzelnen vSphere Bitfusion-Server zugeteilt werden. Auf dem Server müssen die GPUs als verschiedene Geräte mit unterschiedlichen PCIe-Adressen aufgeführt werden. Die KI-Anwendung, asimov_i.py, verwendet beispielsweise zwei Argumente: die Anzahl der GPUs und eine Batchgröße. n Wenn die Anwendung 1 GPU erwartet, führen Sie bitfusion run -n 1 -- python asimov_i.py --num_gpus=1 --batchsz=64 aus n Wenn die Anwendung 2 GPUs erwartet, führen Sie bitfusion run -n 2 -- python asimov_i.py --num_gpus=2 --batchsz=64 aus Standardmäßig wartet vSphere Bitfusion 30 Minuten, bis genügend GPUs zur Verfügung stehen. Verwenden Sie zum Ändern des Standardzeitraums das Argument --timeout value, -t value. Geben Sie die Zeitüberschreitung in Sekunden oder Zeit und Einheit ein, wie z. B. Sekunden (s), Minuten (m) und Stunden (h). Sie können beispielsweise die folgenden Werte für das Argument value definieren. 10 10 Sekunden 10s 10 Sekunden 10m 10 Minuten 10h 10 Stunden Partitionieren des GPU-Arbeitsspeichers Sie können Ihre Anwendung in einer dedizierten Partition des Arbeitsspeichers einer GPU durchführen. Andere Anwendungen können den verbleibenden Arbeitsspeicher der GPU verwenden. Bei den GPU-Partitionierungsargumenten handelt es sich um optionale run-Befehlsargumente. Sie verwenden die Argumente, um Ihre Anwendung in einer Partition eines GPU-Arbeitsspeichers zu verwenden. n Der GPU-Partitionierungsvorgang ist dynamisch. Wenn Sie einen run-Befehl mit einem Argument starten, weist vSphere Bitfusion eine Partition zu, bevor die Anwendung ausgeführt wird, und hebt die Zuweisung anschließend wieder auf. VMware, Inc. 11
VMware vSphere Bitfusion-Benutzerhandbuch n Die Anwendungen, die GPUs gleichzeitig nutzen, sind durch die Verwendung separater Clientprozesse, Netzwerkdatenströme, Serverprozesse und Arbeitsspeicherpartitionen voneinander isoliert. n vSphere Bitfusion partitioniert nur den Arbeitsspeicher der GPU und nicht die Computing- Ressource. Eine Anwendung ist strikt nur in der zugewiesenen Arbeitsspeicherpartition enthalten, kann aber bei Bedarf auf die vollständige Computing-Ressource zugreifen. Wenn dieselben Computingzellen erforderlich sind, konkurrieren die Anwendungen um Computingressourcen, andernfalls werden die Anwendungen gleichzeitig ausgeführt. Die Partitionsgröße kann in MB oder als Bruchteil des gesamten GPU-Arbeitsspeichers angegeben werden. Partitionieren der Arbeitsspeichergröße der GPU nach Bruchteil (Zahl > 0,0 und
VMware vSphere Bitfusion-Benutzerhandbuch Wenn Sie mehrere GPUs anforderten, teilen alle GPUs dieselbe Menge an Arbeitsspeicher zu. Die Angabe der Bruchteilgröße muss auf der GPU mit dem geringsten Speicherplatz basieren. In folgendem Beispiel fordert das Argument -p 33% des Arbeitsspeichers für jede der beiden angeforderten GPUs an. Die GPUs müssen sich physisch auf demselben Server befinden. Wenn es sich bei den GPUs um Geräte mit 16 GB handelt oder wenn die kleinste GPU ein Gerät mit 16 GB darstellt, werden ungefähr 5461 MB für jede GPU zugeteilt. Während keine anderen Anwendungen ausgeführt werden, kann asimov_i.py auf die volle Rechenleistung der beiden GPUs zugreifen. Führen Sie bitfusion run -n 2 -p 0.33 -- python asimov_i.py --num_gpus=1 --batchsz=64 aus Über einen einzelnen Client auf derselben GPU können Sie mehrere Anwendungen gleichzeitig ausführen. Um beispielsweise zwei gleichzeitige Anwendungsinstanzen im Hintergrund zu starten, führen Sie beide Befehle aus. 1 bitfusion run -n 1 -p 0.66 -- python asimov_i.py --num_gpus=1 --batchsz=64 & 2 bitfusion run -n 1 -p 0.33 -- python asimov_i.py --num_gpus=1 --batchsz=32 & Systemverwaltungsschnittstelle von NVIDIA (nvidia-smi) Sie können die Überwachungsanwendung nvidia-smi der NVIDIA- Systemverwaltungsschnittstelle ausführen, um die Partitionsgröße der GPU oder die auf einem vSphere Bitfusion-Server verfügbaren Ressourcen zu überprüfen. In der Regel wird die Anwendung auf dem Server bereitgestellt, wenn Sie den NVIDIA-Treiber installieren. Anwendungen, die auf den vSphere Bitfusion-Clients ausgeführt werden, benötigen nicht den NVIDIA-Treiber, erfordern jedoch möglicherweise die nvidia-smi-Anwendung, um beispielsweise die Funktionen der GPU zu verstehen oder die GPU-Arbeitsspeicher-Größe zu bestimmen. Zur Unterstützung solcher Vorgänge wird seit vSphere Bitfusion 3.0 die nvidia-smi-Anwendung auf allen vSphere Bitfusion-Clients bereitgestellt. vSphere Bitfusion kopiert die Anwendung vom Server auf den Client. Um beispielsweise eine Partition mit 1024 MB auf einer GPU anzufordern, führen Sie bitfusion run -n 1 -m 1024 -- nvidia-smi aus. In der Ausgabe der nvidia-smi-Anwendung wird der angeforderte Partitionswert von 1024MiB angezeigt. Requested resources: Server List: 172.16.31.241:56001 Client idle timeout: 0 min Wed Sep 23 15:21:17 2020 +-----------------------------------------------------------------------------+ | NVIDIA-SMI 440.100 Driver Version: 440.64.00 CUDA Version: 10.2 | |-------------------------------+----------------------+----------------------+ | GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. | VMware, Inc. 13
VMware vSphere Bitfusion-Benutzerhandbuch |===============================+======================+======================| | 0 Tesla T4 Off | 00000000:13:00.0 Off | 0 | | N/A 36C P8 9W / 70W | 0MiB / 1024MiB | 0% Default | +-------------------------------+----------------------+----------------------+ +-----------------------------------------------------------------------------+ | Processes: GPU Memory | | GPU PID Type Process name Usage | |=============================================================================| | No running processes found | +-----------------------------------------------------------------------------+ Starten von Anwendungen mit reservierten GPUs Sie können eine Anzahl von GPUs zuteilen und mehrere Anwendungen auf denselben GPUs ausführen. Während der Befehl run GPUs zuteilt, Anwendungen ausführt und die Zuteilung aller GPUs aufhebt, verfügt vSphere Bitfusion über drei einzelne Befehle, um dieselben Aufgaben auszuführen. Mit den einzelnen Befehlen können Sie dieselbe GPU für mehrere Anwendungen verwenden und haben mehr Kontrolle, wenn Sie vSphere Bitfusion in andere Tools und Workflows integrieren, wie z. B. die Planungssoftware SLURM. n Führen Sie request_gpus aus, um GPUs zuzuteilen. n Führen Sie client aus, um Anwendungen in einer Umgebung zu starten, die auf die GPUs zugreifen kann, wenn die Anwendung CUDA-Aufrufe ausgibt. n Führen Sie zum Aufheben der Zuteilung der GPUs release_gpus aus. Hinweis Mit dem Befehl request_gpus werden eine Datei und Umgebungsvariablen erstellt, die an andere Tools weitergeleitet werden können. Die Tools können den Befehl client mit derselben Zuteilungskonfiguration ausführen. Die Argumente für den Befehl run werden zwischen den Befehlen request_gpus und client aufgeteilt. Um die Verwendung der einzelnen Befehle zu verstehen, lesen Sie den folgenden Beispiel- Workflow, der die AI-Anwendung asimov_i.py verwendet. 1 Um GPUs zum Starten von mehreren und sequenziellen Anwendungen zuzuteilen, führen Sie bitfusion request_gpus -n 1 -m 5461 aus. Requested resources: Server List: 172.16.31.241:56001 Client idle timeout: 0 min VMware, Inc. 14
VMware vSphere Bitfusion-Benutzerhandbuch 2 Um eine Anwendung durch Ausführung des Befehls client zu starten, führen Sie bitfusion client nvidia-smi aus. Wed Sep 23 15:26:02 2020 +-----------------------------------------------------------------------------+ | NVIDIA-SMI 440.100 Driver Version: 440.64.00 CUDA Version: 10.2 | |-------------------------------+----------------------+----------------------+ | GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. | |===============================+======================+======================| | 0 Tesla T4 Off | 00000000:13:00.0 Off | 0 | | N/A 36C P8 10W / 70W | 0MiB / 5461MiB | 0% Default | +-------------------------------+----------------------+----------------------+ +-----------------------------------------------------------------------------+ | Processes: GPU Memory | | GPU PID Type Process name Usage | |=============================================================================| | No running processes found | +----------------------------------------------------------------------------- + | 3 Um eine weitere Anwendung durch Ausführung des Befehls client zu starten, führen Sie bitfusion client -- python asimov_i.py --num_gpus=1 --batchsz=64 aus. 4 Um die Zuteilung der GPUs aufzuheben, führen Sie bitfusion release_gpus aus. VMware, Inc. 15
Verwalten von vSphere Bitfusion- Servern 4 Mithilfe des vSphere Bitfusion-Plug-In- und der CLI-Befehlen können Sie die vSphere Bitfusion- Server in Ihrem Cluster hinzufügen, entfernen, konfigurieren und überwachen. Dieses Kapitel enthält die folgenden Themen: n Hinzufügen nachfolgender vSphere Bitfusion-Server n Entfernen eines vSphere Bitfusion-Servers n Konfigurieren der Netzwerkeinstellungen eines vSphere Bitfusion-Servers n Ändern der Einstellungen eines vSphere Bitfusion-Servers n Durchführen einer Integritätsprüfung eines vSphere Bitfusion-Servers n Liste der vSphere Bitfusion-Integritätsprüfungen n Erstellen von vSphere Bitfusion-Serverprotokollen n Anzeigen von vSphere Bitfusion-Serverprotokollen n Anzeigen von GPU-Informationen zu einem vSphere Bitfusion-Server Hinzufügen nachfolgender vSphere Bitfusion-Server Sie können Ihrem vSphere Bitfusion-Cluster weitere Server hinzufügen, wenn Sie weitere GPU- Ressourcen benötigen. Nach dem Start des primären vSphere Bitfusion-Servers registriert vSphere Bitfusion ein vSphere Bitfusion-Plug-In im vCenter Server, wodurch ein einzelner vSphere Bitfusion-Cluster mit einem vSphere Bitfusion-Server entsteht. Nachdem das vSphere Bitfusion-Plug-In registriert wurde, können Sie nachfolgende Server hinzufügen, indem Sie die Schritte in diesem Vorgang durchführen. Das vSphere Bitfusion-Plug-In verwendet die Konfigurationsdaten des primären Servers, wodurch eine schnellere Bereitstellung der nachfolgenden Server möglich ist. Alternativ dazu können Sie einen neuen Server zu Ihrem vSphere Bitfusion-Cluster hinzufügen, indem Sie das Bereitstellungsverfahren für den primären Server ausführen. Sie stellen die vSphere Bitfusion-Appliance auf einer virtuellen Maschine (VM) bereit, passen die vSphere Bitfusion-OVF-Vorlage an, übergeben die GPUs an die vSphere Bitfusion-Server-VM und aktivieren die VM als vSphere Bitfusion-Server. VMware, Inc. 16
VMware vSphere Bitfusion-Benutzerhandbuch Zusätzliche vSphere Bitfusion-Server müssen zur selben vCenter Server-Instanz wie der erste vSphere Bitfusion-Server gehören. Voraussetzungen n Stellen Sie sicher, dass Sie einen primären vSphere Bitfusion-Server installiert haben. n Stellen Sie sicher, dass der vSphere Bitfusion-Server bei vCenter Server registriert ist. Verfahren 1 Klicken Sie in der Ansicht Hosts und Cluster in vCenter Server mit der rechten Maustaste auf einen ESXi-Host und wählen Sie Bitfusion > Bithost-Server installieren aus. Das Dialogfeld Bitfusion-Server installieren wird angezeigt. 2 Geben Sie auf der Seite OVA-Image auswählen die URL der vSphere Bitfusion-OVA-Datei ein oder navigieren Sie zu der Datei und klicken Sie auf Weiter. 3 Überprüfen Sie auf der Seite Vorlagendetails verifizieren die Details der OVA-Vorlage und klicken Sie auf Weiter. 4 Geben Sie auf der Seite Namen und Hostnamen auswählen einen Namen für die virtuelle Maschine sowie einen Hostnamen für den vSphere Bitfusion-Server ein und klicken Sie auf Weiter. Optional können Sie eine Host-ID für den vSphere Bitfusion-Server angeben, z. B. wenn Sie ein Upgrade Ihres vSphere Bitfusion-Servers durchführen. Wenn Sie diesen Schritt überspringen, wird eine Host-ID generiert und automatisch zugewiesen. 5 Definieren Sie auf der Seite Speicher auswählen, wo und wie die Dateien der bereitgestellten VM gespeichert werden sollen, und klicken Sie auf Weiter. 6 Geben Sie auf der Seite Netzwerk auswählen die Netzwerkkonfiguration für Netzwerkadapter 1 ein und klicken Sie auf Weiter. Sie müssen die Konfiguration für Netzwerkadapter 1 angeben, der für die Verwaltung und den Datenverkehr verwendet wird. Netzwerkadapter 1 muss mit einem Netzwerk verbunden sein, das mit der vCenter Server-Instanz kommuniziert. Wenn Ihr vSphere Bitfusion-Server zusätzliche Netzwerkadapter für den Datenverkehr benötigt, können Sie auf Netzwerkadapter hinzufügen klicken und die Netzwerkkonfiguration für den zusätzlichen Adapter angeben. Option Beschreibung Netzwerkadapter Wählen Sie im Dropdown-Menü ein Netzwerk aus. Adaptertyp Wählen Sie einen Netzwerkadapter aus, der der virtuellen Maschine zugewiesen werden soll. Hinweis vSphere Bitfusion unterstützt VMXNET3- und PVRDMA-Adapter. DHCP/Feste IP Geben Sie an, ob ein DHCP-Server die Adresse des Netzwerkadapters zuweist oder ob Sie eine feste IPv4-Adresse verwenden. VMware, Inc. 17
VMware vSphere Bitfusion-Benutzerhandbuch Option Beschreibung IPv4-Adresse Geben Sie die IPv4-Adresse des Netzwerkadapters ein. Bei Verwendung von DHCP lassen Sie dieses Textfeld leer. Hinweis IPv6 wird nicht unterstützt. Netzmaske Wählen Sie im Dropdown-Menü eine Netzmaske aus. Wenn Ihr Netzwerk beispielsweise eine /24-Netzmaske verwendet, wählen Sie 24 (255.255.255.0) aus. . Gateway Geben Sie die mit der Appliance zu verwendende Netzwerk-Gateway- Adresse ein. Bei Verwendung von DHCP lassen Sie dieses Textfeld leer. MTU Geben Sie eine MTU-Größe ein. Der Standardwert ist 1500. Geben Sie für eine optimale Leistung eine MTU-Größe an, die der von Ihrer Netzwerkhardware unterstützten maximalen MTU-Größe entspricht. Hinweis Wenn Sie eine MTU-Größe von mehr als 1500 festlegen, stellen Sie sicher, dass die Netzwerk-Switches in Ihrem Datencenter für Jumbo-Frames aktiviert sind. DNS-Server Geben Sie die mit der Appliance zu verwendende DNS-Serveradresse ein. Bei Verwendung von DHCP lassen Sie dieses Textfeld leer. DNS-Suchdomänen Geben Sie die mit der Appliance zu verwendende Adresse der DNS- Suchdomäne ein. Bei Verwendung von DHCP lassen Sie dieses Textfeld leer. NTP Geben Sie die mit der Appliance zu verwendende NTP-Serveradresse ein. Wenn Sie DHCP verwenden und der DHCP-Server das Versenden von Informationen zum NTP-Server unterstützt, lassen Sie dieses Textfeld leer. 7 Fügen Sie auf der Seite GPUs auswählen GPUs zum nachfolgenden Server hinzu und klicken Sie auf Weiter. a Klicken Sie auf GPU hinzufügen. b Wählen Sie im Dropdown-Menü GPU hinzufügen eine GPU aus. VMware, Inc. 18
VMware vSphere Bitfusion-Benutzerhandbuch c (Optional) Geben Sie den Gesamtspeicher der GPU an. Das vSphere Bitfusion-Plug-In verwendet den aggregierten GPU-Arbeitsspeicher aller GPUs, die Sie auf der Seite GPUs auswählen hinzufügen, um die Werte für die Mindestgröße des Arbeitsspeichers und die empfohlene zugeordnete E/A-Größe des Arbeitsspeichers der virtuellen Maschine Ihres vSphere Bitfusion-Servers zu berechnen. d (Optional) Um die NVIDIA-Lizenz zu akzeptieren, aktivieren Sie das Kontrollkästchen NVIDIA-Treiber herunterladen und installieren. Wenn Sie die NVIDIA-Lizenz akzeptieren, lädt vSphere Bitfusion den NVIDIA-Treiber, die CUDA-Bibliotheken und den NVIDIA Fabric Manager herunter und installiert sie beim ersten Start der virtuellen Maschine. Hinweis Wenn Sie vSphere Bitfusion in einer Umgebung ohne Internetzugriff betreiben, beispielsweise in einem Air-Gap-Netzwerk, aktivieren Sie dieses Kontrollkästchen nicht. Nach der Bereitstellung der vSphere Bitfusion-Appliance müssen Sie die NVIDIA-Software manuell herunterladen und installieren. Wenn Ihr vSphere Bitfusion-Server zusätzliche GPUs benötigt, können Sie erneut auf GPU- Gerät hinzufügen klicken und die Einstellungen für die GPU angeben. 8 Geben Sie auf der Seite Server anpassen die vSphere Bitfusion-Serverdetails an und klicken Sie auf Weiter. a Geben Sie die Anzahl der CPUs für die virtuelle Maschine an. b Geben Sie die MMIO-Größe (Memory Mapped I/O) der virtuellen Maschine in GB an. c (Optional) Geben Sie ein Kennwort für das Kundenkonto ein. Nach Abschluss der Bereitstellung verwenden Sie das Kundenbenutzerkonto, um sich über die Konsolen-Shell oder mithilfe von SSH beim vSphere Bitfusion-Server anzumelden. Wenn Sie diesen Schritt überspringen, können Sie sich nicht beim nachfolgenden Server anmelden. d (Optional) Aktivieren Sie das Kontrollkästchen VM nach dem Erstellen einschalten. Sie können das Kontrollkästchen deaktivieren, wenn Sie Änderungen an der virtuellen Maschine vornehmen, bevor Sie sie einschalten. 9 Überprüfen Sie auf der Seite Übersicht die Bereitstellungsdetails und klicken Sie auf Beenden.. Ergebnisse Im Bereich „Kürzlich bearbeitete Aufgaben“ wird einen neue Aufgabe für die Installation des vSphere Bitfusion-Servers angezeigt. Nach Abschluss der Aufgabe wird die neue Appliance in der ausgewählten Ressource erstellt. Wenn dem Cluster ein neuer vSphere Bitfusion-Server beitritt, stellt vCenter Server ein Token, ein Zertifikat und eine Konfiguration für den Zugriff auf den vSphere Bitfusion-Cluster bereit. VMware, Inc. 19
VMware vSphere Bitfusion-Benutzerhandbuch Entfernen eines vSphere Bitfusion-Servers Um die Fehlerbehebung oder Wartung auf einem vSphere Bitfusion-Server durchzuführen, müssen Sie den Server aus dem vSphere Bitfusion-Cluster entfernen. Wenn Sie einen vSphere Bitfusion-Server zu Wartungs- oder Fehlerbehebungszwecken ausschalten, ändert sich der Integritätsstatus des vSphere Bitfusion-Clusters. Wenn sich der Cluster nicht in einem fehlerfreien Zustand befindet, können Sie keine vSphere Bitfusion-Server hinzufügen und keinen Clustersicherungsvorgang durchführen. Wenn die Hälfte der Server ausgeschaltet wird, ist der Cluster nicht mehr funktionsfähig. Wenn Sie einen Server für einen längeren Zeitraum ausschalten, können Sie mögliche Risiken vermeiden, indem Sie den Server aus dem Cluster entfernen. Wenn Sie folgendes Verfahren durchführen, wird der Server sofort aus dem vSphere Bitfusion- Cluster entfernt. Alle ausgeführten Anwendungen, die die GPUs verwenden, erhalten einen sofortigen GPU-Ausfall und geben in der Regel eine Fehlerbedingung zurück. Voraussetzungen n Verhindern Sie neue Clientverbindungen mit dem jeweiligen Server in den Servereinstellungen. n Stellen Sie sicher, dass auf dem Server keine laufenden Anwendungen ausgeführt werden. Verfahren 1 Im vSphere Client wählen Sie Menü > Bitfusion aus. 2 Wählen Sie auf der Registerkarte Server einen Server aus der Liste aus. 3 Wählen Sie im Dropdown-Menü Aktionen die Option Löschen aus. 4 Klicken Sie im Bestätigungsdialogfeld auf Löschen. 5 Warten Sie, bis der Server nicht mehr auf der Registerkarte Server aufgeführt ist. Der Löschvorgang kann bis zu 10 Minuten und länger dauern. Während dieser Zeit wird der Backing-Speicher neu verteilt. Alternativ können Sie überprüfen, ob der Löschvorgang abgeschlossen ist, indem Sie den Befehl nodetool status im Terminal eines ausgeführten Servers ausführen. 6 (Optional) Löschen Sie die virtuelle Maschine (VM) des Servers. Wenn Sie die entfernte VM versehentlich einschalten, werden vSphere Bitfusion-Plug-In- und -Clusterinformationen überschrieben. Ergebnisse Sie haben den ausgewählten Server aus dem vSphere Bitfusion-Cluster entfernt. VMware, Inc. 20
VMware vSphere Bitfusion-Benutzerhandbuch Nächste Schritte Um die VM oder die zugrunde liegende Hardware wiederzuverwenden, können Sie eine der folgenden Aufgaben durchführen. n Wenn Sie den Server aus dem Cluster gelöscht haben, ohne die VM zu löschen, löschen Sie die Konfigurationsdatei /etc/bitfusion/bitfusion-manager.yaml auf der VM, aktivieren Sie die VM erneut als vSphere Bitfusion-Server, starten Sie den vSphere Bitfusion-Dienst neu und schalten Sie die VM ein. Weitere Informationen finden Sie unter Aktivieren des vSphere Bitfusion-Clients im VMware vSphere Bitfusion-Installationshandbuch Starten und Beenden des vSphere Bitfusion-Dienstes. n Wenn Sie die Server-VM gelöscht haben, können Sie die zugrunde liegende Hardware als vSphere Bitfusion-Server wiederverwenden, indem Sie eine VM erstellen und die vSphere Bitfusion-Serverappliance bereitstellen. Weitere Informationen finden Sie unter Hinzufügen nachfolgender vSphere Bitfusion-Server. Konfigurieren der Netzwerkeinstellungen eines vSphere Bitfusion-Servers Nachdem Sie einen vSphere Bitfusion-Server bereitgestellt haben, können Sie Ihren vSphere Bitfusion-Server mit mehreren Netzwerken verbinden, indem Sie Netzwerkschnittstellen hinzufügen, entfernen und ändern. Sie können die virtuelle Maschine eines vSphere Bitfusion-Servers mit bis zu vier Netzwerken verbinden. Wenn Sie keinen DHCP-Server verwenden, können Sie die IPv4-Adresse, das CIDR- Präfix und die MTU-Größe eines Netzwerks festlegen. Sie können auch eine Netzwerkgatewayadresse, eine DNS-Serveradresse, eine DNS-Suchdomänenadresse und eine NTP-Serveradresse für das Verwaltungsnetzwerk angeben. aus Beschreibung Netzwerkadapter 1 Dieses Netzwerk wird für die Verwaltung und den Datenverkehr verwendet. Netzwerkadapter 2 Dieses Netzwerk wird nur für den Datenverkehr verwendet. Netzwerkadapter 3 Dieses Netzwerk wird nur für den Datenverkehr verwendet. Netzwerkadapter 4 Dieses Netzwerk wird nur für den Datenverkehr verwendet. Hinzufügen einer Netzwerkschnittstelle Sie können die virtuelle Maschine Ihres vSphere Bitfusion-Servers mit bis zu vier Netzwerken verbinden. VMware, Inc. 21
VMware vSphere Bitfusion-Benutzerhandbuch Während der Bereitstellung eines vSphere Bitfusion-Servers müssen Sie mindestens Netzwerkadapter 1 konfigurieren, der für die Verwaltung und den Datenverkehr verwendet wird. Die Netzwerkadapter 2, 3 und 4 sind optional und werden nur für den Datenverkehr verwendet. Um Netzwerkschnittstellen für Datenverkehr hinzuzufügen, nachdem der Bereitstellungsvorgang Ihres Servers abgeschlossen ist, führen Sie dieses Verfahren durch. Hinweis Jeder Netzwerkadapter muss mit einem separaten Netzwerk verbunden sein. vSphere Bitfusion wählt das Netzwerk aus, das für Datenübertragungen an den vSphere Bitfusion-Server am effizientesten ist. Voraussetzungen n Stellen Sie sicher, dass Sie über das Recht Virtuelle Maschine.Konfiguration.Gerät hinzufügen oder entfernen verfügen. n Stellen Sie sicher, dass die virtuelle Maschine des vSphere Bitfusion-Servers ausgeschaltet ist. Verfahren 1 Klicken Sie im vSphere Client mit der rechten Maustaste auf die vSphere Bitfusion-Server-VM und wählen Sie Einstellungen bearbeiten aus. 2 Klicken Sie auf der Registerkarte Virtuelle Hardware auf die Schaltfläche Neues Gerät hinzufügen. 3 Wählen Sie unter Netzwerk die Option Netzwerkadapter aus. 4 Wählen Sie im Dropdown-Menü Neues Netzwerk ein Netzwerk aus, mit dem die virtuelle Maschine verbunden werden soll. 5 Erweitern Sie den Abschnitt Neues Netzwerk und wählen Sie im Dropdown-Menü Adaptertyp den Netzwerkadapter aus, der der virtuellen Maschine zugewiesen werden soll. vSphere Bitfusion unterstützt VMXNET3- und PVRDMA-Adapter. 6 Klicken Sie auf OK. Ergebnisse Sie haben einen neuen Netzwerkadapter zur virtuellen Maschine Ihres vSphere Bitfusion-Servers hinzugefügt. Nächste Schritte n Sie können bis zu vier Netzwerkadapter hinzufügen. n Aktivieren Sie den Adapter auf dem vSphere Bitfusion-Server und geben Sie zusätzliche Einstellungen an, wenn Sie DHCP nicht verwenden. Weitere Informationen hierzu finden Sie unter Konfigurieren einer Netzwerkschnittstelle. VMware, Inc. 22
VMware vSphere Bitfusion-Benutzerhandbuch Konfigurieren einer Netzwerkschnittstelle Um einen Netzwerkadapter zu konfigurieren und die IPv4-Adresse, das CIDR-Präfix und die MTU- Größe des Netzwerks anzugeben, müssen Sie vApp-Eigenschaften konfigurieren. vSphere Bitfusion verwendet die Werte dieser Eigenschaften und konfiguriert das Netzwerk während des Startens der virtuellen Maschine. Der folgende Vorgang enthält Informationen zum Aktivieren und Festlegen der Netzwerkkonfiguration für Netzwerkadapter 2 durch Konfigurieren der vApp-Eigenschaften. Sie können die Konfiguration der anderen Netzwerkadapter ändern, indem Sie die eigenschaften ersetzen, die in diesem Verfahren verwendet werden. Eine Liste aller vApp-Eigenschaften, die Sie ändern können, finden Sie unter vSphere Bitfusion-vApp-Eigenschaften. Voraussetzungen n Stellen Sie sicher, dass Sie über das Recht vApp.vApp-Anwendungskonfiguration verfügen. n Stellen Sie sicher, dass die virtuelle Maschine des vSphere Bitfusion-Servers ausgeschaltet ist. Verfahren 1 Wählen Sie in der Ansicht Hosts und Cluster in vCenter Server die virtuelle Maschine einer vSphere Bitfusion. 2 Wählen Sie in der Registerkarte Konfigurieren Einstellungen > vApp-Optionen. 3 Wählen Sie im Bereich Eigenschaften die Eigenschaft guestinfo.bitfusion.host.net2.configure aus und klicken Sie auf Wert festlegen. 4 Aktivieren Sie im Dialogfeld Wert festlegen den Schalter und klicken Sie auf OK. 5 Wenn Sie DHCP nicht verwenden, wählen Sie eine Eigenschaft aus und geben Sie den Wert für Netzwerkadapter 2 an. Eigenschaft Wert guestinfo.bitfusion.host.net2.ipv4address Geben Sie eine IPv4-Adresse ein. Beispiel: 192.168.200.111. guestinfo.bitfusion.host.net2.netmask Wählen Sie im Dropdown-Menü einen Netzmaskenwert aus. guestinfo.bitfusion.host.net2.mtu Geben Sie eine gültige MTU-Größe ein. Beispielsweise 9000. Ergebnisse Sie haben Netzwerkadapter 2 konfiguriert. Nächste Schritte Sie können die anderen Netzwerkadapter konfigurieren, indem Sie die entsprechenden Eigenschaften ersetzen und dasselbe Verfahren verwenden. Weitere Informationen hierzu finden Sie unter vSphere Bitfusion-vApp-Eigenschaften. VMware, Inc. 23
VMware vSphere Bitfusion-Benutzerhandbuch Entfernen einer Netzwerkschnittstelle Sie können einen Netzwerkadapter entfernen, wenn beispielsweise die virtuelle Maschine eines vSphere Bitfusion-Servers kein Netzwerk mehr verwendet. Voraussetzungen n Stellen Sie sicher, dass Sie über das Recht Virtuelle Maschine.Konfiguration.Gerät hinzufügen oder entfernen verfügen. n Stellen Sie sicher, dass Sie über das Recht vApp.vApp-Anwendungskonfiguration verfügen. n Stellen Sie sicher, dass die virtuelle Maschine des vSphere Bitfusion-Servers ausgeschaltet ist. Verfahren 1 Wählen Sie im vSphere Client die vSphere Bitfusion-Server-VM und anschließend Einstellungen bearbeiten aus. 2 Um auf der Registerkarte Virtuelle Hardware eine Netzwerkschnittstelle zu löschen, klicken Sie auf das Symbol zum Entfernen ( ) neben dem Netzwerkadapter. 3 Klicken Sie auf OK. 4 Wählen Sie in der Ansicht Hosts und Cluster in vCenter Server die virtuelle Maschine der vSphere Bitfusion aus. 5 Wählen Sie in der Registerkarte Konfigurieren Einstellungen > vApp-Optionen. 6 Wählen Sie im Bereich Eigenschaften eine Eigenschaft aus und klicken Sie auf Wert festlegen. n Wenn Sie Netzwerkadapter 2 gelöscht haben, wählen Sie guestinfo.bitfusion.host.net2.configure. n Wenn Sie Netzwerkadapter 3 gelöscht haben, wählen Sie guestinfo.bitfusion.host.net3.configure. n Wenn Sie Netzwerkadapter 4 gelöscht haben, wählen Sie guestinfo.bitfusion.host.net4.configure. 7 Deaktivieren Sie im Dialogfeld Wert festlegen den Schalter und klicken Sie auf OK. Ergebnisse Sie haben den Netzwerkadapter entfernt, und die virtuelle Maschine Ihres vSphere Bitfusion- Servers ist nicht mit diesem Netzwerk verbunden. VMware, Inc. 24
VMware vSphere Bitfusion-Benutzerhandbuch vSphere Bitfusion-vApp-Eigenschaften Eine Liste aller vApp-Eigenschaften, die Sie ändern können, indem Sie deren Werte ändern. Bitfusion-Serversetup Eigenschaft Wert guestinfo.bitfusion.host.hostname Der Hostname für den Server. Als gültige Zeichen für Hostnamen können die ASCII- Zeichen A bis Z (sowohl Groß- als auch Kleinbuchstaben), die Ziffern 0 bis 9 und der Bindestrich (-) verwendet werden. Ein Hostname darf nicht mit einem Bindestrich beginnen. guestinfo.bitfusion.server.vcenter-guid Die vCenter Server-GUID. guestinfo.bitfusion.server.vcenter-url Die vCenter Server-URL. guestinfo.bitfusion.server.vcenter-username Der Benutzername für die vCenter Server-Instanz. guestinfo.bitfusion.server.vcenter-password Das Kennwort für die vCenter Server-Instanz. guestinfo.bitfusion.host.install_nvidia_packages Schieben Sie die Umschalttaste auf die Position EIN, um die NVIDIA-Software herunterzuladen und zu installieren, oder auf die Position AUS, um diesen Vorgang zu überspringen. Netzwerkadapter 1 (Verwaltung und Daten) Eigenschaft Wert guestinfo.bitfusion.host.net1.ipv4address Die IPv4-Adresse des Netzwerkadapters. Bei Verwendung von DHCP lassen Sie diesen Wert leer. Hinweis IPv6 wird nicht unterstützt. guestinfo.bitfusion.host.net1.netmask Das Netzwerk für die CIDR-Einstellungen (Classless Inter- Domain Routing). guestinfo.bitfusion.host.net1.mtu Die MTU-Größe. Der Standardwert ist 1500. Geben Sie für eine optimale Leistung eine MTU-Größe von 4000 oder höher an. Sie können dieses Textfeld für den Standardwert leer lassen. Hinweis Wenn Sie eine MTU-Größe von mehr als 1500 festlegen, stellen Sie sicher, dass die Netzwerk-Switches in Ihrem Datencenter für Jumbo-Frames aktiviert sind. guestinfo.bitfusion.host.net1.gateway Die mit der Appliance zu verwendende Netzwerk- Gateway-Adresse. Bei Verwendung von DHCP lassen Sie dieses Textfeld leer. guestinfo.bitfusion.host.net1.dns Die mit der Appliance zu verwendende DNS- Serveradresse. Bei Verwendung von DHCP lassen Sie dieses Textfeld leer. VMware, Inc. 25
VMware vSphere Bitfusion-Benutzerhandbuch Eigenschaft Wert guestinfo.bitfusion.host.net1.domain Die mit der Appliance zu verwendende Adresse der DNS- Suchdomäne. Bei Verwendung von DHCP lassen Sie dieses Textfeld leer. guestinfo.bitfusion.host.net1.ntp Die mit der Appliance zu verwendende NTP-Serveradresse. Wenn Sie DHCP verwenden und der DHCP-Server das Versenden von Informationen zum NTP-Server unterstützt, lassen Sie dieses Textfeld leer. Netzwerkadapter 2 (Daten) Eigenschaft Wert guestinfo.bitfusion.host.net2.configure Aktivieren oder deaktivieren Sie den Schalter, um diese Schnittstelle zu konfigurieren oder nicht. guestinfo.bitfusion.host.net2.ipv4address Die IPv4-Adresse des Netzwerkadapters. Bei Verwendung von DHCP lassen Sie diesen Wert leer. Hinweis IPv6 wird nicht unterstützt. guestinfo.bitfusion.host.net2.netmask Das Netzwerk für die CIDR-Einstellungen (Classless Inter- Domain Routing). guestinfo.bitfusion.host.net2.mtu Die MTU-Größe. Der Standardwert ist 1500. Geben Sie für eine optimale Leistung eine MTU-Größe von 4000 oder höher an. Sie können dieses Textfeld für den Standardwert leer lassen. Hinweis Wenn Sie eine MTU-Größe von mehr als 1500 festlegen, stellen Sie sicher, dass die Netzwerk-Switches in Ihrem Datencenter für Jumbo-Frames aktiviert sind. Netzwerkadapter 3 (Daten) Eigenschaft Wert guestinfo.bitfusion.host.net3.configure Aktivieren oder deaktivieren Sie den Schalter, um diese Schnittstelle zu konfigurieren oder nicht. guestinfo.bitfusion.host.net3.ipv4address Die IPv4-Adresse des Netzwerkadapters. Bei Verwendung von DHCP lassen Sie diesen Wert leer. Hinweis IPv6 wird nicht unterstützt. guestinfo.bitfusion.host.net3.netmask Das Netzwerk für die CIDR-Einstellungen (Classless Inter- Domain Routing). guestinfo.bitfusion.host.net3.mtu Die MTU-Größe. Der Standardwert ist 1500. Geben Sie für eine optimale Leistung eine MTU-Größe von 4000 oder höher an. Sie können dieses Textfeld für den Standardwert leer lassen. Hinweis Wenn Sie eine MTU-Größe von mehr als 1500 festlegen, stellen Sie sicher, dass die Netzwerk-Switches in Ihrem Datencenter für Jumbo-Frames aktiviert sind. VMware, Inc. 26
VMware vSphere Bitfusion-Benutzerhandbuch Netzwerkadapter 4 (Daten) Eigenschaft Wert guestinfo.bitfusion.host.net4.configure Aktivieren oder deaktivieren Sie den Schalter, um diese Schnittstelle zu konfigurieren oder nicht. guestinfo.bitfusion.host.net4.ipv4address Die IPv4-Adresse des Netzwerkadapters. Bei Verwendung von DHCP lassen Sie diesen Wert leer. Hinweis IPv6 wird nicht unterstützt. guestinfo.bitfusion.host.net4.netmask Das Netzwerk für die CIDR-Einstellungen (Classless Inter- Domain Routing). guestinfo.bitfusion.host.net4.mtu Die MTU-Größe. Der Standardwert ist 1500. Geben Sie für eine optimale Leistung eine MTU-Größe von 4000 oder höher an. Sie können dieses Textfeld für den Standardwert leer lassen. Hinweis Wenn Sie eine MTU-Größe von mehr als 1500 festlegen, stellen Sie sicher, dass die Netzwerk-Switches in Ihrem Datencenter für Jumbo-Frames aktiviert sind. Ändern der Einstellungen eines vSphere Bitfusion-Servers Sie können die serverspezifischen Einstellungen über das vSphere Bitfusion-Plug-In ändern, wie z. B. Zulassen neuer Clientverbindungen und Eingeben eines Metrikintervalls. In folgendem Verfahren werden lediglich die Einstellungen für einen bestimmten vSphere Bitfusion-Server geändert. Sie können die globalen Einstellungen für alle vSphere Bitfusion-Server auf der Registerkarte Einstellungen > Globale Standardeinstellungen des Servers ändern. Verfahren 1 Im vSphere Client wählen Sie Menü > Bitfusion aus. 2 Wählen Sie auf der Registerkarte Server einen Server aus der Liste aus. 3 Wählen Sie im Dropdown-Menü Aktionen die Option Einstellungen aus. 4 Ändern Sie bei Bedarf eine oder mehrere Servereinstellungen. n Aktivieren oder deaktivieren Sie das Kontrollkästchen Neue Clientverbindungen zulassen. Um einen vSphere Bitfusion-Server ordnungsgemäß herunterzufahren und Wartung oder Fehlerbehebung durchzuführen, können Sie das Kontrollkästchen Neue Clientverbindungen zulassen deaktivieren. Mit dieser Aktion wird verhindert, dass vSphere Bitfusion-Clients neue Anwendungen auf den GPUs der vSphere Bitfusion-Server ausführen, während Sie darauf warten, dass alle laufenden Anwendungen beendet werden. n Zum Festlegen einer Häufigkeit zur Erfassung von Serverstatistiken geben Sie unter Metrikintervall einen Wert in Sekunden ein. VMware, Inc. 27
VMware vSphere Bitfusion-Benutzerhandbuch n Zum Verwenden der globalen Servereinstellungen für diesen vSphere Bitfusion-Server klicken Sie auf Standardwerte abgleichen. 5 Klicken Sie auf Speichern. Durchführen einer Integritätsprüfung eines vSphere Bitfusion-Servers Sie können neben Leistung und Stabilität auch die Systemressourcen und Softwareversionen eines vSphere Bitfusion-Servers überprüfen, indem Sie eine Integritätsprüfung durchführen. Sie können den Integritätsstatus eines ausgewählten vSphere Bitfusion-Servers überprüfen und gegebenenfalls Fehlerbehebung durchführen. Bei der Integritätsprüfung werden Leistung und Stabilität sowie die Systemressourcen und Softwareversionen eines ausgewählten vSphere Bitfusion-Servers und die vCenter Server-Umgebung des Servers analysiert. Bei einer Integritätsprüfung können folgende Status zurückgegeben werden: „Bestanden“, „Grenzwertig“ und „Schwerwiegend“. Bei einer Integritätsprüfung wird beispielsweise sichergestellt, dass alle Knoten ausgeführt werden, genügend freier Speicher verfügbar und die Verbindung mit vCenter Server hergestellt ist. Weitere Informationen zum Anzeigen der Liste aller verfügbaren Integritätsprüfungen finden Sie unter Liste der vSphere Bitfusion-Integritätsprüfungen. Indem Sie im folgenden Verfahren eine Integritätsprüfung deaktivieren, können Sie die Integritätsprüfungseinstellungen nur für den spezifischen vSphere Bitfusion-Server ändern. Eine deaktivierte Integritätsprüfung wird weiterhin im Hintergrund durchgeführt. Der Status der Prüfung hat jedoch keinen Einfluss auf den allgemeinen Integritätsstatus des auf der Registerkarte Server angezeigten Servers. Sie können die globalen Integritätsprüfungseinstellungen für alle vSphere Bitfusion-Server auf der Registerkarte Einstellungen > Globale Standardeinstellungen des Servers ändern. Verfahren 1 Im vSphere Client wählen Sie Menü > Bitfusion aus. 2 Wählen Sie auf der Registerkarte Server einen Server aus der Liste aus. 3 Wählen Sie im Dropdown-Menü Aktionen die Option Integrität aus. Das Dialogfeld Systemzustandsprotokolle wird mit den Ergebnissen der Integritätsprüfungen geöffnet. Der Status, Typ, Name und die Details der Prüfung werden angezeigt. 4 (Optional) Klicken Sie zum Deaktivieren einer bestimmten Integritätsprüfung auf die Umschaltfläche. 5 Klicken Sie auf Speichern und beenden. Nächste Schritte n Anzeigen von vSphere Bitfusion-Serverprotokollen n Sichern eines vSphere Bitfusion-Clusters VMware, Inc. 28
VMware vSphere Bitfusion-Benutzerhandbuch Liste der vSphere Bitfusion-Integritätsprüfungen vSphere Bitfusion führt die folgenden Prüfungen durch, wenn die Integritätsprüfung eines Servers über das vSphere Bitfusion-Plug-In initiiert wird. Liste der Integritätsprüfungen Name Typ Beschreibung cass_buckets Stabilität Validiert die von Cassandra verwendete Bucket-Zuordnung, um Nutzungsdaten und andere Elemente zu speichern. cass_node_num Stabilität Bestätigt, dass für Cassandra und Bitfusion dieselbe Anzahl an Servern im Cluster angezeigt wird. cass_nodetool Stabilität Bestätigt, dass der fehlerfreie Zustand des Clusters für Cassandra angezeigt wird. cass_replication Stabilität Bestätigt den Replizierungsfaktor. compute_mode Stabilität Bestätigt, dass der Rechenmodus für die GPUs entsprechend festgelegt ist. network Stabilität Überprüft, ob verworfene Pakete im Netzwerk vorhanden sind. ecc Stabilität Überprüft, ob auf den GPUs ECC-Fehler auftreten. gpu_api Stabilität Bestätigt, dass die GPU-APIs übereinstimmen. pci_nvml Stabilität Bestätigt, dass alle GPUs aufgezählt werden können. pci_p2p Stabilität Stellt sicher, dass PCIe-P2P unterstützt wird. temperature Stabilität Stellt sicher, dass die Temperatur der GPUs unter 100 Grad Celsius liegt. vcenter_check Stabilität Stellt sicher, dass der Server eine Verbindung mit vCenter Server herstellen kann. xid Stabilität Überprüft, ob GPU-Xid-Fehler vorhanden sind. bogomips Leistung Validiert die Leistung. Die Metrik wird vom Linux-Kernel verwendet. hostmem Leistung Stellt sicher, dass auf dem System ausreichend Hostarbeitsspeicher vorhanden ist. iface_compat Leistung Stellt sicher, dass die Netzwerkkonfiguration gültig ist. memops Leistung Stellt sicher, dass memops für die GPUs aktiviert ist. mtu Leistung Stellt sicher, dass Jumbo-Frames für das Netzwerk aktiviert sind. nvidia_stats Leistung Validiert die Statistiken für die GPUs. nvidia_topo Leistung Validiert die Hosttopologie. pci_width Leistung Überprüft, ob die GPUs die maximale PCIe-Lane-Kapazität verwenden. ulimit_n Leistung Stellt sicher, dass die maximale Beschränkung für Dateideskriptoren geeignet ist. diskspace Systemressource Bestätigt den freien Speicherplatz auf dem Server. install Systemressource Validiert die Bitfusion-Installation. pciinfo Systemressource Validiert die PCI-Konfiguration. shadow_mem Systemressource Stellt sicher, dass mindestens dieselbe Menge an Systemspeicher vorhanden ist, da sich auf den GPUs Frame-Pufferspeicher befindet. cuda_version Softwareversion Überprüft die CUDA-Version. VMware, Inc. 29
Sie können auch lesen