OVM - Was soll da schon schief gehen? - #DOAG2018 21. November 2018 Uwe Küchler, Managing Consultant
←
→
Transkription von Seiteninhalten
Wenn Ihr Browser die Seite nicht korrekt rendert, bitte, lesen Sie den Inhalt der Seite unten
überraschend mehr Möglichkeiten! OVM – Was soll da schon schief gehen? #DOAG2018 21. November 2018 Uwe Küchler, Managing Consultant OPITZ CONSULTING Deutschland GmbH © OPITZ CONSULTING 2018
Zur Person Generation C=64 Seit über 25 Jahren in der IT tätig 1997-2000 bei Oracle Deutschland Seither durchgehend Oracle-Berater, im DBA- 1975 und Entwicklungs-Umfeld, Tutor Cloud! Seit 09/2013 bei OPITZ CONSULTING ☺ Buch- und Blogautor (oraculix.de) Performance als „Steckenpferd“ 2016 OVM-Projekte seit 2014 (v2.x) © OPITZ CONSULTING 2018 OVM - Was kann da schon schief gehen? 21.11.2018
Agenda 1 Server 2 Storage 3 Netzwerk 4 Sonstige © OPITZ CONSULTING 2018 OVM - Was kann da schon schief gehen? 21.11.2018 Seite 3
Server UEFI-/BIOS-Einstellungen 1 Welche MAC gehört zu welchem NIC? © OPITZ CONSULTING 2018 OVM - Was kann da schon schief gehen? 21.11.2018 Seite 4
Was soll da schon schiefgehen? Server error message: Command: ['xm', 'create', '/OVS/Repositories/0004xxxx/VirtualMachines/0004fxxxxx/vm .cfg'] failed (1): stderr: Error: HVM guest support is unavailable: is VT/AMD-V supported by your CPU and enabled in your BIOS? stdout: Using config file "/OVS/Repositories/0004xxxx/VirtualMachines/0004fxxxxx/vm .cfg" © OPITZ CONSULTING 2018 OVM - Was kann da schon schief gehen? 21.11.2018
UEFI-/BIOS-Einstellungen: VT-x oder AMD-V Features der CPU für CPU-Virtualisierung Bei INTEL seit 2005 verfügbar Auf fast allen, aktuellen Intel-CPUs unterstützt (außer Atom) Bei AMD seit 2006 verfügbar Auf den meisten, aktuellen AMD-CPUs unterstützt Grundvoraussetzung für Hardware-virtualisierten Betrieb (HVM) Sicherstellen, dass die CPU VT-x oder AMD-V unterstützt! VT-x muss gelegentlich im BIOS noch aktiviert werden. © OPITZ CONSULTING 2018 OVM - Was kann da schon schief gehen? 21.11.2018
Prüfen, ob CPU-Virtualisierung aktiv ist # xm info | grep xen_caps xen_caps : xen-3.0-x86_64 xen-3.0-x86_32p hvm-3.0-x86_32 hvm-3.0-x86_32p hvm-3.0-x86_64 © OPITZ CONSULTING 2018 OVM - Was kann da schon schief gehen? 21.11.2018
UEFI-/BIOS-Einstellungen: VT-d und SR-IOV VT-d erlaubt Gast-VMs die direkte Benutzung von Peripheriegeräten, z. B. Netzwerkkarten, Grafikkarten, Festplattencontrollern. Manchmal auch als PCI Passthrough bezeichnet SR-IOV ermöglicht die parallele Nutzung eines einzelnen Intel-Ethernet- Server-Adapter-Ports durch mehrere virtuelle Funktionen basierend auf PCI Express (PCIe) Hardware durch die PCI-SIG standardisiert, also nicht x86-spezifisch © OPITZ CONSULTING 2018 OVM - Was kann da schon schief gehen? 21.11.2018
Was soll da schon schiefgehen? „Installation of Oracle VM 3.4.4 on Oracle X4-2 Server Fails When the Installer Runs /sbin/loader (Doc ID 2317250.1)” Oracle VM Server (HP dl980 G7) Hung With Error "net eth0: firmware hang detected" (2335345.1) Oracle VM Server 3 Cannot be Installed on Dell r820 (1604512.1) Oracle VM Server (dom0) crashes on NFS I/O (2368061.1) Oracle VM Domain 0 Crashes at "memcpy+0xb/0x120" And Aborts All VM Guests (1643489.1) U.v.m. … © OPITZ CONSULTING 2018 OVM - Was kann da schon schief gehen? 21.11.2018
UEFI-/BIOS-Einstellungen: VT-d und SR-IOV Subjektiver Erfahrungswert: VT-d und SR-IOV stets abschalten. (gilt inkl. OVM 3.4.5) Oder ausgiebig testen! © OPITZ CONSULTING 2018 OVM - Was kann da schon schief gehen? 21.11.2018
Welche MAC gehört zu welchem NIC? © OPITZ CONSULTING 2018 OVM - Was kann da schon schief gehen? 21.11.2018
Welche MAC gehört zu welchem NIC? Ein „weicher“ Faktor, aber wichtig Bsp. unterschiedliche Zählrichtung der Ports NIC-Nummern im ILO Board müssen nicht unbedingt dem Aufdruck auf der Karte entsprechen mit müssen nicht unbedingt mit „eth“- Nummern im OS korrespondieren © OPITZ CONSULTING 2018 OVM - Was kann da schon schief gehen? 21.11.2018
Storage Lokal, speziell NVMe 2 Im Netz, speziell NetApp © OPITZ CONSULTING 2018 OVM - Was kann da schon schief gehen? 21.11.2018 Seite 14
Lokale Storage © OPITZ CONSULTING 2018 OVM - Was kann da schon schief gehen? 21.11.2018
Was soll da schon schiefgehen? 2 TB-Grenze bei OVM < 3.4.4 Bis einschließlich OVM 3.4.3 konnten keine Partitionen oder LUNs >= 2 TB erkannt werden. Upgrade auf OVM 3.4.5 255 LUN – Grenze Eigentlich sind laut Doku bis 1000 LUNs möglich. Der Linux-Kernel der OVM-Server beschränkt dies jedoch auf 255. Das kann manuell umkonfiguriert werden. Doc ID 2405190.1 © OPITZ CONSULTING 2018 OVM - Was kann da schon schief gehen? 21.11.2018
Spezialfall NVMe Seit OVM 3.4.2 werden NVMe Devices unterstützt. Entweder verwendet man die vollständige Disk, dann muss sie unpartitioniert sein. Oder man partitioniert die Disk auf OS-Ebene (OVM bietet das nicht). Die einzelnen Partitionen werden dann als Physical Disk im OVM angezeigt. Problem: Es gibt keine Hardware RAID-Controller für NVMe. Wenn also mehr als der Umfang einer Disk für ein Repository verwendet werden soll, kommt nur ein Software RAID in Frage. Es folgt ein Kundenbeispiel, wo NVMe mit Software RAID eingesetzt wurde. © OPITZ CONSULTING 2018 OVM - Was kann da schon schief gehen? 21.11.2018
HA-/DR-Variante: Standby über Kreuz mit Oracle VM NetApp NFS Share(s) NFS NFS OVM-Server 1 OVM-Server 2 DB1 VM1 Live Migration oder Failover DB1 VM1 Repository Repository (lokale NVMe (lokale NVMe Storage) Storage) DB2 VM2 Live Migration oder Failover DB2 VM2 SQL*Net (JDBC/tnsnames.ora) Client © OPITZ CONSULTING 2018 OVM - Was kann da schon schief gehen? 21.11.2018
Spezialfall NVMe: Kundenbeispiel Ursprünglicher Plan: Die VMs laufen nur auf lokaler Storage. NFS Shares werden nur zum Datenaustausch und für Backups eingesetzt. Es stehen 8 x 6 TB NVMe Disks an 3 Controllern zur Verfügung. Die Datenbank-VMs sollen ASM einsetzen. Diese sollen in 100 GB-Disks aufgeteilt werden. Das macht 492 Partitionen (ohne Abzüge für Repository) Problem: Wie partitionieren, um auch tatsächlich Ausfallsicherheit in ASM zu gewährleisten? © OPITZ CONSULTING 2018 OVM - Was kann da schon schief gehen? 21.11.2018
Vorschlag für NVMe-Partitionierung für ASM Laut Doku sind 4 NVME-Disks Folgende Disks immer gleich jeweils an 1 PCI-Controller partitionieren: angebunden. DATA Annahme: 1+5 2+6 Controller 1: Disk 1-4 3+7 Controller 2: Disk 5-8 FRA Controller 3: Disk 9-10 4+9 FRA2 + Repositories 8 + 10 © OPITZ CONSULTING 2018 OVM - Was kann da schon schief gehen? 21.11.2018
Vorschlag für NVMe-Partitionierung für ASM (2) Failure Groups: Der freie Platz in einer Failure DATA FG1: Disk 1,2,3 Group muß so groß sein, dass der DATA FG2: Disk 5,6,7 Ausfall einer Disk kompensierbar ist. FRA FG1: Disk 4 Sollte ein Controller ausfallen, dann fehlt eine komplette Failure FRA FG2: Disk 9 Group. Warum 2* FRA? FRA2 FG1: Disk 8 Weil man Schwierigkeiten bekommt, die 3 Controller mit 10 Disks so zu verteilen, FRA2 FG2: Disk 10 das der Ausfall eines Controllers nicht beide Failuregruppen trifft. © OPITZ CONSULTING 2018 OVM - Was kann da schon schief gehen? 21.11.2018
Alternative: Alles per Software RAID zusammenfassen Die Datafiles sollen auf virtuellen Disks statt ASM liegen. Alle NVMe Disks werden in einem großen Software RAID zusammengefasst Die NVMe-Controller bieten kein Hardware RAID, daher ist ein Software-RAID mit Linux- Bordmitteln auf dem VM Server anzulegen. Das so angelegte Device kann vom VM Manager erkannt und für ein Storage Repository verwendet werden. Achtung: RAID über NVMe wird nicht, wie in der OVM-Doku unter "Configuring Software RAID for Storage" beschrieben, mit multipath erzeugt sondern nur mit md! S. "Configuring a Software Raid with Non-Volatile Memory Express ( NVME ) Devices" (Doc ID 2290344.1) © OPITZ CONSULTING 2018 OVM - Was kann da schon schief gehen? 21.11.2018
Software RAID mit md $ mdadm --create --verbose /dev/md1 --level=6 --raid- devices=8 /dev/nvme0n1 /dev/nvme1n1 /dev/nvme2n1 /dev/nvme3n1 /dev/nvme4n1 /dev/nvme5n1 /dev/nvme6n1 /dev/nvme7n1 mdadm: layout defaults to left-symmetric mdadm: layout defaults to left-symmetric mdadm: chunk size defaults to 512K mdadm: size set to 6251091968K mdadm: automatically enabling write-intent bitmap on large array mdadm: Defaulting to version 1.2 metadata mdadm: array /dev/md1 started. © OPITZ CONSULTING 2018 OVM - Was kann da schon schief gehen? 21.11.2018
Software RAID mit md echo "DEVICE /dev/nvme0n1" > /etc/mdadm.conf echo "DEVICE /dev/nvme1n1" >> /etc/mdadm.conf … echo "DEVICE /dev/nvme7n1" >> /etc/mdadm.conf ## add the md0 config to mdadm.conf mdadm --detail --scan >> /etc/mdadm.conf ## Remove the DEVICE entries from /etc/mdadm.conf afterwards, so that it only contains the ARRAY line cat /etc/mdadm.conf ARRAY /dev/md0 metadata=imsm UUID=91acb838:97c30d7a:213fd1a0:c238a265 ARRAY /dev/md1 metadata=1.2 name=hiovd122:1 UUID=ace3888b:43383200:0001c9d8:c4925fa9 ARRAY /dev/md/Volume0 container=/dev/md0 member=0 UUID=dc1339e1:7c22f8cc:6738b13f:abdbfd7b © OPITZ CONSULTING 2018 OVM - Was kann da schon schief gehen? 21.11.2018
Storage im Netzwerk © OPITZ CONSULTING 2018 OVM - Was kann da schon schief gehen? 21.11.2018
Was soll da schon schiefgehen? Bsp: NFS-Share für Repository auf NetApp Volume ist eingerichtet Export Policy ist zugewiesen Discovery im OVMM liefert nichts. © OPITZ CONSULTING 2018 OVM - Was kann da schon schief gehen? 21.11.2018
Ansatz 1: NFS-Shares für OVM: besser mit root-Zugriff Auf der NetApp wird dafür eine Export Policy aufgesetzt, die dem Volume zugewiesen wird. „Allow Superuser Access“ muss hier aktiviert sein. © OPITZ CONSULTING 2018 OVM - Was kann da schon schief gehen? 21.11.2018
Mist. Geht immer noch nicht. Discovery im OVMM liefert immer noch nichts. Hier besteht ein Spezialfall: NetApp im ONTAP- (Cluster-) Mode. © OPITZ CONSULTING 2018 OVM - Was kann da schon schief gehen? 21.11.2018
Spezialfall NetApp ONTAP: showmount muss aktiviert sein Dieses Feature ist nur über die Kommandozeile der NetApp aktivierbar. Es wird benötigt, damit OVM eine Liste der verfügbaren NFS-Exports abrufen kann. S.a. https://kb.netapp.com/support/s/article/how-does-showmount-work- with-clustered-data-ontap?language=en_US Mit SSH zum Node verbinden und in die System Console wechseln. © OPITZ CONSULTING 2018 OVM - Was kann da schon schief gehen? 21.11.2018
Spezialfall NetApp ONTAP: showmount muss aktiviert sein SP mynetapp-n1> system console SP-login: admin Password: ***************************************************** * This is an SP console session. Output from the * * serial console is also mirrored on this session. * ***************************************************** mynetapp::> mynetapp::> nfs server modify -vserver mynetapp-nfs02 -showmount enabled mynetapp::> nfs server modify -vserver mynetapp-nfs01 -showmount enabled © OPITZ CONSULTING 2018 OVM - Was kann da schon schief gehen? 21.11.2018
Netzwerk 3 © OPITZ CONSULTING 2018 OVM - Was kann da schon schief gehen? 21.11.2018 Seite 31
Vorbereitung © OPITZ CONSULTING 2018 OVM - Was kann da schon schief gehen? 21.11.2018
Vorbereitung Auch das ist wieder ein „weicher“ Faktor, der aber oft unterschätzt wird. Die Planung der Netzwerkstruktur sollte vor dem Aufbau des OVM- Clusters geklärt und umgesetzt sein! Vorher festgelegt sollten u.a. sein: IP-Adressen der OVM-Server IP-Adresse(n) des OVM Managers Ggf. weitere IP-Adressen für Storage-Anbindung der OVM-Server Adressräume für die VMs VLANs für alle o.g. Komponenten Benötigte Firewall-Konfigurationen Benötigte Switch-Konfigurationen © OPITZ CONSULTING 2018 OVM - Was kann da schon schief gehen? 21.11.2018
Vorbereitung (2) © OPITZ CONSULTING 2018 OVM - Was kann da schon schief gehen? 21.11.2018
Vorbereitung (3) Wenn Bonding und VLANs, ggf. auch noch gemischt Tagged und Trunked, eingesetzt werden, sind die potentiellen Fehlerquellen hoch. Empfehlung: Die Doku aufmerksam studieren und befolgen Concepts Guide: Network Planning for an Oracle VM Deployment Installation and Upgrade Guide: Firewall Configuration Ohne das vorher klar geplant zu haben, sollte mit dem Aufbau gar nicht erst gestartet werden. Spätere Änderungen sind möglich, aber oft zeitintensiv. © OPITZ CONSULTING 2018 OVM - Was kann da schon schief gehen? 21.11.2018
Bonding © OPITZ CONSULTING 2018 OVM - Was kann da schon schief gehen? 21.11.2018
Bonding Modes in OVM Active Backup (mode 1) Nur ein NIC von mehreren aktiv Die anderen bleiben im Standby und springen ein, wenn das aktive NIC ausfällt. Dynamic Link Aggregation (mode 4, mode 802.3ad) Alle NICs im Bond werden verwendet Switch muss Mode 802.3ad unterstützen Adaptive Load Balancing (mode 6) Wird auf OS-Ebene gemacht ( CPU-Verbrauch) Erfordert keine speziellen Switches Geht nicht zusammen mit VLANs für VMs! (Doc ID 1672862.1) © OPITZ CONSULTING 2018 OVM - Was kann da schon schief gehen? 21.11.2018
Was soll da schon schiefgehen? Active/Backup (mode 1) Praxisfall: MACs waren nicht richtig zugeordnet. Das fiel erst auf, als das Backup-NIC gebraucht wurde. Dynamic Link Aggregation (mode 4, mode 802.3ad) Praxisfall mit Switchen, die das eigentlich unterstützen, de facto aber ein Firmware-Bug den Betrieb im mode 4 verhinderte. Firmware-Update, ansonsten: mode1 oder mode6 Adaptive Load Balancing (mode 6) Einrichtung des Interfaces geht zunächst. Zuweisung an VMs aber nicht, weil Bridge Interfaces mit VLANs nicht mit ALB kompatibel sind. © OPITZ CONSULTING 2018 OVM - Was kann da schon schief gehen? 21.11.2018
Was soll da schon schiefgehen? Warum skaliert der Durchsatz nicht? 2x 10 Gb/s ≠ 20 Gb/s Bonding erhöht den Durchsatz nicht für einzelne Connections Primär sind ALB und LACP für Load Balancing, nicht für Skalierung. Die gute Nachricht: bei vielen Verbindungen (z.B. von mehreren VMs) kommt es dann auch zu Skalierungseffekten. © OPITZ CONSULTING 2018 OVM - Was kann da schon schief gehen? 21.11.2018
Sonstiges 4 © OPITZ CONSULTING 2018 OVM - Was kann da schon schief gehen? 21.11.2018 Seite 40
Upps, das Repository ist zu [klein|groß]! © OPITZ CONSULTING 2018 OVM - Was kann da schon schief gehen? 21.11.2018
Upps, das Repository ist zu klein! Das ist der unkompliziertere Teil: NFS: Vergrößern, Rescan, fertig. OCFS2: 1. LUN vergrößern 2. tunefs.ocfs2 -s 3. Rescan im Storage-Tab des VM Managers © OPITZ CONSULTING 2018 OVM - Was kann da schon schief gehen? 21.11.2018
Upps, das Repository ist zu groß! NFS: Verkleinern, Rescan, fertig. OCFS2 (FC, iSCSI): „Dumm gelaufen“ Lässt sich nur vergrößern, aber nicht verkleinern 2. Repository aufbauen, alles dorthin verschieben Oder alles exportieren, Repository neu aufbauen, importieren. © OPITZ CONSULTING 2018 OVM - Was kann da schon schief gehen? 21.11.2018
Database Corruption © OPITZ CONSULTING 2018 OVM - Was kann da schon schief gehen? 21.11.2018
Database Corruption Passiert am liebsten, wenn gerade alles fertig aufgebaut ist. ;-) Besonders anfällig waren OVM 3.4.3 und 3.4.4. MySQL-DB lässt sich aus Dumps gut wieder aufbauen. Verzeichnis /u01/app/oracle/mysql/dbbackup Regelmäßig sichern! Allerdings werden die Objektnamen von VMs und Virtual Disks nicht wieder hergestellt. Es verbleiben schlecht lesbare UUIDs. Doc ID 2129616.1 enthält Python-Scripts, die auch diese „sprechenden“ Namen wiederherstellen. © OPITZ CONSULTING 2018 OVM - Was kann da schon schief gehen? 21.11.2018
Fragen? © OPITZ CONSULTING 2018 OVM - Was kann da schon schief gehen? 21.11.2018 Seite 46
überraschend mehr Möglichkeiten! Data matters. Uwe M. Küchler Managing Consultant WWW.OPITZ-CONSULTING.COM uwe.kuechler@opitz-consulting.com @OC_WIRE Telefon +49 6172 66260 – 0 OPITZCONSULTING Mobil +49 173 727 91 43 opitzconsulting opitz-consulting-bcb8-1009116 © OPITZ CONSULTING 2018 OVM - Was kann da schon schief gehen? 21.11.2018
Link- und Literatur-Liste 3 Li 6.941 © OPITZ CONSULTING 2018
Referenzen Oracle VM Server for x86 and Oracle VM Manager Documentation OVM Backup and Recovery White Paper Oracle VM 3: Getting Started With Disaster Recovery Oracle VM - Virtualization Must Be Supported By CPU And Enabled In BIOS ("HVM guest support is unavailable") (Doc ID 1602165.1) Oracle VM: How to Check whether Your Hardware is Capable of Full Virtualization (Doc ID 468463.1) Collecting Oracle VM Server Information with "xm info" (Doc ID 468485.1) VMPinfo3 Diagnostic Tool For Oracle VM 3.2, 3.3 and 3.4 Troubleshooting (Doc ID 1521931.1) © OPITZ CONSULTING 2018 OVM - Was kann da schon schief gehen? 21.11.2018
Referenzen (2) OVM Release Notes for 3.4.5: Configuration Limits for Release 3.4 Oracle VM: Configure More Than 255 LUN (Logical Unit) From FibreChannel (FB) Storage (Doc ID 2405190.1) "Configuring a Software Raid with Non-Volatile Memory Express ( NVME ) Devices" (Doc ID 2290344.1) Oracle VM: How To Regenerate The OVM 3.3.x/3.4.x DB (2038168.1) Restore OVM Manager "Simple Names" After a Rebuild/Reinstall (Doc ID 2129616.1) Oracle VM 3: Guest NFS Client Performance Tuning (Doc ID 2135887.1) © OPITZ CONSULTING 2018 OVM - Was kann da schon schief gehen? 21.11.2018
Referenzen (3) How to Troubleshoot I/O Performance under Oracle VM ( dom0 / domU ) (Doc ID 2212880.1) How to troubleshoot Network Performance issues in Oracle VM (Doc ID 2160922.1) Oracle VM 3: 10GbE Network Performance Tuning (Doc ID 1519875.1) Oracle VM 3.4 Concepts: Network Planning for an Oracle VM Deployment https://docs.oracle.com/cd/E64076_01/E64081/html/vmcon-network- planning.html Why there is no significant performance gain after switching from active- passive bonding to LACP (802.3ad) / TLB / ALB / Balance-rr ( Round Robin ) Bonding (Doc ID 1988564.1) © OPITZ CONSULTING 2018 OVM - Was kann da schon schief gehen? 21.11.2018
Referenzen (4) Restore OVM Manager "Simple Names" After a Rebuild/Reinstall (Doc ID 2129616.1) © OPITZ CONSULTING 2018 OVM - Was kann da schon schief gehen? 21.11.2018
Sie können auch lesen