MASCHINELLES LERNEN FÜR PER-TITLE ENCODING - Fernseh- und Kinotechnik

Die Seite wird erstellt Felix Krauß
 
WEITER LESEN
32 Forschung & Entwicklung _ Beiträge                                                                                Oktober 2020 FKT

                                           MASCHINELLES LERNEN
FORSCHUNG

                                          FÜR PER-TITLE ENCODING
                                                                          CHRISTOPH MÜLLER

                         Video-Inhalte unterscheiden sich in ihrer Kom-                 Datenverkehr. Bis 2021 wird die Übertragung von Bewegt-
                         plexität – herkömmliche statische Encoding-Ver-                bildinhalten schätzungsweise über 81 Prozent des globalen
                         fahren ignorieren jedoch die individuellen Video-              Internetverkehrs ausmachen. Um die bei digitalem Videoma-
                                                                                        terial anfallenden Datenmengen an die im Internet begrenz-
                         charakteristiken und wenden für alle, teils sehr
                                                                                        ten Übertragungskapazitäten anzupassen, finden vor der
                         unterschiedliche Videodateien die gleichen Ein-
                                                                                        Übertragung eine ganze Reihe an Optimierungen statt, um
                         stellungen an. Dies führt zu unnötig hohem Spei-               die Ausspielung des Videos möglichst effizient zu gestalten.
                         cherbedarf und gesteigerten Übertragungskosten                      Das sogenannte Video-Encoding spielt hierbei eine
                         für Streaming-Anbieter. Der Per-Title Encoding                 wichtige Rolle. Video-Encoding ist die Umwandlung eines –
                         Ansatz adressiert dieses Problem und hat das Po-               in der Regel – unkomprimierten Ausgangs-Video-Signals in
                         tenzial, die Speicher- sowie Übertragungskosten                ein komprimiertes, digitales Format, welches mit verschiede-
                                                                                        nen Endgeräten oder Software-Video-Playern kompatibel ist
                         von Video-Streams erheblich zu senken. Bisherige
                                                                                        und auf ihnen abgespielt werden kann – beispielsweise im
                         Lösungen erfordern in der Regel eine große An-                 Web-Browser, mit einem Smartphone oder auf einem Smart-
                         zahl von Test-Enkodierungen, die entsprechende                 TV. Die Kompression ist jedoch nicht verlustfrei. Der Enco-
                         Rechenzeiten benötigen und daher zu erheblichen                ding-Prozess verkleinert das Ausgangs-Signal zwar deutlich
                         Mehrkosten führen. Dieser Artikel beschreibt eine              in seiner Speicher- und Übertragungsgröße, durch die Kom-
                         Lösung, die den konventionellen Ansatz für Per-                pression verliert es aber in der Regel an Qualität. Die Heraus-
                                                                                        forderung der modernen Video-Codecs, wie beispielsweise
                         Title Encoding um Verfahren des maschinellen
                                                                                        H.265, VP9 oder AV1, besteht genau darin, die Übertragungs-
                         Lernens erweitert und somit in der Lage ist, voll-             größe und die Bitrate des Ausgangs-Signals größtmöglich
                         ständig auf rechenaufwändige Test-Enkodierun-                  zu verkleinern und dabei gleichzeitig eine möglichst hohe
                         gen zu verzichten.                                             Videoqualität beizubehalten. Um dies zu erreichen, müssen
                                                                                        die optimalen Encoding-Parameter ermittelt werden.
                            Video content differs in its complexity – and                    Im Bereich des Online-Media Streaming haben sich
                         yet, conventional static encoding methods ignore               mit der Zeit verschiedene Standards zur Übertragung von
                         the individual video characteristics and apply the             Videoinhalten etabliert, dazu zählt unter anderem das so-
                         same settings to all video files equally. This leads           genannte Adaptive Bitrate Streaming. Hier wird die Qua-
                         to unnecessarily high storage requirements and                 lität des Inhalts jeweils an die beim Zuschauer verfügbare
                                                                                        Datenrate angepasst. Dazu werden mehrere verschiedene
                         increased transmission costs for streaming pro-
                                                                                        Qualitätsstufen (und damit verschiedene Größen und Bitra-
                         viders. The Per-Title Encoding approach addresses
                                                                                        ten) des Videos vorbereitet – von niedriger Auflösung und
                         this problem and has the potential to significantly
                                                                                        Bitrate zu hochaufgelösten Varianten – damit das Video vom
                         reduce the storage and transmission costs of vid-              Zuschauer in verschiedensten Netzwerk-Situationen und
                         eo streams. Previous solutions usually require a               auf unterschiedlichen Endgeräten problemlos angeschaut
                         large number of test encodings, which require cor-             werden kann. Der Video-Player entscheidet selbst anhand
                         responding computing time and therefore lead to                verschiedener Parameter, wie zum Beispiel der verfügbaren
                         significant additional costs. This article describes a         Bandbreite, welche Qualitätsstufe zum aktuellen Zeitpunkt
                         solution that extends the conventional approach                abgespielt werden. Auf diese Weise verringert sich unter
                         to per-title encoding by machine learning methods              Umständen die Qualität des Videos bei unzureichender
                         and is thus able to completely dispense with com-              Bandbreite, lästige Unterbrechungen und „Ruckeln“ beim Ab-
                         putationally expensive test encodings.                         spielen werden aber vermieden. Adaptives Streaming zeigt
                                                                                        seine Stärken vor allem bei schlechten oder wechselnden
                                                                                        Netzwerkbedingungen, wie beispielsweise während einer
                                                                                        Zugfahrt, überlasteten Heimnetzwerken, oder bei gleichzei-
                         Einleitung                                                     tigem Videoabruf in einem Netzwerk durch viele Zuschauer,
                         Streaming-Portale wie beispielsweise YouTube, Netflix oder     wie etwa bei großen Sportveranstaltungen.
                         Amazon Prime Video sind verantwortlich für einen beträcht-
                         lichen Anstieg der Datenübertragung im Internet. Netflix al-
                         lein verursachte in 2018 fast 15 Prozent des globalen Inter-
                                                                                        1) https://www.statista.com/chart/15692/distribution-of-glo-
                         net-Verkehrs.1) Mehr als eine Milliarde Stunden Video-Inhal-   bal-downstream-traffic/
                         te werden täglich durch YouTube Nutzer konsumiert.2) Jedes     2) https://blog.youtube/news-and-events/you-know-whats-
                         einzelne angeschaute oder hochgeladene Video erhöht den        cool-billion-hours
FKT Oktober 2020                                                                                Forschung & Entwicklung _ Beiträge   33

Tabelle / Abbildung 1: Standard h.264 Encoding Ladder                  Verschiedene Arten von Videoinhalten besitzen meist
Quelle: Apple Developer Handbook                                  eine grundlegend verschiedene Komplexität und Charakte-

                                                                                                                                          FORSCHUNG
                                                                  ristiken. Sport und Action-Filme beispielsweise haben eine
 Auflösung           Bitrate       Framerate
                                                                  viel höhere Informationsdichte, schnelle Szenenwechsel
 416 x 234           145           ≤ 30 fps                       und viel Bewegung im Bild und brauchen somit typischer-
 640 x 360           365           ≤ 30 fps                       weise mehr Bitrate, da weniger Möglichkeiten bestehen, re-
 768 x 432           730           ≤ 30 fps                       dundante Teile des Videos effektiv zu komprimieren.
                                                                       Naturdokus oder Animationsfilme hingegen haben we-
 768 x 432           1100          ≤ 30 fps
                                                                  sentlich mehr Redundanz, sich wiederholende Muster, lang-
 960 x 540           2000          Wie Quellvideo                 same Schwenk-Bewegungen und weniger komplexe Szenen
 1280 x 720          3000          Wie Quellvideo                 im Bild, sodass der Video-Codec besser Möglichkeiten hat,
 1280 x 720          4500          Wie Quellvideo                 das Video zu komprimieren, ohne dabei an Qualität zu ver-
                                                                  lieren. Statt also diese offensichtlich verschiedenen Inhalte
 1920 x 1080         6000          Wie Quellvideo
                                                                  mit den gleichen Encoding-Einstellungen zu komprimieren,
 1920 x 1080         7800          Wie Quellvideo                 passt man die Encoding-Einstellungen je nach zu kompri-
                                                                  mierendem Inhalt an, um so möglichst viel Bitrate und damit
                                                                  Speicherplatz- und Übertragungskosten zu sparen und trotz-
    Um Inhalte für adaptives Streaming vorzubereiten, müs-        dem noch die höchstmögliche Qualität an den Zuschauer
sen diese in verschiedenen Bitraten und unterschiedlichen         auszuliefern.
Auflösungen encodiert und anschließend in Segmente von
typischerweise zwei bis zehn Sekunden Länge unterteilt            Wie funktioniert Per-Title Encoding?
werden, bevor sie an den Zuschauer ausgeliefert werden            Per-Title Encoding kann man in drei grundlegende Schritte
können. Das Resultat ist eine sogenannte Encoding Ladder,         unterteilen:
die verschiedene vordefinierte Auflösungen und die dazuge-
hörigen Bitraten festlegt. Ein Beispiel für eine solche Enco-     1. Das Erstellen von Test-Encodes
ding Ladder ist in Abbildung 1 zu sehen.                          Zu Beginn werden sogenannte Test-Encodes des Ausgangs-
    Die hier dargestellte Encoding Ladder wurde von Apple         videos erstellt – eine ganze Reihe an encodierten, also kom-
spezifiziert. Seit ihrer ersten Vorstellung im Jahr 2010 (Apple   primierten Varianten mit verschiedenen Encoding-Einstel-
Tech Note TN2224) wurden die empfohlenen Bitraten und             lungen. Dabei werden vor allem die wichtigsten Parameter
Auflösungspaare mehrfach aktualisiert, das Grundprinzip           wie Bitrate, Auflösung oder verschiedenste Meta-Parametern
bleibt aber bis heute dasselbe. Nutzt ein Streaming-Anbie-        des Codecs selbst variiert.
ter diese Encoding-Ladder als Vorlage, müssen zu jedem
Ausgangsvideo acht verschieden encodierte Versionen des           2. Berechnung der Qualitätswerte
Videos erstellt werden – von niedrig aufgelösten Varianten        Um die erstellten Test-Encodes objektiv miteinander ver-
mit geringer Bitrate, bis hin zu Full-HD Varianten mit einer      gleichen zu können, wird anschließend für jedes Video eine
Bitrate von 7,8 Mbit/s.                                           Qualitätsmetrik wie VMAF (Video Multi-Method Assessment
    Die steigende Nachfrage nach Online-Videos sowie der          Fusion) oder PSNR (Peak Signal to Noise Ratio) berechnet.
Trend zu hochauflösenden, adaptiv gestreamten Videos              Hierbei handelt es sich um Kennzahlen, welche die wahrge-
führt zu einem deutlichen Kostenanstieg für die Erzeugung,        nommene Qualität des encodierten Videos im Vergleich zu
Speicherung und Übertragung der Inhalte. Um möglichst alle        seinem Ausgangssignal beschreiben.
relevanten Zielplattformen abzudecken, müssen Inhaltean-
bieter die Streaming-Formate HLS und DASH für die ver-            3. Auswahl der optimalen Encoding-Einstellungen
schiedenen Endgeräte-Plattformen (PCs, Fernseher, sowie           Basierend auf allen berechneten Qualitätswerten der
mobile Geräte) unterstützen.                                      Test-Encodes werden schließlich die Videos mit einem op-
                                                                  timalen Verhältnis zwischen Bitrate, Auflösung und Qualität
Was ist Per-Title Encoding?                                       gewählt. Die Auswahl erfolgt anhand der sogenannten kon-
Das Konzept des Per-Title Encodings wurde in einem Blog           vexen Hülle. Hierbei handelt es sich um die kleinste Menge,
Post von Netflix im Jahr 2015 eingeführt3). Dabei handelt es      die alle berechneten Test-Encodes umschließt. Die konvexe
sich um eine weitere Optimierung des Encoding-Prozesses.          Hülle spiegelt die idealen Bitrate-Auflösungspaare wider
Statt alle Videos mit gleichen Einstellungen zu encodieren,       und ermöglicht, eine optimierte Encoding Ladder für ein
werden beim Per-Title (pro Video) Encoding, speziell auf          Ausgangs-Video zu bestimmen.
die jeweiligen Videos hin optimierte Encoding-Parameter                In Abbildung 2 sind verschiedene Test-Encodes eines
verwendet. Dabei kommen verschiedene Strategien zum               Videos visualisiert. Die x-Achse zeigt die Bitrate der Test-En-
Einsatz die zum Beispiel die Einsparung der Bitrate oder die      codes, die y-Achse stellt die dazugehörige, berechnete Qua-
Einhaltung einer bestimmten Videoqualität zum Ziel haben.         litätsmetrik (VMAF) dar. Das Ausgangs-Video wurde in sieben
    Im Vergleich zu klassischen Encoding-Ansätzen, bei de-        verschiedenen Auflösungen und jeweils zwölf verschiede-
nen für alle Arten von Inhalten die gleiche, vordefinierte        nen Bitraten pro Auflösung encodiert, was insgesamt zu 84
Encoding-Ladder verwendet wird, reduziert Per-Title Enco-         einzelnen Test-Encodes führt. Erwartungsgemäß haben nied-
ding die Speicher- und Übertragungskosten deutlich. Videos        rige Auflösungen wie 320x240 Pixel bei geringen Bitraten
niedriger Komplexität sind einfach zu encodieren und kön-         unter 1  Mbit/s auch schlechtere VMAF-Werte als die Full-HD
nen so mit deutlich niedrigeren Bitraten bei subjektiv gleich     Test-Encodes mit über 6  Mbit/s. Auffällig ist, dass nahezu
oder teils besser empfundener Qualität bereitgestellt wer-        jede Auflösung eine Bitraten-Region hat, die andere Auflö-
den.                                                              sungen qualitativ übertrifft und andersherum auch immer
                                                                  Regionen, bei denen andere Auflösungen bei gleicher Bitra-
                                                                  te bessere Qualität liefern. Die optimale visuelle Qualität
3) https://netflixtechblog.com/per-title-encode-optimizati-       für ein Video mit mehreren Qualitätsstufen ist zu erwarten,
on-7e99442b62a2
34 Forschung & Entwicklung _ Beiträge                                                                                   Oktober 2020 FKT
FORSCHUNG

            Abbildung 2:
          Visualisierung
            der konvexen
        Hülle am Beispiel
          mehrerer Test-
           Encodes eines
        Ausgangs-Videos

                            wenn Bitrate-Auflösungspaare identifiziert und encodiert        1. Sammeln der Daten: Um ein Modell erstellen zu können,
                            werden, die so nah wie möglich an der konvexen Hülle (im           müssen zunächst Daten für das Training erzeugt und ge-
                            Graphen rot dargestellt) liegen.                                   sammelt werden.
                                 Während die Berechnung der optimalen Bitrate-Auflö-        2. Bereinigung der Daten: Zum Training des Modells
                            sungspaare mittels der konvexen Hülle zwar verlässliche            müssen die Daten bereinigt und vorab auf Plausibili-
                            Ergebnisse liefert, stellt die große Menge an Test-Encodes,        tät geprüft werden (beispielsweise müssen fehlerhafte
                            die für die initiale Komplexitäts-Analyse notwendig ist, den       Messwerte korrigiert oder entfernt werden, welche unter
                            größten Nachteil der konventionellen Herangehensweise              anderem durch inkorrekte oder unvollständige Metada-
                            dar. Um ausreichend Informationen für die Analyse zu sam-          tenextraktion aus einem Video entstehen können).
                            meln, müssen typischerweise pro Ausgangs-Video zwischen         3. Trainieren des Modells: Die nun vorliegenden Daten
                            80 und 100 Test-Encodes berechnet werden. Die Erstellung           werden in mehreren Iterationen dazu genutzt, ein statis-
                            dieser komprimierten Varianten ist äußerst rechenintensiv          tisches Modell zu entwickeln.
                            und zeitaufwändig.                                              4. Testen des Modells: Mit einem neuen Testdatensatz wird
                                 Die anschließende Qualitätsmetrikberechnung, welche           die Güte des Modells geprüft und damit festgestellt, wie
                            das Ausgangsvideo mit der komprimierten Variante Frame             geeignet das Modell für statistische Vorhersagen ist.
                            für Frame vergleicht, ist sehr zeitintensiv. Dieser Vergleich   5. Verbesserung: Sobald ein Modell trainiert ist, kann es
                            wird für jedes einzelne Test-Encode durchgeführt und benö-         fortlaufend anhand neuer Daten weiter angepasst und
                            tigt entsprechende Rechenleistung.                                 verbessert werden. Das ist beispielsweise notwendig,
                                                                                               wenn sich Attribute der Datensätze ändern oder neue
                            Maschinelles Lernen für Per-Title Encoding                         Attribute hinzukommen.
                            Um das Per-Title Encoding Verfahren weiter zu optimieren
                            und vor allem das Problem der aufwändigen Test-Encodes zu       Preprocessing & Training der Modelle
                            adressieren, kommen bei der Lösung von Fraunhofer FOKUS         Um möglichst genaue Modelle zu erstellen, werden sie auf
                            Methoden des maschinellen Lernens zum Einsatz. Ziel dieser      Videos verschiedener Inhaltstypen – beispielsweise Sportin-
                            Herangehensweise ist es, vollständig auf Test-Encodes und       halte, Dokumentationen, oder Nachrichtensendungen – und
                            vorausgehende Qualitätsmetrik-Berechnungen verzichten           unterschiedlicher Enkodierungseinstellungen trainiert. Aus
                            zu können und stattdessen statistische Vorhersagen zu nut-      diesen, in der Regel unkomprimierten Videos werden 31
                            zen, um die optimalen Encoding-Parameter für ein beliebi-       verschiedene Merkmale extrahiert. Darunter allgemeine Vi-
                            ges Ausgangsvideo zu bestimmen.                                 deo-Metadaten wie Auflösung, Speichergröße, Video-Codec
                                Die Basis für diese automatisierten Vorhersagen bilden      und spezifische Video-Merkmale. Letztere bestehen, unter
                            Algorithmen, die mit Hilfe von Trainingsdatensätzen statis-     anderem, aus der Anzahl der Szenenwechsel (basierend auf
                            tische Modelle entwickeln, die Muster und Gesetzmäßig-          einer bestimmten Wahrscheinlichkeit), Farbhistogrammen,
                            keiten in Videos erkennen. Mit Hilfe dieser Modelle werden      Helligkeitswerten, Inhaltstyp(en), Klassifikationswerten bzw.
                            anschließend neue, bisher unbekannte Videos effizient be-       Kategorien und sogenannten Labels zur Inhaltsbestimmung,
                            urteilt. Die so trainierten Modelle sind in der Lage, anhand    räumlichen und zeitlichen Merkmalen und mehr. All diese
                            extrahierter Charakteristika eines Videos, Aussagen über        Informationen ermöglichen eine Beurteilung der Komple-
                            die perzeptuelle Qualität verschiedener Qualitätsstufen         xität des Videos und somit schließlich die Vorhersage von
                            zu treffen. Die Qualitätsstufen entsprechen verschiedenen       Qualitätswerten für bestimmte Kombinationen aus Bitrate
                            Bitraten/Auflösungs-Kombinationen. Die zuvor notwendigen        und Auflösung, woraus sich Encoding-Ladder ableiten lässt,
                            Test-Encodes entfallen gänzlich.                                welche auf die Charakteristika des Ausgangs-Videos opti-
                                Die Entwicklung eines solchen statistischen Modells         miert ist. Als Teil des maschinellen Lernprozesses werden
                            lässt sich grundlegend in fünf Phasen einteilen:                die gesammelten Daten bereinigt und anschließend in Trai-
FKT Oktober 2020                                                                                  Forschung & Entwicklung _ Beiträge   35

                                                                                                                                            FORSCHUNG
Abbildung 3: Der Per-Title Encoding Workflow von Fraunhofer FOKUS mit Unterstützung durch Machine-Learning Modelle

nings- und Testdatensätze aufgeteilt, wobei hier mit einem          •    Convolutional Neural Network (CNN): Ein neuronales
typischen 80-20-Split gearbeitet wird – 80 Prozent der Da-               Netz, das hauptsächlich für die Bilderkennung und Vi-
ten werden für das Training verwendet, 20 Prozent für die Va-            deoverarbeitung verwendet wird. Im Gegensatz zum
lidierung der Modelle. Die extrahierten Videoattribute wer-              FFFC-Modell unterstützt das CNN-Modell 3 Dimensionen
den dann merkmalsbezogen bearbeitet, so dass weitere ein-                (Breite, Höhe und Tiefe) und ist in Bezug auf die Verarbei-
zigartige Videomerkmale festgelegt werden können. Dazu                   tung flexibler und videofreundlicher. Ohne eine starke
zählt beispielsweise die Kombination von Breite und Höhe                 GPU ist die Trainingszeit jedoch langwierig und kann re-
zur Bildung der Auflösungsgröße. Dieser Prozess erfordert                chenintensiv sein.
spezifisches Domänenwissen (zum Beispiel über Videoco-              • XGBoost (XGB): Ein Ensemble, das aus schwachen Vor-
dierungsattribute) und kann die Leistung von Modellen des                hersagemodellen (im Allgemeinen Entscheidungsbäu-
maschinellen Lernens erheblich verbessern. Da mehrere der                men) besteht und stufenweise aufgebaut ist, die durch
numerischen Merkmale aus verschiedenen Werte-Bereichen                   die differenzierbare Verlustfunktion optimiert werden
bestehen, werden bestimmte Merkmale skaliert, normalisiert               können. Dieses Modell erfordert nicht so viel Normali-
oder standardisiert, um sie untereinander vergleichbar zu                sierung für das Trainieren von Videoattributen, jedoch
machen.                                                                  können bestimmte Attributkodierungsmethoden (zum
     Zur Validierung der Modelle und Bestimmung der Ge-                  Beispiel eine One-Hot-Kodierung) die Leistung schwä-
nauigkeit der Vorhersagen werden verschiedene Maße zur                   chen.
Prognosegüte eingesetzt. Hierbei kommt unter anderem                • Stacked Model: Dieses gestapelte Modell besteht aus 3
der mittlere quadratische Wurzelfehler (Root Mean Squa-                  separaten Modellen, die miteinander kombiniert („gesta-
red Error, kurz RMSE) zum Einsatz. Anhand dieser Kenngröße               pelt“) werden: lineare Regression, Random Forest (eine
werden regelmäßige Überprüfungen durchgeführt, um die                    verbreitete Methode zur Klassifikation und Regression
Modelle kontinuierlich zu optimieren. Beispielsweise wird                von Datensätzen) und XGBoost. Diese Kombinations-
während des Trainings mit dem Ziel gearbeitet, einen RM-                 technik ist im Hinblick auf ihr Hauptkonzept flexibel,
SE-Wert von zwei zu erreichen. In diesem Fall entspricht der             indem sie grundlegende mit fortgeschrittenen Ansätzen
RMSE der Abweichung von vorhergesagten zu gemessenem                     kombiniert. Aufgrund ihrer Komplexität erfordert jedoch
VMAF Werten – ein RMSE von zwei bedeutet also, dass das                  jedes einzelne Modell mehrere Iterationen der Verfei-
Modell Vorhersagen mit einer Genauigkeit von zwei VMAF                   nerung, um gemeinsam eine gute Leistung erzielen zu
Punkte treffen kann. Da erst ab circa sechs VMAF Punkten                 können.
einen spürbaren Qualitätsunterschied (Just Noticeable Dif-          Durch mehrere Iterationen des Modelltrainings wurde er-
ference, kurz JND) wahrgenommen wird, ist diese Toleranz            kannt, dass die spezifischen Attribute wie beispielsweise
hier völlig ausreichend. Qualitätsmessungen, die an neuen           Farbhistogramme und räumlich-zeitliche Merkmale einen
Inhalten automatisch durchgeführt werden, werden in einer           großen Einfluss auf die Qualitätswert-Vorhersagen haben.
Rückkopplungsschleife in den Trainings-Prozess zurückge-            Darüber hinaus verhielten sich Videos mit dem Scantyp
spielt. Hierdurch können die Modelle wiederum kontinu-              „interlaced“ (Zeilensprungverfahren) unterschiedlich im Ver-
ierlich verbessert werden, um sich beispielsweise an neue           gleich zu Videos desselben Inhalts mit dem Scantyp „pro-
Inhalte oder andere Ausgangsparameter anzupassen.                   gressiv“ (Vollbildverfahren). Modelle, die mit vorwiegend
     Nach diesem Vorgehen wurden die folgenden Modelle              Progressive-Scan-Videos trainiert wurden, hatten niedrigere
entwickelt:                                                         RMSE-Werte, als die auf Interlaced-Scan-Videos trainierten
• Feed-forward, fully connected neural network (FFFC):              Modelle. Infolgedessen wurden die Modelle angepasst, um
     Ein universell einsetzbares neuronales Netzwerk, bei           beide Scantypen zu erfassen und den Qualitätswert noch
     dem sich die Knoten in eine Richtung bewegen: von der          genauer vorherzusagen.
     Eingabeschicht über die verborgenen Schichten bis hin               Durch die gezielte Kombination der Vorhersagen der
     zur Ausgabeschicht. Dieses Modell ist robust in seiner         Modelle ist die Lösung somit in der Lage, für bisher unbe-
     Fähigkeit, potenziell fehlende Eingabewerte zu unter-          kannte Videos die Qualitätsmetrik VMAF auf bis zu zwei
     stützen (auch als „Fehlertoleranz“ bekannt), und führt         Punkte Genauigkeit abzuschätzen. Dies ermöglicht, eine
     nach dem Trainieren zu einem geringeren Speicherplatz          für beliebige Inhalte optimierte Encoding-Ladder zu gene-
     (einige KBs gegenüber Hunderten von MBs/GBs). Das              rieren, ohne dafür aufwändige Test-Encodes berechnen zu
     FFFC-Modell ist jedoch anfällig für Überanpassungspro-         müssen. Die Modelle bieten darüber hinaus auch niedrigere
     bleme („Overfitting“). Wenn akkurate Vorhersagen ge-           Bitratenschätzungen (im Vergleich zur statischen “one-size-
     troffen werden sollen, müssen die Eingabe-Daten daher          fits-all“-Encoding-Ladder), so dass die tatsächlichen Bitraten
     zwingend normalisiert werden, was üblicherweise zu             nicht „verschwendet“ werden, in dem Qualitäten oder Auf-
     einem höheren Zeitaufwand für die Hyperparame-                 lösungen ausgeliefert werden, die dem Zuschauer keinen
     ter-Optimierung sowie zur Notwendigkeit einer größeren         spürbaren Qualitätsgewinn bieten. Zusätzlich unterstützt
     Datenmenge führt.                                              dieser Vorhersageprozess nicht nur On-Demand Videoin-
36 Forschung & Entwicklung _ Beiträge                                                                                                            Oktober 2020 FKT

                        halte, sondern kann auch für Live-Video Streaming genutzt
                        werden. Darüber hinaus eignet sich die Lösung auch für Vor-                                                      CHRISTOPH MÜLLER
FORSCHUNG

                        hersagen auf Szenenbasis („Shot-Based“ oder „Per-Scene

                                                                                         Quelle: Fraunhofer FOKUS
                                                                                                                                         ist Wissenschaftlicher Mitarbeiter
                        Encoding“), bei dem im Gegensatz zum Per-Title Encoding                                                          bei Fraunhofer FOKUS, Geschäfts­
                        nicht das gesamte Video mit den gleichen Encoding-Einstel-                                                       bereich Future Media and Applications
                        lungen encodiert wird, sondern die einzelnen Szenen selbst                                                          www.fokus.fraunhofer.de
                        je nach Komplexität mit individuellen Encoding-Einstellun-
                        gen encodiert werden.

                        Zusammenfassung und Ausblick
                        Die Online-Media Streaming Landschaft wird mehr denn je
                        von adaptiven Streaming Technologien dominiert. Video-In-                                   zelnen Inhalt optimierte Encoding-Einstellungen ableiten,
                        halte werden von den Anbietern in verschiedenen Qualitäts-                                  welche für die jeweiligen Charakteristika des Videos die op-
                        stufen encodiert, und vom Video-Player automatisch anhand                                   timale Qualität bei möglichst geringer Bitrate liefern. Durch
                        der verfügbaren Bandbreite die passende Qualität zum Ab-                                    das kontinuierliche Neu-Trainieren der Modelle sind diese in
                        spielen des Videos ausgewählt. Dies bedeutet für Strea-                                     der Lage, dynamisch auf neue Inhalte oder Zielparameter zu
                        ming-Dienstleister nicht nur weitere zeitliche Belastung,                                   reagieren. Ein entscheidender Vorteil hierbei ist, dass durch
                        sondern auch höhere Kosten durch zusätzlich benötigten                                      den Wegfall der zeitaufwändigen Test-Encodes und dadurch
                        Speicherplatz und gesteigerten Rechenaufwand. Konventi-                                     schnelleren Analyse diese Lösung auch für das Live-Strea-
                        onelle Encoding-Ansätze sind zwar für Streaming-Anbieter                                    ming einsetzbar ist.
                        einfach umzusetzen, führen aber durchaus zu „unnötigem“                                         Obwohl Per-Title Encoding im Bereich des Online-Media
                        Datenverkehr – wenn beispielsweise höher als notwendige                                     Streaming noch ein recht neues Konzept ist, wurden in den
                        Bitraten oder Auflösungen ausgespielt werden, ohne dass                                     letzten Jahren schon die nächsten Evolutionen vorgestellt.
                        der Zuschauer einen qualitativen Unterschied bemerkt.                                       „Shot-Based“ oder Per-Scene Encoding wurde beispielswei-
                            Per-Title Encoding sieht jeweils für verschiedene Ar-                                   se von Netflix4) vorgestellt. Statt ein ganzes Video von An-
                        ten von Videoinhalten unterschiedliche Bitraten und Enco-                                   fang bis Ende mit einer passenden Encoding-Ladder optimal
                        ding-Einstellungen vor, um die optimale Videoqualität bei                                   zu enkodieren, wird hierbei das Video in kleinere Teilstücke
                        möglichst geringer Größe des Videos bzw. minimaler Da-                                      heruntergebrochen. Um das Video dabei nicht in Segmente
                        tenrate zu erreichen. Im Vergleich zu klassischen Encoding                                  willkürlicher, fester Länge zu unterteilen, analysiert der En-
                        Ansätzen, bei denen für alle Arten von Inhalten die gleiche,                                coder den Videoinhalt und erkennt einzelne Szenen, denen
                        vordefinierte Encoding-Ladder verwendet wird, reduziert                                     dann je nach Komplexität ebenfalls eine eigene, optimierte
                        Per-Title Encoding die Speicher- und Übertragungskosten                                     Encoding-Ladder zugewiesen wird.
                        von Videostreams deutlich. Gleichzeitig kann durch Minimie-                                     Die von Fraunhofer FOKUS vorgestellte Lösung stützt
                        rung der Datenraten die Internetverbindung des Zuschauers                                   sich ebenfalls auf die statistische Erkennung von Szenen
                        entlastet und die Stabilität der Wiedergabe verbessert wer-                                 sowie Szenenwechseln im Video und ist somit auch in der
                        den. Durch den Einsatz von Per-Title Optimierungen können                                   Lage, Qualitätsvorhersagen auf Szenenbasis zu treffen und
                        – je nach betrachtetem Inhalt – bis zu 50 Prozent der Spei-                                 den Videoinhalt somit noch effizienter zu optimieren. Mittels
                        cherkosten und bis zu 55 Prozent an Übertragungskosten                                      Per-Scene Encoding sind Einsparungen von bis zu 55 Prozent
                        gespart werden.                                                                             der Speicherkosten und sogar bis zu 65 Prozent der Übertra-
                            Per-Title Encoding löst bereits viele Probleme des sta-                                 gungskosten möglich, ohne dabei an perzeptueller Qualität
                        tischen Encodings, bei dem meist eine vorgefertigte Enco-                                   zu verlieren.
                        ding-Einstellung für jeden Inhalt verwendet wird, bedarf                                        Während sich Per-Title oder Per-Scene Encoding haupt-
                        aber der recht rechenaufwändigen und zeitintensiven Erstel-                                 sächlich auf die inhaltliche Komplexität des zu enkodie-
                        lung von vielen Test-Encodes pro Video mit sich.                                            renden Videoinhalts selbst konzentriert, werden aktuell
                            Die von Fraunhofer FOKUS vorgestellte Lösung erweitert                                  Ansätze entwickelt, welche ein viel breiteres Spektrum an
                        den Per-Title Encoding-Ansatz um Methoden des maschinel-                                    Informationen nutzen. Context-Aware Encoding bezieht zu-
                        len Lernens. Durch das Training und die gezielte Kombinati-                                 sätzlich auch Meta-Parameter über die bestehenden Netz-
                        on verschiedener statistischer Modelle ist es somit möglich,                                werkverhältnisse, Geräte-spezifische Informationen sowie
                        vollständig auf die zeit- und rechenintensive Erstellung von                                Details der Anzeigeumgebung des Zuschauers in die Opti-
                        Test-Encodes zu verzichten. Stattdessen sind die Modelle in                                 mierung der Encoding-Ladder mit ein. Diese Daten können
                        der Lage, Vorhersagen zur visuellen Qualität verschiedener                                  beispielsweise aus Quality-of-Experience (QoE) und Quali-
                        Qualitätsstufen eines Videos zu treffen. Dazu bedient sich                                  ty-of-Service (QoS) Metriken bestehen, welche Details wie
                        die Lösung unter anderem weiteren automatisierten Pro-                                      die effektive Bandbreite des Nutzers, die Geräte zum Abspie-
                        zessen wie die automatische Erkennung von Inhalten- und                                     len des Videos verwendet werden, und die Verteilung der
                        Art eines Videos, die Identifikation von Szenen und Szenen-                                 tatsächlich abgespielten Bitraten über Ihre Encoding-Ladder
                        wechseln, sowie der automatisierter Extraktion von Metada-                                  beinhalten. Die gezielte Kombination dieser verschiedenen
                        ten, um für beliebige Inhalte Qualitätswerte vorherzusagen.                                 Kontextparameter ermöglicht es, eine noch effizientere En-
                        Aus den Vorhersagen lassen sich anschließend für jeden ein-                                 coding-Ladder zu generieren, die nicht nur auf den Inhalt
                                                                                                                    selber, sondern auch auf den jeweiligen Zuschauer und sei-
                                                                                                                    ne aktuelle Umgebung zugeschnitten ist.
                        4) https://netflixtechblog.com/dynamic-optimizer-a-perceptual-
                        video-encoding-optimization-framework-e19f1e3a277f                                          www.fokus.fraunhofer.de
Sie können auch lesen