MASCHINELLES LERNEN FÜR PER-TITLE ENCODING - Fernseh- und Kinotechnik
←
→
Transkription von Seiteninhalten
Wenn Ihr Browser die Seite nicht korrekt rendert, bitte, lesen Sie den Inhalt der Seite unten
32 Forschung & Entwicklung _ Beiträge Oktober 2020 FKT MASCHINELLES LERNEN FORSCHUNG FÜR PER-TITLE ENCODING CHRISTOPH MÜLLER Video-Inhalte unterscheiden sich in ihrer Kom- Datenverkehr. Bis 2021 wird die Übertragung von Bewegt- plexität – herkömmliche statische Encoding-Ver- bildinhalten schätzungsweise über 81 Prozent des globalen fahren ignorieren jedoch die individuellen Video- Internetverkehrs ausmachen. Um die bei digitalem Videoma- terial anfallenden Datenmengen an die im Internet begrenz- charakteristiken und wenden für alle, teils sehr ten Übertragungskapazitäten anzupassen, finden vor der unterschiedliche Videodateien die gleichen Ein- Übertragung eine ganze Reihe an Optimierungen statt, um stellungen an. Dies führt zu unnötig hohem Spei- die Ausspielung des Videos möglichst effizient zu gestalten. cherbedarf und gesteigerten Übertragungskosten Das sogenannte Video-Encoding spielt hierbei eine für Streaming-Anbieter. Der Per-Title Encoding wichtige Rolle. Video-Encoding ist die Umwandlung eines – Ansatz adressiert dieses Problem und hat das Po- in der Regel – unkomprimierten Ausgangs-Video-Signals in tenzial, die Speicher- sowie Übertragungskosten ein komprimiertes, digitales Format, welches mit verschiede- nen Endgeräten oder Software-Video-Playern kompatibel ist von Video-Streams erheblich zu senken. Bisherige und auf ihnen abgespielt werden kann – beispielsweise im Lösungen erfordern in der Regel eine große An- Web-Browser, mit einem Smartphone oder auf einem Smart- zahl von Test-Enkodierungen, die entsprechende TV. Die Kompression ist jedoch nicht verlustfrei. Der Enco- Rechenzeiten benötigen und daher zu erheblichen ding-Prozess verkleinert das Ausgangs-Signal zwar deutlich Mehrkosten führen. Dieser Artikel beschreibt eine in seiner Speicher- und Übertragungsgröße, durch die Kom- Lösung, die den konventionellen Ansatz für Per- pression verliert es aber in der Regel an Qualität. Die Heraus- forderung der modernen Video-Codecs, wie beispielsweise Title Encoding um Verfahren des maschinellen H.265, VP9 oder AV1, besteht genau darin, die Übertragungs- Lernens erweitert und somit in der Lage ist, voll- größe und die Bitrate des Ausgangs-Signals größtmöglich ständig auf rechenaufwändige Test-Enkodierun- zu verkleinern und dabei gleichzeitig eine möglichst hohe gen zu verzichten. Videoqualität beizubehalten. Um dies zu erreichen, müssen die optimalen Encoding-Parameter ermittelt werden. Video content differs in its complexity – and Im Bereich des Online-Media Streaming haben sich yet, conventional static encoding methods ignore mit der Zeit verschiedene Standards zur Übertragung von the individual video characteristics and apply the Videoinhalten etabliert, dazu zählt unter anderem das so- same settings to all video files equally. This leads genannte Adaptive Bitrate Streaming. Hier wird die Qua- to unnecessarily high storage requirements and lität des Inhalts jeweils an die beim Zuschauer verfügbare Datenrate angepasst. Dazu werden mehrere verschiedene increased transmission costs for streaming pro- Qualitätsstufen (und damit verschiedene Größen und Bitra- viders. The Per-Title Encoding approach addresses ten) des Videos vorbereitet – von niedriger Auflösung und this problem and has the potential to significantly Bitrate zu hochaufgelösten Varianten – damit das Video vom reduce the storage and transmission costs of vid- Zuschauer in verschiedensten Netzwerk-Situationen und eo streams. Previous solutions usually require a auf unterschiedlichen Endgeräten problemlos angeschaut large number of test encodings, which require cor- werden kann. Der Video-Player entscheidet selbst anhand responding computing time and therefore lead to verschiedener Parameter, wie zum Beispiel der verfügbaren significant additional costs. This article describes a Bandbreite, welche Qualitätsstufe zum aktuellen Zeitpunkt solution that extends the conventional approach abgespielt werden. Auf diese Weise verringert sich unter to per-title encoding by machine learning methods Umständen die Qualität des Videos bei unzureichender and is thus able to completely dispense with com- Bandbreite, lästige Unterbrechungen und „Ruckeln“ beim Ab- putationally expensive test encodings. spielen werden aber vermieden. Adaptives Streaming zeigt seine Stärken vor allem bei schlechten oder wechselnden Netzwerkbedingungen, wie beispielsweise während einer Zugfahrt, überlasteten Heimnetzwerken, oder bei gleichzei- Einleitung tigem Videoabruf in einem Netzwerk durch viele Zuschauer, Streaming-Portale wie beispielsweise YouTube, Netflix oder wie etwa bei großen Sportveranstaltungen. Amazon Prime Video sind verantwortlich für einen beträcht- lichen Anstieg der Datenübertragung im Internet. Netflix al- lein verursachte in 2018 fast 15 Prozent des globalen Inter- 1) https://www.statista.com/chart/15692/distribution-of-glo- net-Verkehrs.1) Mehr als eine Milliarde Stunden Video-Inhal- bal-downstream-traffic/ te werden täglich durch YouTube Nutzer konsumiert.2) Jedes 2) https://blog.youtube/news-and-events/you-know-whats- einzelne angeschaute oder hochgeladene Video erhöht den cool-billion-hours
FKT Oktober 2020 Forschung & Entwicklung _ Beiträge 33 Tabelle / Abbildung 1: Standard h.264 Encoding Ladder Verschiedene Arten von Videoinhalten besitzen meist Quelle: Apple Developer Handbook eine grundlegend verschiedene Komplexität und Charakte- FORSCHUNG ristiken. Sport und Action-Filme beispielsweise haben eine Auflösung Bitrate Framerate viel höhere Informationsdichte, schnelle Szenenwechsel 416 x 234 145 ≤ 30 fps und viel Bewegung im Bild und brauchen somit typischer- 640 x 360 365 ≤ 30 fps weise mehr Bitrate, da weniger Möglichkeiten bestehen, re- 768 x 432 730 ≤ 30 fps dundante Teile des Videos effektiv zu komprimieren. Naturdokus oder Animationsfilme hingegen haben we- 768 x 432 1100 ≤ 30 fps sentlich mehr Redundanz, sich wiederholende Muster, lang- 960 x 540 2000 Wie Quellvideo same Schwenk-Bewegungen und weniger komplexe Szenen 1280 x 720 3000 Wie Quellvideo im Bild, sodass der Video-Codec besser Möglichkeiten hat, 1280 x 720 4500 Wie Quellvideo das Video zu komprimieren, ohne dabei an Qualität zu ver- lieren. Statt also diese offensichtlich verschiedenen Inhalte 1920 x 1080 6000 Wie Quellvideo mit den gleichen Encoding-Einstellungen zu komprimieren, 1920 x 1080 7800 Wie Quellvideo passt man die Encoding-Einstellungen je nach zu kompri- mierendem Inhalt an, um so möglichst viel Bitrate und damit Speicherplatz- und Übertragungskosten zu sparen und trotz- Um Inhalte für adaptives Streaming vorzubereiten, müs- dem noch die höchstmögliche Qualität an den Zuschauer sen diese in verschiedenen Bitraten und unterschiedlichen auszuliefern. Auflösungen encodiert und anschließend in Segmente von typischerweise zwei bis zehn Sekunden Länge unterteilt Wie funktioniert Per-Title Encoding? werden, bevor sie an den Zuschauer ausgeliefert werden Per-Title Encoding kann man in drei grundlegende Schritte können. Das Resultat ist eine sogenannte Encoding Ladder, unterteilen: die verschiedene vordefinierte Auflösungen und die dazuge- hörigen Bitraten festlegt. Ein Beispiel für eine solche Enco- 1. Das Erstellen von Test-Encodes ding Ladder ist in Abbildung 1 zu sehen. Zu Beginn werden sogenannte Test-Encodes des Ausgangs- Die hier dargestellte Encoding Ladder wurde von Apple videos erstellt – eine ganze Reihe an encodierten, also kom- spezifiziert. Seit ihrer ersten Vorstellung im Jahr 2010 (Apple primierten Varianten mit verschiedenen Encoding-Einstel- Tech Note TN2224) wurden die empfohlenen Bitraten und lungen. Dabei werden vor allem die wichtigsten Parameter Auflösungspaare mehrfach aktualisiert, das Grundprinzip wie Bitrate, Auflösung oder verschiedenste Meta-Parametern bleibt aber bis heute dasselbe. Nutzt ein Streaming-Anbie- des Codecs selbst variiert. ter diese Encoding-Ladder als Vorlage, müssen zu jedem Ausgangsvideo acht verschieden encodierte Versionen des 2. Berechnung der Qualitätswerte Videos erstellt werden – von niedrig aufgelösten Varianten Um die erstellten Test-Encodes objektiv miteinander ver- mit geringer Bitrate, bis hin zu Full-HD Varianten mit einer gleichen zu können, wird anschließend für jedes Video eine Bitrate von 7,8 Mbit/s. Qualitätsmetrik wie VMAF (Video Multi-Method Assessment Die steigende Nachfrage nach Online-Videos sowie der Fusion) oder PSNR (Peak Signal to Noise Ratio) berechnet. Trend zu hochauflösenden, adaptiv gestreamten Videos Hierbei handelt es sich um Kennzahlen, welche die wahrge- führt zu einem deutlichen Kostenanstieg für die Erzeugung, nommene Qualität des encodierten Videos im Vergleich zu Speicherung und Übertragung der Inhalte. Um möglichst alle seinem Ausgangssignal beschreiben. relevanten Zielplattformen abzudecken, müssen Inhaltean- bieter die Streaming-Formate HLS und DASH für die ver- 3. Auswahl der optimalen Encoding-Einstellungen schiedenen Endgeräte-Plattformen (PCs, Fernseher, sowie Basierend auf allen berechneten Qualitätswerten der mobile Geräte) unterstützen. Test-Encodes werden schließlich die Videos mit einem op- timalen Verhältnis zwischen Bitrate, Auflösung und Qualität Was ist Per-Title Encoding? gewählt. Die Auswahl erfolgt anhand der sogenannten kon- Das Konzept des Per-Title Encodings wurde in einem Blog vexen Hülle. Hierbei handelt es sich um die kleinste Menge, Post von Netflix im Jahr 2015 eingeführt3). Dabei handelt es die alle berechneten Test-Encodes umschließt. Die konvexe sich um eine weitere Optimierung des Encoding-Prozesses. Hülle spiegelt die idealen Bitrate-Auflösungspaare wider Statt alle Videos mit gleichen Einstellungen zu encodieren, und ermöglicht, eine optimierte Encoding Ladder für ein werden beim Per-Title (pro Video) Encoding, speziell auf Ausgangs-Video zu bestimmen. die jeweiligen Videos hin optimierte Encoding-Parameter In Abbildung 2 sind verschiedene Test-Encodes eines verwendet. Dabei kommen verschiedene Strategien zum Videos visualisiert. Die x-Achse zeigt die Bitrate der Test-En- Einsatz die zum Beispiel die Einsparung der Bitrate oder die codes, die y-Achse stellt die dazugehörige, berechnete Qua- Einhaltung einer bestimmten Videoqualität zum Ziel haben. litätsmetrik (VMAF) dar. Das Ausgangs-Video wurde in sieben Im Vergleich zu klassischen Encoding-Ansätzen, bei de- verschiedenen Auflösungen und jeweils zwölf verschiede- nen für alle Arten von Inhalten die gleiche, vordefinierte nen Bitraten pro Auflösung encodiert, was insgesamt zu 84 Encoding-Ladder verwendet wird, reduziert Per-Title Enco- einzelnen Test-Encodes führt. Erwartungsgemäß haben nied- ding die Speicher- und Übertragungskosten deutlich. Videos rige Auflösungen wie 320x240 Pixel bei geringen Bitraten niedriger Komplexität sind einfach zu encodieren und kön- unter 1 Mbit/s auch schlechtere VMAF-Werte als die Full-HD nen so mit deutlich niedrigeren Bitraten bei subjektiv gleich Test-Encodes mit über 6 Mbit/s. Auffällig ist, dass nahezu oder teils besser empfundener Qualität bereitgestellt wer- jede Auflösung eine Bitraten-Region hat, die andere Auflö- den. sungen qualitativ übertrifft und andersherum auch immer Regionen, bei denen andere Auflösungen bei gleicher Bitra- te bessere Qualität liefern. Die optimale visuelle Qualität 3) https://netflixtechblog.com/per-title-encode-optimizati- für ein Video mit mehreren Qualitätsstufen ist zu erwarten, on-7e99442b62a2
34 Forschung & Entwicklung _ Beiträge Oktober 2020 FKT FORSCHUNG Abbildung 2: Visualisierung der konvexen Hülle am Beispiel mehrerer Test- Encodes eines Ausgangs-Videos wenn Bitrate-Auflösungspaare identifiziert und encodiert 1. Sammeln der Daten: Um ein Modell erstellen zu können, werden, die so nah wie möglich an der konvexen Hülle (im müssen zunächst Daten für das Training erzeugt und ge- Graphen rot dargestellt) liegen. sammelt werden. Während die Berechnung der optimalen Bitrate-Auflö- 2. Bereinigung der Daten: Zum Training des Modells sungspaare mittels der konvexen Hülle zwar verlässliche müssen die Daten bereinigt und vorab auf Plausibili- Ergebnisse liefert, stellt die große Menge an Test-Encodes, tät geprüft werden (beispielsweise müssen fehlerhafte die für die initiale Komplexitäts-Analyse notwendig ist, den Messwerte korrigiert oder entfernt werden, welche unter größten Nachteil der konventionellen Herangehensweise anderem durch inkorrekte oder unvollständige Metada- dar. Um ausreichend Informationen für die Analyse zu sam- tenextraktion aus einem Video entstehen können). meln, müssen typischerweise pro Ausgangs-Video zwischen 3. Trainieren des Modells: Die nun vorliegenden Daten 80 und 100 Test-Encodes berechnet werden. Die Erstellung werden in mehreren Iterationen dazu genutzt, ein statis- dieser komprimierten Varianten ist äußerst rechenintensiv tisches Modell zu entwickeln. und zeitaufwändig. 4. Testen des Modells: Mit einem neuen Testdatensatz wird Die anschließende Qualitätsmetrikberechnung, welche die Güte des Modells geprüft und damit festgestellt, wie das Ausgangsvideo mit der komprimierten Variante Frame geeignet das Modell für statistische Vorhersagen ist. für Frame vergleicht, ist sehr zeitintensiv. Dieser Vergleich 5. Verbesserung: Sobald ein Modell trainiert ist, kann es wird für jedes einzelne Test-Encode durchgeführt und benö- fortlaufend anhand neuer Daten weiter angepasst und tigt entsprechende Rechenleistung. verbessert werden. Das ist beispielsweise notwendig, wenn sich Attribute der Datensätze ändern oder neue Maschinelles Lernen für Per-Title Encoding Attribute hinzukommen. Um das Per-Title Encoding Verfahren weiter zu optimieren und vor allem das Problem der aufwändigen Test-Encodes zu Preprocessing & Training der Modelle adressieren, kommen bei der Lösung von Fraunhofer FOKUS Um möglichst genaue Modelle zu erstellen, werden sie auf Methoden des maschinellen Lernens zum Einsatz. Ziel dieser Videos verschiedener Inhaltstypen – beispielsweise Sportin- Herangehensweise ist es, vollständig auf Test-Encodes und halte, Dokumentationen, oder Nachrichtensendungen – und vorausgehende Qualitätsmetrik-Berechnungen verzichten unterschiedlicher Enkodierungseinstellungen trainiert. Aus zu können und stattdessen statistische Vorhersagen zu nut- diesen, in der Regel unkomprimierten Videos werden 31 zen, um die optimalen Encoding-Parameter für ein beliebi- verschiedene Merkmale extrahiert. Darunter allgemeine Vi- ges Ausgangsvideo zu bestimmen. deo-Metadaten wie Auflösung, Speichergröße, Video-Codec Die Basis für diese automatisierten Vorhersagen bilden und spezifische Video-Merkmale. Letztere bestehen, unter Algorithmen, die mit Hilfe von Trainingsdatensätzen statis- anderem, aus der Anzahl der Szenenwechsel (basierend auf tische Modelle entwickeln, die Muster und Gesetzmäßig- einer bestimmten Wahrscheinlichkeit), Farbhistogrammen, keiten in Videos erkennen. Mit Hilfe dieser Modelle werden Helligkeitswerten, Inhaltstyp(en), Klassifikationswerten bzw. anschließend neue, bisher unbekannte Videos effizient be- Kategorien und sogenannten Labels zur Inhaltsbestimmung, urteilt. Die so trainierten Modelle sind in der Lage, anhand räumlichen und zeitlichen Merkmalen und mehr. All diese extrahierter Charakteristika eines Videos, Aussagen über Informationen ermöglichen eine Beurteilung der Komple- die perzeptuelle Qualität verschiedener Qualitätsstufen xität des Videos und somit schließlich die Vorhersage von zu treffen. Die Qualitätsstufen entsprechen verschiedenen Qualitätswerten für bestimmte Kombinationen aus Bitrate Bitraten/Auflösungs-Kombinationen. Die zuvor notwendigen und Auflösung, woraus sich Encoding-Ladder ableiten lässt, Test-Encodes entfallen gänzlich. welche auf die Charakteristika des Ausgangs-Videos opti- Die Entwicklung eines solchen statistischen Modells miert ist. Als Teil des maschinellen Lernprozesses werden lässt sich grundlegend in fünf Phasen einteilen: die gesammelten Daten bereinigt und anschließend in Trai-
FKT Oktober 2020 Forschung & Entwicklung _ Beiträge 35 FORSCHUNG Abbildung 3: Der Per-Title Encoding Workflow von Fraunhofer FOKUS mit Unterstützung durch Machine-Learning Modelle nings- und Testdatensätze aufgeteilt, wobei hier mit einem • Convolutional Neural Network (CNN): Ein neuronales typischen 80-20-Split gearbeitet wird – 80 Prozent der Da- Netz, das hauptsächlich für die Bilderkennung und Vi- ten werden für das Training verwendet, 20 Prozent für die Va- deoverarbeitung verwendet wird. Im Gegensatz zum lidierung der Modelle. Die extrahierten Videoattribute wer- FFFC-Modell unterstützt das CNN-Modell 3 Dimensionen den dann merkmalsbezogen bearbeitet, so dass weitere ein- (Breite, Höhe und Tiefe) und ist in Bezug auf die Verarbei- zigartige Videomerkmale festgelegt werden können. Dazu tung flexibler und videofreundlicher. Ohne eine starke zählt beispielsweise die Kombination von Breite und Höhe GPU ist die Trainingszeit jedoch langwierig und kann re- zur Bildung der Auflösungsgröße. Dieser Prozess erfordert chenintensiv sein. spezifisches Domänenwissen (zum Beispiel über Videoco- • XGBoost (XGB): Ein Ensemble, das aus schwachen Vor- dierungsattribute) und kann die Leistung von Modellen des hersagemodellen (im Allgemeinen Entscheidungsbäu- maschinellen Lernens erheblich verbessern. Da mehrere der men) besteht und stufenweise aufgebaut ist, die durch numerischen Merkmale aus verschiedenen Werte-Bereichen die differenzierbare Verlustfunktion optimiert werden bestehen, werden bestimmte Merkmale skaliert, normalisiert können. Dieses Modell erfordert nicht so viel Normali- oder standardisiert, um sie untereinander vergleichbar zu sierung für das Trainieren von Videoattributen, jedoch machen. können bestimmte Attributkodierungsmethoden (zum Zur Validierung der Modelle und Bestimmung der Ge- Beispiel eine One-Hot-Kodierung) die Leistung schwä- nauigkeit der Vorhersagen werden verschiedene Maße zur chen. Prognosegüte eingesetzt. Hierbei kommt unter anderem • Stacked Model: Dieses gestapelte Modell besteht aus 3 der mittlere quadratische Wurzelfehler (Root Mean Squa- separaten Modellen, die miteinander kombiniert („gesta- red Error, kurz RMSE) zum Einsatz. Anhand dieser Kenngröße pelt“) werden: lineare Regression, Random Forest (eine werden regelmäßige Überprüfungen durchgeführt, um die verbreitete Methode zur Klassifikation und Regression Modelle kontinuierlich zu optimieren. Beispielsweise wird von Datensätzen) und XGBoost. Diese Kombinations- während des Trainings mit dem Ziel gearbeitet, einen RM- technik ist im Hinblick auf ihr Hauptkonzept flexibel, SE-Wert von zwei zu erreichen. In diesem Fall entspricht der indem sie grundlegende mit fortgeschrittenen Ansätzen RMSE der Abweichung von vorhergesagten zu gemessenem kombiniert. Aufgrund ihrer Komplexität erfordert jedoch VMAF Werten – ein RMSE von zwei bedeutet also, dass das jedes einzelne Modell mehrere Iterationen der Verfei- Modell Vorhersagen mit einer Genauigkeit von zwei VMAF nerung, um gemeinsam eine gute Leistung erzielen zu Punkte treffen kann. Da erst ab circa sechs VMAF Punkten können. einen spürbaren Qualitätsunterschied (Just Noticeable Dif- Durch mehrere Iterationen des Modelltrainings wurde er- ference, kurz JND) wahrgenommen wird, ist diese Toleranz kannt, dass die spezifischen Attribute wie beispielsweise hier völlig ausreichend. Qualitätsmessungen, die an neuen Farbhistogramme und räumlich-zeitliche Merkmale einen Inhalten automatisch durchgeführt werden, werden in einer großen Einfluss auf die Qualitätswert-Vorhersagen haben. Rückkopplungsschleife in den Trainings-Prozess zurückge- Darüber hinaus verhielten sich Videos mit dem Scantyp spielt. Hierdurch können die Modelle wiederum kontinu- „interlaced“ (Zeilensprungverfahren) unterschiedlich im Ver- ierlich verbessert werden, um sich beispielsweise an neue gleich zu Videos desselben Inhalts mit dem Scantyp „pro- Inhalte oder andere Ausgangsparameter anzupassen. gressiv“ (Vollbildverfahren). Modelle, die mit vorwiegend Nach diesem Vorgehen wurden die folgenden Modelle Progressive-Scan-Videos trainiert wurden, hatten niedrigere entwickelt: RMSE-Werte, als die auf Interlaced-Scan-Videos trainierten • Feed-forward, fully connected neural network (FFFC): Modelle. Infolgedessen wurden die Modelle angepasst, um Ein universell einsetzbares neuronales Netzwerk, bei beide Scantypen zu erfassen und den Qualitätswert noch dem sich die Knoten in eine Richtung bewegen: von der genauer vorherzusagen. Eingabeschicht über die verborgenen Schichten bis hin Durch die gezielte Kombination der Vorhersagen der zur Ausgabeschicht. Dieses Modell ist robust in seiner Modelle ist die Lösung somit in der Lage, für bisher unbe- Fähigkeit, potenziell fehlende Eingabewerte zu unter- kannte Videos die Qualitätsmetrik VMAF auf bis zu zwei stützen (auch als „Fehlertoleranz“ bekannt), und führt Punkte Genauigkeit abzuschätzen. Dies ermöglicht, eine nach dem Trainieren zu einem geringeren Speicherplatz für beliebige Inhalte optimierte Encoding-Ladder zu gene- (einige KBs gegenüber Hunderten von MBs/GBs). Das rieren, ohne dafür aufwändige Test-Encodes berechnen zu FFFC-Modell ist jedoch anfällig für Überanpassungspro- müssen. Die Modelle bieten darüber hinaus auch niedrigere bleme („Overfitting“). Wenn akkurate Vorhersagen ge- Bitratenschätzungen (im Vergleich zur statischen “one-size- troffen werden sollen, müssen die Eingabe-Daten daher fits-all“-Encoding-Ladder), so dass die tatsächlichen Bitraten zwingend normalisiert werden, was üblicherweise zu nicht „verschwendet“ werden, in dem Qualitäten oder Auf- einem höheren Zeitaufwand für die Hyperparame- lösungen ausgeliefert werden, die dem Zuschauer keinen ter-Optimierung sowie zur Notwendigkeit einer größeren spürbaren Qualitätsgewinn bieten. Zusätzlich unterstützt Datenmenge führt. dieser Vorhersageprozess nicht nur On-Demand Videoin-
36 Forschung & Entwicklung _ Beiträge Oktober 2020 FKT halte, sondern kann auch für Live-Video Streaming genutzt werden. Darüber hinaus eignet sich die Lösung auch für Vor- CHRISTOPH MÜLLER FORSCHUNG hersagen auf Szenenbasis („Shot-Based“ oder „Per-Scene Quelle: Fraunhofer FOKUS ist Wissenschaftlicher Mitarbeiter Encoding“), bei dem im Gegensatz zum Per-Title Encoding bei Fraunhofer FOKUS, Geschäfts nicht das gesamte Video mit den gleichen Encoding-Einstel- bereich Future Media and Applications lungen encodiert wird, sondern die einzelnen Szenen selbst www.fokus.fraunhofer.de je nach Komplexität mit individuellen Encoding-Einstellun- gen encodiert werden. Zusammenfassung und Ausblick Die Online-Media Streaming Landschaft wird mehr denn je von adaptiven Streaming Technologien dominiert. Video-In- zelnen Inhalt optimierte Encoding-Einstellungen ableiten, halte werden von den Anbietern in verschiedenen Qualitäts- welche für die jeweiligen Charakteristika des Videos die op- stufen encodiert, und vom Video-Player automatisch anhand timale Qualität bei möglichst geringer Bitrate liefern. Durch der verfügbaren Bandbreite die passende Qualität zum Ab- das kontinuierliche Neu-Trainieren der Modelle sind diese in spielen des Videos ausgewählt. Dies bedeutet für Strea- der Lage, dynamisch auf neue Inhalte oder Zielparameter zu ming-Dienstleister nicht nur weitere zeitliche Belastung, reagieren. Ein entscheidender Vorteil hierbei ist, dass durch sondern auch höhere Kosten durch zusätzlich benötigten den Wegfall der zeitaufwändigen Test-Encodes und dadurch Speicherplatz und gesteigerten Rechenaufwand. Konventi- schnelleren Analyse diese Lösung auch für das Live-Strea- onelle Encoding-Ansätze sind zwar für Streaming-Anbieter ming einsetzbar ist. einfach umzusetzen, führen aber durchaus zu „unnötigem“ Obwohl Per-Title Encoding im Bereich des Online-Media Datenverkehr – wenn beispielsweise höher als notwendige Streaming noch ein recht neues Konzept ist, wurden in den Bitraten oder Auflösungen ausgespielt werden, ohne dass letzten Jahren schon die nächsten Evolutionen vorgestellt. der Zuschauer einen qualitativen Unterschied bemerkt. „Shot-Based“ oder Per-Scene Encoding wurde beispielswei- Per-Title Encoding sieht jeweils für verschiedene Ar- se von Netflix4) vorgestellt. Statt ein ganzes Video von An- ten von Videoinhalten unterschiedliche Bitraten und Enco- fang bis Ende mit einer passenden Encoding-Ladder optimal ding-Einstellungen vor, um die optimale Videoqualität bei zu enkodieren, wird hierbei das Video in kleinere Teilstücke möglichst geringer Größe des Videos bzw. minimaler Da- heruntergebrochen. Um das Video dabei nicht in Segmente tenrate zu erreichen. Im Vergleich zu klassischen Encoding willkürlicher, fester Länge zu unterteilen, analysiert der En- Ansätzen, bei denen für alle Arten von Inhalten die gleiche, coder den Videoinhalt und erkennt einzelne Szenen, denen vordefinierte Encoding-Ladder verwendet wird, reduziert dann je nach Komplexität ebenfalls eine eigene, optimierte Per-Title Encoding die Speicher- und Übertragungskosten Encoding-Ladder zugewiesen wird. von Videostreams deutlich. Gleichzeitig kann durch Minimie- Die von Fraunhofer FOKUS vorgestellte Lösung stützt rung der Datenraten die Internetverbindung des Zuschauers sich ebenfalls auf die statistische Erkennung von Szenen entlastet und die Stabilität der Wiedergabe verbessert wer- sowie Szenenwechseln im Video und ist somit auch in der den. Durch den Einsatz von Per-Title Optimierungen können Lage, Qualitätsvorhersagen auf Szenenbasis zu treffen und – je nach betrachtetem Inhalt – bis zu 50 Prozent der Spei- den Videoinhalt somit noch effizienter zu optimieren. Mittels cherkosten und bis zu 55 Prozent an Übertragungskosten Per-Scene Encoding sind Einsparungen von bis zu 55 Prozent gespart werden. der Speicherkosten und sogar bis zu 65 Prozent der Übertra- Per-Title Encoding löst bereits viele Probleme des sta- gungskosten möglich, ohne dabei an perzeptueller Qualität tischen Encodings, bei dem meist eine vorgefertigte Enco- zu verlieren. ding-Einstellung für jeden Inhalt verwendet wird, bedarf Während sich Per-Title oder Per-Scene Encoding haupt- aber der recht rechenaufwändigen und zeitintensiven Erstel- sächlich auf die inhaltliche Komplexität des zu enkodie- lung von vielen Test-Encodes pro Video mit sich. renden Videoinhalts selbst konzentriert, werden aktuell Die von Fraunhofer FOKUS vorgestellte Lösung erweitert Ansätze entwickelt, welche ein viel breiteres Spektrum an den Per-Title Encoding-Ansatz um Methoden des maschinel- Informationen nutzen. Context-Aware Encoding bezieht zu- len Lernens. Durch das Training und die gezielte Kombinati- sätzlich auch Meta-Parameter über die bestehenden Netz- on verschiedener statistischer Modelle ist es somit möglich, werkverhältnisse, Geräte-spezifische Informationen sowie vollständig auf die zeit- und rechenintensive Erstellung von Details der Anzeigeumgebung des Zuschauers in die Opti- Test-Encodes zu verzichten. Stattdessen sind die Modelle in mierung der Encoding-Ladder mit ein. Diese Daten können der Lage, Vorhersagen zur visuellen Qualität verschiedener beispielsweise aus Quality-of-Experience (QoE) und Quali- Qualitätsstufen eines Videos zu treffen. Dazu bedient sich ty-of-Service (QoS) Metriken bestehen, welche Details wie die Lösung unter anderem weiteren automatisierten Pro- die effektive Bandbreite des Nutzers, die Geräte zum Abspie- zessen wie die automatische Erkennung von Inhalten- und len des Videos verwendet werden, und die Verteilung der Art eines Videos, die Identifikation von Szenen und Szenen- tatsächlich abgespielten Bitraten über Ihre Encoding-Ladder wechseln, sowie der automatisierter Extraktion von Metada- beinhalten. Die gezielte Kombination dieser verschiedenen ten, um für beliebige Inhalte Qualitätswerte vorherzusagen. Kontextparameter ermöglicht es, eine noch effizientere En- Aus den Vorhersagen lassen sich anschließend für jeden ein- coding-Ladder zu generieren, die nicht nur auf den Inhalt selber, sondern auch auf den jeweiligen Zuschauer und sei- ne aktuelle Umgebung zugeschnitten ist. 4) https://netflixtechblog.com/dynamic-optimizer-a-perceptual- video-encoding-optimization-framework-e19f1e3a277f www.fokus.fraunhofer.de
Sie können auch lesen