Current version of the page has been reviewed and is approved ().
Einleitung
MPEG-H Audio ist ein Next Generation Audio (NGA) System, das neue Möglichkeiten für personalisierbaren 3D-Sound eröffnet. Next Generation Audio bezeichnet Audiosysteme, die entweder aufgrund ihrer Kanalzahl über Formate wie 5.1 oder 7.1 hinausgehen oder die erweiterte Funktionen ermöglichen. Diese Funktionen können z. B. zusätzliche oder alternative Audiospuren oder Anpassungsmöglichkeiten für verschiedenste Wiedergabesituationen sein [9].
MPEG-H Audio ist besonders geeignet für Anwendungen in den Bereichen Rundfunk, UHDTV, Video on Demand (VoD)/Streaming-Dienste und Virtual Reality (VR). Auch immersive und objektbasierte Musikstreaming-Dienste wie 360 Reality Audio (360RA) basieren auf MPEG-H Audio.
Im Vergleich zu klassischen Audioformaten bietet MPEG-H Audio innovative Funktionen bei der Klangwiedergabe über Lautsprecher, Soundbars oder binaural über Kopfhörer. Dabei empfangen alle Geräten den gleichen Datenstrom und der Audioinhalt wird im Empfangsgerät für die Wiedergabe an das jeweilige System angepasst. Das bedeutet, dass keine individuelle Mischung für unterschiedliche Wiedergabeszenarien mehr angefertigt werden muss. Darüber hinaus ermöglicht die Verwendung von Audioobjekten die Personalisierung bei der Wiedergabe, sofern dies produktionsseitig erlaubt und mittels Metadaten festgelegt ist.
Seit 2017 wird MPEG-H Audio im Regelbetrieb in Südkorea als NGA-Audiocodec bei der UHDTV-Übertragung verwendet. Für den Empfang bieten Gerätehersteller eine Vielzahl von Endgeräten an, mit denen MPEG-H Audio zu Hause oder mobil wiedergegeben werden kann.
In Brasilien wird MPEG-H Audio seit 2022 für die flächendeckende Ausstrahlung von Over the Air (OTA) und Over the Top (OTT) Rundfunk mit ISDB-Tb genutzt. Im Rahmen vom Wechsel vom bisherigen brasilianischen Rundfunksystem TV2.5 zum neuen SBTVD TV3.0 (DTV+) wird MPEG-H Audio als einziger NGA-Audiocodec flächendeckend genutzt werden. Im April 2025 wurde die erste Teststation für TV3.0 eröffnet, bevor die kommerzielle Einführung im Sommer 2026 erfolgen soll.
Für die neuen NGA-Funktionen sind Metadaten von essenzieller Bedeutung. Diese Metadaten werden während der Produktion erstellt, bearbeitet und überwacht, zusammen mit den Audiodaten übertragen und im Wiedergabegerät ausgewertet. Die für die Erstellung und Bearbeitung von Metadaten nötige Hard- oder Software fügt sich nahtlos in bereits bestehende Produktionsinfrastrukturen und Workflows ein.
Hauptmerkmale des MPEG-H Audio Systems
Drei Hauptmerkmale unterscheiden das MPEG-H Audio System von vorherigen Generationen von Audiocodierverfahren: Immersiver Klang, Personalisierung durch Audioobjekte und Universal Delivery.
Immersiver Klang
MPEG-H Audio ermöglicht die Produktion, Übertragung und Wiedergabe von immersivem Audio (3D Audio). Das macht die die räumliche Wiedergabe präziser gestaltbar, was Hörende vollständig in eine dreidimensionale Klangszene eintauchen lässt.
MPEG-H Audio unterstützt alle gängigen Lautsprecherformate von Mono und Stereo über 5.1 und 7.1 bis hin zu 3D-Setups wie 5.1+4H, 7.1+4H, 9.1+6H (mit Höhenlautsprechern), und 5.1+4H+3L, 22.2 (mit einer dritten, unteren Laut- sprecherebene). Das Signal kann mit unterschiedlichen Techniken übertragen werden:
Kanalbasiert: Konventionelles Verfahren, bei dem für jede Lautsprecherposition ein separates Signal übertragen wird.
Objektbasiert: Audioobjekte können unabhängig von den Lautsprecherpositionen platziert und bewegt werden. Darüber hinaus werden Audioobjekte separat im MPEG-H Bitstrom übertragen und erst zum Zeitpunkt der Wiedergabe in das Ziellayout gerendert. Dies ermöglicht Hörenden die Interaktion mit den Objekten, zum Beispiel die Veränderung von Pegel oder Position.
MPEG-H 3D Audio wurde als offener, internationaler Standard von der MPEG innerhalb der ISO standardisiert [1, 2]. Der MPEG-H 3D Audio Standard unterstützt prinzipiell eine große Anzahl von Kanälen und Objekten. Wie in allen MPEG-Standards üblich, wurden auch für MPEG-H 3D Audio „Profile“ des Standards für unterschiedliche Anwendungsfälle definiert. Das für Rundfunk, Streaming und immersive Musik optimierte Profil „Level 3“ kann bis zu 16 Signale gleichzeitig auf bis zu 12 Lautsprecherpositionen dekodieren und rendern. Das Profil „Level 4“ unterstützt das Rendern von bis zu 28 Signalen auf bis zu 24 Lautsprecherpositionen (22.2) [3].
MPEG-H Audio beinhaltet außerdem eine effiziente Kodierung, dank der objektbasiertes 3D Audio mit Bitraten übertragen werden kann, die früher für 5.1-Produktionen gleicher Qualität benötigt wurden.
Personalisierung mit Audioobjekten
Die Verwendung von Audioobjekten und deren Kombination mit kanalbasiertem Audio eröffnet ein neues Feld der Interaktion zwischen Publikum und Sendeton (s. Abb. 1). Hierbei spielen Metadaten eine entscheidende Rolle. Sie werden gemeinsam mit den Audiodaten übertragen und beschreiben deren Eigenschaften, unter anderem die Option der Anpassung durch Rezipienten. Metadaten beinhalten zusätzliche Informationen über die Audiosignale und ermöglichen einerseits dem wiedergebenden Gerät vielfältige Anpassungsmöglichkeiten und andererseits dem Nutzer, in vordefinierten Grenzen den wiedergegebenen Ton zu verändern.
Bei einer Sportübertragung kann der MPEG-H Audiodatenstrom beispielsweise den internationalen Ton (IT) als Kanalkomponente (z. B. in Stereo, 5.1 Surround oder 3D-Audio mit 5.1+4H) enthalten und zusätzlich Audioobjekte für die „Hauptkommentatorin“, den „Heim-Team-Kommentator“ sowie den „Gast-Team-Kommentator“ bereitstellen. Umfangreiche MPEG-H Audio-Metadaten beschreiben in diesem Fall die zum Sendesignal zugehörigen Informationen. Sie Metadaten regeln die bei der Wiedergabe erlaubten Interaktivitätsoptionen und enthalten die Definition von vorkonfigurierten Versionen des Mixes, die als „Presets“ bezeichnet werden. Metadaten enthalten auch Informationen über die Namen von jedem Objekt, das dem Zuschauer angezeigt wird. Alle Interaktivitätsfunktionen werden vom Produzenten bei der Erstellung der Metadaten definiert und ermöglichen der Nutzerin die Interaktion ausschließlich in diesem Rahmen. Hierdurch wird deutlich, dass auch klassische Stereoproduktionen mit Dialog oder Kommentar von den Möglichkeiten von MPEG-H profitieren können. So kann beispielsweise dem Endgerät der Dialog als separates Audioobjekt zur Verfügung gestellt werden. Jede Nutzerin kann so die Sprachverständlichkeit an ihre Wünsche anpassen.
Ein Datenstrom auf verschiedenen Wiedergabeplattformen
Abseits des klassisch-linearen TV haben sich eine Vielzahl verschiedener Wege und Gewohnheiten des Medienkonsums etabliert. Längst werden Inhalte nicht mehr nur linear auf der heimischen Couch konsumiert. Streamingdienste und Mediatheken versorgen moderne Smart TVs, Smartphones und Tablets mit Inhalten. Um den Anforderungen einer solchen Vielzahl von Wiedergabeszenarien gerecht zu werden, wurden in MPEG-H Audio eine Vielzahl von Technologien zur optimalen Wiedergabe auf verschiedenen Geräten implementiert.
Der standardisierte MPEG-H Renderer im Endgerät erzeugt eine spezifische, auf das Wiedergabegerät abgestimmte Wiedergabe und konvertiert die decodierten Kanalsignale in zahlreiche Ausgabeformate, d.h. für die Wiedergabe auf verschiedenen Lautsprecherlayouts. Auf diese Weise kann in der Produktion eine einzige Hauptmischung erzeugt werden, die später auf unterschiedlichen Endgeräten und Wiedergabesystemen optimal konsumiert wird. Die vom MPEG-H Decoder erstellten Signale können außerdem von einem Binaural-Renderer optimal weiterverarbeitet werden. Damit wird es möglich, 3D-Audio Inhalte über Kopfhörer zu genießen. Dazu kann der Binaural-Renderer über eine standardisierte Schnittstelle direkt auf die Objekt- und Kanalsignale zugreifen, und nicht nur auf ein vorgerendertes Lautsprecherlayout.
Mittels erweiterter Dynamic Range Control (DRC)-Funktionalität wird das Audiosignal an die jeweilige Wiedergabesituation angepasst und es wird sichergestellt, dass selbst bei Nutzerinteraktion die aktuellen Lautheitsregularien eingehalten werden. Darüber hinaus bietet MPEG-H Audio die Möglichkeit von „Ducking über Metadaten“ für Voice-Over-Anwendungen in Abhängigkeit des aktuell von der Nutzerin ausgewählten Objekts. Diese dynamischen Metadaten verhalten sich ähnlich wie Volume Automation in einer DAW und werden im Kontext von MPEG-H als Gain Sequenzen bezeichnet.
Metadaten und ADM
Das Erstellen von Metadaten wird Authoring genannt. Im MPEG-H Audiosystem werden hierbei Audiokomponenten mit Metadaten ergänzt und zu einer sogenannten Audioszene zusammengefügt (s. Abb. 2).
MPEG-H Audio unterscheidet statische und dynamische Metadaten. Statische Metadaten beinhalten Informationen über Name, Sprache und Lautheit der einzelnen Komponenten, Presets und des gesamten Programms. Daneben sind auch Informationen über Einstellungen für eine Personalisierung des Tons im Endgerät enthalten. Dynamische Metadaten können zeitabhängige Positions- und Pegeldaten beinhalten, also Panning und Lautstärkeautomation, wie zum Beispiel Ducking.
Die MPEG-H Audio Metadaten lassen sich auch vollständig mit dem Audio Definition Model (ADM) abbilden. ADM ist ein standardisiertes Darstellungsmodell für Audiometadaten auf xml-Basis [10]. Die umfangreiche ADM-Metadatensyntax erlaubt es, verschiedene Typen von Audioinhalten für immersive und interaktive Hörerlebnisse zu beschreiben, inklusive kanal-, objekt-, und szenenbasierter Darstellungen. Zur praktischen Anwendbarkeit des ADM sind – ebenso wie bei MPEG-Standards – Profile notwendig. Eines der bisher definierten Profile bildet dabei den bei MPEG-H Audio verwendeten Umfang an Metadaten ab. ADM eignet sich für Produktion, Übertragung und Archivierung von NGA-Inhalten und gewährleistet die Interoperabilität mit anderen Systemen. Darüber hinaus steht zusätzlich das MPEG-H Production Format (MPF) zur Verfügung, bei dem die Metadaten über einen modulierten Audiokanal, den Control Track (CT), übertragen werden. Das Speichern der MPEG-H Audio Metadaten als PCM-Audiokanal ermöglicht die Interoperabilität mit heutiger Studioinfrastruktur wie MADI, SDI oder allen gängigen Audio- und Videoworkstations.
Das MPEG-H Info Tool ist eine Softwareanwendung, um ADM- und MPEG-H Audio-Inhalte zu analysieren und ihre Metadaten einzusehen. Dies beinhaltet auch eine Konformitätsprüfung von ADM und S-ADM-Metadaten gemäß ITU-R BS.2076- 2, ITU-R BS.2088-1 und ITU-R BS.2125-0, sowie die Validierung ADM-basierter Inhalte [4,5,6]. Das MPEG-H Production Format kann auch verlustfrei nach ADM und zurück konvertiert werden.
MPEG-H Workflow
MPEG-H ermöglicht die Produktion von immersiven und interaktiven Inhalten unter weitgehender Beibehaltung bestehender Abläufe und Infrastrukturen. Da herkömmliche Produktionsumgebungen für kanalbasierte Produktionen konzipiert und ausgestattet sind, werden nur an wenigen Stellen zusätzliche Hard- oder Software benötigt. Diese MPEG-H Audio-spezifischen Werkzeuge decken Anwendungsfälle für Live- und Postproduktion ab.
Etablierte Arbeitsprozesse wie die Aufzeichnung und Bearbeitung des Ton- und Bildmaterials bleiben unverändert. Je nach Produktionsszenario können weitere Produktionswerkzeuge wie 3D-Panner, 3D-Hall, erweiterte Bus-Strukturen auf Mischkonsolen oder in Digital Audio Workstations sowie 3D-Audio- Wiedergabemöglichkeiten für das Monitoring hilfreich sein [7].
Der größte Unterschied zwischen einer herkömmlichen und einer NGA- Produktion ist der objektbasierte Ansatz, der einen weiteren Produktionsschritt beinhaltet: die Definition der Metadaten, auch „Authoring“ genannt. In der Liveproduktion wird dies mithilfe einer „Audio Monitoring and Authoring Unit“ (AMAU) bewerkstelligt. Diese Authoring Units sind kompatibel mit SDI-und IP-basierten Infrastrukturen. Hier können in Echtzeit MPEG-H Audio-Metadaten erstellt, gemeinsam mit Sendeton und Videosignal ausgegeben sowie alle Interaktionsmöglichkeiten und Renderings vorgehört werden.
Auch für die Postproduktion gibt es Werkzeuge zur Erstellung von MPEG-H Audio-Szenen, sowohl als Plug-in (zum Beispiel Spatial Audio Designer, WalkMix Creator) als auch nativ in einer Workstation integriert (z.B. Nuendo, ProTools, DaVinci Resolve). Zusätzlich gibt es Standalone-Anwendungen, wie das MPEG-H Authoring Tool [8].
Sowohl Live als auch in der Postproduktion wird das PCM-Audiosignal gemeinsam mit den beschreibenden Metadaten und gegebenenfalls dem Video dem Encoder zugeführt. Hier werden die Daten des A/V-Signals synchron zueinander reduziert und der Bitstrom für die Ausstrahlung erzeugt. Dieser Datenstrom kann über unterschiedliche Übertragungswege zum Endgerät übertragen werden, sowohl über Rundfunksysteme (z.B. Satellit, terrestrisch) oder per On-Demand Streaming (z.B. HbbTV), in allen dabei üblichen Formaten – im MPEG-2 Transportstream, als DASH- oder HLS-Stream oder gespeichert in einem mp4-Container.
Im Endgerät wird der Bitstrom decodiert und das Tonmaterial auf Basis der Metadaten und Informationen über das zur Verfügung stehende Wiedergabesystem gerendert. Das MPEG-H Audio System passt sich individuell der Wiedergabeumgebung an und ermöglicht Nutzerinteraktion. Dies geschieht ausschließlich durch Metadaten, ohne zusätzliche zu übertragende Ton- und Videospuren.
Authoring
Der Arbeitsschritt, in dem die Metadaten erstellt werden, wird als Authoring bezeichnet. Hier soll eine beispielhafte TV-Dokumentation beschrieben werden, welche die folgenden Eigenschaften hat:
Produziert für immersive Wiedergabe mit Atmo, Effekten und Musik in einem 5.1+4H Layout.
Kommentare in den Sprachen Deutsch, Französisch und Italienisch.
Barrierefreiheit: Neben dem „Default Mix“ soll eine weitere Fassung anwählbar sein, in welcher sich der Kommentar im Pegel deutlicher von der Bettmischung abhebt („Dialog+“).
Eine zusätzliche Tonspur mit Audiodeskription (AD) soll ebenfalls zur Auswahl stehen. Diese soll bei Bedarf zuschaltbar und in Pegel und Position anpassbar sein.
Die Beschriftung der Presets und MPEG-H Audio Funktionen auf dem On Screen Display (OSD) soll ebenfalls in mehreren Sprachen vorliegen.
Der Ausgangspunkt für dieses Beispiel ist eine Pro Tools-Session, welche die fertige Bettmischung, die Kommentarspuren in unterschiedlichen Sprachen und die AD-Spur enthält. Im ersten Schritt müssen die Audiosignale den Komponenten zugeordnet, also logisch gruppiert, werden. Eine Komponente kann aus einem Mono-, Stereo-, 5.1- oder anderem Kanallayout bestehen. Die zehn Kanäle des IT-Betts werden zu einer Komponente mit 5.1+4H Layout zusammengefasst. Jede Dialogkomponente wird im Metadatenfeld „Language“ mit einer Kennzeichnung der entsprechenden Sprache versehen (s. Abb. 4). Endgeräte können so die von der Nutzerin voreingestellte Sprache automatisch auswählen. Komponenten verschiedener Sprachen werden in einer „Switch Group“ zusammengefasst. Damit wird gewährleistet, dass jeweils nur eine der Komponenten zeitgleich aktiv sein kann. Zuletzt liegt in dieser Produktion eine Audiodeskription auf Deutsch vor. Diese wird als Objekt definiert, um der Nutzerin neben Pegel- auch Positionsinteraktion in beschränktem Umfang zu ermöglichen. Der genaue Wertebereich wird ebenfalls in diesem Produktionsschritt festgelegt. Um die Audiodeskription auch für das Endgerät als solche erkennbar zu machen, sollte der entsprechende Eintrag in der „Content Kind“-Liste angewählt werden. Nachdem alle Komponenten definiert sind, können diese nun zu Presets zusammengefasst werden. Ein Preset ist eine produktionsseitig erstellte und für die Endnutzerin unveränderbare Zusammenstellung von Komponenten, Pegel- und Positionsverhältnissen. Ein MPEG-H Audio-Datenstrom kann mehrere Presets enthalten.
Das erste Preset enthält typischerweise die IT-Mischung und die Switch Group mit den unterschiedlichen Sprachversionen. Es entspricht dem bisherigen Broadcast Mix mit der zusätzlichen Eigenschaft der Sprachauswahl.
Auch dem zweiten Preset wird das Bett und die Switch Group zugewiesen, allerdings soll der Kommentar gegenüber dem IT um einige dB angehoben werden, um hörgeschädigten Zuschauerinnen eine bessere Sprachverständlichkeit zu bieten. Dazu wird in der Preset-Konfiguration ein Gain Offset auf die Switch Group definiert. Zusätzlich kann entschieden werden, ob der Gain Offset von der Zuschauerin manuell angepasst werden kann. Dieses Preset wird als „Dialog+“-Preset bezeichnet und mit dem Metadatum „Hearing Impaired“ ausgestattet, um es für das Endgerät als solches erkenntlich zu machen. Somit kann der Empfänger so konfiguriert werden, dass immer das Preset mit verbesserter Sprachverständlichkeit wiedergegeben wird, wenn ein solches zur Verfügung steht.
Das dritte Preset soll hier „Deutsch mit Audiodeskription“ sein. Es besteht also aus dem Bett, der AD-Komponente und der Komponente mit dem Kommentar auf Deutsch. Die für die Audiodeskription notwendigen Absenkungen des Bettes können über dynamische Gains realisiert werden.
Sind alle Presets erstellt, können über den Reiter „Monitoring“ das Authoring überprüft, Interaktivitätsoptionen getestet und Rendering auf unterschiedliche Layouts vorgehört werden. Um auch die Loudness-Normalisierung korrekt vorhören zu können, wird zuvor eine Lautheitsmessung im Plug-in durchgeführt. Das Authoring ist nun abgeschlossen und die Szene kann über als BWF/ADM oder MPEG-H Production Format exportiert werden.
Auch wenn es sich bei dieser Produktion um eine Sendung mit immersivem Ton handelt, muss das Originalformat am Endgerät möglicherweise auf ein Surround- oder Stereosetup gerendert werden. Falls gewünscht, können vom Default-Downmix abweichende Parameter für den Downmix auf 5.1 oder Stereo konfiguriert, vorgehört und in die Metadaten geschrieben werden.
Auf der „Dynamic Gains“-Seite des Plug-ins wird das Ducking über Metadaten konfiguriert. Auf diese Weise muss etwa bei mehrsprachigen Authorings das Bett nur einmal übertragen werden, da das Ducking abhängig von der gewählten Sprache im Endgerät gerendert wird.
Monitoring und Qualitätskontrolle
Die MPEG-H Authoring-Tools ermöglichen es, die erstellte Audioszene in Echtzeit während der Mischung abzuhören. Dabei werden das Verhalten und die Nutzerschnittstelle eines Endgerätes simuliert. Die klangliche Wirkung kann so auf verschiedenen Wiedergabesystemen, von 22.2-Lautsprecheranordnungen, über Binaural, bis zum Downmix auf Stereo oder Mono überprüft werden. Die erstellten Presets und die eingestellte Nutzerinteraktivität können direkt angehört und bereits in der Tonproduktion berücksichtigt werden, so dass die künstlerische Intention bewahrt bleibt.
Bereits bestehende MPEG-H Authorings, zum Beispiel auf einem Rundfunkserver oder in einem Medienarchiv, können mithilfe des MPF-Players abgespielt werden. Dieser liest die unkomprimierten PCM-Audiodaten und interpretiert den Control-Track auf der letzten Tonspur, so dass die MPEG-H Audioszene wie erstellt gerendert und wiedergegeben wird. Ein in derselben Datei befindliches Video wird synchron abgespielt (s. Abb. 5).
Die simulierte Bedienoberfläche eines MPEG-H Decoders ermöglicht es auch hier, die Wirkung auf der Konsumentenseite nachzuvollziehen. Die der Tonpostproduktion nachgelagerten Stellen (z.B. Redaktion, Qualitätskontrolle) können sich so einen Eindruck von dem audiovisuellen Gesamtwerk in der erstellten Qualität machen, bevor es zur Codierung und Verbreitung freigegeben wird.
Zusammenfassung
MPEG-H Audio ist unter den zurzeit am Markt befindlichen Next Generation Audio Codecs das Audiosystem mit dem größten Funktionsumfang und der höchsten Vielseitigkeit. Für Rundfunk, UHDTV und Video-on-Demand Streamingdienste bietet es viele neue Funktionen. Auch objektbasierte Musikdienste, wie 360 Reality Audio, nutzen die Vielseitigkeit von MPEG-H Audio. Für ein effizientes Arbeiten mit NGA-Inhalten ist es wichtig, die Gemeinsamkeiten und Unterschiede der verschiedenen Systeme zu verstehen. So kann zum Beispiel eine immersive, kanalbasierte Atmo oder Musikaufnahme in unkomprimiertem PCM-Audio für alle NGA-Systeme verwendet werden. Ebenfalls ist das Verständnis über den Unterschied zwischen einem einzelnen Audiosignal und einem Audioobjekt hilfreich. Nicht jedes einzelne Audiosignal muss als separates Objekt übertragen und gerendert werden. Das Wissen darüber hilft beim Zusammenfassen von semantisch gleichartigen Inhalten zu Stems oder zu einem Kanalbett.
Für die Erstellung und Bearbeitung von Inhalten mit MPEG-H Audio stehen Tonschaffenden viele Werkzeuge zur Verfügung, die jeden Bereich der Produktion abdecken und sich nahtlos in bestehende Workflows integrieren. Ebenso steht mit MPEG-H BWF/ADM ein sicheres Format für Austausch, Konvertierung und Archivierung bereit. Endkunden haben eine große Auswahl an MPEG-H Audio-fähigen Geräten über die gesamte Produktpalette hinweg, z.B. mobile Geräte, Fernseher, Soundbars oder A/V Receiver.
Da vor allem die Bereiche Videostreaming und objektbasierte Musikdienste enorm an Relevanz gewonnen haben und auch in Zukunft eine wichtige Rolle in der Unterhaltungsindustrie spielen werden, kommen vor allem hier die Möglichkeiten von MPEG-H Audio zum Tragen.
[REF]
ISO/IEC: Information Technology—High Efficiency Coding and Media Delivery in Heterogeneous Environments—Part 3: 3D Audio, ISO/IEC Standard ISO/IEC 23008-3:2022, 2022, https://www.iso.org/standard/83525.html
ATSC Standard: A/342 Part 3, MPEG-H System, Doc. A/342-3:2024-04 3 April 2024, Advanced Television Systems Committee, https://www.atsc.org/wp-content/uploads/2024/04/A342-3-2024-04-MPEG-System.pdf
Robert Bleidt et al.: Development of the MPEG-H TV Audio System for ATSC 3.0; IEEE Transactions on Broadcasting, Vol. 63, No. 1, 2017, http://ieeexplore.ieee.org/document/7874294/
ITU: ITU-R BS.2088-1 (10/2019) BS Series: Long-form file format for the international exchange of audio programme materials with metadata, 2019, https://www.itu.int/dms_pubrec/itu-r/rec/bs/R-REC-BS.2088-1-201910-I!!PDF-E.pdf
ITU: ITU-R BS.2125-0 BS Series: A serial representation of the Audio Definition Model
Yannik Grewe, Ulli Scuda, Adrian Murtaza, Markus Kahelin, Nuno Duarte: Studio Recommendations for 3D-Audio Productions with MPEG-H Audio, Technical Paper, 2020, https://www.iis.fraunhofer.de/content/dam/iis/de/doc/ame/wp/FraunhoferIIS_TechnicalPaper_Studio_Recommendations_3DAudio-MPEG-H.pdf