von Edwin Pfanzagl-Cardone, Artikel aus dem Archiv vom
Immersive Techniken ziehen auch verstärkt in die Live-Beschallung ein. Aber welchen Einfluss hat die verwendete Mikrofonierung darauf, wie gut das hinterher wiedergegebene Ergebnis sein kann?
(Bild: Edwin Pfanzagl-Cardone)
Wenn „Klein AB“ in der Mikrofonierung psychoakustisch richtig ist, dann kann doch „Groß AB“ nicht ebenfalls richtig sein? Diese Frage dazu, warum Tonmeister eigentlich „Groß AB“-Techniken (mit zwei omnidirektionalen Mikrofonen im Kapselabstand von einigen Metern) verwenden, wurde mir vor etwa 25 Jahren, als ich noch in der Tonmeisterausbildung an der Universität für Musik und darstellende Kunst in Wien tätig war, von einem Studenten durchaus berechtigt gestellt: Lehrt doch die Psychoakustik, dass nur „Klein AB“ (mit einem Kapselabstand von 50-100 cm) eine korrekte Lokalisation beim Menschen hervorruft.
Dieser Basisfrage nochmals auf den Grund zu gehen, hatte ich dann im Rahmen meiner Arbeit als leitender Tonmeister im Salzburger Festspielhaus ab dem Jahr 2000 ausreichend Gelegenheit. Die damit verbundenen Untersuchungen förderten ein für mich überraschendes Resultat zutage: In zwei AES-Convention-Preprints (aus den Jahren 2002 und 2008) präsentierte ich die Ergebnisse aus Messungen an den meisten gängigen Stereomikrofontechniken. Verwendung fand eine damals neue Methode, welche die Signalkorrelation, also die Ähnlichkeit der Signale beider Kanäle L und R) über der Frequenz analysiert. Als Wert ergibt sich der Frequency dependent Crosscorrelation Coefficient (FCC), also ein frequenzabhängiger Kreuzkorrelationskoeffizient. Dieser etwas ungewöhnliche Ansatz nimmt quasi einen „akustischen Fingerabdruck“ der jeweiligen Mikrofontechnik und liefert u. a. Informationen über die
stereophone Breite (ASW – „Apparent Source Width“ oder „wahrgenommene Schallquellenbreite“), die
Tiefenstaffelung und vor allem auch sehr wichtig:
den in einer Aufnahme enthaltenen Räumlichkeitseindruck.
Das wahrscheinlich überraschendste Ergebnis dieser Messungen ist die Tatsache, dass die meisten Mikrofontechniken nicht über den gesamten Frequenzbereich stereophon sind: Mit abnehmender Frequenz werden viele von ihnen immer monophoner, was auch ihre Fähigkeit deutlich reduziert, den Eindruck von Räumlichkeit zu vermitteln, der in erster Linie von ausreichend hoher Signal-Dekorrelation unterhalb von 500 Hz, besonders aber im Frequenzbereich unter 200 Hz abhängt (siehe Hidaka et al. 1995).
The Art and Science of Surround and Stereo Recording
Über die in diesem Beitrag dargestellten Grundlagen hinaus geht es im Buch um die weiteren Aspekte guter Mehrkanalproduktionen. Ausgehend von einem Kapitel über die Mechanismen des „räumlichen Hörens“, geht es weiter zu einer detaillierten Betrachtung der Grundlagen von Signal-Korrelation und Signal-Kohärenz in Mikrofonsystemen, sowie Einflussfaktoren wie Lautsprecher und Akustik des Abhörraumes. In den Kapiteln 3 und 4 werden ca. 20 Stereomikrofontechniken, über 30 Surround-Mikrofontechniken, sowie auch diverse 3D-Audio-Mikrofontechniken im Detail vorgestellt. Kapitel 5 widmet sich den Eigenschaften und qualitativen Beschränkungen von Aufnahmen, die mittels Kunstkopf gemacht werden, wobei in den Studien ca. ein halbes Dutzend Kunstköpfe verglichen wird.
(Bild: Edwin Pfanzagl-Cardone)
Kapitel 6 enthält Überlegungen zum Design von vergleichenden Hörtests („double blind“ Studien) und deren statistischer Auswertung, auch anhand der vom Autor durchgeführten Surround-Hörvergleiche mit dem Ziel der Bewertung verschiedener Surround-Mikrofontechniken (AB- PC, DECCA, KFM, OCT). In Kapitel 7 und 8 wird die frequenzabhängige Kreuz-Korrelation der Signale von fünf Surround-Mikrofontechniken, sowie für die gängigsten 2-Kanal-Stereomikrofontechniken anhand von ca. einem Dutzend Messungen und auch akustischer Simulation dargestellt. Dabei wird u. a. auch das Klangbild typischer Orchesteraufnahmen (mit „Klein-AB“ als Hauptsystem und vielen Stützmikrofonen) einer „Legacy“-Aufnahme der RCA („Living Stereo“), basierend auf „Groß-AB“ und wenigen Stützmikrofonen in der Analyse gegenübergestellt. Interessant ist hierbei, dass sich der deutlich hörbare Klangunterschied (vor allem hinsichtlich der
wahrgenommenen Räumlichkeit der Aufnahme) auch anhand
der FCC-Messung eindeutig abbilden lässt.
Kapitel 9 widmet sich dem Versuch eines qualitativen Rankings von Stereo- und Surround-Mikrofontechniken, wozu die Ergebnisse aus Studien unterschiedlicher Forscher herangezogen werden. In Kapitel 10 werden die Grundlagen des vom Autor propagierten BQIrep („Binaural Quality Index of reproduced music“) erläutert, und das letzte Kapitel widmet sich einer Analyse früher Stereo- Mikrofontechniken, wie sie in den Bell-Laboratories in den USA oder auch in den Abbey Road Studios der EMI in London entwickelt und angewendet wurden.
Darüber hinaus werden in Form von Fallstudien einige der von audiophilen Hörern weltweit geschätzten Aufnahme von DECCA, RCA, MERCURY, wie auch der CBS (heute: SONY) analysiert, bevor man sich einem kurzen Überblick über die gebräuchlichsten Techniken von Solo-Piano bis zu Orchester-Aufnahmen widmet. Den Abschluss bilden einige Empfehlungen aus der Praxis, quasi von „Tonmeister zu Tonmeister“, die auf dem ästhetischen Ansatz der „Natürlichen Perspektive“ von Edwin Pfanzagl-Cardone basieren.
Wunsch nach Raum
Nun erstreckt sich die Arbeit des Tonmeisters ja sowohl über die Gebiete der Technik (Nachrichtentechnik/Elektronik), wie auch der Kunst (z. B. Musik), unter praktischer Anwendung der Erkenntnisse der Psychoakustik, Raumakustik und Musikinstrumente-Akustik. So, wie es auch in der Musik mitunter kein eindeutiges „richtig“ oder „falsch“ gibt, ist auch in der Tontechnik prinzipiell ein „Gestaltungsspielraum“ vorhanden und im Endeffekt gilt aus Sicht des Endkonsumenten bzw. Hörers vermutlich: „Richtig ist, was gefällt …“
Abgesehen von dieser rein ästhetischen Evaluierung gibt es aber natürlich – zumindest für manche Tonmeister – auch den Anspruch, das Klangerlebnis des Konzertsaals möglichst „authentisch“ reproduzieren zu wollen, und hier lassen sich akustische Messungen als „Schiedsrichter“ dafür ins Spiel bringen, welche Mikrofontechniken dieses Ziel besser erreichen als andere. Eine detaillierte Signalanalyse (z. B. mittels FCC) kann dann auch ein erster Fingerzeig sein, warum manche Techniken hinsichtlich Räumlichkeitseindruck, Klangfarbe und Natürlichkeit besser abschneiden als andere.
Ein großer Vorteil von Surround- und 3D-Audio-Aufnahmen im Vergleich zu Zweikanal Stereo-Aufnahmen ist ihr Vermögen, ein Klanggeschehen räumlich wesentlich überzeugender abzubilden. Dies liegt daran, dass in einem Mehrkanallautsprecher-System der Direktklang (z. B. von vorne) und der Diffusschall/Nachhall) (z. B. von hinten wiedergegeben) das Hörerohr aus verschiedenen Richtungen erreicht – so, wie es im Konzertsaal der Fall ist. In einem traditionellen 2-Kanal-Stereo-Setup müssen beide Anteile aus denselben Lautsprechern von vorne reproduziert werden.
Verschiedene Untersuchungen haben gezeigt, dass die Hörerpräferenz stark mit der wahrgenommenen Räumlichkeit sowie „Natürlichkeit“ einer Audioaufnahme zusammenhängt; beide Faktoren sind zweifellos mit der wahrgenommenen Gesamtqualität einer Tonaufnahme verbunden und daher auch wichtig hinsichtlich einer möglichen Kaufentscheidung für eine solche Aufnahme.
In den letzten Jahren wurde eine beträchtliche Anzahl von Artikeln zum Thema Surround- und Stereomikrofontechniken veröffentlicht, welche in der Regel versuchen, deren Qualität mittels Hörtests zu beurteilen, oder ihre „technische Korrektheit“ (meist in Bezug auf die Lokalisationsgenauigkeit) durch mathematische Berechnungen zu belegen. Bei den mathematischen Analysen entsprechen die zugrunde liegenden Modelle – basierend auf der Psychoakustik des menschlichen Gehörs – mitunter einer so starken Vereinfachung der realen Sachverhalte, dass sie deren Gültigkeit m. E. in Frage stellt.
Es gibt kaum Studien, die versuchen, beide Seiten mit einzubeziehen: sowohl das Vergleichen und Bewerten mehrerer Mikrofontechniken mittels subjektiver Hörtests wie auch eine Analyse auf einer akustisch/technischen Ebene, welche die physikalisch-akustisch messbaren Parameter zum klanglicher „Charakter“ der jeweiligen Mikrofontechnik in Beziehung setzt.
Im Laufe dieser Recherche, die sich über 20 Jahre hinzog, war es vermutlich sehr hilfreich, dass nicht nur eine Vielzahl an Opern-, Orchester-, Ensemble- und Solistenaufnahmen von mir anzufertigen war, sondern auch viel Live-Beschallung. Die lieferte zusätzliche Erfahrung: Eine Mikrofontechnik, die über Lautsprecher mit einer Basisbreite von nur 3-4 m (wie es in einer häuslichen Umgebung oftmals der Fall ist) eventuell gut klingt, muss noch lange nicht überzeugend klingen, wenn die Lautsprecher einen Abstand von 20m und mehr voneinander haben. Das ist aber eine Situation, welche häufig in der Theaterwelt zu finden ist. Aufgrund dieser praktischen Erfahrungen wurde recht bald klar, dass nur Mikrofontechniken mit hoher Signaldekorrelation auch bei niedrigen Frequenzen geeignet sind, ein zufriedenstellendes Maß an „Natürlichkeit“ und „Räumlichkeit“ bei der Wiedergabe auf einem großen Soundsystem zu erzielen. Ein hoher Korrelationsgrad bei niedrigen Frequenzen führt nämlich sehr schnell zu einem „engen“, unnatürlichen Klang.
Erfreulicherweise gibt es mittlerweile auch PlugIns, mit denen sich der Korrelations-Koeffizient zweier Audio-Signale über der Frequenz in Echtzeit analysieren lässt, z. B. das PlugIn „2BC multiCorr“ der Fa MAAT Digital (www.maat.digital) und auch in Cubase Version 11 wurde ein entsprechendes Feature implementiert.
Bei Surround- und 3D-Aufnahmen sollte – sinngemäß – das Augenmerk des Tonmeisters besonders darauf gerichtet sein, dass der in einer Aufnahme enthaltene „Raumeindruck“ überzeugend wiedergegeben wird. Leider sind viele der gängigen Surround-Techniken von korrespondierenden Stereo-Mikrofontechniken abgeleitet, die ihrerseits aber oftmals im Bass-Bereich unerwartet hohe Korrelation aufweisen und somit hinsichtlich Räumlichkeit nicht wirklich ‘punkten’ können. In diesem Zusammenhang interessiert also die Höhe des Korrelationskoeffizienten im Bassbereich.
Korrelations-Beispiele
Eine kurze Reihe von Videoclips demonstriert die Korrelation über der Frequenz für die bekanntesten (aber auch einige eher ausgefallene) Stereo-Mikrofontechniken: www.youtube.com/watch?v=GC7CTRzjjnA
Warum der Klang von „Klein-AB“ im Bereich tiefer Frequenzen mangelhafte Räumlichkeit aufweist, lässt sich sehr einfach in der Abb. 1 erkennen: Unterhalb von ca. 220 Hz beträgt die Korrelation der Signale des linken und rechten Mikrofons mehr als 0,6 und ist somit als „hoch korreliert“ einzustufen (eine Korrelation = 1 entspricht einem Mono-Signal). Diese Höhe des Korrelationskoeffizienten im Bassbereich wurde in Abb. 2 für verschiedene Kanal-Kombinationen der bekannten Mikrofontechnik OCT-Surround („Optimal Cardioid Technique“) ersichtlich.
Wie in Abb. 2 zu erkennen, ist die Signal-Korrelation im Bassbereich für alle Kanal-Paarungen relativ hoch, mit Ausnahme lediglich der Kombination L/R, welche aus zwei Supernieren besteht, die unter einem Winkel von 180 Grad auseinander gerichtet sind.
So eine detaillierte Signalanalyse mag interessant aussehen, aber ist das Verhältnis der jeweils einzelnen Kanäle zueinander überhaupt relevant für den beim Hörer letztlich entstehenden Klangeindruck? Um dieser Frage nachzugehen, habe ich mich bei meinen Untersuchungen entschieden, auch einen Kunstkopf zum Einsatz zu bringen (Neumann KU81i, diffusfeldentzerrt).
Mit diesem wurde sowohl im Konzertsaal an einer passenden Position in der 6. Reihe Parterre des Großen Festspiehauses Salzburg (Fassungsvermögen: 2200 Sitzplätze) während der Surround-Aufnahmen mitgeschnitten, als auch später im Sweet-Spot eines Regieraums mit Surround-Abhöre, während über diese die mit verschiedenen Mikrofonierungstechniken angefertigten 5.1-Surroundaufnahmen wiedergegeben wurden (siehe Abb. 3).
Somit ließ sich also die binaurale Korrelationsfunktion der originalen Kunstkopfaufnahme mit der binauralen Korrelationsfunktion der jeweiligen Surround-Mikrofontechnik vergleichen.
In Abb. 4 ist das Ergebnis für die OCT-Surround-Technik zu sehen: für die Analyse des dargestellten 60-Sekunden- Musikausschnitts aus einem Orchesterwerk lässt sich erkennen, dass die originale binaurale Kreuzkorrelationsfunktion über der Frequenz (schwarze, gepunktete Linie) bereits ab ca. 400 Hz aufwärts mehr und mehr dekorreliert ist (mit Werten um Null, ca. +/- 0.2), während die binaurale Kreuzkorrelationsfunktion des reproduzierten Surround-Signals auch bei höheren Frequenzen stets hochkorreliert (d. h. > 0.6) bleibt, mit wenigen, schmalbandigen Unterschreitungen dieses Wertes. Das deutet darauf hin, dass die OCT-Technik nur mangelhaft in der Lage ist, die tatsächlichen Verhältnisse des Schallfeldes, wie sie an einem guten Hörerplatz im Konzertsaal aufgetreten sind, authentisch nachzubilden.
In diesem Zusammenhang ist interessant zu sehen, wie sich beispielsweise die – vor allem auch im Bereich von 3D- Audio – aktuell sehr beliebte „Ambisonic“-Technik verhält. In Abb. 5 ist die Kreuzkorrelation über der Frequenz für verschiedene Kanal-Kombinationen des Mikrofons SoundField MK V (Signalaufbereitung unter Verwendung des dazugehörenden Surround-Prozessors von SoundField) dargestellt.
Im Vergleich mit den in Abb. 2 dargestellten Kreuzkorrelations-Funktionen der OCT-Mikrofontechnik fällt in Abb. 5 auf, dass die Signale des SoundField-Mikrofons durchweg wesentlich höhere Korrelationswerte aufweisen: zwischen dem L- und R-Kanal, sowie zwischen dem L- und Center-Kanal (bzw. auch R- und Center-Kanal) mit Werten von 0,8 und 0,9 beinahe „monophon“, sowie auch zwischen den rückwärtigen Kanälen LS, RS bis 4 kHz hinauf hoch korreliert. Lediglich zwischen den seitlichen vorderen und rückwärtigen Kanälen geht die Korrelation oberhalb von 600 Hz in Richtung niedriger Korrelation. Sie steigt dann allerdings oberhalb von 10 kHz wieder steil an.
In Anbetracht dieser Messung, die die generell hohe Korrelation zwischen den Signalen eines Mikrofones nach dem Ambisonic-Prinzip erster Ordnung (FOA) belegt, ist es überraschend, dass sich diese Mikrofontechnik so großer Beliebtheit erfreut, da aufgrund der schlechten „Kanaltrennung“ auch der dadurch entstehende Raumeindruck stark zu wünschen übriglässt. Möglicherweise ist es also u. a. der kompakten Bauweise, einfachen Handhabung (oder den relativ geringen Anschaffungskosten mancher Modelle) sowie der Verfügbarkeit von binauralen Re-Rendering-Algorithmen für Kopfhörerwiedergabe zu verdanken, dass sich diese Technik so breiter Zustimmung erfreut.
Die im Buch The Art And Science Of Surround And Stereo Recording dokumentierten Kreuzkorrelations-Messungen (Kapiteln 6 und 7) unterschiedlicher Surround-Mikrofontechniken belegen jedenfalls, dass es einige andere Mikrofontechniken gibt, die wesentlich (d. h. statistisch signifikant) besser abschneiden.
Bereits in den späten 1960-er Jahren hat sich Keet mit der Frage beschäftigt, was denn „guten Klang“ (in seinem Fall: im Konzertsaal) ausmacht, und im Jahre 1968 den sog. „Binaural Quality Index“ (BQI) definiert, der auf der Messung der Korrelation der Signale an den Ohren (Gehörgang) des Konzertbesuchers in den Oktav-Bändern bei 500 Hz, 1 kHz und 2 kHz beruht.
Hohe klangliche Qualität der im Konzertsaal genossenen Musik ergibt sich demzufolge aus einer möglichst geringen Signal-Korrelation in diesen Frequenzbändern. Auch andere Untersuchungen beschäftigten sich vor bereits ca. 50 Jahren mit dieser Problematik und kamen zu einem ähnlichen Ergebnis: Nämlich, dass der optimale Kreuz-Korrelationswert für binaural gemessene Musiksignale in einem qualitativ guten Konzertsaal bei 0,23 liegt (siehe Gottlob 1973).
Als Konsequenz meiner auch obenstehend erläuterten Erkenntnisse schlage ich im Buch – auch für die Analyse und Beurteilung von 3D-Audio-Aufnahmen den „BQIrep“ (Binaural Quality Index of reproduced music) vor. Dieser „Binaurale Qualitätsindex für wiedergegebene Musik“, abgeleitet vom BQI nach (Keet 1968), kann als Maß für die (räumliche) Qualität reproduzierter Musik dienen.
Denn egal, ob es sich um „2D“-Surround- oder „3D“-Audio-Aufnahmen bzw. die dahinterstehenden Mikrofontechniken handelt, ergibt es Sinn, ein „menschliches Bezugsnormal“ in Form der Verwendung eines Kunstkopfes (oder binauraler Simulation desselben) zu verwenden.
Unabhängig davon, wie viele Reproduktionskanäle bei aufwändigen 3D-Audio-Setups von Auro 9.1 bis Hamasaki 22.2 involviert sind: letztlich müssen die Schallschwingungen in die beiden Gehörgänge des menschlichen Kopfes gelangen, also ist die Ähnlichkeit (oder Unähnlichkeit) der binauralen Signale das, was am Ende zählt und über den finalen Klangeindruck beim Hörer entscheidet.
Edwin Pfanzagl-Cardone ist Leiter der Akustikabteilung der Salzburger Festspiele für klassische Musik in Österreich. Nach seinem Studium der Elektronik und Informationstechnik am TGM schloss er 1991 sein Studium an der Universität für Musik und darstellende Kunst in Wien ab und erwarb den Titel eines Tonmeisters. Im Jahr 2000 schloss er seinen Master of Arts in Audioproduktion an der University of Westminster in London ab. Im Jahr 2011 promovierte er in Musikalischer Akustik und Psychoakustik an der KUG – Universität für Musik und darstellende Kunst, Graz, Österreich. Seit Anfang der 1990er Jahre arbeitet er als Tontechniker für Musikaufnahmen und Live-Beschallung sowie für Film und Fernsehen, hauptsächlich in Europa, aber auch in Japan und den Vereinigten Staaten.
(Bild: Edwin Pfanzagl-Cardone)
Als Arrangeur und Komponist hat er Aufnahmen bei BMG und Sony im Bereich der Popmusik veröffentlicht und Inhalte für internationale Produktionsmusiklabels sowie für Radio- und Fernsehwerbung geliefert. Dr. Pfanzagl-Cardone ist Autor von Preprints für AES- und VDT-Kongresse und hat mehr als 60 Artikel in Fachzeitschriften für Tontechniker veröffentlicht, darunter Pro Sound News Europe, Studio Sound, Media Biz und Prospect. Seit März 2010 lehrt er Beschallungstechnik am Fachbereich Design, Medien und Kunst an der Fachhochschule Salzburg. Als Komponist hat er vier CDs auf internationaler Ebene veröffentlicht. Neben mehreren hundert Archivaufnahmen für die Salzburger Festspiele umfasst seine Diskografie als Tonmeister rund 30 CDs und drei LPs bei Musiklabels wie Deutsche Grammophon und Orfeo. Er ist der Erfinder von drei Mikrofontechniken: dem AB-Polycardioid Centerfill (AB-PC), dem ORTF-Triple (ORTF-T) und dem Blumlein-Pfanzagl-Triple (BPT) und hält ein Patent in Surround-Mikrofontechnik.