1. Zwei Ohren, zwei Lautsprecher?

Zur Problematik der Phantomschallquellen- basierenden Lautsprecherwiedergabe

Viele Stereofans sind überzeugt, wenn alle Komponenten im Signalweg hochwertig genug sind ist die Audiowiedergabe kaum vom Original zu unterscheiden. Werden zwei Mikrofone dort aufgestellt, wo der Zuhörer im Aufnahmeraum sitzt, dann müsse doch die Übertragung mit perfekten Komponenten auch perfekt sein, schließlich haben wir auch nur zwei Ohren. Doch wichtige physikalische Zusammenhänge bleiben bei dieser Betrachtung völlig unberücksichtigt. Auch mit den hochwertigsten Anlagen können wir bestenfalls tonale Ausgewogenheit erzielen, korrekte räumliche Darstellung ist mit den konventionellen Verfahren nicht möglich. Die geht schon bei der Aufnahme verloren.

1.1 Die Räumlichkeit der Aufnahme

Im Aufnahmeraum treffen uns die Reflexionen aus allen Richtungen. In der horizontalen Ebene entstehen dabei, je nach Einfallsrichtung, Laufzeitunterschiede zwischen den Ohren (Interaural Time Differences, ITD). An den zwei Mikrofonen im Ohrabstand entstehen dieselben Laufzeitdifferenzen. Sie bleiben dann auch in der gesamten Übertragungskette gleich, werden von den zwei Lautsprechern korrekt wiedergegeben und bleiben bis an unser Trommelfell erhalten.

Aber sie sind nur ein Teil der Rauminformation. Ausgewertet werden sie im Frequenzbereich von etwa 100 Hz bis etwa 3,6 kHz. Darunter sind die Phasenunterschiede zu gering, darüber wird die Auswertung mehrdeutig, weil mehrere Wellenlängen des Signals in den Ohrabstand passen. Eine weitere Mehrdeutigkeit entsteht zwischen vorn und hinten. Bezüglich Laufzeit entsteht kein Unterschied, ob die Schallquelle vor uns oder hinter uns ist. Auch oben und unten macht keinen Unterschied, die Laufzeitortung funktioniert ausschließlich in der horizontalen Ebene des Zuhörers.

Für die korrekte Lokalisation sind deshalb die Pegelunterschiede, die durch Abschattung der Schallwellen an Kopf, Rumpf und Ohren entstehen, substantiell. Hier liefert unsere zwei Mikrofone- Anordnung aber völlig falsche Informationen. Bei Mikrofonen mit Kugelcharakteristik ist der Frequenzgang relativ unabhängig von der Einfallsrichtung, bei Richtmikrofonen nimmt der Pegel außerhalb der Achse zuerst im Hochtonbereich ab. In jedem Falle aber unterscheidet sich die Richtwirkung der Mikrofone völlig von der sehr komplexen Filterwirkung unseres Kopf- Rumpf- Ohr Systems. Reflexionen am Rumpf, Abschattungen des Kopfes und Resonanzen an den Ohrmuscheln führen zu Pegeldifferenzen an beiden Trommelfellen (Interaural Level Differences, ILD), die je nach Einfallsrichtung des Schalls frequenzabhängige Amplitudenänderungen von mehr als 20 dB zur Folge haben. Wir haben gelernt, diesen Frequenzgängen entsprechend unserer individuellen Head Related Transfer Function (HRTF) Einfallsrichtungen zuzuordnen. Im Zusammenspiel mit der Laufzeitortung gelingt uns so in allen Raumebenen eine gute Richtungslokalisation der Schallquelle. Ohne die korrekten ILD´s aber könnte die Vorn- Hinten Ortung nur durch Dopplereffekte mittels kurzer Kopfbewegungen erfasst werden, die Lokalisation in der Elevationsebene wäre ohne die winkelabhängigen Resonanzen am Außenohr völlig unmöglich.

Mit der Stereo- Mikrofonanordnung ist aber alle Rauminformation schon bei der Aufnahme auf eine horizontale Ebene reduziert worden. Daneben sind wichtige Richtungsinformationen verloren gegangen, weil der zugehörige Frequenzgang nicht entsteht. Das betrifft weniger die Quelle selbst, im Frontalbereich sind die Änderungen in den ILD´s nicht sehr ausgeprägt. Aber für die ersten Reflexionen, die auch seitlich, oben und hinten entstehen, steht das aufgezeichnete Spektrum zuweilen sogar im Widerspruch zu den Signalen, die uns die ITD´s liefern. Nicht nur „Listening Fatigue“, schnelle Ermüdung der auditiven Verarbeitung bei solchen Reproduktionen ist die unangenehme Folge. Die ersten schallstarken Reflexionen sind der Kern unserer akustischen Wahrnehmung. Sie erhöhen die subjektiv empfundene Lautstärke, die Sprachverständlichkeit und bestimmen die Wahrnehmung von Raumgröße und Entfernung zur Schallquelle. Die Raumdarstellung allein über den Nachhall bleibt wenig authentisch.

Bei Studioproduktionen gibt es erst in jüngster Zeit Forschungen zur Simulation dieser Signalanteile. Das wird die Produktionen deutlich verbessern. Bisher wird aber üblicherweise das gesamte Signal mittels Pan- Pot einer Amplitudenortung zwischen den Lautsprechern zugeordnet. Dann kommen direkte Welle und erste Reflexionen aus der gleichen Richtung, die Räumlichkeit ist eigentlich verloren. Sie soll dann mit künstlichem Nachhall erzeugt werden. Aber Nachhall kann nicht die Position der Quelle für die Wahrnehmung präzisieren, wie die ersten Reflexionen. Er liefert wichtige Informationen zu Raumgröße und –Reflexionseigenschaften. Woher er kommt ist aber von untergeordneter Bedeutung, auch im Aufnahmeraum trifft uns der Nachhall von überall her.

1.2 Die  Wahrnehmung der Phantomschallquelle

Alle kanalgebundenen Lautsprecherverfahren, also auch die Surround- Formate, basieren auf der Reproduktion von Phantomschallquellen, die wir scheinbar zwischen den Lautsprechern wahrnehmen. Sie entstehen durch die Psychoakustische Verknüpfung beider Ohrsignale, sind also nicht real. Leider verhalten sie sich auch nicht wie reale Schallquellen. Wir können unser Ohr nicht an sie halten, anders als eine reale Schallquelle wandert die Phantomschallquelle mit der Zuhörerposition. In Wirklichkeit hören wir eben nicht eine Schallquelle, sondern Zwei.

Um in der gleichen Richtung wahrgenommen zu werden müssen diese zwei Schallquellen deutlich größere Signaldifferenzen erzeugen als das Signal einer natürlichen Schallquelle. Bei ihr entsteht zum Beispiel bei dreißig Grad Azimutwinkel eine Laufzeitdifferenz zwischen den Ohren des Zuhörers von etwa 0,3 Millisekunden und ein Pegelunterschied von ca. 5 dB. Diese Differenzen erzeugen bei der Lautsprecherwiedergabe aber nur einen Winkel von etwa zehn Grad, für die Dreißig Grad brauchen wir 18 dB Pegeldifferenz und 1,5 Millisekunden Zeitunterschied.

Die Ursache dafür ist, dass der Schall aus der rechten Box nicht nur das rechte Ohr trifft. Mit dem Umweg um unseren Kopf erreicht er auch die linke Seite. Das erhöht den Interaural Cross Correlation Coefficient IACC, einen der wichtigsten Faktoren für unsere akustische Wahrnehmung. Wir empfinden ein Schallfeld dann als räumlich, wenn die Differenz zwischen beiden Ohrsignalen möglichst groß ist. Sind die Signale völlig unterschiedlich, so ist der IACC- Wert gleich Null, es gibt keine Korrelation zwischen den Signalen. Sind beide Signale völlig gleich, wie zum Beispiel bei Mono- Kopfhörerwiedergabe, so ist die IACC = 1. Mit etwa 0,3 erreicht der IACC- Wert für die Wahrnehmung einer Schallquelle im Freien die größtmögliche Signaldifferenz, wenn ihre Wellenfronten unser Ohr aus einem Winkel von etwa 55 Grad neben der Medianachse treffen. In akustisch guten Sälen kommt ein Grossteil der ersten schallstarken Reflexionen aus diesem Bereich. Ist die eigentliche Quelle auf der anderen Seite, so werden solche Reflexionen als akustische „Attraktionen" wahrgenommen. Sie machen uns dann bei Brahms die Gänsehaut, wenn die Hörner einsetzen.

Lautsprecher können das schon deshalb nicht, weil die rechte Box nur etwa 30 Grad neben der Medianachse steht. Je mehr die Darstellung aber zur Mitte wandert, umso weniger attraktiv wird die Wiedergabe. Auch im Konzertsaal tragen die mittigen Deckenreflexionen kaum zur Räumlichkeit bei. Sie können sogar kontraproduktiv sein weil ihr IACC- Wert nahe eins ist. Gute Architekten wissen das und versuchen diese Schallanteile zur Seite zu lenken. Unsere Lautsprecher aber können wegen des akustischen Übersprechens der Signale kaum einen IACC- Wert unter 0,6 erreichen, das Konzertsaalerlebnis bleibt damit unerreichbar. Alle Versuche, mit inversen Phasen oder anderen Tricks Schallanteile außerhalb der Stereobasis zu erzeugen, bleiben dilettantisch. Allein der Wiedergaberaum kann dort Schall erzeugen, der aber mehr störend als nützlich ist, wenn sich die Schallumwege zwischen Aufnahmeraum und Wiedergaberaum wegen unterschiedlicher Raumgröße deutlich unterscheiden.

Ohne die korrekten ersten Reflexionen ist uns aber auch eine wichtige Hilfe genommen, die Entfernung zur Schallquelle einzuschätzen. Der Ausgangspunkt aller Phantomschallquellen liegt ohnehin eindimensional auf der Linie zwischen beiden Lautsprechern. Das lässt sich nachvollziehen, wenn wir uns im Raum bewegen. Steht im Konzertsaal zum Beispiel die Violine von der Mitte aus gesehen genau vor der Pauke, so hören wir beide Instrumente aus derselben Richtung. Setzen wir uns nun aber auf den äußeren rechten Platz so hören wir die Violine deutlich links von der Pauke. Mit Phantomschallquellen reproduziert bleiben aber beide Instrumente in der gleichen Richtung, unabhängig von der Zuhörerposition. Beide Phantomquellen haben demnach einen gemeinsamen Ausgangspunkt. Deshalb ist es unrealistisch bei der Reproduktion von Phantomschallquellen die Tiefenstaffelung zu erwarten, die ein reales Schallfeld hat. Die Phantomschallquelle ist immer zwischen den Lautsprechern, nicht davor und nicht dahinter.

Allerdings können wir auch im Originalschallfeld die Entfennung der Quelle nur indirekt einschätzen. Die Differenzen der Signale zwischen beiden Rezeptoren benutzen wir schliesslich zur Bestimmung der Richtung und nicht, wie bei den Augen, zur Entfernungsbestimmung. Im Auditiven Bereich ist dabei das Wichtigste Kriterium die Lautstärke, wir halten leisere Quellen für weiter entfernt. Eine Phantomschallquelle kann allerdings nicht näher am Zuhörer sein als der ungerichtet abstrahlende Lautsprecher selbst.

Entscheidend für die wahrgenommene Entfernung ist auch das Pegelverhältnis von direkter Welle zum Diffusfeldanteil. Das kann bei Lautsprecherwiedergabe aber nicht höher sein als das des Lautsprechers selbst im Wiedergaberaum. Im realen Schallfeld hat eine sehr nahe Schallquelle fast nur Direktschall. In unserem Wohnzimmer sitzen wir aber deutlich außerhalb des Hallabstandes der Lautsprecher. Die Reflexionen des Wiedergaberaumes überdecken dann den hohen Direktschallanteil einer nahen Quelle, sie scheint deshalb immer hinter den Lautsprechern zu sein. Das ist eine weithin unterschätzte Einschränkung. Nahe Schallquellen, und seien es nur nahe Reflexionen, sind äusserst wichtig für die emotionale Wirkung der Darbietung.


1.3 Die Doppelräumigkeit der Wiedergabe

Im Grundtonbereich strahlen Einzellautsprecher ungerichtet ab. Zusätzlich zu der Raumdarstellung der Aufnahme überlagert dem Signal der Wiedergaberaum seine Reflexionen. Ihr Pegel hängt von der Nachallzeit des Wiedergaberaumes und der Richtwirkung der Lautsprecher ab. Daraus ergibt sich der Hallabstand, also die Entfernung in der Direktschall der Lautsprecher und Reflexionen des Wiedergaberaumes gleich laut sind. In üblichen Wohnräumen ist dieser Punkt bei der relativ ungerichteten Abstrahlung von Kompaktboxen weniger als einen Meter von den Boxen entfernt!

Problematisch ist dabei weniger der zusätzliche Nachhall, der sich der Reproduktion überlagert. Den können wir tolerieren solange sein Pegel geringer bleibt als der Nachhall im Aufnahmeraum [2]. Schlimmer sind die viel zu frühen ersten Reflexionen des Wiedergaberaumes. Oft haben die am Zuhörerpunkt kaum weniger Pegel als das direkte Signal des Lautsprechers. Die Überlagerung beider Wellenfronten führt dann zu Kammfiltereffekten mit Pegeleinbrüchen bis zu 20 dB und mehr.

Solche Kammfiltereffekte entstehen auch im Aufnahmeraum. Die Frequenzen, bei denen sich die Wellenfronten überlagern oder auslöschen sind abhängig von der Zeitdifferenz beider Signale. Weil unsere akustische Wahrnehmung ganz maßgeblich auf erlernten Reizmustern beruht, ordnen wir den resultierenden Klang einer Raumgröße zu. Deshalb sind die Effekte im Aufnahmeraum Hilfreich. Aber der Wiedergaberaum prägt der Reproduktion mit seinen viel zu kurzen Schallumwegen zusätzlich einen falschen Stempel auf. Dieser Einfuß ist meist sogar stärker als der des Aufnahmeraumes. Wir verdrängen diesen Effekt nur weitgehend bei der Wiedergabe, weil wir von unserem Wohnzimmer von vornherein nicht die Akustik eines großen Konzertsaales erwarten.

Die störende Wirkung des Wiedergaberaumes kann durch Bedämpfung der Reflexionsflächen vermindert werden, oder mittels Richtwirkung der Lautsprecher werden die Spiegelschallquellen im Wiedergaberaum mit weniger Energie versorgt. Dem Gewinn an spektraler Ausgewogenheit steht aber dann ein Verlust an Räumlichkeit entgegen. Manchmal, wenn sich der Aufnahmeraum nicht allzu sehr vom Wiedergaberaum unterscheidet, sind die Reflexionen des Wiedergaberaumes sogar hilfreich für die räumliche Darstellung. Interessant sind in diesem Zusammenhang die Forschungen von Acoustic Research in der Londoner Carnegie Hall, Ende der der achtziger Jahre. Man hatte gute Lautsprecherboxen auf die Bühne gestellt und mit trocken aufgenommenen Signalen der Solisten angesteuert. Die Zuhörer im Publikumsbereich konnten kaum unterscheiden, ob es sich um eine Reproduktion oder eine Livedarbietung handelt. Offensichtlich ist die räumliche Verteilung der Reflexionen, das Einschwingverhalten des Raumes, viel wichtiger als die letzten zwei dB Linearität in einem Frequenzgang der, im Detail betrachtet, ohnehin völlig von der Originaldarbietung abweicht.

Akustische Bedämpfung des Widergaberaumes oder erhöhte Richtwirkung der Lautsprecher kann fehlleitende Zeichen im Wiedergabesignal vermeiden. Für eine authentische Reproduktion müssen wir die Reproduktion dann aber auch mit den fehlenden Reflexionen aus ihren korrekten Richtungen ergänzen. Das scheint mit den Phantomschallquellen der konventionellen Verfahren nicht möglich zu sein. Neue Ansätze, wie Ambisonics oder Wellenfeldsynthese könne diese Probleme prinzipiell überwinden. Mit den virtuellen Schallquellen der Wellenfeldsynthese lässt sich das räumliche Schallfeld physikalisch rekonstruieren. Wie sie erzeugt werden und warum sich die virtuellen Schallquellen von den Phantomschallquellen so grundsätzlich unterscheiden, wird in den nächsten Kapiteln deutlich.

Doppelräumigkeit der Wiedergabe durch die überlagerte Impulsantwort des Wiedergaberaumes

2.Kapitel >
last update 2013-09-27