So sorgst du für mehr Sprachverständlichkeit

Der überwiegende Teil bekannter Musik- und Sprachproduktionen bietet eine gute bis angemessene Verständlichkeit von Gesang, Rap und Dialogen.

Leider ist eine gute Sprachverständlichkeit keinesfalls selbstverständlich. Deswegen ist es notwendig, während der Performance, Aufnahme, Nachbearbeitung und Mix, verschiedene Punkte zu beachten. Welche Maßnahmen und Hilfsmittel sich als zweckdienlich erwiesen haben, damit eure Produktion nicht im Top-Ranking von „Misheard Lyrics“-Videos erscheint, wollen wir im folgenden Workshop erläutern.

Inhalte

Performance

Die Wurzel der Sprachverständlichkeit liegt selbstverständlich in der Performance des Künstlers. Manchmal gibt es „Verständnisprobleme“, die dem Sänger oder Rapper überhaupt nicht bewusst sind, sodass man als Engineer oder Producer den Künstler darauf aufmerksam machen und versuchen sollte, ihn zu einer verständlicheren Performance zu bringen. Allerdings muss man hierbei aufpassen, dass durch eine unverhältnismäßige Verbesserungswut nicht die komplette Magie, Musikalität und Emotion einer Aufnahme zerstört wird.
In seltenen Fällen stellt man fest, dass ein zu hohes Songtempo keine ausreichende Sprachverständlichkeit ermöglicht, sodass man diesen Punkt der Produktion noch einmal überdenkt und den Song um einige BPM „runterschraubt“. Nimmt man beispielsweise Backing Vocals mit mehreren Künstlern gleichzeitig auf, so ist auf die Synchronität der Aussprache, speziell der Konsonanten zu achten. Obwohl Chöre erst durch Abweichungen von Timing, Tuning und Stimmfarbe lebendig werden, hat die Sprachverständlichkeit bei alledem einen begrenzten Sweetspot. Liegen Silben und Konsonanten zu weit auseinander, verschwimmt die Verständlichkeit, sodass ein Coaching oder erneutes Rehearsal der Akteure erforderlich ist

Empfohlene Beiträge

Aufnahme

Die beste Performance kann durch eine mangelhafte Durchführung der Aufnahme getrübt werden. Eine korrekte und möglichst konstante Positionierung des Mikrofon sowie eine zweckdienliche Richtcharakteristik (etwa Niere) gewährleisten ein konstantes Klangbild. Hierbei ist zu beachten, dass (möglicherweise unregelmäßige) Nahbesprechungseffekte den Sound und die Verständlichkeit nicht negativ beeinträchtigen. Gleiches gilt für Raumeinflüsse, die bei einer zu großen Entfernung oder ungünstigen Einsprechrichtung die Sprachverständlichkeit mindern.
Ein wichtiges und nahezu unverzichtbares Tool zum Vocalrecording ist der Poppschutz. Der Poppschutz mindert tieffrequente Artefakte und Explosivlaute, die neben dem Klangbild auch die Verständlichkeit einzelner Silben und Konsonanten verfälscht. Meist ist die Aktivierung eines Hochpassfilters, das häufig in Mikrofonen und Vorverstärkern anzutreffen ist, zusätzlich sinnvoll. Generell kann man sagen, dass die Sauberkeit des aufgenommenen Signals die Sprachverständlichkeit erhöht. Kopfhörerübersprechungen oder sonstige vermeidbare Hintergrundgeräusche, die man während der Aufnahme möglicherweise als nicht allzu störend empfindet, können im Mix mit zusätzlicher Kompression und Höhenanhebung die Verständlichkeit von Silben und Konsonanten mindern.

Hilfsmittel wie ein (quasi unverzichtbarer) Poppschutz sowie der ebenfalls abgebildete Aston Microphones Halo begünstigen die Sprachverständlichkeit, auch in Räumen ohne optimale Akustik.

Nachbearbeitung

So wie kaum ein Topmodel makellose Haut besitzt, ist auch kaum eine Aufnahme absolut perfekt! Gut, dass es im DAW-Zeitalter umfangreiche Nachbearbeitungsmöglichkeiten gibt. Da man in der Regel mehrere (bis sehr, sehr viele) Takes in einer Vocalsession aufnimmt, kann man sich während des sogenannten Compings die Rosinen aus dem aufgenommenen Material herauspicken – in unserem Fall tauscht man unverständliche Silben, Worte oder Phrasen gegen bessere Alternativen aus anderen Takes aus. Im nächsten Schritt, wenn sich nicht alle Problemstellen per Comping zufriedenstellend optimieren lassen, kann man versuchen, eine Lösung mittels eines Plugins herbeizuführen. Ein typischer Missstand ist das Vorkommen tieffrequenter, teilweise „explosiver“ Artefakte (nicht selten trotzt Poppschutz und Hochpass im Aufnahmeweg), welche die Verständlichkeit beeinträchtigen und den Einsatz weiterer Hochpassfilter erfordern. Für ein zufrieden stellendes Ergebnis muss die Einsatzfrequenz gegenüber gängigen Aufnahmeeinstellungen von etwa 70 bis 100 Hz oftmals deutlich erhöht werden. Um dem Stimmsignal hierbei nicht jegliches Volumen und Wärme zu rauben, sollte man derartige Eingriffe automatisieren oder etwa per AudioSuite oder Region Bounce nur an den notwendigen Positionen vornehmen. Eine vollkommen andere Ursache haben Unverständlichkeiten am Wortende, bei denen die Endkonsonanten quasi „verschluckt“ werden. Häufig wird dies durch ein hohes Tempo und wenig Atemmöglichkeiten verursacht. Ein (vielleicht merkwürdig anmutendes) Beispiel: „You belong“ klingt wie „you belo…“ Obwohl die „ng-Endung“ nicht oder kaum wahrnehmbar ist, kann es sein, dass das „notwendige Material“ dennoch vorhanden ist. Hier erreicht man manchmal mit Melodyne verblüffende Verbesserungen, indem man diesen unscheinbaren „Schwanz“ eines Wortes oder einer Silbe separiert und durch Timestretching verlängert. Tipp: Den Startpunkt in der Zeitachse etwas nach links zieht.

Weitere Tipps:

explosive (und dadurch falsch klingende) Konsonanten per Fade-In „entschärfen“
störende Konsonanten, Schmatzer oder Geräusche in kurzen Gesangspausen leiser machen oder löschen
asynchrone Konsonanten und Silben auf Dopplungsspuren „alignen“ (manuell, VocAlign, Revoice, Melodyne)

Manche Konsonanten und Plopplaute erfordern eine separate Bearbeitung (Fade, Lautstärke, zusätzliches Filter).

Die Synchronizität gleichzeitiger Gesangsstimmen ist ebenfalls ein wichtiger Faktor: Melodyne und andere Tools wie VocAlign bieten hierzu Optimierungsmöglichkeiten.

Mix und Mastering

Der Mixdown einer Produktion bietet abschließend eine Vielzahl von Möglichkeiten die Sprachverständlichkeit weiter zu verbessern – aber auch zu verschlechtern! Der Reihe nach: Die elementaren Tools im Mix sind der EQ und der Kompressor, die man entsprechend der gewünschten Ästhetik, Präsenz und Durchsetzungsfähigkeit einsetzt. Gefühlvolle Anhebungen zwischen etwa 2 und 5 kHz sind der Sprachverständlichkeit zuträglich, ähnlich verhält es sich mit noch höheren Frequenzen, wobei man hier darauf achten sollte, keine unnötige Schärfe zu erzeugen. Diese wiederum kann sehr kontraproduktiv im Zusammenklang von Lead-Tracks und Dopplungen sein, weshalb man Backingvocals bei Bedarf teilweise etwas intensiver mit dem De-Esser und weniger plakativ mit dem Equalizer bearbeitet werden als Leadvocals. Beim De-Essing wiederum muss man stets auf der Hut sein, kein Lispeln zu erzeugen.

So könnte eine exemplarische EQ-Einstellung zur Verbesserung der Sprachverständlichkeit aussehen.

Ähnliches gilt für den Einsatz von Kompressoren, welche ein entscheidendes Werkzeug zur klanglichen Gestaltung sind. In der richtigen Intensität können Kompressoren wichtige Artikulationsdetails und bis dahin „unscheinbare“ Konsonanten und Endungen hervorlocken und somit die Verständlichkeit beträchtlich steigern. Übertreibt man es mit der Kompression, können beispielsweise Störgeräusche aus dem Hintergrund (etwa in Atempausen) hervortreten sowie Atmgeräusche und einzelne Konsonanten unnatürlich laut werden, was die Sprachverständlichkeit unter Umständen dramatisch verschlechtert. Typische Send-Effekte wie Hall und Delay gehören üblicherweise in jede Produktion. Übertreibt man es hiermit, könnte der resultierende Klangbrei ebenfalls die Verständlichkeit beeinträchtigen. Ein effektives Mittel hiergegen ist das Automatisieren oder Ducking von plakativen Effekten, die hierdurch quasi erst in Gesangspausen zur vollen Entfaltung kommen.

Automation, Kompressor und Ducking-Effekte (hier AIR Dynamic Delay in Pro Tools) sind sinnvolle Tools zur Optimierung sowie Erhaltung der Sprachverständlichkeit bei plakativem Effekteinsatz im Mix.

Selbst der Masteringprozess bietet noch Zugriffsmöglichkeiten auf die Sprachverständlichkeit, wenn auch in begrenztem Umfang. Manchmal bewirkt ein M/S-EQ, mit dem man etwa ausschließlich die Frequenzen des Mittensignals (Hauptwohnsitz der Leadvocals) sowie das Lautstärkeverhältnis zum Seitensignal bearbeitet, eine spürbare Verbesserung.

Finaler Check für die Sprachverständlichkeit

Wie beurteilen Dritte die Sprachverständlichkeit?
Was ist wichtiger: Sprachverständlichkeit oder Emotion?
Wie verhält sich die Gesangs-/Rap-Lautstärke im Vergleich zu Referenzproduktionen?
Sind die Zischlaute angemessen (nicht zu stark/schwach) bearbeitet worden?