Gitarre Bass Workshop_Thema
Workshop
2
09.04.2015

Basics - Digital Audio und Recording: Die wichtigsten Grundlagen

Sample Rate, Bit Rate, Latenz und CPU-Last endlich verstehen

Schluss mit den Mythen!

Die Grundlagen der digitalen Audiotechnik zu verstehen, hilft bei der Produktion enorm. In diesem Basics-Artikel kannst du lernen, was in für du für einen qualitativ hochwertigen Umgang mit Digitalsignalen wissen musst. 

 

Gutes Setup ist die halbe Miete!

Zu Beginn einer jeder Aufnahmesession gibt es meist schon die ersten Verwirrungen: Es gilt die richtige Auflösung ( Bit Rate, Wortbreite, Bitdepth oder Bittiefe) und Abtastrate (Sample Rate, fs) zu wählen. 
Was darf es denn sein: 44,1 kHz/ 16 Bit, 88.2 kHz/ 24 Bit, 96 kHz/ 24 Bit – oder doch lieber 192 kHz /24 Bit? Obwohl, warte mal, meine DAW läuft doch mit 64 Bit- das kann ich hier aber gar nicht einstellen… Ganz schön kompliziert?! Und dann war da doch auch noch was mit dem Samplepuffer… Nee, nicht das Süßgebäck !

Egal! Viel hilft viel, oder?

Wohl eher nicht, denn obwohl moderne Rechner im Monatszyklus mehr Rechenleistung bieten, hat man am Ende einer Session garantiert eins nicht mehr übrig: zu viel Rechenleistung! Und außerdem kommt man ja auch nicht im Monatstakt in den Genuss eines neuen Rechners – es heißt haushalten mit den zur Verfügung stehenden Ressourcen!Jetzt mögen die einen meinen, dass man einfach zu viele Spuren und Effekte im Projekt nutzt, falls es mit einem aktuellen Rechner eng wird. Doch sind nicht gerade diese Unmengen an gelayerten Spuren bei Bands wie Depeche Mode für deren unglaubliche Klangtiefe und Vielschichtigkeit verantwortlich? 

 

Wo kann man also sparen, ohne dass die Mix-Möglichkeiten Not leiden?

Nun zu aller erst sollte man wissen, dass ein Rechner unter Volllast Midi- und Audiodaten nur sehr träge verarbeitet. Das macht sich vor allem in Form von DropOuts (Holperer im Beat, Aussetzer) bemerkbar; unser Projekt wird nur noch lückenhaft bzw. irgendwann gar nicht mehr wiedergegeben. Das lässt sich zwar unter anderem durch ein Vergrößern des Samplepuffers bis zu einem gewissen Maß kompensieren (denn bei richtiger Einstellung verhindert dieser das Abreißen des Audiostreams vom Prozessor zur Soundkarte hin durch eine Art „Vorratsspeicherung“ an Daten), allerdings geht mit großem Samplepuffer, auch eine schwerfällige Ansprache des Systems auf Echtzeiteingaben einher, sprich: lange Leitung!Das Fachwort dafür ist Latenz. Es bezeichnet die Zeit, die zwischen erfolgter Ein- und hörbarer Ausgabe vergeht. Also die gesamte Durchlaufzeit durchs System, bis es wieder „analog“ erklingt. Je größer diese Zeit wird, desto schwieriger wird es, z.B.: Softwareinstrumente live zu spielen. Kurz:Hohe Qualität -> hoher Rechenaufwand -> hohe Latenzen = geringe Echtzeitperformance oder niedrige Spurzahl

Klingt wie eine Formel, heißt aber eigentlich nur: soll es wirklich optimal klingen, hat der Rechner unter Umständen schon mit weniger Aufgaben so viel zu tun, dass er nicht mehr alle Echtzeitjobs verzögerungsfrei erledigen kann.

 

Samplepuffer:

In einer Mischsituation wird man den Samplepuffer in der Regel Hochsetzen, so dass man noch mehr Leistungsreserven für Plug-Ins hat – ob die Wandlung einer gedrückten Taste am Controller Keyboard in einen Sound oder eine EQ Einstellung dann 10 ms länger dauert, ist dann nicht so erheblich. Denn alles, was bereits aufgenommen ist, wird synchron wiedergegeben – nur Echtzeiteingaben leiden unter dieser Latenz. Aber wie gesagt: man hat mehr Signalverarbeitungsleistung zur Verfügung! Für die Plug-Ins spielt diese I/O-Latenz keine Rolle, denn ihre „Echtzeitbearbeitung“ bezieht sich auf bereits aufgenommene Dateien. So bekommen die Plug- Ins das Audio häppchenweise zur rechten Zeit vom System, damit die Wiedergabe synchron bleibt.

 

 

Am Anfang einer Session wiederum, in der Ideen noch hin und her geworfen werden, und das System möglichst unmittelbar und geschmeidig auf Eingaben reagieren muss, sollte man den Puffer so klein wie möglich halten. Eine geringe Latenz vereinfacht nicht nur die (Ein-) Spielperformance ungemein, sie ist auch wichtig um Instrumentalisten oder Sängern ein Monitoring durch den Rechner zu ermöglichen. Denn, wenn man den Sound der aufzunehmenden Signale mit virtuellen Amps oder Effekten veredelt, kann eine zu hohe Eingabe/Ausgabe-Latenz die ganze Aufnahmesession verhageln, da sie das „Einspielgefühl“ extrem beeinflusst. Bei aufzunehmenden analogen Signalen oder virtuellen Instrumente, sollte man das also nie außer Acht lassen!

Zu klein sollte der Samplebuffer (engl. für Samplepuffer) natürlich auch nicht gewählt werden, da sich dann die Wiedergabe vor allem durch Knackser, Plops und Drop Outs auszeichnet (eigentlich ein tolles Feature für alle Freunde von Clicks and Cuts… ) 

Was ist also die richtige Einstellung? Versuch macht in der Regel klug - die Einstellung ist mit einem Mausklick wieder hoch gesetzt! Aktuelle Systeme kommen problemlos mit 256, 128 oder teilweise sogar mit nur 64 Samples aus. Beispielsweise entsprechen 64 Samples bei 24 Bit / 44.1. kHz einer globalen Latenz (also raus und wieder rein) von rund 5 ms. Das ist natürlich von System zu System leicht unterschiedlich. Ein Übermaß an Systemleistung würde all diese Schritte überflüssig machen, setzt aber auch einen entsprechend, großen Zahlungsmittelüberschuss voraus... Also:

Richtig haushalten mit den Ressourcen oder 'Wie ich lernte, den Freeze Button zu lieben…' 

Beim „Freezen“ wird der ausgewählte Track mit all seinen hinzugefügten Effekten und EQ- Einstellungen gerendert, anschließend deaktiviert und temporär durch dieses gerenderte Audiofile ersetzt. Somit können alle Effekte, etc. ausgeschaltet werden, denn sie sind jetzt in dieser Datei in eingerechneter Form hörbar. Für viele Audioprogramme gehört diese Funktion inzwischen zum Standard.

Das spart eine Menge Rechenleistung – vor allem wenn man leistungshungrige Effekte bzw. Instrumente auf der Spur nutzt. Dabei spielt es keine Rolle, ob am Anfang der Bearbeitungskette eine Audiospur oder ein virtuelles Midi-Instrument steht. Man kann seine Tracks auch jederzeit wieder "auftauen", damit wäre alles wieder im Originalzustand; inklusive der dafür benötigten Rechenleistung, versteht sich. Es lassen sich dann wieder beliebige Veränderungen am Sound vornehmen - die anschließend, bei Bedarf, editiert, wieder gefreezed werden können. Dabei sollte man aber den Zeitaufwand nicht außer Acht lassen! 

Will man in einem "Monsterprojekt" mit vielen „Frozen“ Tracks gezielt Veränderung vornehmen, die das „Auftauen“ mehrerer Tracks gleichzeitig nötig machen, kann es passieren, dass das Projekt unter der zusätzlich anfallenden Echtzeitrechenlast regelrecht kollabiert! So empfiehlt es sich, eventuell nur einen Track zur gleichen Zeit aufzutauen, zu bearbeiten und wieder zu freezen - bevor man sich den nächsten vornimmt. Das wiederum frisst eine Menge Zeit und Konzentration, da man nur noch Bearbeitungs-Statusbalken von links nach rechts wandern sieht!

 

 

Man kann einen „frozen“ Track auch permanent als Audio fixieren. Dabei wird die ausgewählte Spur durch das im Stück gerenderte Audio ersetzt und das Original gelöscht. Man erhält dann ein reines Audiofile, das sich nicht mehr in den Ursprungszustand mit allen Plug-Ins zurückversetzen lässt! 

Natürlich ist das keine Alles-Oder-Nichts Situation: man kann Plug-Ins für dynamische Effekte, wie z.B. Filter-Plug-Ins für Filterfahrten, am Ende von komplexen Effektketten einfach auf eine andere Spur auslagern, und dann erstmal nur die „statischen“ Effekte in die Spur freezen (bzw. die, bei denen man sich sicher ist, dass sie optimal eingestellt sind). Dann routet man den Ausgang dieser Spur in die mit dem Filter und erhält sich so die Flexibilität im Mix, Änderungen ohne Wartezeit vorzunehmen – Leistung gespart hat man trotzdem, da alle anderen Effekte „frozen“ sind und wieder Ressourcen freigeben.

Da es sich bei dem Fixieren/ Rendern von Audio um irreversible Schritte handelt, bei denen die finale Qualität des ganzen Mixes festgelegt wird, kommt man nicht um das Grundverständnis von Bittiefe, Samplerate und deren Wandlungen herum. Denn jede Veränderung bringt Qualitätseinbusen mit sich! Ausnahmen gibt es nur bei der Arbeit ohne Samples und Audioaufnahmen, also eine auf reinweg VST- und Echtzeitsignalverarbeitung setzende Produktion. Hier kann man zu jedem Zeitpunkt die Auflösungen und Abtastraten wechseln – auch nachträglich!

Leider kann man aber auch nicht für jedes Szenario "das" Patentrezept abgeben, deshalb möchte ich jetzt ein paar Grundlagen vermitteln, so dass jeder seine ganz persönliche Herangehensweise entwickeln kann. Das geht natürlich nicht ganz ohne die graue Theorie...


Achtung: Mathe und Signaltheorie! 

Lassen wir also fachlich den „Tiger aus dem Tank“: Beim Recording wird Schalldruck in eine äquivalente (also im gleichen Verhältnis zueinander stehende) elektrische Spannung transformiert. Vor der eigentlichen Digitalisierung durch den A/D- Wandler wird das elektrische Signal zur Bandbegrenzung gefiltert. Würde das nicht geschehen, ergäben sich hässliche Aliasingartefakte bei der Rückwandlung. Erst danach wird abgetastet und quantisiert. Anschließend wird das verarbeitete Signal noch weiter kodiert, um es für weitere Bearbeitungs- oder Speicherungsvorgänge hin zu optimieren.

 

 

Diese mehrschrittige Digitalisierung ist verlustbehaftet, d.h. es gehen Informationen unwiderruflich verloren. Bei der anschließenden Rückwandlung kann nur noch approximiert, d.h. ans ursprüngliche Original „angenähert“, werden. Technisch werden diese Transformationsschritte aber so geschickt gewählt, dass jene Rekonstruktionsfehler möglichst in Bereiche fallen, die kaum mehr wahrnehmbar sind. Außerdem wurden die Techniken über die letzten Jahrzehnte so an das menschliche Hörvermögen angepasst, das möglichst alle „relevanten“ Inhalte erhalten bleiben – der Verlust also sozusagen "außerhalb" stattfindet. Dazu aber gleich mehr...

 

Abtastung 

Um so genannte Aliasingeffekte zu vermeiden, muss das wertkontinuierliche ("stufenlose"), analoge Signal zur Abtastung bandbegrenzt werden. Aliasing klingt nämlich fürchterlich, denn die dabei entstehenden "bösen" Clone erzeugen aus den hohen Frequenzen unseres Musikmaterials tieferfrequente Störgeräusche, da sie spektral gedreht sind.

 

 

Übliche Filterkonstanten versuchen, das menschliche Hörvermögen nachzubilden, so dass meist von ein paar Hz bis hoch auf 20 kHz bandbegrenzt wird. Null Hz wird dabei ausgeklammert, da dies der gefürchteten DC/ Gleichspannung entspricht, und diese würde die Schwingspulen Eurer Boxen braten! Durch die Abtastung wird aus dem glatten Signal ein unendlich "Bizzares", da es unendlich viele Clone ("Aliases") des ursprünglichen Signals in seinem Spektrum besitzt. 

Wird jedoch die Abtastbedingung fSamplerate > 2*fMax eingehalten, so überlappen sich die periodischen Frequenzbänder nicht. Trennt man das Basisband dann korrekt ab, kann das ursprünglich analoge Signal vollständig rekonstruiert werden. Dann klingt es auch so, wie es soll!

Vorausgesetzt, die Abtastung erfolgt immer in den gleichen Zeitabständen (oder fachlateinisch: äquidistant). Geschieht dies nicht, kommt es zu zeitlichen "Drifts", die als Jitter wahrgenommen werden. Auch das klingt nicht gut. Deshalb sind präzise Clocksignale für mehrere A/D- D/A Systeme in einer professionelle Umgebung Pflicht!

Abtastrate 

Einerseits soll die Abtastrate zur Vermeidung der gefürchteten Aliasingeffekte größer als das Doppelte der Bandbreite des analogen Audiosignals sein, anderseits wirkt sich eine allzu hohe Samplerate auch Enorm auf Speicher- und Rechenbedarf aus. Faustregel: mehr braucht mehr! 

Die Qualitätsverbesserung z.B. von 48 kHz auf 96 kHz ist meiner Meinung nach, vor allem in Betracht des erforderlichen doppelten Speicher- und Rechenbedarfs, zu vernachlässigen. Selbst Experten streiten gern darüber, wie stark, und ob das außerhalb eines direkten A/B Vergleichs überhaupt relevant - sprich: deutlich hörbar - ist. Bei den Bitraten ist der Qualitätssprung von 16 auf 24 Bit dagegen deutlich. Fakt ist, dass ein System, bei entsprechend hohen Samplerates, mehr belastet wird und somit erheblich mehr Performance verbraucht. Viele Digitalmischer bieten z.B. bei 96 kHz nur noch die halbe Spurenzahl, bzw. digitale ADAT Verbindungen sind dann gar nicht mehr oder nur im speziellen SMUX Format, mit halbierter Kanalzahl, verfügbar.  

Vor allem, wenn man für das CD und MP3-Format produziert, sollte man sich das also gut überlegen. Effektiv fallen die Qualitätsverbesserung am Ende in den Bereich von Feinheiten. Hier gilt es auszuprobieren, ob es der eigenen Musik wirklich zu gute kommt. Sollte der Rechner problemlos mit 96 kHz Projekten klarkommen, gibt es natürlich keinen Grund auf die "Extraqualität" zu verzichten. Projekte mit 192 kHz zu fahren halte ich im Rahmen des Homerecordings für nicht notwendig. Wer meint, drastische Unterschiede zu hören, sollte überprüfen, ob nicht vielleicht der Filter seines Digitalwandlers defekt ist…

Als Standardwerte jedenfalls, haben sich 44,1 und 48 kHz durchgesetzt. Erstere Rate finden wir bei der Audio- CD, zweitere wird vor allem im Video- und Broadcastbereich eingesetzt. Auch bei der Erstellung von MP3s und Audio für das Internet, empfiehlt sich 48 kHz für das Ausgangsmaterial, da viele herkömmliche Audiochips „fix“ auf 48 kHz laufen. Das bedeutet, dass selbst bei Wiedergabe einer Audio CD umgerechnet werden muss. Das ist heutzutage zwar alles mit hochwertigen Algorithmen möglich, allerdings ist die "Hochwertigkeit" einiger Consumer-Produkte durchaus zu hinterfragen. Professionelle Wandler hingegen, können durchaus verlustfrei mit unterschiedlichen Raten umgehen. Oft auch mit deren Vielfachen, sprich: 88,2 kHz, 96 kHz, 192 kHz, usw.

 

 

Natürlich gibt es auch Anwendungsfälle, in denen sich hohe Samplerates lohnen: Beispielsweise bei häufigen Hin- und Rückwandlungen, wie sie z.B. beim Einbinden von analogem Outboard Equipment als so genanntes „Hardware Plug-In“ oder dem Analogsummieren auftreten. Viele Profis schwören ja noch immer auf hochwertige, analoge Prozessoren, wie z.B. High End EQs a la Manley Massive Passive oder Massenburg GML 8200 bzw. Bus Kompressoren a la SSL und Chandler TG 1. Aber noch mal: Die Audioqualität verbessert sich bei Verdopplung der Samplerate (= doppelter Rechenaufwand) nicht so deutlich, wie es z.B. bei Erhöhung der Bit Tiefe der Fall ist. Man sollte sich wirklich gut überlegen, ob einem das Fünkchen mehr, soviel Aufwand, Speicherplatz und Rechenleistung wert ist.

Wer also vom Heimstudio aus den Chartangriff plant, und den Weg über Netz, Mp3, Video und/oder DVD gehen will: 48 kHz - für die "geile CD" reichen 44,1kHz meist aus.  

 

Quanten möglichst ohne Sprünge: Quantisierung und Codierung 

Durch die Abtastung des wertkontinuierlichen (analogen) Signals, wird, dem momentan am Wandler anliegenden Spannungswert, ein diskreter (digitaler) Wert zugewiesen. Die unendlich vielen Möglichkeiten von Amplitudenwerten werden dabei von einer endlichen Anzahl, genau vorher bestimmter Quantisierungswerte dargestellt. Bildlich gesprochen: Das analoge Audio muss durch ein „Sieb“.  Dabei kommt es zu Rundungsfehlern, die zwangsläufig zu Informationsverlusten führen! Diese werden umso größer, desto weniger Quantisierungsintervalle vom Musikmaterial in Anspruch genommen werden. Das ist zum Beispiel bei ausklingenden Hallfahnen der Fall.
 
Die Größe des dadurch entstehenden Quantisierungsfehlers, auch Quantisierungsrauschen genannt, hängt von der Größe der „Sieblöcher“, den so genannten Quantisierungsintervalle ab. Praktisch werden diese mit 16 & 24 Bit und intern sogar mit 32 & 64 Bit so klein gewählt, dass dieser Quantisierungsfehler unter einer vorherbestimmten Maskierungsschwelle liegt, so dass er von den meisten Menschen nicht wahrgenommen werden. Am Problematischsten ist dabei, dass dieser Fehler auch noch mit dem Eingangssignal korreliert, das heißt, dass dieser Fehler vom Eingangssignal abhängig ist. Damit kommt es zu nichtlinearen Verzerrungen.  Dies wird vor allem bei leisen Passagen im Musikmaterial deutlich, da hier einfach ein "Bit Mangel" zur Beschreibung der geringen Amplitudenwechsel besteht. Im schlimmsten Fall, würde so aus einem leisen Sinus, ein Rechteckartefakt, dessen Wiedergabe sich durch reichlich Oberschwingung auszeichnet und am Ende als Verzerrungen wahrgenommen wird. Der Quantisierer muss also linearisiert werden.

Lass zittern! Dithering und Noise-Shaping

Deshalb wird beim Dithering, dem zu quantisierendem Musikmaterial, ein breitbandiges Zufallssignal (ein stochastisches Rauschen) vor dem Quantisieren beigemischt. Somit linearisiert man die Übertragungskennlinie des Quantisieres, da der Fehlermittelwert auf das ganze Material verteilt wird. Das Grundrauschen wird dadurch zwar angehoben, aber leise Passagen sind einfach deutlicher zu erkennen. Praktisch muss man sich das so vorstellen, dass eine, durch das Quantisieren entstandene, Rechteckschwingung, durch das Rauschen, wieder ihrer ursprünglichen Wellenform angenähert wird.  

 

 

Dieses Rauschen ist bei Auflösungen ab 16 Bit subtil und liegt meist unterhalb von dem, was von analogem Equipment verursacht wird (quasi „Bio- Dithering“). Erweiterungen dieses Verfahrens bedienen sich der spektralen Formung des Rauschens, wobei die Energiedichte des Rauschens speziell an die Eigenarten des menschlichen Gehörs angepasst und in weniger bis nicht wahrnehmbarer Frequenzbereiche verschoben. Das nennt sich dann NoiseShaping. Es gibt aber auch Mischformen aus Dithering und Shaping, wie z.B. das UV-22 von Apogee. Weiterhin unterscheidet man fixe und variable Filter. Beim variablen Filter wird eine vom Musikmaterial abhängige Filtereinstellung generiert, damit sich das Shaping dem (spektralen) Verlauf der Musik anpassen kann. Merken sollte man sich, dass ein korrekt gedithertes Audiofile in Bezug auf den Signalrauschabstand einem analogen System bei weitem überlegen ist. Bei einem ungeditherten File, muss das längst nicht so sein.
 

Aber: was bedeutet das jetzt für meine Produktion? Meine CD hat am Ende doch eh nur 16 Bit und DVD- Audio ist auf 24 Bit beschränkt? 

Zuvor erwähnte Rundungsfehler treten nicht nur bei der Analog- Digital Wandlung auf, sondern auch bei digitalen Bearbeitungsprozessen. Schon alleine die Pegelmanipulation innerhalb einer Spur stellt eine Rechenoperation da, die Rundungsfehler verursacht. Im Mix summieren sich dann die Fehler mit zunehmender Spurenzahl. Es kann passieren, dass in einem 16 Bit Mix ein Signal mit nur 4 Bit oder weniger beschrieben wird. Und die resultierenden, kantigen Wellenverläufe, welche die gefürchteten unharmonischen Obertöne hervorrufen (sprich Verzerrungen), kennen wir ja bereits…Deshalb, vorher alle Faktoren so genau wie möglich (24 bzw. 32 Bit) in die Rechnung einbringen und erst das Endergebnis (Mixdown) z.B. auf 16 Bit runden! Verwechslungsgefahr Mixengine: Programme wie z.B. Cubase, Reason, Live und andere arbeiten unabhängig vom eingestellten Audioformat intern immer mit 32 bzw. 64 Bit Genauigkeit - was aber nicht heißt, das Audio auch in dieser Bittiefe aufgenommen wird. Also genau die Programmeinstellungen checken!

 

Also was nun? Viel hilft viel?! 

Super genaues Rechnen braucht seine Zeit und Leistung; Kreativität muss fließen. Ein Teufelskreis! Bei dem kreativen Arbeiten ist der feinster Sound ist noch nicht so wichtig, so dass man anfangs eventuell 16 Bit Samples und Processing wählt, solange man auf geringe Latenzen und Performance angewiesen ist, um live sauber spielen zu können. Ist alles ausarrangiert, wechselt man in eine hohe Auflösung und rendert dann alles höchst akkurat. Alles kein Problem, solange man nur mit virtuellen Instrumenten und Samplern arbeitet. Sollte man allerdings mit echten Audioaufnahmen arbeiten, und dazu zählt auch das „als Audio fixieren“ von Outboardquellen und frozen Tracks, so muss man auf die richtige, sprich finale, Auflösung achten.  
 
Je nach dem was eure DAW so hergibt, wird man sich dann für eine Wortbreite (Bittiefe) von 24 bzw. 32 Bit entscheiden, um sich alle Möglichkeiten offen zu halten. Als Samplerate sollte man 48 kHz wählen, es sei denn, man produziert explizit Audio- CDs. (siehe oben: „native“, fixe Wandlerauflösungen insbesondere bei Consumer Hardware).  

Puh, geschafft - endlich - der Mix ist fertig! 

Stimmt - wenn ihr außer Haus Mastern lasst. Sollte das nicht der Fall sein und/oder ihr wollt den Mix auch mal auf einer 16 Bit Audio- CD hören, dann müsst ihr euren 24 oder 32 Bit Mix auf 16 Bit requantisieren. Gegebenenfalls, muss auch noch die Samplerate gewandelt werden.

Das Requantisieren ist klangtechnisch nicht mehr besonders tragisch, da sich euer Mix im Gegensatz zu euren Einzelsounds wahrscheinlich pegelmäßig im oberen Drittel aufhalten wird. Um Quantisierungsfehler müsst ihr euch an dieser Stelle eher weniger Gedanken machen, es sei denn ihr zählt zur Kaste der audiophilen Klassik-Puristen.

Wenn nicht, wird euer File vorher natürlich noch fachgerecht genoiseshaped (einmal Denglisch muss sein), ihr seid ja jetzt Profis! 

 

 

 

Verwandte Artikel

User Kommentare