Audio over IP (AoIP) verständlich erklärt

Audiodaten in Echtzeit über Netzwerk (AoIP = Audio over IP”) zu übertragen, wird immer populärer.

Manche Audio-Interfaces setzen auf Dante, andere auf AVB oder Ravenna. Bei der Verbindung zwischen Interfaces und Workstation ersetzt der Ethernet-Port die sonst üblichen Anschlüsse über USB, Thunderbolt und Firewire. Neben dieser simplen Verbindung zwischen Rechner und Interface sind aber auch sehr umfangreiche Netzwerke möglich, die in Multiroom-Studios, Produktionskomplexen im Rundfunk und dergleichen die Übertragung und Verteilung von Audiosignalen übernehmen. Der Markt bietet heute zudem auch Mischpulte, Lautsprecher, Kopfhörerverstärker und weitere Geräte mit Netzwerkbuchse für den Audio-Stream. Ehrfucht vor diesem Thema? Mit diesem Artikel bekommt Ihr den Durchblick.

AoIP: Grundlagen/Grundvoraussetzungen

Audio und bewegte Bilder durch Computernetzwerke zu übertragen, ist im Alltag gängige Praxis. Jedes YouTube-Video oder jeder Livestream von einem Radio- oder Fernsehsender ist nichts anderes. Jedoch weiß inzwischen jeder, spätestens seit den letzten Fußball-Welt- und Europameisterschaften, dass die Übertragung Zeit braucht. Schaut man über IP Fernsehen und hört die Nachbarn zwei Minuten früher jubeln, die terrestrisch oder über Satellit zusehen, so ist das doch recht frustrierend.
Dieses Phänomen zeigt eines der großen Probleme, die Audiodaten in Computernetzwerken haben: Die Netzwerke sind in ihrem Grundsatz nicht für Echtzeitanwendungen gemacht, wurden sie doch zunächst ausschließlich zur Übertragung von Dateien in kleineren oder größeren Blöcken entwickelt. Bei diesen ist es egal, ob sie einige Sekunden früher oder später am Zielort eintreffen. Alle Daten, seien es nun Textdateien oder Webseiten, Bilder oder Töne, werden als Datenpakete geschickt, die sich mit anderen Datenpaketen die Übertragungsstrecke teilen müssen. Dabei werden sie in mehrere Segmente zerlegt, übertragen und am Zielort wieder zusammengefügt. Dies braucht zwangsläufig Zeit, denn am Zielort müssen mehrere Pakete gesammelt werden, bevor sie nach dem Entpacken wieder lesbar sind. Bei Audio oder Videosignalen muss also ein Puffer gefüllt werden, bevor sie wiedergegeben werden. Sonst kommt es beim Abspielen zu Aussetzern, falls mal ein Paket verspätet eintrifft. Dies gilt besonders für die Internetübertragung, bei der beim Absenden noch nicht einmal klar ist, welchen Weg die einzelnen Datenpakete nehmen.

Immer häufigerer Anblick: Netzwerkkabel in einem Tonstudio

Im Laufe der Jahre ist jedoch der Bedarf nach Übertragungsmöglichkeiten, bei denen es auf die Übertragung in Echtzeit ankommt, immer größer geworden. Wurde bei Livekonzerten früher mit teils feuerwehrschlauchdicken Multicorekabeln hantiert, ist es heute üblich, mit dünnen Glasfaser- oder Netzwerkkabeln zu arbeiten, die Hunderte von Audiokanälen übertragen. Eine verlässliche Übertragung stellt man am einfachsten sicher, wenn man alle anderen Arten von digitalen Daten aussperrt. So sind die am längsten im Markt verfügbaren Audionetzwerksysteme proprietäre Lösungen, die lediglich Standardhardware für die Verbindung, ansonsten aber eigene Protokolle zur Übertragung verwenden. Sie nutzen also nur das Netzwerk Layer 1 und 2. Dazu gehören beispielsweise die Systeme RockNet von Riedel, A-Net von Axiom, SoundGrid von Waves oder das Behringer Ultranet, die mit eigener Hardware (Kabel, Switches, Endgeräte), und teilweise nicht einmal mit Datenblöcken arbeiten. In einem solchen System sind alle Parameter bekannt, wodurch die Performance stabil vorhersehbar ist. Dadurch, dass sie keine Verbindung zu anderer Netzwerkstruktur haben, können sie auch nicht durch andere Daten und Netzwerkprotokolle gestört werden. Allerdings muss man hier für jedes System ein eigenes Leitungsnetzwerk verlegen und parallel betreiben.
Der Charme einer Ethernetverbindung ist jedoch gerade, dass über die gleiche Leitung verschiedenste Daten und Dienste laufen können, man also nur noch ein Kabel ziehen muss um gleichzeitig den Studiorechner mit dem Backupserver zu verbinden, im Internet zu surfen, Mails zu versenden und viele Audiokanäle zwischen Aufnahmeraum und Regie zu übertragen. Audionetzwerksysteme, die diese Verbindung nutzen, arbeiten auf dem Layer 3 des OSI-Schichtenmodells (siehe nachfolgenden kursiv gedruckten Teil).

OSI-Schichtenmodell

Die Kommunikation in Netzwerken wird allgemein mit dem OSI-Schichtenmodell erklärt. Es hat sieben Schichten, die eine Information durchlaufen muss, damit sie vom Sender zum Empfänger gelangt.
– Die erste Schicht ist die Übertragungsschicht, also die Hardware (Kabel, Stecker, etc.). Verwendet ein System nur diese Schicht, kann man zwar standardisierte Hardware verwenden, wie und was für Daten hindurchfließen, ist jedoch systemspezifisch.
– Die zweite Schicht ist die sogenannte Sicherungsschicht, die dafür sorgt, dass alle Komponenten im System mit bekannter Blockgröße und Geschwindigkeit arbeiten.
–In der dritten, der Vermittlungsschicht, ist festgelegt, wie Router und Switches die Daten weiter vermitteln. Dies ist die entscheidende Schicht, die dafür sorgt, dass verschiedenste Komponenten an standardisierte Switches angeschlossen werden können. Das verbreitetste Protokoll ist hier das Internet Protocol (IP)
– Die vierte Schicht legt das Protokoll fest, nach dem die Daten versendet werden. Sie ist die eigentliche Transportschicht. Hier sind zwei Protokolle besonders wichtig: Das Transmission Control Protocol (TCP), das immer eine Empfangsbestätigung für jede gesendete Information anfordert. Solange diese ausbleibt, sendet der Sender die Information immer wieder aus, bis er eine Bestätigung bekommt. Hier geht es um Sicherheit ohne Rücksicht auf die Zeit, es ist zur Echtzeitübertragung somit ungeeignet. Netzwerkaudio vermittelt die Audiodaten per User Datagram Protocol (UDP). Hier verhält sich der Sender wie eine Radiostation. Die Daten werden mit einer Empfangsadresse losgeschickt, ohne abzuwarten, ob sie auch ankommen. Das Netzwerk muss so ausgelegt sein, dass dies sichergestellt ist. In einem Ethernet-Netzwerk ohne allzu hohen zusätzlichen Datenverkehr lässt sich dies durch passende Kabel und Switches garantieren. Die einzigen zeitbestimmenden Faktoren sind die Verarbeitungsgeschwindigkeit der verwendeten Switches und deren Anzahl.
– Die Schichten fünf bis sieben sind systemspezifisch und können hier vernachlässigt werden.

Doch zurück zu den Grundlagen: Damit sich die verschiedenen Aufgaben nicht ins Gehege kommen, müssen mehrere Voraussetzungen erfüllt sein.
– Allen voran muss genügend Bandbreite vorhanden sein, damit alle Audiokanäle übertragen werden können.
– Weiterhin muss die Übertragung schnell genug sein, damit die Datenpakete klein sein, sicher übertragen und wieder zusammengesetzt werden können, ohne dass man als Anwender diesen Vorgang wahrnimmt.
– Und sie muss zuverlässig sein, also nicht von äußeren Störfaktoren abhängig. All dies wird mit Ethernet auf 1000-BaseT-Basis erfüllt.
– Die Kabelverbindung ist sicherer als WLAN, das von anderen WLAN-Geräten gestört werden kann. Daher verlassen sich alle professionellen Audionetzwerk-Systeme ausschließlich auf kabelgebundene Verbindungen.
– Es ist genügend Bandbreite vorhanden, dass viele Kanäle und auch zusätzliche Daten übertragen werden können, ohne dass der Audiodatenstrom ins Stocken gerät.
– Bleibt man innerhalb eines Local Area Network (LAN), lässt sich die verfügbare Bandbreite festlegen. – Weiterhin ist in den neueren Versionen des Transportprotokolls eine sogenannte Quality of Service (QoS) eingebaut, die zeitkritischen Daten Vorrang vor anderen Daten einräumt.
– Auch müssen alle Geräte, wie in jedem digitalen System, synchronisiert werden. Dafür ist in in den aktuellen Protokollen von TCP/IP und UDP die Verarbeitung der Daten nach QoS und PTP fester Bestandteil und in nahezu allen aktuellen Geräten realisiert.
Grundsätzlich gilt, dass bei bei jedem „Sprung“ über einen Switch die Latenz steigt. Bei Dante liegt sie bei nur einem Switch bei 150 Mikrosekunden. Drei Switches erhöhen die Latenz auf 250 Mikrosekunden. Erst bei zehn Switches erhöht sich die Latenz auf 1 Millisekunde. Selbst bei so vielen „Sprüngen“ also bleibt die Latenz in einem Bereich, der meist nicht wahrnehmbar ist.
In dieser Betrachtung wollen wir uns auf Systeme konzentrieren, die auf dem Layer 3 aufsetzen und mit handelsüblicher Hardware aufgebaut werden. Dazu gehört im Audiobereich (Audio over IP, kurz AoIP) AVB/TNS, Ravenna und Dante.

AVB/TNS

Das Kürzel AVB steht für Audio Video Bridging (vor einiger Zeit in Time Sensitive Networking (TNS) umbenannt). Es soll also eine „Brücke“ für Audio- und Videodaten über Computernetzwerke in Echtzeit schlagen. Das Protokoll ist eine Open-Source-Lösung, kann also von jedem eingesehen werden und jeder kann passende Produkte dafür entwickeln. Nachteil dieses Systems war bis vor nicht all zu langer Zeit, dass man als Entwickler nicht auf fertige Chipsätze zurückgreifen konnte, sondern tatsächlich die Hardware hinter der Ethernetbuchse im Gerät selber entwickeln musste. Das System ist leistungsfähig, stabil und man muss keine Lizenzgebühren an einen Rechteinhaber zahlen. Das macht das System theoretisch preiswert. Wie der Name schon sagt, kann der Datenstrom nicht nur Audio- sondern auch Videodaten enthalten. Mir sind jedoch bisher keine Produkte bekannt, die dies ausnutzen. AVB setzt spezielle Ethernet-Switches voraus, die die Synchronisation des Systems erlauben. AVB fähige Switches haben jedoch auch alle Übertragungsfunktionen von aktuellen Standardswitches und sind für sonstige Netzwerkanwenungen nutzbar.

Im Studiobereich ist MotU der Vorreiter für AVB/TSN, der momentan eine Palette von vierzehn Audiointerfaces und einen AVB-fähigen Ethernet-Switch anbietet. Als zweiter großer Hersteller nutzt Avid AVB zur Verbindung der verschiedenen Systemkomponenten seiner aktuellen Live-Mischpulte (zum Beispiel S6L und S3L). Weitere Hersteller im Livebereich, die AVB verwenden, sind unter anderem Meyer Sound und Harman (Crown). Ein sehr starker Partner für AVB ist Apple. Alle Thunderbolt-Rechner können direkt AVB-Interfaces als Core-Audio-Interface über die Ethernet Schnittstelle ansprechen. AVB ist vornehmlich in den USA verbreitet.

Dante

Dante ist ein proprietäres Format. Der australische Hersteller Audinate bietet Entwicklern verschiedene Hardwareboards an, die zwischen 4 und 512 Audiokanäle übertragen können. Diese lassen sich einfach an die Ethernetschnittstelle im Geräte andocken und so Netzwerkaudio-Fähigkeiten integrieren. Durch diese einfache Implementation haben mittlerweile über 350 Hersteller in über Tausend Produkten die Dante-Schnittstelle integriert. Im Studio- und Livebereich sind darunter Namen wie Focusrite, Yamaha, DAD, Avid, SSL, Klang, um nur einige zu nennen.
Audinate ist auf dem Gebiet AoIP in Europa, wenn nicht weltweit, marktführend. Dante lässt sich mit allen aktuellen Netzwerkkomponenten, die standardmäßig auch für die Computer und Bürokommunikation verwandt werden, einsetzen. Selbst simple Switches für unter Hundert Euro unterstützen die nötigen Protokolle. So ist es möglich, preisgünstig Audionetzwerke aufzubauen und schon installierte Netzwerkstruktur im Haus zu nutzen.
Dante verwendet ein eigenes Erkennungssystem im Netzwerk. Die Geräte haben keine festen IP-Adressen, sondern es sind nur die Gerätenamen wichtig. Zur direkten Verbindung am Rechner (Mac und Windows), gibt es die Dante Virtual Soundcard und Dante Via, zwei virtuelle Soundkarten, die für wenige Dollar von Audinate erworben werden müssen.
Das bekannteste Dante-System ist sicherlich Focusrite RedNet – hier ist der Test.

Ravenna

Ravenna ist ein offenes Protokoll, das vornehmlich von dem deutschen Hersteller ALC Networx, der zu Lawo gehört, entwickelt wurde. Entsprechend verwenden aktuelle Lawo-Konsolen Ravenna als Verbindung zwischen den Systemkomponenten. Weitere bekannte Hersteller sind Merging (Pyramix), Neumann und Riedel. Um Ravenna direkt am Mac verwenden zu können, gibt es von Merging das kostenlose Ravenna/AES67 Standard Virtual Audio Device, das wie eine virtuelle Soundkarte vom System erkannt wird. Insgesamt ist Ravenna besonders im europäischen Broadcast-Markt vertreten.

AES67 – die gemeinsame Sprache?

Alle oben beschriebenen Systeme bis auf AVB/TSN arbeiten auf dem Layer 3, sind aber untereinander nicht kompatibel, obwohl sie im Kern die gleichen Daten übertragen. Um dieses Problem zu beseitigen, hat sich die Audio Engineering Society (AES) schon vor einigen Jahren bemüht, alle beteiligten Firmen, Entwickler und Anwender an einen Tisch zu bekommen, um ein einheitliches Protokoll zu definieren. Das Ergebnis ist AES67, das den Austausch zwischen den Systemen ermöglichen soll. Dafür muss die Netzwerkübertragung parallel zu dem proprietären Protokoll auf AES67-Betrieb umgeschaltet werden. Auf verschiedenen Messen und Branchentreffen haben in den letzten Jahren Hersteller aus den unterschiedlichen Lagern größere Systeme als grundsätzlich einsatzfähig in der Praxis gezeigt. Bis zum Endkunden sind diese bis heute jedoch noch kaum vorgedrungen. Es bleibt zu hoffen, dass in nicht all zu ferner Zukunft zumindest die Übergabe der Audiodaten zwischen beispielsweise einem einem Focusrite- und einem Merging-Interface möglich werden und man sich nicht gänzlich auf ein System festlegen muss.

Takt

Jedes digitale System muss synchron auf einer gemeinsamen Zeitbasis laufen. Die meisten digitalen Audioverbindungen liefern den Takt im Datenstrom mit. Um hier Ungenauigkeiten durch Jitter und dadurch klangliche Einbußen zu vermeiden, musste jedoch oft parallel eine Wordclockverbindung hergestellt werden. Dies bedeutet zusätzlichen Verkabelungsaufwand und auch Längenbeschränkungen. Innerhalb von Audionetzwerksystemen wird der Takt im Datenstrom mitgeschickt. Dies klingt zunächst paradox, haben wir doch am Anfang gelernt, dass hier mit Datenpaketen gearbeitet wird, die zunächst keinen Zeitbezug haben. Durch die Erweiterung der allgemein gültigen Protokolle ist es jedoch möglich, Datenpakete zu priorisieren und sie somit bevorzugt zu übertragen. So ist es möglich einen Digitaltakt mit einer Genauigkeit im Mikrosekundenbereich zu senden. Audionetzwerke eignen sich also auch zur Verteilung des Digitaltakts im ganzen Studio. Haben die Geräte im Audionetzwerk nur Analoganschlüsse, fungiert in der Regel ein beliebiges als Taktgeber. Wird jedoch mindestens eines mit einem Digitalsignal (AES, S/PDIF, etc.) gespeist, muss sich das ganze System auf dessen Takt synchronisieren.

Sampleraten

Verbindet man Digitalgeräte per AES, ADAT oder MADI, müssen Sender und Empfänger auf der gleichen Samplerate laufen, damit es nicht zu Knacksern oder Aussetzern kommt. Die Leitung kann also immer nur eine Samplerate übertragen. In Netzwerkaudiosystemen kann ein Kabel Daten unterschiedlicher Sampleraten übertragen. Lediglich Sender und Empfänger müssen auf dem gleichen Takt laufen. Dadurch ist es möglich, mehrere Studios in‘s gleiche Netzwerk einzubinden und mit unterschiedlichen Samplingraten zu fahren, ohne dass es zu Schwierigkeiten kommt. Nur die Geräte, die einem Studio zugeordnet sind, müssen die gleiche Samplingrate haben.

Verknüpfungen

Fast jeder kennt den Kabelsalat im Studio. Um da Übersicht hineinzubekommen, verwendet man auf analoger Ebene die Patchbay mit ihren oft hunderten Klinken- oder TT-Kabeln. Die Busmatrix großer Analogmischplulte bringt hier ein wenig mehr Übersicht. Digitale Audionetzwerke übernehmen neben der Audioübertragung auch gleich die Verteilung der Kanäle. Alle Ein- und Ausgänge am System werden in einem Raster dargestellt, das selbst bei mittelgroßen Installationen schnell mehrere hundert Verknüpfungspunkte enthält. Will man eine Verknüpfung herstellen, klickt man (in einem gesonderten Programm oder im Webbrowser – je nach Netzwerksystem) auf einen Kreuzungspunkt und schon ist die Verbindung hergestellt. Durch Shortcuts lassen sich mit wenigen Klicks dutzende Verbindungen herstellen, was viel Zeit spart. Da man sowohl den Geräten als auch den Ein- und Ausgängen eindeutige Namen geben kann, behält man in der Regel auch bei großen Setups gut den Überblick. Für schnelle „Umbauten“ lassen sich verschiedene Setups speichern und innerhalb weniger Sekunden wieder aufrufen.

Einfaches, aber prakxistaugliches Anwendungsbeispiel für einen Verbund mit Dante-Geräten auf einem Focusrite-Seminar. Rot sind die Ethernet-Verbindungen dargestellt.

PoE

Dieses Kürzel steht für Power over Ethernet, also Stromversorgung über Ethernet. Hier wird das Netzwerkkabel nicht nur zur Datenübertragung genutzt, sondern auch zur Energieversorgung des Netzwerkgeräts. Der Vorteil von PoE ist der Wegfall eines Netzkabels oder Netzteils am Netzwerkaudiogerät. Dies vermeidet Kabelsalat im Studio. Insbesondere Kopfhörerverstärker mit Netzwerkaudioanschluss findet man mit PoE-Versorgung. Da die übertragbare Leistung begrenzt ist, können nur kleinere Geräte mit PoE betrieben werden. Und man benötigt Ethernetswitches, die PoE liefern.

Kleinere Geräte können per PoE mit Spannung versorgt werden.

Fazit

Audio over IP bietet gegenüber herkömmlichen analogen oder digitalen Verbindungen einige Vorteile. Durch die Übertragung vieler Kanäle über ein Kabel reduzieren sich hier Kosten und die Verkabelung wird deutlich günstiger. Es können verschiedene Samplingraten in einem Netzwerk verwendet werden. Der digitale Takt wird mit übertragen, sodass alle Studios ohne Zusatzaufwand miteinander synchronisiert werden können. Die Systeme agieren gleichzeitig als Routingmatrix/Patchbay. Schließlich sind die Einstellungen speicherbar und können innerhalb von Sekunden abgerufen werden.
Die eigene Kaufentscheidung wird durch die verschiedenen AoIP-System erschwert, da sie momentan weitgehend inkompatibel sind. Legt man sich auf ein System fest, kann man nur zum System passende Komponenten einbinden. Hier hat momentan Dante die Nase vorn. Zu hoffen bleibt, dass durch AES67 in Zukunft eine Brücke zwischen den Systemen geschlagen wird und man bei Vorhandensein einer RJ45-Buchse am Gerät genauso flexibel ist, wie jetzt mit XLR- oder Klinkenbuchse.