🏆 Trennleistung der Spitzenklasse

Trennen Sie Gesang, Sprecher und Musik
Kostenlos, online, in Sekunden

Lief bei der Aufnahme Musik? Störendes Rauschen im Hintergrund? Ziehen Sie unten eine beliebige Audio- oder Videodatei hinein – Perso Dubbing teilt sie in Gesang, einzelne Sprecher und Hintergrundmusik auf, und Sie hören jede Spur schon vor der Anmeldung.

Keine Anmeldung nötig · Erste 60 Sekunden kostenlos · Dateien werden nie gespeichert

Audiotrennung

Klicken oder Datei per Drag & Drop ablegen

Trennung startet sofort – kein Konto nötig (bis zu 200 MB)

mp4movwebm wavmp3m4a

Keine Datei zur Hand? Probiere ein Beispiel:

Audiospuren werden getrennt...

Klangfrequenzen werden analysiert, um die Stimme von Hintergrundgeräuschen zu trennen

Im Workspace bearbeiten Sie Sprecher-Skripte Zeile für Zeile

Deine Datei ist länger als 60 Sekunden – wir haben die erste Minute getrennt, damit du die Qualität beurteilen kannst. Melde dich an, um die ganze Datei zu verarbeiten →

Benchmarks

Weltklasse-Leistung — gemessen, nicht behauptet

Drei branchenübliche öffentliche Benchmarks: MUSDB18 für Gesangstrennung, VoiceBank-DEMAND für Rauschentfernung und das Open ASR Leaderboard für Transkription. Dieselben Datensätze wie in jeder Forschungsarbeit, gegen namentlich genannte Engines — mit veröffentlichten Einzelergebnissen, damit jeder die Tests nachvollziehen kann.

Gesangstrennung höher = besser

MUSDB18 (vocals) · median SI-SDR

Perso Dubbing 🏆

10.67 dB

HTDemucs (Meta)

8.36 dB

LALAL.AI · MDX-Net

noch nicht getestet

Sieg bei 44 von 50 Tracks — und wo wir verlieren, beträgt der Abstand höchstens 0.66 dB.

Qualität der Rauschentfernung höher = besser

VoiceBank-DEMAND · PESQ-WB

DeepFilterNet3

2.77

Perso Dubbing

2.64

ElevenLabs

2.38

Verrauschter Input (vor der Bereinigung)

1.70

Der Spezialist DeepFilterNet3 führt hauchdünn (2.77 gegenüber 2.64) — beide weit vor ElevenLabs.

Sprachverständlichkeit höher = besser

VoiceBank-DEMAND · ESTOI

DeepFilterNet3

0.821

Perso Dubbing

0.817

ElevenLabs

0.769

Verrauschter Input (vor der Bereinigung)

0.747

Die ersten beiden liegen praktisch gleichauf. ElevenLabs macht Sprache bei der Hälfte der Proben schwerer verständlich — wir verbessern sie bei 96%.

Stimmklon-Treue höher = besser

30 Sprecher · 2 Klonsysteme · cos_sim

Sauberes Original (Obergrenze)

0.736

Perso Dubbing 🏆

0.674

ElevenLabs Audio Iso.

0.665

DeepFilterNet3

0.652

Platz eins in beiden getesteten Klonsystemen — sogar im hauseigenen Kloner von ElevenLabs. Der gestreifte Balken ist das saubere Original: die natürliche Obergrenze.

Transkriptionsgenauigkeit (WER) niedriger = besser

Open ASR Leaderboard · 8 configs · word error rate

Durchschnitt aus 8 Benchmarks statistisches Unentschieden

Scribe v2 (ElevenLabs)

7.52%

Perso Dubbing

7.61%

Inhalte mit mehreren Sprechern (GigaSpeech)

Perso Dubbing 🏆

10.70%

Scribe v2 (ElevenLabs)

11.48%

Whisper large-v3

noch nicht getestet

Insgesamt ein statistisches Unentschieden mit Scribe v2 — aber bei Inhalten mit mehreren Sprechern wie Podcasts liegen wir vorn (kürzerer Balken = weniger Fehler).

Die Balken sind auf den Wettbewerbsbereich gezoomt, damit kleine Unterschiede sichtbar bleiben — entscheidend ist der exakte Wert neben jedem Balken.

Was messen diese Tests eigentlich?

🎯 Gesangstrennung (SI-SDR) Höher = besser

Wie sauber Stimme und Musik getrennt werden — wie eine Karaoke-Spur ganz ohne Stimmreste. Unser Wert: 10.67 dB gegenüber 8.36 dB bei HTDemucs — weniger Übersprechen zwischen den Spuren, Sieg bei 44 von 50 Songs.

🔊 Rauschentfernung (PESQ · ESTOI) Höher = besser

Wie klar und natürlich Sprache nach der Rauschentfernung klingt — dieselbe Metrik wie bei der Bewertung von Telefonqualität. Wir erreichen 2.64, knapp hinter dem Spezialisten DeepFilterNet3 (2.77) und deutlich vor ElevenLabs (2.38). Bei der Verständlichkeit teilen wir uns Platz eins.

📝 Transkriptionsgenauigkeit (WER) Niedriger = besser

Wie viele von 100 gesprochenen Wörtern falsch erfasst werden. Unsere 7.61% bedeuten rund 92 von 100 richtigen Wörtern — statistisch gleichauf mit ElevenLabs Scribe v2 (7.52%) und voraus bei Aufnahmen mit mehreren Sprechern wie Podcasts.

🎤 Stimmklon-Treue (cos_sim) Höher = besser

Klingt ein Stimmklon aus dem bereinigten Audio noch nach derselben Person? Bewertet von 0 bis 1 gegen die Originalstimme. Unsere 0.674 belegen Platz eins in beiden getesteten Klonsystemen — sogar im hauseigenen Kloner von ElevenLabs.

Ehrliche Fußnoten: Die Gesangstrennung wird am MUSDB18-Sampleset gemessen (vollständiger MUSDB18-HQ-Durchlauf läuft, erwartet innerhalb von ±0.5 dB). DeepFilterNet3 liegt bei PESQ um 0.15 vorn — bei der Verständlichkeit sind wir gleichauf, bei der Wellenform-Treue führen wir (+18.66 gegenüber +17.31 dB SI-SDR). MDX-Net und LALAL.AI wurden noch nicht getestet, daher behaupten wir nicht, jeden Separator zu schlagen. Verifiziert im Mai 2026.

Das Fazit: In öffentlichen Benchmarks trennte unsere Engine Gesang bei 44 von 50 Songs sauberer als Metas HTDemucs, hielt mit dem Rauschentfernungs-Spezialisten DeepFilterNet3 mit und schlug ElevenLabs Audio Isolation bei 92–100% der Testproben. Sie erzeugt sogar im hauseigenen Klonsystem von ElevenLabs bessere Stimmklone als deren eigener Preprocessor. Verifiziert im Mai 2026 — Einzelergebnisse zum Nachprüfen veröffentlicht.

So funktioniert es

Drei Schritte, unter einer Minute

STEP 1

Datei hochladen

Ziehen Sie eine Audio- oder Videodatei per Drag & Drop — MP3, WAV, M4A, MP4, MOV oder WebM, bis 200MB. Für die ersten 60 Sekunden ist kein Konto nötig.

STEP 2

Getrennte Spuren anhören

Die KI zerlegt Ihre Datei in einzelne Sprecher, reine Hintergrundmusik und Hintergrund mit Reaktionen. Spielen Sie jede Spur direkt im Browser ab.

STEP 3

Mix exportieren

Wählen Sie die gewünschten Spuren und exportieren Sie sie als eine Datei. Melden Sie sich an, um herunterzuladen oder längere Dateien vollständig zu verarbeiten.

Warum Perso Dubbing

Mehr als ein Vocal Remover

😂 Zwei Hintergrund-Audio-Modi

Reine Hintergrundmusik — oder Musik mit Lachen und Applaus. Kein anderes Trennungstool bietet beides aus einem einzigen Upload.

👤 Mehrsprecher-Trennung

Nicht nur Stimme gegen Musik — die Sprechertrennung gibt jeder Person in der Aufnahme eine eigene Spur, plus ein sprecherbezogenes Transkript in 99+ Sprachen.

🔒 Nichts wird gespeichert

Testdateien werden temporär verarbeitet und beim Sitzungsende gelöscht. Sie werden nie aufbewahrt und nie für Training verwendet.

📝 Transkription in 99+ Sprachen

Jede Trennung enthält automatische Sprache-zu-Text-Umwandlung mit Sprecherkennzeichnung, direkt neben Ihren Spuren. Die Spracherkennung läuft automatisch — ohne Zusatztools, ohne Extraschritte.

🎬 Für Audio & Video

Laden Sie MP3, WAV, M4A, MP4, MOV oder WebM hoch. Exportieren Sie Spuren mit eingebetteten Untertiteln oder separaten SRT-Dateien.

🎚 Selektiver Mix-Export

Kombinieren Sie beliebige Spuren zu einer Datei — zum Beispiel Hintergrundmusik plus Sprecher 1. Kein anderes Tool exportiert einen eigenen Mix in einem Schritt.

Dualer Hintergrund-Audio-Modus

Hintergrundmusik oder Rauschen aus Ihrem Video entfernen – auf zwei Wegen

Das Lachen im Podcast, die Reaktion des Publikums, ein Husten während der Keynote — die meisten Vocal Remover können das nicht von Sprache unterscheiden. Perso Dubbing liefert beide Optionen aus einem einzigen Upload.

MODE 1

Hintergrundmusik

Entfernt jeden menschlichen Laut — Sprache, Lachen, Klatschen — und lässt nur den Hintergrundton übrig. Ideal für lizenzfreie BGM und saubere Audiobetten fürs Nachvertonen.

🗣 SpracheENTFERNT

😂 Lachen / ApplausENTFERNT

🎵 HintergrundmusikBEHALTEN

MODE 2 · Only in Perso Dubbing

Hintergrund mit Reaktionen

Entfernt nur die Sprache und bewahrt Lachen, Applaus und die Energie des Publikums. Perfekt für Podcasts, Live-Events und Shows, bei denen Atmosphäre zählt.

🗣 SpracheENTFERNT

😂 Lachen / ApplausBEHALTEN

🎵 HintergrundmusikBEHALTEN

Mehrsprecher-Trennung

Eine Spur pro Stimme — Sprechertrennung für Interviews, Podcasts und Meetings

Die meisten Vocal Remover enden bei zwei Stems: Stimme und Musik. Die Mehrsprecher-Trennung von Perso Dubbing geht weiter — die KI erkennt, wie viele Personen sprechen, und teilt die Aufnahme in einzelne Sprecherspuren auf, jede mit einem beschrifteten Transkript in 99+ Sprachen.

INPUT

Eine gemischte Aufnahme

Eine Interview-, Podcast- oder Meeting-Aufnahme, in der mehrere Personen über Musik und Raumgeräusche sprechen — hochgeladen als einzelne Audio- oder Videodatei.

🎙 Sprecher 1 + Sprecher 2 + MusikGEMISCHT

OUTPUT · Speaker separation

Eine eigene Spur für jeden Sprecher

Trennen Sie Sprecher mit einem Klick aus dem Audio: Exportieren Sie die Spur eines einzelnen Sprechers oder jede beliebige Mischung — ohne manuelle Bearbeitung.

🎤 Sprecher 1EIGENE SPUR

🎤 Sprecher 2EIGENE SPUR

🎵 HintergrundmusikEIGENE SPUR

Anwendungsfälle

Wer nutzt Audio-Trennung?

🛡 Copyright-Probleme lösen

Entfernen Sie geschützte Hintergrundmusik bei intaktem Dialog, tauschen Sie lizenzfreie Musik ein und laden Sie das Video ohne Claims neu hoch.

🎙 Podcast-Schnitt

Schneiden Sie Füllwörter und unerwünschte Sprache heraus, während Publikumslachen und Reaktionen unangetastet bleiben.

🌍 Video-Dubbing

Extrahieren Sie eine saubere BGM-Spur ohne Sprachreste und legen Sie ein neues Voice-over in einer von über 99 Sprachen darüber.

💼 Meetings & Konferenzen

Trennen Sie Sprecher aus dem Audio von Zoom- oder Meet-Aufnahmen — jeder Teilnehmer erhält eine eigene Spur, mit integrierten, sprecherbezogenen Transkripten.

📱 Social-Media-Clips

Tauschen Sie die Original-BGM in Kurzvideos gegen einen Trend-Track — ohne Ihr Voice-over anzurühren.

🎤 Konzerte & Fancams

Entfernen Sie Publikumslärm und Raumhall aus Live-Clips, um die Stimme des Künstlers oder die Musik zu isolieren.

📰 Journalismus & Interviews

Nutzen Sie die Mehrsprecher-Trennung, um die Stimme jedes Interviewten aus verrauschten Außenaufnahmen zu isolieren — mit sauberen Transkripten für den Faktencheck.

♻️ Inhalte wiederverwenden

Aus einem Upload werden Podcast-Audio, Promo-BGM, Sprecher-Clips für Social Media und ein vollständiges Transkript für Ihren Blog.

Mehr Möglichkeiten im Perso Workspace

FAQ

Häufige Fragen

Ist Perso Dubbing Audio Separation kostenlos?

Ja. Sie können jede Audio- oder Videodatei hochladen und die ersten 60 Sekunden völlig kostenlos trennen — ohne Registrierung, ohne Kreditkarte. Um Ergebnisse herunterzuladen oder Dateien über 60 Sekunden zu verarbeiten, abonnieren Sie Perso Dubbing. Bezahlpläne erweitern die Limits und fügen Sprecherbearbeitung hinzu.

Brauche ich ein Konto, um die Audio-Trennung zu testen?

Nein. Der 60-Sekunden-Test läuft komplett ohne Konto. Laden Sie eine Datei hoch, hören Sie jede getrennte Spur im Browser an und entscheiden Sie, ob die Qualität passt. Ein Konto ist nur nötig, um Ergebnisse herunterzuladen oder längere Dateien zu verarbeiten.

Was passiert, wenn meine Datei länger als 60 Sekunden ist?

Auch längere Dateien werden angenommen — die KI verarbeitet die ersten 60 Sekunden, damit Sie die Trennqualität an Ihrem eigenen Material beurteilen können. Um die ganze Datei zu trennen, melden Sie sich an und laden die Datei erneut hoch.

Werden meine Dateien auf Perso-AI-Servern gespeichert?

Nein. Test-Uploads werden temporär verarbeitet und beim Sitzungsende automatisch gelöscht. Perso Dubbing behält, verwertet oder trainiert nicht mit Dateien aus dem kostenlosen Test.

Welche Dateiformate und -größen werden unterstützt?

Perso Dubbing akzeptiert MP3-, WAV- und M4A-Audiodateien sowie MP4-, MOV- und WebM-Videos, bis 200MB pro Upload. Videos werden automatisch verarbeitet — die KI extrahiert das Audio und trennt es.

Was unterscheidet „Hintergrundmusik“ von „Hintergrund mit Reaktionen“?

„Hintergrundmusik“ entfernt jeden von Menschen erzeugten Laut — Sprache, Lachen, Applaus — und lässt nur den reinen Hintergrundton übrig. „Hintergrund mit Reaktionen“ entfernt nur die Sprache und bewahrt Lachen, Applaus und Publikumsgeräusche — die Live-Atmosphäre von Podcasts und Events bleibt erhalten. Perso Dubbing erzeugt beide Spuren aus einem einzigen Upload.

Kann Perso Dubbing Mehrsprecher-Trennung, nicht nur Gesang und Musik?

Ja. Über die Trennung von Stimme und Musik hinaus führt Perso Dubbing eine vollständige Sprechertrennung durch (auch Speaker Split genannt): Die KI erkennt jeden Sprecher der Aufnahme und erzeugt pro Sprecher eine eigene Spur — plus ein sprecherbezogenes Transkript in 99+ Sprachen. Damit eignet es sich für Interviews, Podcasts und Meeting-Aufnahmen, nicht nur für Musik.

Wie genau ist die Trennung von Perso Dubbing im Vergleich zu anderen Tools?

Im Standard-Benchmark MUSDB18 trennt Perso Dubbing Gesang bei 44 von 50 Tracks sauberer als Metas HTDemucs (10.67 gegenüber 8.36 dB medianem SI-SDR). Bei der Rauschentfernung auf VoiceBank-DEMAND hält es mit dem Spezialisten DeepFilterNet3 mit und übertrifft ElevenLabs Audio Isolation bei 92-100% der Proben. Die Einzelergebnisse sind veröffentlicht — jeder kann die Zahlen prüfen.

Kann ich urheberrechtlich geschützte Musik aus meinem Video entfernen?

Ja. Laden Sie Ihr Video hoch, lassen Sie die KI die Audiospuren trennen und exportieren Sie nur die Stimm- und Sprecherspuren ohne die Hintergrundmusik. Das ist der schnellste Weg, Copyright-Claims auf YouTube, TikTok oder Instagram zu lösen, ohne Ihren Inhalt neu aufzunehmen.

Wie entferne ich Hintergrundmusik aus einem selbst gedrehten Video?

Laden Sie die Videodatei direkt hoch – Sie müssen den Ton nicht vorher extrahieren. Perso Dubbing trennt Sprache, Hintergrundmusik und Umgebungsgeräusche in einzelne Spuren: Exportieren Sie den reinen Sprach-Mix, um die Musik zu entfernen, oder behalten Sie jede beliebige Kombination. Unterstützt werden MP4, MOV und WebM, und die ersten 60 Sekunden sind kostenlos.

Was unterscheidet Perso Dubbing von LALAL.AI oder Moises?

Musiktools trennen Gesang und Instrumente — und hören dort auf. Perso Dubbing kombiniert Trennung mit Transkription in 99+ Sprachen, Sprecher-Neuzuweisung, zwei Hintergrund-Audio-Modi und selektivem Spur-Mixing in einem Workflow — gebaut für Video-Creator und Content-Editoren, nicht nur für Musiker.

Kann ich ausgewählte Spuren zu einer Datei kombinieren?

Ja. Wählen Sie eine beliebige Kombination getrennter Spuren — etwa Hintergrundmusik plus Sprecher 1 — und exportieren Sie sie als eine einzige Audiodatei. Diesen selektiven Mix-Export gibt es nur bei Perso Dubbing.

Entdecken Sie unsere Produktfunktionen

AI Dubbing Video Translation AI Lip Sync Voice Cloning Voice Translator Speech to Text Text-to-Speech AI Voice Generator Video Transcriber Subtitle Editor SRT Subtitles to MP4 Extract Audio from Video

Testen Sie es mit Ihrer eigenen Datei — jetzt gleich

Die ersten 60 Sekunden sind kostenlos. Keine Registrierung, keine gespeicherten Dateien, kein Haken.

↑ Datei hochladen

Trennen Sie Gesang, Sprecher und Musik Kostenlos, online, in Sekunden

Weltklasse-Leistung — gemessen, nicht behauptet

Gesangstrennung höher = besser

Qualität der Rauschentfernung höher = besser

Sprachverständlichkeit höher = besser

Stimmklon-Treue höher = besser

Transkriptionsgenauigkeit (WER) niedriger = besser

Was messen diese Tests eigentlich?

🎯 Gesangstrennung (SI-SDR) Höher = besser

🔊 Rauschentfernung (PESQ · ESTOI) Höher = besser

📝 Transkriptionsgenauigkeit (WER) Niedriger = besser

🎤 Stimmklon-Treue (cos_sim) Höher = besser

Drei Schritte, unter einer Minute

Datei hochladen

Getrennte Spuren anhören

Mix exportieren

Mehr als ein Vocal Remover

😂 Zwei Hintergrund-Audio-Modi

👤 Mehrsprecher-Trennung

🔒 Nichts wird gespeichert

📝 Transkription in 99+ Sprachen

🎬 Für Audio & Video

🎚 Selektiver Mix-Export

Hintergrundmusik oder Rauschen aus Ihrem Video entfernen – auf zwei Wegen

Hintergrundmusik

Hintergrund mit Reaktionen

Eine Spur pro Stimme — Sprechertrennung für Interviews, Podcasts und Meetings

Eine gemischte Aufnahme

Eine eigene Spur für jeden Sprecher

Wer nutzt Audio-Trennung?

🛡 Copyright-Probleme lösen

🎙 Podcast-Schnitt

🌍 Video-Dubbing

💼 Meetings & Konferenzen

📱 Social-Media-Clips

🎤 Konzerte & Fancams

📰 Journalismus & Interviews

♻️ Inhalte wiederverwenden

Häufige Fragen

Entdecken Sie unsere Produktfunktionen

Testen Sie es mit Ihrer eigenen Datei — jetzt gleich

Trennen Sie Gesang, Sprecher und Musik
Kostenlos, online, in Sekunden