🏆 Rendimiento de separación de primer nivel

Separa voces, hablantes y música
Gratis, en línea, en segundos

¿Sonaba música durante la grabación? ¿Ruido de fondo no deseado? Suelta cualquier archivo de audio o vídeo aquí abajo y Perso Dubbing lo separa en voces, hablantes individuales y música de fondo, para que escuches cada pista antes de registrarte.

Sin registro · Primeros 60 segundos gratis · Los archivos nunca se almacenan

Separación de audio

Haz clic o arrastra y suelta tu archivo

La separación empieza al instante — sin cuenta (hasta 200MB)

mp4movwebm wavmp3m4a

¿No tienes un archivo a mano? Prueba una muestra:

Separando pistas de audio...

Analizando las frecuencias de sonido para separar la voz de los elementos de fondo

En el espacio de trabajo puedes editar el guion de cada hablante línea por línea

Tu archivo dura más de 60 segundos: hemos separado el primer minuto para que valores la calidad. Inicia sesión para procesar el archivo completo →

Benchmarks

Rendimiento de primer nivel — medido, no prometido

Tres benchmarks públicos estándar de la industria: MUSDB18 para separación vocal, VoiceBank-DEMAND para reducción de ruido y el Open ASR Leaderboard para transcripción. Los mismos datasets que usa cada paper, frente a motores con nombre y apellido, con datos por muestra publicados para que cualquiera repita las pruebas.

Separación vocal más alto = mejor

MUSDB18 (vocals) · median SI-SDR

Perso Dubbing 🏆

10.67 dB

HTDemucs (Meta)

8.36 dB

LALAL.AI · MDX-Net

aún sin probar

Ganamos en 44 de 50 pistas — y cuando perdemos, la diferencia es de 0.66 dB como máximo.

Calidad de eliminación de ruido más alto = mejor

VoiceBank-DEMAND · PESQ-WB

DeepFilterNet3

2.77

Perso Dubbing

2.64

ElevenLabs

2.38

Entrada con ruido (antes de limpiar)

1.70

El especialista DeepFilterNet3 lidera por muy poco (2.77 frente a 2.64) — ambos muy por delante de ElevenLabs.

Claridad del habla más alto = mejor

VoiceBank-DEMAND · ESTOI

DeepFilterNet3

0.821

Perso Dubbing

0.817

ElevenLabs

0.769

Entrada con ruido (antes de limpiar)

0.747

Los dos primeros están prácticamente empatados. ElevenLabs hace el habla más difícil de entender en la mitad de las muestras — nosotros la mejoramos en el 96%.

Fidelidad de clonación de voz más alto = mejor

30 hablantes · 2 sistemas de clonación · cos_sim

Original limpio (techo)

0.736

Perso Dubbing 🏆

0.674

ElevenLabs Audio Iso.

0.665

DeepFilterNet3

0.652

Primeros en los dos sistemas de clonación probados — incluso dentro del propio clonador de ElevenLabs. La barra rayada es el original limpio: el techo natural.

Precisión de transcripción (WER) más bajo = mejor

Open ASR Leaderboard · 8 configs · word error rate

Promedio de 8 benchmarks empate estadístico

Scribe v2 (ElevenLabs)

7.52%

Perso Dubbing

7.61%

Contenido con varios hablantes (GigaSpeech)

Perso Dubbing 🏆

10.70%

Scribe v2 (ElevenLabs)

11.48%

Whisper large-v3

aún sin probar

En conjunto, empate estadístico con Scribe v2 — pero en contenido con varios hablantes, como pódcasts, salimos ganando (barra más corta = menos errores).

Las barras están ampliadas al rango competitivo para que las diferencias pequeñas sigan siendo visibles — lo que cuenta es la cifra exacta junto a cada barra.

¿Qué miden realmente estas pruebas?

🎯 Separación vocal (SI-SDR) Más alto = mejor

Qué tan limpio se separan voz y música — como extraer una pista de karaoke sin rastro de voz. Nuestra puntuación: 10.67 dB frente a 8.36 dB de HTDemucs — menos filtraciones entre pistas, y ganamos en 44 de 50 canciones.

🔊 Eliminación de ruido (PESQ · ESTOI) Más alto = mejor

Qué tan clara y natural suena la voz tras eliminar el ruido — la misma métrica usada para la calidad de llamadas. Obtenemos 2.64, apenas por detrás del especialista DeepFilterNet3 (2.77) y muy por delante de ElevenLabs (2.38). En claridad, empatamos en el primer puesto.

📝 Precisión de transcripción (WER) Más bajo = mejor

De cada 100 palabras habladas, cuántas se transcriben mal. Nuestro 7.61% significa unas 92 de cada 100 palabras correctas — estadísticamente igual que ElevenLabs Scribe v2 (7.52%), y por delante en grabaciones con varios hablantes como los pódcasts.

🎤 Fidelidad de clonación de voz (cos_sim) Más alto = mejor

Tras la limpieza, ¿un clon de voz creado con ese audio sigue sonando como la misma persona? Puntuado de 0 a 1 frente a la voz original. Nuestro 0.674 es el primero en los dos sistemas de clonación probados — incluso dentro del propio clonador de ElevenLabs.

Notas honestas: la separación vocal se mide sobre el conjunto de muestras de MUSDB18 (repetición completa con MUSDB18-HQ en curso, esperada dentro de ±0.5 dB). DeepFilterNet3 nos supera en PESQ por 0.15 — empatamos en claridad y lideramos en fidelidad de forma de onda (+18.66 frente a +17.31 dB SI-SDR). MDX-Net y LALAL.AI aún no se han probado, así que no afirmamos superar a todos los separadores. Verificado en mayo de 2026.

En resumen: en benchmarks públicos, nuestro motor separó voces más limpiamente que HTDemucs de Meta en 44 de 50 canciones, igualó al especialista en reducción de ruido DeepFilterNet3 y superó a ElevenLabs Audio Isolation en el 92–100% de las muestras. Incluso crea mejores clones de voz dentro del propio sistema de clonación de ElevenLabs que su propio preprocesador. Verificado en mayo de 2026 — datos por muestra publicados para que cualquiera los compruebe.

Cómo funciona

Tres pasos, en menos de un minuto

STEP 1

Sube tu archivo

Arrastra y suelta un archivo de audio o vídeo — MP3, WAV, M4A, MP4, MOV o WebM, hasta 200MB. Sin cuenta para los primeros 60 segundos.

STEP 2

Escucha las pistas separadas

La IA divide tu archivo en hablantes individuales, música de fondo pura y fondo con reacciones. Reproduce cada pista directamente en el navegador.

STEP 3

Exporta tu mezcla

Elige las pistas que necesites y expórtalas en un solo archivo. Inicia sesión para descargar o procesar archivos más largos completos.

Por qué Perso Dubbing

Mucho más que un eliminador de voces

😂 Dos modos de audio de fondo

BGM pura, o BGM con risas y aplausos intactos. Ninguna otra herramienta de separación ofrece ambos con una sola subida.

👤 Separación de varios hablantes

No solo voz frente a música — la separación por hablante da a cada persona de la grabación su propia pista, además de una transcripción etiquetada en 99+ idiomas.

🔒 No guardamos nada

Los archivos de prueba se procesan en almacenamiento temporal y se eliminan al terminar la sesión. Nunca se conservan ni se usan para entrenamiento.

📝 Transcripción en 99+ idiomas

Cada separación incluye conversión automática de voz a texto con etiquetas de hablante, junto a tus pistas. La detección de idioma es automática — sin herramientas ni pasos extra.

🎬 Funciona con audio y vídeo

Sube MP3, WAV, M4A, MP4, MOV o WebM. Exporta pistas con subtítulos incrustados o archivos SRT aparte.

🎚 Exportación de mezcla selectiva

Combina las pistas que quieras en un solo archivo — por ejemplo, música de fondo más Hablante 1. Ninguna otra herramienta exporta una mezcla personalizada en un solo paso.

Modo dual de audio de fondo

Elimina la música de fondo o el ruido de tu vídeo de dos formas

Las risas de un pódcast, la reacción del público, una tos durante una ponencia — la mayoría de eliminadores de voz no las distinguen del habla. Perso Dubbing te da ambas opciones con una sola subida.

MODE 1

Música de fondo

Elimina todo sonido humano — habla, risas, aplausos — dejando solo el sonido de fondo. Ideal para BGM libre de derechos y bases limpias para redoblaje.

🗣 HablaELIMINADO

😂 Risas / AplausosELIMINADO

🎵 Música de fondoCONSERVADO

MODE 2 · Only in Perso Dubbing

Fondo con reacciones

Elimina solo el habla, conservando risas, aplausos y la energía del público. Perfecto para pódcasts, eventos en directo y programas donde la atmósfera importa.

🗣 HablaELIMINADO

😂 Risas / AplausosCONSERVADO

🎵 Música de fondoCONSERVADO

Separación de varios hablantes

Una pista por voz — separación por hablante para entrevistas, pódcasts y reuniones

La mayoría de los eliminadores de voz se quedan en dos stems: voz y música. La separación de varios hablantes de Perso Dubbing va más allá — la IA detecta cuántas personas hablan y divide la grabación en pistas individuales por hablante, cada una con una transcripción etiquetada en 99+ idiomas.

INPUT

Una grabación mezclada

Una grabación de entrevista, pódcast o reunión con varias personas hablando sobre música y ruido ambiente — subida como un solo archivo de audio o vídeo.

🎙 Hablante 1 + Hablante 2 + MúsicaMEZCLADO

OUTPUT · Speaker separation

Una pista separada para cada hablante

Separa a los hablantes del audio con un clic: exporta la pista de un solo hablante o la combinación que quieras — sin edición manual.

🎤 Hablante 1PISTA PROPIA

🎤 Hablante 2PISTA PROPIA

🎵 Música de fondoPISTA PROPIA

Casos de uso

¿Quién usa la separación de audio?

🛡 Resolución de copyright

Elimina la BGM con derechos manteniendo el diálogo intacto, cámbiala por música libre de regalías y vuelve a subir sin reclamaciones.

🎙 Edición de pódcasts

Corta muletillas y voces no deseadas conservando las risas del público y las reacciones ambientales.

🌍 Doblaje de vídeo

Extrae una pista de BGM limpia sin restos de voz y superpón una nueva locución en cualquiera de más de 99 idiomas.

💼 Reuniones y conferencias

Separa a los hablantes del audio en grabaciones de Zoom o Meet — cada participante obtiene su propia pista, con transcripciones etiquetadas por hablante incluidas.

📱 Clips para redes sociales

Cambia la BGM original de tus vídeos cortos por un tema en tendencia — sin tocar tu voz en off.

🎤 Conciertos y fancams

Elimina el ruido del público y la reverberación del recinto en clips en directo para aislar la voz del artista o la música.

📰 Periodismo y entrevistas

Usa la separación de varios hablantes para extraer la voz de cada entrevistado de grabaciones de campo ruidosas, con transcripciones limpias para verificación.

♻️ Reutiliza tu contenido

Una sola subida se convierte en audio de pódcast, BGM promocional, clips de hablantes para redes y una transcripción completa para tu blog.

Haz más en el espacio de trabajo de Perso

FAQ

Preguntas frecuentes

¿Perso Dubbing Audio Separation es gratis?

Sí. Puedes subir cualquier archivo de audio o vídeo y separar los primeros 60 segundos totalmente gratis, sin registro ni tarjeta. Para descargar resultados o procesar archivos de más de 60 segundos, suscríbete a Perso Dubbing. Los planes de pago amplían los límites de procesamiento y añaden edición de hablantes.

¿Necesito crear una cuenta para probar la separación de audio?

No. La prueba de 60 segundos funciona sin cuenta. Sube un archivo, escucha cada pista separada en tu navegador y decide si la calidad cumple tus expectativas. Solo necesitas una cuenta para descargar resultados o procesar archivos más largos.

¿Qué pasa si mi archivo dura más de 60 segundos?

Los archivos de más de 60 segundos también se aceptan — la IA procesa los primeros 60 segundos para que evalúes la calidad con tu propio contenido. Para separar el archivo completo, inicia sesión y vuelve a subir el archivo.

¿Mis archivos se guardan en los servidores de Perso Dubbing?

No. Las subidas de prueba se procesan en almacenamiento temporal y se eliminan automáticamente al finalizar la sesión. Perso Dubbing no conserva, reutiliza ni entrena con los archivos subidos en la prueba gratuita.

¿Qué formatos y tamaños de archivo se admiten?

Perso Dubbing acepta archivos de audio MP3, WAV y M4A, y de vídeo MP4, MOV y WebM, hasta 200MB por subida. Los vídeos se gestionan automáticamente — la IA extrae el audio y lo separa.

¿Cuál es la diferencia entre Música de fondo y Fondo con reacciones?

Música de fondo elimina todo sonido humano — habla, risas, aplausos — y deja solo el sonido de fondo puro. Fondo con reacciones elimina solo el habla y conserva risas, aplausos y sonidos del público, preservando la atmósfera en directo de pódcasts y eventos. Perso Dubbing genera ambas pistas con una sola subida.

¿Perso Dubbing hace separación de varios hablantes, no solo voz y música?

Sí. Más allá de dividir voz y música, Perso Dubbing realiza una separación completa por hablante (también llamada speaker split): la IA detecta a cada hablante de la grabación y genera una pista por hablante, junto con una transcripción etiquetada en 99+ idiomas. Ideal para entrevistas, pódcasts y reuniones, no solo para música.

¿Qué precisión tiene la separación de Perso Dubbing frente a otras herramientas?

En el benchmark estándar MUSDB18, Perso Dubbing separa voces más limpiamente que HTDemucs de Meta en 44 de 50 pistas (10.67 frente a 8.36 dB de SI-SDR mediano). En reducción de ruido con VoiceBank-DEMAND, iguala al especialista DeepFilterNet3 y supera a ElevenLabs Audio Isolation en el 92-100% de las muestras. Los resultados por muestra están publicados para que cualquiera verifique las cifras.

¿Puedo eliminar música con copyright de mi vídeo?

Sí. Sube tu vídeo, deja que la IA separe las pistas de audio y exporta solo las pistas de voz y hablantes sin la música de fondo. Es la forma más rápida de resolver reclamaciones de copyright en YouTube, TikTok o Instagram sin volver a grabar tu contenido.

¿Cómo quito la música de fondo de un vídeo que grabé yo?

Sube el archivo de vídeo directamente, sin necesidad de extraer el audio antes. Perso Dubbing separa la voz, la música de fondo y el ambiente en pistas independientes: exporta la mezcla solo con voz para quitar la música o combina las pistas como prefieras. Admite MP4, MOV y WebM, y los primeros 60 segundos son gratis.

¿En qué se diferencia Perso Dubbing de LALAL.AI o Moises?

Las herramientas musicales separan voces e instrumentos — y ahí se quedan. Perso Dubbing combina separación con transcripción en 99+ idiomas, reasignación de hablantes, dos modos de audio de fondo y mezcla selectiva de pistas en un solo flujo, pensado para creadores de vídeo y editores de contenido, no solo para músicos.

¿Puedo combinar pistas seleccionadas en un solo archivo?

Sí. Elige cualquier combinación de pistas separadas — por ejemplo, música de fondo más Hablante 1 — y expórtalas como un único archivo de audio. Esta exportación de mezcla selectiva es exclusiva de Perso Dubbing.

Explora las funciones de nuestro producto

AI Dubbing Video Translation AI Lip Sync Voice Cloning Voice Translator Speech to Text Text-to-Speech AI Voice Generator Video Transcriber Subtitle Editor SRT Subtitles to MP4 Extract Audio from Video

Pruébalo con tu propio archivo — ahora mismo

Los primeros 60 segundos son gratis. Sin registro, sin archivos guardados, sin letra pequeña.

↑ Subir un archivo

Separa voces, hablantes y música Gratis, en línea, en segundos

Rendimiento de primer nivel — medido, no prometido

Separación vocal más alto = mejor

Calidad de eliminación de ruido más alto = mejor

Claridad del habla más alto = mejor

Fidelidad de clonación de voz más alto = mejor

Precisión de transcripción (WER) más bajo = mejor

¿Qué miden realmente estas pruebas?

🎯 Separación vocal (SI-SDR) Más alto = mejor

🔊 Eliminación de ruido (PESQ · ESTOI) Más alto = mejor

📝 Precisión de transcripción (WER) Más bajo = mejor

🎤 Fidelidad de clonación de voz (cos_sim) Más alto = mejor

Tres pasos, en menos de un minuto

Sube tu archivo

Escucha las pistas separadas

Exporta tu mezcla

Mucho más que un eliminador de voces

😂 Dos modos de audio de fondo

👤 Separación de varios hablantes

🔒 No guardamos nada

📝 Transcripción en 99+ idiomas

🎬 Funciona con audio y vídeo

🎚 Exportación de mezcla selectiva

Elimina la música de fondo o el ruido de tu vídeo de dos formas

Música de fondo

Fondo con reacciones

Una pista por voz — separación por hablante para entrevistas, pódcasts y reuniones

Una grabación mezclada

Una pista separada para cada hablante

¿Quién usa la separación de audio?

🛡 Resolución de copyright

🎙 Edición de pódcasts

🌍 Doblaje de vídeo

💼 Reuniones y conferencias

📱 Clips para redes sociales

🎤 Conciertos y fancams

📰 Periodismo y entrevistas

♻️ Reutiliza tu contenido

Preguntas frecuentes

Explora las funciones de nuestro producto

Pruébalo con tu propio archivo — ahora mismo

Separa voces, hablantes y música
Gratis, en línea, en segundos