What is Perso Dubbing Speech to Text, and how does it differ from basic transcription tools?

Perso Dubbing Speech to Text converts video and audio files into accurate, speaker-separated scripts in 99+ languages. Unlike basic transcription tools, it automatically detects every speaker, lets you reassign any segment to a different detected speaker, and exports editable SRT, VTT, XLSX, and JSON files for subtitling, archiving, or content workflows.

How does Perso Dubbing charge for Speech to Text usage?

Perso Dubbing deducts 1 credit per minute of media length for Speech to Text and Voice Separation — the same rate as AI Dubbing. Only Lip Dubbing uses 3× credits. There is no per-feature usage cap, so you can freely allocate credits across Speech to Text, Voice Separation, and Dubbing based on your workflow needs.

Is Perso Dubbing Speech to Text available on the free plan?

Yes. Speech to Text is fully available on the Perso Dubbing free plan within the included 1 minute of free credit. This lets you transcribe a short clip, verify speaker diarization accuracy, and test SRT or VTT export quality before upgrading to a paid plan for longer media.

Can I set a target language for Speech to Text output?

No. Speech to Text transcribes speech in the same language it is spoken — it is not a translation feature, so there is no target language setting. If you need to translate and re-voice your video into another language, use Perso Dubbing, which handles transcription, translation, and voice synthesis in one workflow.

How does speaker diarization work in Perso Dubbing?

Perso Dubbing automatically detects every speaker present in the original audio or video and assigns a speaker label to each segment. You can then reassign any segment to a different detected speaker, and the updated labels are reflected in every exported file (SRT, VTT, XLSX, JSON), keeping subtitles consistent across downstream workflows.

Which export formats does Perso Dubbing Speech to Text support?

Perso Dubbing Speech to Text exports four formats: SRT and VTT for subtitles and video players, XLSX for editorial review or translation workflows, and JSON for developer integrations and automation. Every format includes speaker labels, timestamps, and any edits you make in the web editor.

How many languages does Perso Dubbing Speech to Text support?

Perso Dubbing Speech to Text automatically detects and transcribes 99+ languages, including English, Korean, Japanese, Spanish, German, French, Portuguese, and Russian. Language detection is automatic, so you can upload multilingual content without pre-selecting a source language.

Can I edit the transcribed text before exporting?

Yes. You can edit any transcribed line directly inside the Perso Dubbing web editor, fix misrecognized words, and refine punctuation. Your edits sync automatically to SRT, VTT, XLSX, and JSON exports, so you never have to manually reconcile subtitle files after correction.

Is Perso Dubbing Speech to Text suitable for meetings, interviews, and YouTube videos?

Yes. Perso Dubbing Speech to Text is optimized for multi-speaker media such as team meetings, podcast interviews, webinars, and long-form YouTube videos. Automatic speaker diarization, timestamp accuracy, and direct SRT/VTT export make it a drop-in replacement for manual transcription workflows in content and research teams.

Transcripción de voz a texto con gestión de hablantes, resumen con IA y exportación de subtítulos

Transcripción de voz a texto con IA con gestión de hablantes, resumen con IA y exportación de subtítulos

Sube cualquier archivo de vídeo o audio. Perso Dubbing transcribe en más de 100 idiomas con detección automática de hablantes, genera resúmenes con IA con tareas pendientes y exporta subtítulos, guiones o vídeos con subtítulos incrustados. El procesamiento tarda menos de 2 minutos por hora de grabación. Todo automático.

Pruébalo ahora

Descubre cómo funciona

No se necesita instalación · Plan gratuito disponible · Empieza en segundos

La mejor herramienta de separación de audio

Resumen de IA incluido con elementos de acción

Formatos de exportación SRT · VTT · XLSX · JSON · MP4

Más de 100 idiomas detectados automáticamente

Marcas de tiempo a nivel de palabra

Detección automática de hablantes

Velocidad rápida lista en minutos

Gestión de locutores: añadir, cambiar nombre, eliminar

Rápido · Seguro · Preciso

Características principales

Transcribe, edita y exporta en un solo proyecto

Resumen de IA con acciones pendientes

Ve más allá de la transcripción. Genera automáticamente un resumen conciso, cópialo al instante, vuelve a generarlo para obtener una nueva versión o extrae elementos de acción de reuniones y entrevistas.

Descarga de vídeo con subtítulos incrustados

Descarga un MP4 listo para compartir con los subtítulos incrustados permanentemente. No necesitas un archivo de subtítulos aparte ni un editor de vídeo. Sube, transcribe y descarga el vídeo con subtítulos.

Detección automática de idioma: más de 100 idiomas

Sube cualquier archivo de audio o video. Perso Dubbing detecta automáticamente el idioma hablado entre los más de 100 idiomas compatibles. Sin necesidad de selección manual.

Edición de guiones y subtítulos

Edite cualquier línea transcrita directamente en el editor web. Corrija las palabras mal reconocidas, refine la puntuación y sincronice automáticamente los cambios en todos los formatos de exportación.

Exportación multiformato + vídeo con subtítulos incrustados

Edita cualquier línea transcrita directamente en el editor web. Corrige las palabras mal reconocidas, perfecciona la puntuación y sincroniza los cambios automáticamente con todos los formatos de exportación.

Gestión de oradores: añadir, cambiar el nombre y eliminar

Detecta automáticamente a cada hablante y toma el control total. Añade nuevos hablantes, cambia las etiquetas por nombres reales o elimina los segmentos que no necesites. Todos los cambios se sincronizan con los archivos exportados.

Conexión directa con el doblaje y la traducción

Sube cualquier archivo de audio o video. Perso Dubbing detecta automáticamente el idioma hablado entre los más de 100 idiomas compatibles. Sin necesidad de selección manual.

Comenzar ahora

Más allá de la transcripción

Perso Dubbing Speech to Text no se limita a convertir voz en texto. Obtén resúmenes generados por inteligencia artificial, extrae puntos de acción de las reuniones y descarga videos con subtítulos incrustados listos para compartir. La única herramienta de transcripción que combina las tres funciones en una sola carga.

📝

Resumen de IA

Resumen generado automáticamente de tu grabación. Copia el resultado al instante o vuelve a generarlo para obtener una versión nueva. Convierte horas de contenido en un breve resumen.

☑

Elementos de acción

Extrae automáticamente tareas accionables de reuniones y entrevistas. Omite la toma de notas manual y obtén una lista estructurada de los siguientes pasos.

🎥

Vídeo codificado con subtítulos

Descarga un MP4 con subtítulos incrustados de forma permanente. Compártelo en redes sociales, canales internos o presentaciones sin necesidad de un archivo de subtítulos aparte.

Casos de uso

Subtítulos, notas de reuniones, guiones de clase

La misma herramienta, diferentes resultados según lo que necesites.

Creadores de Contenido

Convierte vlogs, podcasts y vídeos en subtítulos listos para publicar en minutos. Sube, edita y exporta: no hace falta transcribir manualmente.

Subtítulos automáticos para YouTube, TikTok y Reels

Editar subtítulos en línea antes de exportar

Soporte para más de 100 idiomas

Descargar MP4 con subtítulos listo para subir

Exportación de SRT · VTT · MP4

Equipos y empresas

Transforma las grabaciones de reuniones en notas buscables y con identificación de oradores. Funciona con cualquier plataforma de videoconferencia o grabadora de voz.

Resumen de IA con copia con un solo clic

Extraer elementos de acción de las grabaciones de reuniones

Agregar, cambiar el nombre o eliminar etiquetas de orador

Diarización automática de hablantes

Actas de reunión estructuradas de Excel

Marcas de tiempo a nivel de palabra para citas

Exportación XLSX · JSON · MP4

Exportar a XLSX

Educadores

Transcribe conferencias y contenido del curso con gran precisión. Genera subtítulos para accesibilidad o guiones listos para estudiar.

Resumen de IA para resúmenes rápidos de clases

Vídeo codificado con subtítulos para accesibilidad

Precisión en conferencias largas

Generación de subtítulos para LMS

Multilingüe para estudiantes de todo el mundo

Listo para accesibilidad

Productores de vídeo

Empieza con la transcripción y pasa al doblaje o a la traducción sin volver a subir el archivo. Una sola carga cubre todo el flujo de localización.

Transcribe, edita y exporta en un solo flujo

Descargar MP4 con subtítulos incrustados

Conecta con doblaje y traducción con IA

Separación de audio incluida

Localización completa

Comenzar ahora

Una sola carga, múltiples exportaciones

Subtítulos, guiones o datos sin procesar con marcas de tiempo. Elige el formato que necesites.

SRT

Subtítulos SRT

Formato de subtítulos estándar del sector. Listo para YouTube, Vimeo y todas las principales plataformas de video.

VTT

WebVTT

Formato de subtítulos nativo para la web con soporte de estilo. Funciona con reproductores de vídeo HTML5 y contenidos incrustados en la web.

XLS

Script de Excel

Transcripción completa con etiquetas de orador en formato de hoja de cálculo. Úsala para actas de reuniones, documentación o archivo.

{ }

Datos JSON

Datos estructurados con marcas de tiempo a nivel de palabra, identificadores de hablante y puntuaciones de confianza. Útil para la integración con API o flujos de trabajo personalizados.

MP4

MP4 codificado con subtítulos

Vídeo con subtítulos incrustados permanentemente. Listo para compartir sin archivos de subtítulos separados.

Por qué elegirnos

Perso Dubbing frente a transcripción manual

Tiempo, coste y calidad del resultado, uno junto al otro.

Lo que importa

Doblaje de Perso de voz a texto

Transcripción manual

Velocidad de respuesta

~2 minutos por 1 hora de audio · resultados listos en minutos, no en horas

3–6 horas de trabajo por 1 hora de audio · se requiere reserva previa

Cobertura de idiomas

Más de 100 idiomas · detección automática · precisión a nivel nativo

Limitado al idioma nativo del transcriptor · los archivos multilingües necesitan varias personas

Diarización de hablantes

Detecta automáticamente a cada hablante · reasigna cualquier segmento a un hablante detectado diferente · los cambios se reflejan en los subtítulos exportados

Etiquetado manual por segmento · inconsistente en grabaciones largas · es necesario volver a etiquetar si se confunden los hablantes

Edición y sincronización de diálogos

Edita el diálogo transcrito en línea · los cambios se sincronizan automáticamente con las exportaciones de SRT · VTT · XLSX · JSON

Editar la transcripción como texto sin formato · volver a alinear el tiempo de los subtítulos y volver a exportar por separado cada vez que se haga un cambio

Marcas de tiempo

Precisión a nivel de palabra · precisión de milisegundos · integrado en todos los formatos de exportación

Alineación manual de segmentos · propensa a desviarse en grabaciones largas

Exportación de subtítulos

Exportación con un clic a SRT · VTT · XLSX · JSON — listo para YouTube, DaVinci, Premiere o cualquier flujo de trabajo de LLM

Requiere una herramienta de subtitulado independiente · la sincronización debe añadirse de nuevo manualmente

Precisión

Precisión de IA del 95 %+ · ajustable en el editor integrado con control a nivel de palabra

Varía entre el 85 y el 98 % según el transcriptor individual y la calidad del audio

Gestión de oradores

Añade, cambia el nombre o elimina locutores directamente en el editor. Los cambios se sincronizan automáticamente con todos los formatos de exportación.

Añade, cambia el nombre o elimina ponentes directamente en el editor. Los cambios se sincronizan automáticamente con todos los formatos de exportación.

Etiquetado manual de hablantes por segmento. Será necesario volver a etiquetar si cambian los hablantes.

Resumen de IA y tareas pendientes

Resumen de IA y acciones pendientes

Resumen generado automáticamente con copia, regeneración y extracción de elementos de acción. Grabación de 1 hora para resumir en segundos.

Escribe manualmente las notas de la reunión después de escucharla. Los elementos de acción se registran en otra herramienta.

Escribe manualmente las notas de la reunión después de escuchar. Las tareas se registran y siguen en otra herramienta.

Comenzar ahora

`¿Cómo funciona la tecnología de voz a texto de Perso Dubbing?`

Transcribe y traduce tus vídeos en 3 sencillos pasos

Sube cualquier archivo de vídeo o audio. Perso Dubbing separa automáticamente a los hablantes, transcribe en más de 100 idiomas, genera un resumen de IA y exporta SRT, VTT, XLSX, JSON o MP4 codificado con subtítulos. Eso es todo.

Empieza ahora

Preguntas frecuentes

¿Qué es Perso Dubbing Speech to Text y en qué se diferencia de las herramientas de transcripción básicas?

Perso Dubbing Speech to Text convierte archivos de vídeo y audio en guiones precisos y separados por interlocutores en más de 100 idiomas. A diferencia de las herramientas de transcripción básicas, detecta automáticamente a cada interlocutor, le permite reasignar cualquier segmento a un interlocutor detectado diferente y exporta archivos editables en formato SRT, VTT, XLSX y JSON para flujos de trabajo de subtitulación, archivo o contenido.

¿Cómo cobra Perso Dubbing por el uso de Speech to Text?

Perso Dubbing deduce 1 crédito por minuto de duración del archivo multimedia para Speech to Text y Voice Separation, la misma tarifa que AI Dubbing. Solo Lip Dubbing consume el triple de créditos. No hay límite de uso por función, lo que le permite asignar libremente los créditos entre Speech to Text, Voice Separation y Dubbing según las necesidades de su flujo de trabajo.

¿Cómo cobra Perso Dubbing por el uso de Speech to Text?

¿Está disponible Perso Dubbing Speech to Text en el plan gratuito?

Sí. Speech to Text está totalmente disponible en el plan gratuito de Perso Dubbing dentro del minuto de crédito gratuito incluido. Esto te permite transcribir un clip corto, verificar la precisión de la diarización de los hablantes y probar la calidad de exportación de SRT o VTT antes de actualizar a un plan de pago para archivos multimedia más largos.

¿Está disponible Perso Dubbing Speech to Text en el plan gratuito?

¿Speech to Text admite el modo de baja velocidad para una mayor precisión?

No. El modo de baja velocidad no es compatible con Speech to Text ni con Voice Separation. Solo está disponible para AI Dubbing y Lip Dubbing, donde la calidad de la traducción se beneficia de un procesamiento más lento y más refinado. Speech to Text funciona con una canalización rápida y de alta precisión optimizada para la transcripción, no para la traducción.

¿Speech to Text admite el modo de baja velocidad para una mayor precisión?

¿Puedo establecer un idioma de destino para la salida de Speech to Text?

No. Speech to Text transcribe el discurso en el mismo idioma en el que se habla; no es una función de traducción, por lo que no hay configuración de idioma de destino. Si necesitas traducir y volver a doblar tu video a otro idioma, utiliza Perso Dubbing, que gestiona la transcripción, traducción y síntesis de voz en un solo flujo de trabajo.

¿Puedo establecer un idioma de destino para la salida de Speech to Text?

¿Qué formatos de exportación admite Perso Dubbing Speech to Text?

Perso Dubbing Speech to Text exporta cuatro formatos: SRT y VTT para subtítulos y reproductores de video, XLSX para revisión editorial o flujos de trabajo de traducción, y JSON para integraciones de desarrolladores y automatización. Cada formato incluye etiquetas de orador, marcas de tiempo y cualquier edición que realices en el editor web.

¿Qué formatos de exportación admite Perso Dubbing Speech to Text?

¿Cuántos idiomas admite la conversión de voz a texto de Perso Dubbing?

Perso Dubbing Speech to Text detecta y transcribe automáticamente más de 100 idiomas, incluidos el inglés, el coreano, el japonés, el español, el alemán, el francés, el portugués y el ruso. La detección de idioma es automática, por lo que puedes subir contenido multilingüe sin necesidad de preseleccionar un idioma de origen.

¿Cuántos idiomas admite la conversión de voz a texto de Perso Dubbing?

¿Puedo editar el texto transcrito antes de exportarlo?

Sí. Puedes editar cualquier línea transcrita directamente dentro del editor web de Perso Dubbing, corregir palabras mal reconocidas y refinar la puntuación. Tus ediciones se sincronizan automáticamente con las exportaciones a SRT, VTT, XLSX y JSON, por lo que nunca tendrás que conciliar manualmente los archivos de subtítulos después de la corrección.

¿Puedo editar el texto transcrito antes de exportarlo?

¿Es adecuado Perso Dubbing Speech to Text para reuniones, entrevistas y videos de YouTube?

Sí. Perso Dubbing Speech to Text está optimizado para medios con múltiples interlocutores, como reuniones de equipo, entrevistas de podcast, seminarios web y videos de formato largo en YouTube. La diarización automática de interlocutores, la precisión de las marcas de tiempo y la exportación directa a SRT/VTT lo convierten en un sustituto directo de los flujos de trabajo de transcripción manual en equipos de contenido e investigación.

¿Es adecuado Perso Dubbing Speech to Text para reuniones, entrevistas y videos de YouTube?

¿Puedo añadir, renombrar o eliminar hablantes después de la transcripción?

Sí. En la página de resultados de Perso Dubbing, puedes añadir nuevos hablantes, cambiar el nombre de las etiquetas existentes por nombres reales y eliminar los hablantes que no necesites. Todos los cambios se reflejan automáticamente al descargar los archivos SRT, VTT, XLSX, JSON o de vídeo con subtítulos codificados.

¿Puedo añadir, renombrar o eliminar hablantes después de la transcripción?

¿Qué es la codificación de subtítulos y cómo descargo un vídeo con subtítulos?

La codificación de subtítulos incrusta tu transcripción directamente en el vídeo como subtítulos permanentes. Después de la transcripción, selecciona la opción MP4 con subtítulos incrustados en el menú de descarga. El vídeo exportado está listo para compartir en redes sociales, canales internos o presentaciones.

¿Qué es la codificación de subtítulos y cómo descargo un vídeo con subtítulos?

¿Cómo funciona el Resumen de IA en Perso Dubbing Speech to Text?

Después de la transcripción, Perso Dubbing genera automáticamente un resumen conciso de tu contenido. Puedes copiar el resumen con un solo clic, volver a generarlo para obtener una nueva versión o extraer tareas pendientes de reuniones y entrevistas. El Resumen de IA está disponible para proyectos de Speech to Text.

¿Cómo funciona el Resumen de IA en Perso Dubbing Speech to Text?

Empieza a transcribir tus videos con Perso Dubbing

Convierte video a texto y crea versiones traducidas y sincronizadas con los labios en solo minutos

Prueba Perso Dubbing gratis

Empieza a transcribir tus videos con Perso Dubbing

Convierte video a texto y crea versiones traducidas y sincronizadas con los labios en solo minutos

Prueba Perso Dubbing gratis

Empieza a transcribir tus videos con Perso Dubbing

Convierte video a texto y crea versiones traducidas y sincronizadas con los labios en solo minutos

Prueba Perso Dubbing gratis

Transcripción de voz a texto con gestión de hablantes, resumen con IA y exportación de subtítulos

Transcripción de voz a texto con IA con gestión de hablantes, resumen con IA y exportación de subtítulos

Características principales

Transcribe, edita y exporta en un solo proyecto

Resumen de IA con acciones pendientes

Descarga de vídeo con subtítulos incrustados

Detección automática de idioma: más de 100 idiomas

Edición de guiones y subtítulos

Exportación multiformato + vídeo con subtítulos incrustados

Gestión de oradores: añadir, cambiar el nombre y eliminar

Conexión directa con el doblaje y la traducción

Más allá de la transcripción

Casos de uso

Subtítulos, notas de reuniones, guiones de clase

Creadores de Contenido

Equipos y empresas

Educadores

Productores de vídeo

Una sola carga, múltiples exportaciones

Una sola carga, múltiples exportaciones

Perso Dubbing frente a transcripción manual

Lo que importa

Lo que importa

Doblaje de Perso de voz a texto

Doblaje de Perso de voz a texto

Transcripción manual

Transcripción manual

¿Cómo funciona la tecnología de voz a texto de Perso Dubbing?

Transcribe y traduce tus vídeos en 3 sencillos pasos

Preguntas frecuentes

Preguntas frecuentes

¿Qué es Perso Dubbing Speech to Text y en qué se diferencia de las herramientas de transcripción básicas?

¿Cómo cobra Perso Dubbing por el uso de Speech to Text?

¿Cómo cobra Perso Dubbing por el uso de Speech to Text?

¿Está disponible Perso Dubbing Speech to Text en el plan gratuito?

¿Está disponible Perso Dubbing Speech to Text en el plan gratuito?

¿Speech to Text admite el modo de baja velocidad para una mayor precisión?

¿Speech to Text admite el modo de baja velocidad para una mayor precisión?

¿Puedo establecer un idioma de destino para la salida de Speech to Text?

¿Puedo establecer un idioma de destino para la salida de Speech to Text?

¿Qué formatos de exportación admite Perso Dubbing Speech to Text?

¿Qué formatos de exportación admite Perso Dubbing Speech to Text?

¿Cuántos idiomas admite la conversión de voz a texto de Perso Dubbing?

¿Cuántos idiomas admite la conversión de voz a texto de Perso Dubbing?

¿Puedo editar el texto transcrito antes de exportarlo?

¿Puedo editar el texto transcrito antes de exportarlo?

¿Es adecuado Perso Dubbing Speech to Text para reuniones, entrevistas y videos de YouTube?

¿Es adecuado Perso Dubbing Speech to Text para reuniones, entrevistas y videos de YouTube?

¿Puedo añadir, renombrar o eliminar hablantes después de la transcripción?

¿Puedo añadir, renombrar o eliminar hablantes después de la transcripción?

¿Qué es la codificación de subtítulos y cómo descargo un vídeo con subtítulos?

¿Qué es la codificación de subtítulos y cómo descargo un vídeo con subtítulos?

¿Cómo funciona el Resumen de IA en Perso Dubbing Speech to Text?

¿Cómo funciona el Resumen de IA en Perso Dubbing Speech to Text?

Explora las características de nuestro producto

Explora nuestras características del producto

Empieza a transcribir tus videos con Perso Dubbing

Empieza a transcribir tus videos con Perso Dubbing

Empieza a transcribir tus videos con Perso Dubbing

`¿Cómo funciona la tecnología de voz a texto de Perso Dubbing?`