Transcripción de voz a texto con IA, detección de hablantes y exportación de subtítulos

Perso AI Speech to Text es una herramienta de transcripción impulsada por IA que convierte archivos de audio y vídeo en texto editable en más de 99 idiomas con detección automática de hablantes. Edita transcripciones, reasigna hablantes y exporta como SRT, VTT, Excel o JSON con marcas de tiempo a nivel de palabra. Todo en un solo proyecto.

Pruébalo ahora

Pruébalo ahora

Pruébalo ahora

No se necesita instalación · Plan gratuito disponible · Empieza en segundos

La mejor herramienta de separación de audio
La mejor herramienta de separación de audio
La mejor herramienta de separación de audio

Formatos de exportación SRT · VTT · XLSX · JSON

Formatos de exportación SRT · VTT · XLSX · JSON

99+ idiomas detectados automáticamente

99+ idiomas detectados automáticamente

Marcas de tiempo a nivel de palabra

Marcas de tiempo a nivel de palabra

Detección automática de hablantes

Detección automática de hablantes

Velocidad rápida lista en minutos

Velocidad rápida lista en minutos

Rápido · Seguro · Preciso

Características principales

Características principales

Transcribe, edita y exporta en un solo proyecto

Transcribe, edita y exporta en un solo proyecto

Detección automática de idioma: más de 99 idiomas

Sube cualquier archivo de audio o vídeo. Perso AI detecta automáticamente el idioma hablado en más de 99 idiomas compatibles. No se necesita selección manual.

Diarización de hablantes y edición de etiquetas

Separa automáticamente a los oradores y etiqueta cada segmento. Reasigna cualquier segmento a otro orador detectado, y los cambios se aplicarán en todos los archivos exportados.

Edición de guiones y subtítulos

Sube cualquier archivo de audio o vídeo. Perso AI detecta automáticamente el idioma hablado en más de 99 idiomas compatibles. No se necesita selección manual.

Exportación multiformato

Sube cualquier archivo de audio o vídeo. Perso AI detecta automáticamente el idioma hablado en más de 99 idiomas compatibles. No se necesita selección manual.

Se conecta directamente con el doblaje y la traducción

Sube cualquier archivo de audio o vídeo. Perso AI detecta automáticamente el idioma hablado en más de 99 idiomas compatibles. No se necesita selección manual.

Comenzar ahora

Comenzar ahora

Comenzar ahora

Una sola carga, múltiples exportaciones

Subtítulos, guiones o datos sin procesar con marcas de tiempo. Elige el formato que necesites.

SRT

Subtítulos SRT

Formato de subtítulos estándar del sector. Listo para YouTube, Vimeo y todas las principales plataformas de video.

VTT

WebVTT

Formato de subtítulos nativo para la web con soporte de estilo. Funciona con reproductores de vídeo HTML5 y contenidos incrustados en la web.

XLS

Script de Excel

Transcripción completa con etiquetas de orador en formato de hoja de cálculo. Úsala para actas de reuniones, documentación o archivo.

{ }

Datos JSON

Datos estructurados con marcas de tiempo a nivel de palabra, identificadores de hablante y puntuaciones de confianza. Útil para la integración con API o flujos de trabajo personalizados.

Subtítulos, notas de reuniones, guiones de clase

La misma herramienta, diferentes resultados según lo que necesites.

Creadores de Contenido

Convierte vlogs, podcasts y vídeos en subtítulos listos para publicar en minutos. Sube, edita y exporta: no hace falta transcribir manualmente.

Subtítulos automáticos para YouTube, TikTok y Reels

Editar subtítulos en línea antes de exportar

Compatibilidad con más de 99 idiomas

Exportación de SRT · VTT

Equipos y empresas

Transforma las grabaciones de reuniones en notas buscables y con identificación de oradores. Funciona con cualquier plataforma de videoconferencia o grabadora de voz.

Diarización automática de hablantes

Actas de reunión estructuradas de Excel

Marcas de tiempo a nivel de palabra para citas

Exportar a XLSX

Exportar a XLSX

Educadores

Transcribe conferencias y contenido del curso con gran precisión. Genera subtítulos para accesibilidad o guiones listos para estudiar.

Precisión en conferencias largas

Generación de subtítulos para LMS

Multilingüe para estudiantes de todo el mundo

Listo para accesibilidad

Productores de vídeo

Empieza con la transcripción y pasa al doblaje o a la traducción sin volver a subir el archivo. Una sola carga cubre todo el flujo de localización.

Transcribe → Edita → Exporta en un solo flujo

Conecta con doblaje y traducción con IA

Separación de audio incluida

Localización completa

Comenzar ahora

Comenzar ahora

Comenzar ahora

Por qué elegirnos

Por qué elegirnos

Perso AI vs. transcripción manual

Tiempo, coste y calidad del resultado, uno junto al otro.

Lo que importa

Lo que importa

Lo que importa

Perso AI de voz a texto

Perso AI de voz a texto

Perso AI de voz a texto

Transcripción manual

Transcripción manual

Transcripción manual

Velocidad de respuesta

Velocidad de respuesta

~2 minutos por 1 hora de audio · resultados listos en minutos, no en horas

~2 minutos por 1 hora de audio · resultados listos en minutos, no en horas

3–6 horas de trabajo por 1 hora de audio · se requiere reserva previa

3–6 horas de trabajo por 1 hora de audio · se requiere reserva previa

Cobertura de idiomas

Cobertura de idiomas

Más de 99 idiomas · detección automática · precisión de nivel nativo

Más de 99 idiomas · detección automática · precisión de nivel nativo

Limitado al idioma nativo del transcriptor · los archivos multilingües necesitan varias personas

Limitado al idioma nativo del transcriptor · los archivos multilingües necesitan varias personas

Diarización de hablantes

Diarización de hablantes

Detecta automáticamente a cada hablante · reasigna cualquier segmento a un hablante detectado diferente · los cambios se reflejan en los subtítulos exportados

Detecta automáticamente a cada hablante · reasigna cualquier segmento a un hablante detectado diferente · los cambios se reflejan en los subtítulos exportados

Etiquetado manual por segmento · inconsistente en grabaciones largas · es necesario volver a etiquetar si se confunden los hablantes

Etiquetado manual por segmento · inconsistente en grabaciones largas · es necesario volver a etiquetar si se confunden los hablantes

Edición y sincronización de diálogos

Edición y sincronización de diálogos

Edita el diálogo transcrito en línea · los cambios se sincronizan automáticamente con las exportaciones de SRT · VTT · XLSX · JSON

Edita el diálogo transcrito en línea · los cambios se sincronizan automáticamente con las exportaciones de SRT · VTT · XLSX · JSON

Editar la transcripción como texto sin formato · volver a alinear el tiempo de los subtítulos y volver a exportar por separado cada vez que se haga un cambio

Editar la transcripción como texto sin formato · volver a alinear el tiempo de los subtítulos y volver a exportar por separado cada vez que se haga un cambio

Marcas de tiempo

Marcas de tiempo

Precisión a nivel de palabra · precisión de milisegundos · integrado en todos los formatos de exportación

Precisión a nivel de palabra · precisión de milisegundos · integrado en todos los formatos de exportación

Alineación manual de segmentos · propensa a desviarse en grabaciones largas

Alineación manual de segmentos · propensa a desviarse en grabaciones largas

Exportación de subtítulos

Exportación de subtítulos

Exportación con un clic a SRT · VTT · XLSX · JSON — listo para YouTube, DaVinci, Premiere o cualquier flujo de trabajo de LLM

Exportación con un clic a SRT · VTT · XLSX · JSON — listo para YouTube, DaVinci, Premiere o cualquier flujo de trabajo de LLM

Requiere una herramienta de subtitulado independiente · la sincronización debe añadirse de nuevo manualmente

Requiere una herramienta de subtitulado independiente · la sincronización debe añadirse de nuevo manualmente

Precisión

Precisión

Precisión de IA del 95 %+ · ajustable en el editor integrado con control a nivel de palabra

Precisión de IA del 95 %+ · ajustable en el editor integrado con control a nivel de palabra

Varía entre el 85 y el 98 % según el transcriptor individual y la calidad del audio

Varía entre el 85 y el 98 % según el transcriptor individual y la calidad del audio

Comenzar ahora

Comenzar ahora

Comenzar ahora

Preguntas frecuentes

Preguntas frecuentes

¿Qué es Perso AI voz a texto y en qué se diferencia de las herramientas básicas de transcripción?

Perso AI Speech to Text convierte archivos de vídeo y audio en transcripciones precisas y separadas por hablante en más de 99 idiomas. A diferencia de las herramientas básicas de transcripción, detecta automáticamente a cada hablante, te permite reasignar cualquier segmento a un hablante detectado diferente y exporta archivos editables SRT, VTT, XLSX y JSON para subtitulado, archivado o flujos de trabajo de contenido.

¿Cómo cobra Perso AI por el uso de Speech to Text?

Perso AI descuenta 1 crédito por minuto de duración del contenido para Speech to Text y Voice Separation — la misma tarifa que AI Dubbing. Solo Lip Dubbing usa 3× créditos. No hay un límite de uso por función, por lo que puedes asignar créditos libremente entre Speech to Text, Voice Separation y Dubbing según las necesidades de tu flujo de trabajo.

¿Cómo cobra Perso AI por el uso de Speech to Text?

¿Está disponible Perso AI Speech to Text en el plan gratuito?

Sí. La función de voz a texto está totalmente disponible en el plan gratuito de Perso AI dentro del minuto de crédito gratuito incluido. Esto te permite transcribir un clip corto, comprobar la precisión de la diarización de hablantes y probar la calidad de exportación en SRT o VTT antes de pasar a un plan de pago para contenido más largo.

¿Está disponible Perso AI Speech to Text en el plan gratuito?

¿Speech to Text admite el modo de baja velocidad para una mayor precisión?

No. El modo de baja velocidad no es compatible con Speech to Text ni con Voice Separation. Solo está disponible para AI Dubbing y Lip Dubbing, donde la calidad de la traducción se beneficia de un procesamiento más lento y más refinado. Speech to Text funciona con una canalización rápida y de alta precisión optimizada para la transcripción, no para la traducción.

¿Speech to Text admite el modo de baja velocidad para una mayor precisión?

¿Puedo establecer un idioma de destino para la salida de Speech to Text?

No. Speech to Text transcribe el habla en el mismo idioma en que se habla — no es una función de traducción, por lo que no existe una configuración de idioma de destino. Si necesitas traducir y volver a locutar tu vídeo en otro idioma, usa Perso AI Dubbing, que se encarga de la transcripción, la traducción y la síntesis de voz en un solo flujo de trabajo.

¿Puedo establecer un idioma de destino para la salida de Speech to Text?

¿Qué formatos de exportación admite Perso AI Speech to Text?

Perso AI Speech to Text exporta cuatro formatos: SRT y VTT para subtítulos y reproductores de vídeo, XLSX para revisión editorial o flujos de trabajo de traducción, y JSON para integraciones de desarrolladores y automatización. Cada formato incluye etiquetas de hablante, marcas de tiempo y cualquier edición que hagas en el editor web.

¿Qué formatos de exportación admite Perso AI Speech to Text?

¿Cuántos idiomas admite Perso AI Speech to Text?

Perso AI Conversión de voz a texto detecta y transcribe automáticamente más de 99 idiomas, incluidos inglés, coreano, japonés, español, alemán, francés, portugués y ruso. La detección de idioma es automática, por lo que puedes subir contenido multilingüe sin seleccionar previamente un idioma de origen.

¿Cuántos idiomas admite Perso AI Speech to Text?

¿Puedo editar el texto transcrito antes de exportarlo?

Sí. Puedes editar cualquier línea transcrita directamente dentro del editor web de Perso AI, corregir palabras mal reconocidas y refinar la puntuación. Tus cambios se sincronizan automáticamente con las exportaciones a SRT, VTT, XLSX y JSON, así que nunca tendrás que reconciliar manualmente los archivos de subtítulos después de corregirlos.

¿Puedo editar el texto transcrito antes de exportarlo?

¿Es adecuada la función Speech to Text de Perso AI para reuniones, entrevistas y vídeos de YouTube?

Sí. Perso AI Speech to Text está optimizado para medios con varios hablantes, como reuniones de equipo, entrevistas de pódcast, seminarios web y vídeos largos de YouTube. La diarización automática de hablantes, la precisión de las marcas de tiempo y la exportación directa a SRT/VTT lo convierten en un sustituto inmediato de los flujos de trabajo de transcripción manual para equipos de contenido e investigación.

¿Es adecuada la función Speech to Text de Perso AI para reuniones, entrevistas y vídeos de YouTube?

Empieza a transcribir tus videos con Perso AI

Convierte video a texto y crea versiones traducidas y sincronizadas con los labios en solo minutos

Prueba Perso AI gratis

Dashboard

Empieza a transcribir tus videos con Perso AI

Convierte video a texto y crea versiones traducidas y sincronizadas con los labios en solo minutos

Prueba Perso AI gratis

Dashboard

Empieza a transcribir tus videos con Perso AI

Convierte video a texto y crea versiones traducidas y sincronizadas con los labios en solo minutos

Prueba Perso AI gratis

Dashboard