Transcripción de voz a texto con gestión de hablantes, resumen con IA y exportación de subtítulos

Transcripción de voz a texto con IA con gestión de hablantes, resumen con IA y exportación de subtítulos

Sube cualquier archivo de vídeo o audio. Perso AI transcribe en más de 99 idiomas con detección automática de hablantes, genera resúmenes con IA con elementos de acción y exporta subtítulos, guiones o vídeo con subtítulos incrustados. El procesamiento tarda menos de 2 minutos por hora. Todo de forma automática.

No se necesita instalación · Plan gratuito disponible · Empieza en segundos

La mejor herramienta de separación de audio
La mejor herramienta de separación de audio
La mejor herramienta de separación de audio

Resumen de IA incluido con elementos de acción

Resumen de IA incluido con elementos de acción

Formatos de exportación SRT · VTT · XLSX · JSON · MP4

Formatos de exportación SRT · VTT · XLSX · JSON · MP4

99+ idiomas detectados automáticamente

99+ idiomas detectados automáticamente

Marcas de tiempo a nivel de palabra

Marcas de tiempo a nivel de palabra

Detección automática de hablantes

Detección automática de hablantes

Velocidad rápida lista en minutos

Velocidad rápida lista en minutos

Gestión de locutores: añadir, cambiar nombre, eliminar

Gestión de locutores: añadir, cambiar nombre, eliminar

Rápido · Seguro · Preciso

Características principales

Características principales

Transcribe, edita y exporta en un solo proyecto

Transcribe, edita y exporta en un solo proyecto

Resumen de IA con acciones pendientes

Resumen de IA con acciones pendientes

Ve más allá de la transcripción. Genera automáticamente un resumen conciso, cópialo al instante, vuelve a generarlo para obtener una nueva versión o extrae elementos de acción de reuniones y entrevistas.

Descarga de vídeo con subtítulos incrustados

Descarga de vídeo con subtítulos incrustados

Descarga un MP4 listo para compartir con los subtítulos incrustados permanentemente. No necesitas un archivo de subtítulos aparte ni un editor de vídeo. Sube, transcribe y descarga el vídeo con subtítulos.

Detección automática de idioma: más de 99 idiomas

Detección automática de idioma: más de 99 idiomas

Sube cualquier archivo de audio o vídeo. Perso AI detecta automáticamente el idioma hablado en más de 99 idiomas compatibles. No se necesita selección manual.

Edición de guiones y subtítulos

Edite cualquier línea transcrita directamente en el editor web. Corrija las palabras mal reconocidas, refine la puntuación y sincronice automáticamente los cambios en todos los formatos de exportación.

Exportación multiformato + vídeo con subtítulos incrustados

Edita cualquier línea transcrita directamente en el editor web. Corrige las palabras mal reconocidas, perfecciona la puntuación y sincroniza los cambios automáticamente con todos los formatos de exportación.

Gestión de oradores: añadir, cambiar el nombre y eliminar

Gestión de oradores: añadir, cambiar el nombre y eliminar

Detecta automáticamente a cada hablante y toma el control total. Añade nuevos hablantes, cambia las etiquetas por nombres reales o elimina los segmentos que no necesites. Todos los cambios se sincronizan con los archivos exportados.

Conexión directa con el doblaje y la traducción

Conexión directa con el doblaje y la traducción

Sube cualquier archivo de audio o vídeo. Perso AI detecta automáticamente el idioma hablado en más de 99 idiomas compatibles. No se necesita selección manual.

Comenzar ahora

Comenzar ahora

Comenzar ahora

Más allá de la transcripción

Perso AI Speech to Text no se limita a convertir voz en texto. Obtén resúmenes impulsados por IA, extrae tareas pendientes de las reuniones y descarga vídeos con subtítulos listos para compartir. La única herramienta de transcripción que combina las tres funciones en una sola carga.

Perso AI Speech to Text no se limita a convertir voz en texto. Obtén resúmenes impulsados por IA, extrae puntos de acción de las reuniones y descarga vídeos con subtítulos incrustados listos para compartir. La única herramienta de transcripción que combina las tres funciones en una sola carga.

Perso AI Speech to Text no se limita a convertir voz a texto. Obtén resúmenes con IA, extrae tareas de las reuniones y descarga vídeos con subtítulos listos para compartir. La única herramienta de transcripción que combina las tres funciones en una sola subida.

📝

Resumen de IA

Resumen generado automáticamente de tu grabación. Copia el resultado al instante o vuelve a generarlo para obtener una versión nueva. Convierte horas de contenido en un breve resumen.

Elementos de acción

Extrae automáticamente tareas accionables de reuniones y entrevistas. Omite la toma de notas manual y obtén una lista estructurada de los siguientes pasos.

🎥

Vídeo codificado con subtítulos

Descarga un MP4 con subtítulos incrustados de forma permanente. Compártelo en redes sociales, canales internos o presentaciones sin necesidad de un archivo de subtítulos aparte.

Casos de uso

Casos de uso

Subtítulos, notas de reuniones, guiones de clase

La misma herramienta, diferentes resultados según lo que necesites.

Creadores de Contenido

Convierte vlogs, podcasts y vídeos en subtítulos listos para publicar en minutos. Sube, edita y exporta: no hace falta transcribir manualmente.

Subtítulos automáticos para YouTube, TikTok y Reels

Editar subtítulos en línea antes de exportar

Compatibilidad con más de 99 idiomas

Descargar MP4 con subtítulos listo para subir

Exportación de SRT · VTT · MP4

Equipos y empresas

Transforma las grabaciones de reuniones en notas buscables y con identificación de oradores. Funciona con cualquier plataforma de videoconferencia o grabadora de voz.

Resumen de IA con copia con un solo clic

Extraer elementos de acción de las grabaciones de reuniones

Agregar, cambiar el nombre o eliminar etiquetas de orador

Diarización automática de hablantes

Actas de reunión estructuradas de Excel

Marcas de tiempo a nivel de palabra para citas

Exportación XLSX · JSON · MP4

Exportar a XLSX

Educadores

Transcribe conferencias y contenido del curso con gran precisión. Genera subtítulos para accesibilidad o guiones listos para estudiar.

Resumen de IA para resúmenes rápidos de clases

Vídeo codificado con subtítulos para accesibilidad

Precisión en conferencias largas

Generación de subtítulos para LMS

Multilingüe para estudiantes de todo el mundo

Listo para accesibilidad

Productores de vídeo

Empieza con la transcripción y pasa al doblaje o a la traducción sin volver a subir el archivo. Una sola carga cubre todo el flujo de localización.

Transcribe, edita y exporta en un solo flujo

Descargar MP4 con subtítulos incrustados

Conecta con doblaje y traducción con IA

Separación de audio incluida

Localización completa

Comenzar ahora

Comenzar ahora

Comenzar ahora

Una sola carga, múltiples exportaciones

Una sola carga, múltiples exportaciones

Subtítulos, guiones o datos sin procesar con marcas de tiempo. Elige el formato que necesites.

SRT

Subtítulos SRT

Formato de subtítulos estándar del sector. Listo para YouTube, Vimeo y todas las principales plataformas de video.

VTT

WebVTT

Formato de subtítulos nativo para la web con soporte de estilo. Funciona con reproductores de vídeo HTML5 y contenidos incrustados en la web.

XLS

Script de Excel

Transcripción completa con etiquetas de orador en formato de hoja de cálculo. Úsala para actas de reuniones, documentación o archivo.

{ }

Datos JSON

Datos estructurados con marcas de tiempo a nivel de palabra, identificadores de hablante y puntuaciones de confianza. Útil para la integración con API o flujos de trabajo personalizados.

MP4

MP4 codificado con subtítulos

Vídeo con subtítulos incrustados permanentemente. Listo para compartir sin archivos de subtítulos separados.

Por qué elegirnos

Por qué elegirnos

Perso AI vs. transcripción manual

Tiempo, coste y calidad del resultado, uno junto al otro.

Lo que importa

Lo que importa

Lo que importa

Perso AI de voz a texto

Perso AI de voz a texto

Perso AI de voz a texto

Transcripción manual

Transcripción manual

Transcripción manual

Velocidad de respuesta

Velocidad de respuesta

~2 minutos por 1 hora de audio · resultados listos en minutos, no en horas

~2 minutos por 1 hora de audio · resultados listos en minutos, no en horas

3–6 horas de trabajo por 1 hora de audio · se requiere reserva previa

3–6 horas de trabajo por 1 hora de audio · se requiere reserva previa

Cobertura de idiomas

Cobertura de idiomas

Más de 99 idiomas · detección automática · precisión de nivel nativo

Más de 99 idiomas · detección automática · precisión de nivel nativo

Limitado al idioma nativo del transcriptor · los archivos multilingües necesitan varias personas

Limitado al idioma nativo del transcriptor · los archivos multilingües necesitan varias personas

Diarización de hablantes

Diarización de hablantes

Detecta automáticamente a cada hablante · reasigna cualquier segmento a un hablante detectado diferente · los cambios se reflejan en los subtítulos exportados

Detecta automáticamente a cada hablante · reasigna cualquier segmento a un hablante detectado diferente · los cambios se reflejan en los subtítulos exportados

Etiquetado manual por segmento · inconsistente en grabaciones largas · es necesario volver a etiquetar si se confunden los hablantes

Etiquetado manual por segmento · inconsistente en grabaciones largas · es necesario volver a etiquetar si se confunden los hablantes

Edición y sincronización de diálogos

Edición y sincronización de diálogos

Edita el diálogo transcrito en línea · los cambios se sincronizan automáticamente con las exportaciones de SRT · VTT · XLSX · JSON

Edita el diálogo transcrito en línea · los cambios se sincronizan automáticamente con las exportaciones de SRT · VTT · XLSX · JSON

Editar la transcripción como texto sin formato · volver a alinear el tiempo de los subtítulos y volver a exportar por separado cada vez que se haga un cambio

Editar la transcripción como texto sin formato · volver a alinear el tiempo de los subtítulos y volver a exportar por separado cada vez que se haga un cambio

Marcas de tiempo

Marcas de tiempo

Precisión a nivel de palabra · precisión de milisegundos · integrado en todos los formatos de exportación

Precisión a nivel de palabra · precisión de milisegundos · integrado en todos los formatos de exportación

Alineación manual de segmentos · propensa a desviarse en grabaciones largas

Alineación manual de segmentos · propensa a desviarse en grabaciones largas

Exportación de subtítulos

Exportación de subtítulos

Exportación con un clic a SRT · VTT · XLSX · JSON — listo para YouTube, DaVinci, Premiere o cualquier flujo de trabajo de LLM

Exportación con un clic a SRT · VTT · XLSX · JSON — listo para YouTube, DaVinci, Premiere o cualquier flujo de trabajo de LLM

Requiere una herramienta de subtitulado independiente · la sincronización debe añadirse de nuevo manualmente

Requiere una herramienta de subtitulado independiente · la sincronización debe añadirse de nuevo manualmente

Precisión

Precisión

Precisión de IA del 95 %+ · ajustable en el editor integrado con control a nivel de palabra

Precisión de IA del 95 %+ · ajustable en el editor integrado con control a nivel de palabra

Varía entre el 85 y el 98 % según el transcriptor individual y la calidad del audio

Varía entre el 85 y el 98 % según el transcriptor individual y la calidad del audio

Gestión de oradores

Gestión de oradores

Añade, cambia el nombre o elimina locutores directamente en el editor. Los cambios se sincronizan automáticamente con todos los formatos de exportación.

Añade, cambia el nombre o elimina locutores directamente en el editor. Los cambios se sincronizan automáticamente con todos los formatos de exportación.

Añade, cambia el nombre o elimina ponentes directamente en el editor. Los cambios se sincronizan automáticamente con todos los formatos de exportación.

Etiquetado manual de hablantes por segmento. Será necesario volver a etiquetar si cambian los hablantes.

Etiquetado manual de hablantes por segmento. Será necesario volver a etiquetar si cambian los hablantes.

Resumen de IA y tareas pendientes

Resumen de IA y acciones pendientes

Resumen generado automáticamente con copia, regeneración y extracción de elementos de acción. Grabación de 1 hora para resumir en segundos.

Resumen generado automáticamente con copia, regeneración y extracción de elementos de acción. Grabación de 1 hora para resumir en segundos.

Escribe manualmente las notas de la reunión después de escucharla. Los elementos de acción se registran en otra herramienta.

Escribe manualmente las notas de la reunión después de escucharla. Los elementos de acción se registran en otra herramienta.

Escribe manualmente las notas de la reunión después de escuchar. Las tareas se registran y siguen en otra herramienta.

Comenzar ahora

Comenzar ahora

Comenzar ahora

¿Cómo funciona el reconocimiento de voz a texto de Perso AI?

¿Cómo funciona Perso AI de voz a texto?

Transcribe y traduce tus vídeos en 3 sencillos pasos

Sube cualquier archivo de vídeo o audio. Perso AI separa automáticamente a los hablantes, transcribe en más de 99 idiomas, genera un resumen con IA y exporta SRT, VTT, XLSX, JSON o MP4 con subtítulos incrustados. Eso es todo.

Sube cualquier archivo de vídeo o audio. Perso AI separa automáticamente a los hablantes, transcribe en más de 99 idiomas, genera un resumen con IA y exporta SRT, VTT, XLSX, JSON o MP4 codificado con subtítulos. Eso es todo.

Sube cualquier archivo de vídeo o audio. Perso AI separa automáticamente a los interlocutores, transcribe en más de 99 idiomas, genera un resumen con IA y exporta SRT, VTT, XLSX, JSON o MP4 con subtítulos incrustados. Eso es todo.

Empieza ahora

Empieza ahora

Empieza ahora

Preguntas frecuentes

Preguntas frecuentes

¿Qué es Perso AI voz a texto y en qué se diferencia de las herramientas básicas de transcripción?

Perso AI Speech to Text convierte archivos de vídeo y audio en transcripciones precisas y separadas por hablante en más de 99 idiomas. A diferencia de las herramientas básicas de transcripción, detecta automáticamente a cada hablante, te permite reasignar cualquier segmento a un hablante detectado diferente y exporta archivos editables SRT, VTT, XLSX y JSON para subtitulado, archivado o flujos de trabajo de contenido.

¿Cómo cobra Perso AI por el uso de Speech to Text?

Perso AI descuenta 1 crédito por minuto de duración del contenido para Speech to Text y Voice Separation — la misma tarifa que AI Dubbing. Solo Lip Dubbing usa 3× créditos. No hay un límite de uso por función, por lo que puedes asignar créditos libremente entre Speech to Text, Voice Separation y Dubbing según las necesidades de tu flujo de trabajo.

¿Cómo cobra Perso AI por el uso de Speech to Text?

¿Está disponible Perso AI Speech to Text en el plan gratuito?

Sí. La función de voz a texto está totalmente disponible en el plan gratuito de Perso AI dentro del minuto de crédito gratuito incluido. Esto te permite transcribir un clip corto, comprobar la precisión de la diarización de hablantes y probar la calidad de exportación en SRT o VTT antes de pasar a un plan de pago para contenido más largo.

¿Está disponible Perso AI Speech to Text en el plan gratuito?

¿Speech to Text admite el modo de baja velocidad para una mayor precisión?

No. El modo de baja velocidad no es compatible con Speech to Text ni con Voice Separation. Solo está disponible para AI Dubbing y Lip Dubbing, donde la calidad de la traducción se beneficia de un procesamiento más lento y más refinado. Speech to Text funciona con una canalización rápida y de alta precisión optimizada para la transcripción, no para la traducción.

¿Speech to Text admite el modo de baja velocidad para una mayor precisión?

¿Puedo establecer un idioma de destino para la salida de Speech to Text?

No. Speech to Text transcribe el habla en el mismo idioma en que se habla — no es una función de traducción, por lo que no existe una configuración de idioma de destino. Si necesitas traducir y volver a locutar tu vídeo en otro idioma, usa Perso AI Dubbing, que se encarga de la transcripción, la traducción y la síntesis de voz en un solo flujo de trabajo.

¿Puedo establecer un idioma de destino para la salida de Speech to Text?

¿Qué formatos de exportación admite Perso AI Speech to Text?

Perso AI Speech to Text exporta cuatro formatos: SRT y VTT para subtítulos y reproductores de vídeo, XLSX para revisión editorial o flujos de trabajo de traducción, y JSON para integraciones de desarrolladores y automatización. Cada formato incluye etiquetas de hablante, marcas de tiempo y cualquier edición que hagas en el editor web.

¿Qué formatos de exportación admite Perso AI Speech to Text?

¿Cuántos idiomas admite Perso AI Speech to Text?

Perso AI Conversión de voz a texto detecta y transcribe automáticamente más de 99 idiomas, incluidos inglés, coreano, japonés, español, alemán, francés, portugués y ruso. La detección de idioma es automática, por lo que puedes subir contenido multilingüe sin seleccionar previamente un idioma de origen.

¿Cuántos idiomas admite Perso AI Speech to Text?

¿Puedo editar el texto transcrito antes de exportarlo?

Sí. Puedes editar cualquier línea transcrita directamente dentro del editor web de Perso AI, corregir palabras mal reconocidas y refinar la puntuación. Tus cambios se sincronizan automáticamente con las exportaciones a SRT, VTT, XLSX y JSON, así que nunca tendrás que reconciliar manualmente los archivos de subtítulos después de corregirlos.

¿Puedo editar el texto transcrito antes de exportarlo?

¿Es adecuada la función Speech to Text de Perso AI para reuniones, entrevistas y vídeos de YouTube?

Sí. Perso AI Speech to Text está optimizado para medios con varios hablantes, como reuniones de equipo, entrevistas de pódcast, seminarios web y vídeos largos de YouTube. La diarización automática de hablantes, la precisión de las marcas de tiempo y la exportación directa a SRT/VTT lo convierten en un sustituto inmediato de los flujos de trabajo de transcripción manual para equipos de contenido e investigación.

¿Es adecuada la función Speech to Text de Perso AI para reuniones, entrevistas y vídeos de YouTube?

¿Puedo añadir, renombrar o eliminar hablantes después de la transcripción?

Sí. En la página de resultados de Perso AI, puedes añadir nuevos hablantes, cambiar el nombre de las etiquetas existentes por nombres reales y eliminar los hablantes que no necesites. Todos los cambios se reflejan automáticamente cuando descargas archivos SRT, VTT, XLSX, JSON o vídeos codificados con subtítulos.

¿Puedo añadir, renombrar o eliminar hablantes después de la transcripción?

¿Qué es la codificación de subtítulos y cómo descargo un vídeo con subtítulos?

La codificación de subtítulos incrusta tu transcripción directamente en el vídeo como subtítulos permanentes. Después de la transcripción, selecciona la opción MP4 con subtítulos incrustados en el menú de descarga. El vídeo exportado está listo para compartir en redes sociales, canales internos o presentaciones.

¿Qué es la codificación de subtítulos y cómo descargo un vídeo con subtítulos?

¿Cómo funciona el resumen con IA en Perso AI Speech to Text?

Después de la transcripción, Perso AI genera automáticamente un resumen conciso de su contenido. Puede copiar el resumen con un solo clic, regenerarlo para obtener una versión nueva o extraer tareas pendientes de reuniones y entrevistas. AI Summary está disponible para proyectos de Speech to Text.

¿Cómo funciona el resumen con IA en Perso AI Speech to Text?

Empieza a transcribir tus videos con Perso AI

Convierte video a texto y crea versiones traducidas y sincronizadas con los labios en solo minutos

Prueba Perso AI gratis

Dashboard

Empieza a transcribir tus videos con Perso AI

Convierte video a texto y crea versiones traducidas y sincronizadas con los labios en solo minutos

Prueba Perso AI gratis

Dashboard

Empieza a transcribir tus videos con Perso AI

Convierte video a texto y crea versiones traducidas y sincronizadas con los labios en solo minutos

Prueba Perso AI gratis

Dashboard