Transcrição de áudio para texto com IA, detecção de falante e exportação de legendas

Perso AI Speech to Text é uma ferramenta de transcrição com IA que converte arquivos de áudio e vídeo em texto editável em mais de 99 idiomas, com detecção automática de falantes. Edite transcrições, renomeie falantes e exporte como SRT, VTT, Excel ou JSON com marcações de tempo por palavra. Tudo em um só projeto.

Experimente agora

Experimente agora

Experimente agora

Sem necessidade de instalação · Plano gratuito disponível · Comece em segundos

A melhor ferramenta de separação de áudio
A melhor ferramenta de separação de áudio
A melhor ferramenta de separação de áudio

Formatos de exportação SRT · VTT · XLSX · JSON

Formatos de exportação SRT · VTT · XLSX · JSON

99+ idiomas detectados automaticamente

99+ idiomas detectados automaticamente

Carimbos de tempo por palavra

Carimbos de tempo por palavra

Detecção automática de locutor

Detecção automática de locutor

Velocidade rápida, pronto em minutos

Velocidade rápida, pronto em minutos

Rápido · Seguro · Preciso

Funcionalidades Principais

Funcionalidades Principais

Transcreva, edite e exporte em um único projeto

Transcreva, edite e exporte em um único projeto

Detecção automática de idioma: mais de 99 idiomas

Envie qualquer arquivo de áudio ou vídeo. O Perso AI detecta automaticamente o idioma falado em mais de 99 idiomas suportados. Nenhuma seleção manual é necessária.

Diarização de falantes e edição de rótulos

Separa automaticamente os falantes e rotula cada segmento. Reatribua qualquer segmento a um falante detectado diferente, e as alterações serão aplicadas em todos os arquivos exportados.

Edição de roteiro e legendas

Envie qualquer arquivo de áudio ou vídeo. O Perso AI detecta automaticamente o idioma falado em mais de 99 idiomas suportados. Nenhuma seleção manual é necessária.

Exportação Multi-Formato

Envie qualquer arquivo de áudio ou vídeo. O Perso AI detecta automaticamente o idioma falado em mais de 99 idiomas suportados. Nenhuma seleção manual é necessária.

Conecta diretamente à dublagem e à tradução

Envie qualquer arquivo de áudio ou vídeo. O Perso AI detecta automaticamente o idioma falado em mais de 99 idiomas suportados. Nenhuma seleção manual é necessária.

Comece agora

Comece agora

Comece agora

Um upload, várias exportações

Legendas, roteiros ou dados brutos com timestamps. Escolha o formato de que você precisa.

SRT

Legendas SRT

Formato de legendas padrão do setor. Pronto para YouTube, Vimeo e todas as principais plataformas de vídeo.

VTT

WebVTT

Formato de legendas nativo para a web com suporte a estilização. Funciona com players de vídeo HTML5 e incorporações na web.

XLS

Script do Excel

Transcrição completa com identificação dos falantes em formato de planilha. Use-a para atas de reunião, documentação ou arquivamento.

{ }

Dados JSON

Dados estruturados com carimbos de data e hora no nível da palavra, IDs de falante e pontuações de confiança. Útil para integração com API ou fluxos de trabalho personalizados.

Legendas, Notas da reunião, Roteiros de aula

A mesma ferramenta, resultados diferentes dependendo do que você precisa.

Criadores de Conteúdo

Transforme vlogs, podcasts e vídeos em legendas prontas para publicação em minutos. Envie, edite e exporte — sem necessidade de transcrição manual.

Legendas automáticas para YouTube, TikTok e Reels

Edite as legendas diretamente antes de exportar

Suporte a mais de 99 idiomas

Exportação SRT · VTT

Equipes e Negócios

Transforme gravações de reuniões em notas pesquisáveis, com identificação de quem fala. Funciona com qualquer plataforma de videoconferência ou gravador de voz.

Diarização automática de locutores

Atas de reunião estruturadas em Excel

Marcas de tempo em nível de palavra para citação

Exportação XLSX

Exportação XLSX

Educadores

Transcreva aulas e conteúdos de cursos com alta precisão. Gere legendas para acessibilidade ou roteiros prontos para estudo.

Precisão em longas palestras

Geração de legendas para LMS

Suporte multilíngue para estudantes do mundo todo

Pronto para acessibilidade

Produtores de vídeo

Comece com a transcrição, passe para dublagem ou tradução sem reenviar o arquivo. Um único envio cobre todo o fluxo de localização.

Transcreva → Edite → Exporte em um único fluxo

Conecta-se à Dublagem e Tradução por IA

Separação de áudio incluída

Localização completa

Comece agora

Comece agora

Comece agora

Por que escolher-nos

Por que escolher-nos

Perso AI vs. Transcrição Manual

Tempo, custo e qualidade do resultado lado a lado.

O que importa

O que importa

O que importa

Perso AI Fala para texto

Perso AI Fala para texto

Perso AI Fala para texto

Transcrição manual

Transcrição manual

Transcrição manual

Velocidade de processamento

Velocidade de processamento

~2 minutos para 1 hora de áudio · resultados prontos em minutos, não em horas

~2 minutos para 1 hora de áudio · resultados prontos em minutos, não em horas

3–6 horas de trabalho para 1 hora de áudio · reserva antecipada necessária

3–6 horas de trabalho para 1 hora de áudio · reserva antecipada necessária

Cobertura de idiomas

Cobertura de idiomas

99+ idiomas · detecção automática · precisão de nível nativo

99+ idiomas · detecção automática · precisão de nível nativo

Limitado ao idioma nativo do transcritor · arquivos com idiomas mistos precisam de várias pessoas

Limitado ao idioma nativo do transcritor · arquivos com idiomas mistos precisam de várias pessoas

Diarização de locutores

Diarização de locutores

Detecta automaticamente cada falante · reatribua qualquer segmento a um diferente falante detectado · as alterações são refletidas nas legendas exportadas

Detecta automaticamente cada falante · reatribua qualquer segmento a um diferente falante detectado · as alterações são refletidas nas legendas exportadas

Marcação manual por segmento · inconsistente em gravações longas · é necessário reagrupar as marcações se os falantes forem confundidos

Marcação manual por segmento · inconsistente em gravações longas · é necessário reagrupar as marcações se os falantes forem confundidos

Edição e sincronização de diálogos

Edição e sincronização de diálogos

Edite o diálogo transcrito na própria linha · as edições sincronizam automaticamente com as exportações SRT · VTT · XLSX · JSON

Edite o diálogo transcrito na própria linha · as edições sincronizam automaticamente com as exportações SRT · VTT · XLSX · JSON

Editar a transcrição como texto simples · realinhar o tempo das legendas e reexportar separadamente a cada alteração

Editar a transcrição como texto simples · realinhar o tempo das legendas e reexportar separadamente a cada alteração

Carimbos de data e hora

Carimbos de data e hora

Precisão no nível da palavra · precisão de milissegundos · embutido em todos os formatos de exportação

Precisão no nível da palavra · precisão de milissegundos · embutido em todos os formatos de exportação

Alinhamento manual de segmentos · propenso a desvios em gravações longas

Alinhamento manual de segmentos · propenso a desvios em gravações longas

Exportação de Legendas

Exportação de Legendas

Exportação com um clique para SRT · VTT · XLSX · JSON — pronto para YouTube, DaVinci, Premiere ou qualquer pipeline de LLM

Exportação com um clique para SRT · VTT · XLSX · JSON — pronto para YouTube, DaVinci, Premiere ou qualquer pipeline de LLM

Requer uma ferramenta separada de legendagem · o tempo precisa ser adicionado manualmente

Requer uma ferramenta separada de legendagem · o tempo precisa ser adicionado manualmente

Precisão

Precisão

95%+ de precisão de IA · ajustável no editor integrado com controle por palavra

95%+ de precisão de IA · ajustável no editor integrado com controle por palavra

Varia de 85–98%, dependendo do transcritor individual e da qualidade do áudio

Varia de 85–98%, dependendo do transcritor individual e da qualidade do áudio

Comece agora

Comece agora

Comece agora

Perguntas frequentes

Perguntas frequentes

O que é o Perso AI Speech to Text e como ele difere de ferramentas básicas de transcrição?

Perso AI Speech to Text converte arquivos de vídeo e áudio em transcrições precisas, separadas por falante, em mais de 99 idiomas. Diferente de ferramentas básicas de transcrição, ele detecta automaticamente cada falante, permite reatribuir qualquer trecho a um falante detectado diferente e exporta arquivos editáveis SRT, VTT, XLSX e JSON para legendagem, arquivamento ou fluxos de trabalho de conteúdo.

Como o Perso AI cobra pelo uso de Speech to Text?

Perso AI desconta 1 crédito por minuto de duração da mídia para conversão de fala em texto e separação de voz — a mesma taxa da Dublagem com IA. Apenas a Dublagem labial usa 3× créditos. Não há limite de uso por recurso, então você pode alocar créditos livremente entre conversão de fala em texto, separação de voz e Dublagem de acordo com as necessidades do seu fluxo de trabalho.

Como o Perso AI cobra pelo uso de Speech to Text?

O Perso AI de conversão de fala em texto está disponível no plano gratuito?

Sim. O Speech to Text está totalmente disponível no plano gratuito do Perso AI dentro do 1 minuto de crédito gratuito incluído. Isso permite transcrever um clipe curto, verificar a precisão da diarização de locutores e testar a qualidade da exportação em SRT ou VTT antes de migrar para um plano pago para mídias mais longas.

O Perso AI de conversão de fala em texto está disponível no plano gratuito?

O Speech to Text oferece suporte ao modo de baixa velocidade para obter maior precisão?

Não. O modo Low Speed não é compatível com Speech to Text nem com Voice Separation. Ele está disponível apenas para AI Dubbing e Lip Dubbing, nos quais a qualidade da tradução se beneficia de um processamento mais lento e refinado. O Speech to Text é executado em um pipeline rápido e de alta precisão, otimizado para transcrição em vez de tradução.

O Speech to Text oferece suporte ao modo de baixa velocidade para obter maior precisão?

Posso definir um idioma de destino para a saída de Fala para Texto?

Não. O Speech to Text transcreve a fala no mesmo idioma em que ela é pronunciada — não é um recurso de tradução, portanto não há uma configuração de idioma de destino. Se você precisar traduzir e dublar seu vídeo para outro idioma, use o Perso AI Dubbing, que cuida da transcrição, tradução e síntese de voz em um único fluxo de trabalho.

Posso definir um idioma de destino para a saída de Fala para Texto?

Quais formatos de exportação o Perso AI Speech to Text suporta?

Perso AI Speech to Text exporta quatro formatos: SRT e VTT para legendas e reprodutores de vídeo, XLSX para revisão editorial ou fluxos de trabalho de tradução, e JSON para integrações e automação de desenvolvedores. Cada formato inclui identificação do locutor, carimbos de data e hora e quaisquer edições que você fizer no editor da web.

Quais formatos de exportação o Perso AI Speech to Text suporta?

Quantos idiomas a conversão de fala em texto do Perso AI suporta?

O Perso AI Speech to Text detecta e transcreve automaticamente mais de 99 idiomas, incluindo inglês, coreano, japonês, espanhol, alemão, francês, português e russo. A detecção de idioma é automática, então você pode enviar conteúdo multilíngue sem pré-selecionar um idioma de origem.

Quantos idiomas a conversão de fala em texto do Perso AI suporta?

Posso editar o texto transcrito antes de exportar?

Sim. Você pode editar qualquer linha transcrita diretamente no editor web do Perso AI, corrigir palavras reconhecidas incorretamente e refinar a pontuação. Suas edições são sincronizadas automaticamente com as exportações SRT, VTT, XLSX e JSON, então você nunca precisa reconciliar manualmente os arquivos de legendas após a correção.

Posso editar o texto transcrito antes de exportar?

O Perso AI Speech to Text é adequado para reuniões, entrevistas e vídeos do YouTube?

Sim. O Perso AI Speech to Text é otimizado para mídias com vários participantes, como reuniões de equipe, entrevistas em podcasts, webinars e vídeos longos do YouTube. A diarização automática de falantes, a precisão dos carimbos de data e hora e a exportação direta para SRT/VTT fazem dele uma substituição imediata para fluxos de trabalho de transcrição manual em equipes de conteúdo e pesquisa.

O Perso AI Speech to Text é adequado para reuniões, entrevistas e vídeos do YouTube?

Comece a transcrever seus vídeos com Perso AI

Converta vídeo em texto e crie versões traduzidas e sincronizadas com os lábios em apenas minutos

Experimente o Perso AI gratuitamente

Dashboard

Comece a transcrever seus vídeos com Perso AI

Converta vídeo em texto e crie versões traduzidas e sincronizadas com os lábios em apenas minutos

Experimente o Perso AI gratuitamente

Dashboard

Comece a transcrever seus vídeos com Perso AI

Converta vídeo em texto e crie versões traduzidas e sincronizadas com os lábios em apenas minutos

Experimente o Perso AI gratuitamente

Dashboard