What is Perso Dubbing Speech to Text, and how does it differ from basic transcription tools?

Perso Dubbing Speech to Text converts video and audio files into accurate, speaker-separated scripts in 99+ languages. Unlike basic transcription tools, it automatically detects every speaker, lets you reassign any segment to a different detected speaker, and exports editable SRT, VTT, XLSX, and JSON files for subtitling, archiving, or content workflows.

How does Perso Dubbing charge for Speech to Text usage?

Perso Dubbing deducts 1 credit per minute of media length for Speech to Text and Voice Separation — the same rate as AI Dubbing. Only Lip Dubbing uses 3× credits. There is no per-feature usage cap, so you can freely allocate credits across Speech to Text, Voice Separation, and Dubbing based on your workflow needs.

Is Perso Dubbing Speech to Text available on the free plan?

Yes. Speech to Text is fully available on the Perso Dubbing free plan within the included 1 minute of free credit. This lets you transcribe a short clip, verify speaker diarization accuracy, and test SRT or VTT export quality before upgrading to a paid plan for longer media.

Can I set a target language for Speech to Text output?

No. Speech to Text transcribes speech in the same language it is spoken — it is not a translation feature, so there is no target language setting. If you need to translate and re-voice your video into another language, use Perso Dubbing, which handles transcription, translation, and voice synthesis in one workflow.

How does speaker diarization work in Perso Dubbing?

Perso Dubbing automatically detects every speaker present in the original audio or video and assigns a speaker label to each segment. You can then reassign any segment to a different detected speaker, and the updated labels are reflected in every exported file (SRT, VTT, XLSX, JSON), keeping subtitles consistent across downstream workflows.

Which export formats does Perso Dubbing Speech to Text support?

Perso Dubbing Speech to Text exports four formats: SRT and VTT for subtitles and video players, XLSX for editorial review or translation workflows, and JSON for developer integrations and automation. Every format includes speaker labels, timestamps, and any edits you make in the web editor.

How many languages does Perso Dubbing Speech to Text support?

Perso Dubbing Speech to Text automatically detects and transcribes 99+ languages, including English, Korean, Japanese, Spanish, German, French, Portuguese, and Russian. Language detection is automatic, so you can upload multilingual content without pre-selecting a source language.

Can I edit the transcribed text before exporting?

Yes. You can edit any transcribed line directly inside the Perso Dubbing web editor, fix misrecognized words, and refine punctuation. Your edits sync automatically to SRT, VTT, XLSX, and JSON exports, so you never have to manually reconcile subtitle files after correction.

Is Perso Dubbing Speech to Text suitable for meetings, interviews, and YouTube videos?

Yes. Perso Dubbing Speech to Text is optimized for multi-speaker media such as team meetings, podcast interviews, webinars, and long-form YouTube videos. Automatic speaker diarization, timestamp accuracy, and direct SRT/VTT export make it a drop-in replacement for manual transcription workflows in content and research teams.

話者管理、AI要約、字幕エクスポート対応のAI音声文字起こし

ビデオまたはオーディオファイルをアップロードしてください。Perso Dubbingは話者を自動検出し、100以上の言語で文字起こしを行い、ToDoリストを含むAI要約を生成し、字幕、原稿、または字幕が埋め込まれたビデオを書き出します。処理時間は1時間あたり2分未満で、すべて自動で行われます。

今すぐ試す

仕組みを見る

インストール不要 · 無料プランあり · 数秒で開始

アクション項目付きのAI要約を含む

エクスポート形式 SRT · VTT · XLSX · JSON · MP4

100以上の言語を自動検出

単語レベルのタイムスタンプ

自動話者検出

数分で使える高速

スピーカー管理: 追加、名前変更、削除

速い · 安全 · 正確

コア機能

1つのプロジェクトで文字起こし、編集、書き出し

アクションアイテム付きのAI要約

文字起こしを超えて。 簡潔な要約を自動生成し、すぐにコピーしたり、新しい内容で再生成したり、会議やインタビューからアクションアイテムを抽出できます。

字幕エンコード済み動画のダウンロード

字幕を恒久的に埋め込んだ、すぐに共有できるMP4をダウンロード。 別途の字幕ファイルや動画編集ソフトは不要です。アップロードして、文字起こしし、字幕付き動画をダウンロード。

自動言語検出：100以上の言語

オーディオまたはビデオファイルをアップロードしてください。Perso Dubbingが100以上の対応言語の中から、話されている言語を自動検出します。手動で選択する必要はありません。

スクリプトと字幕の編集

ウェブエディターで、書き起こされた各行を直接編集できます。認識誤りの単語を修正し、句読点を整え、変更をすべてのエクスポート形式に自動で同期します。

マルチフォーマット書き出し + 字幕埋め込み動画

起こされたテキストはウェブエディタ上で直接編集できます。誤認識された単語の修正や、句読点の微調整をすると、その変更内容はすべての書き出しフォーマットに自動的に同期されます。

スピーカー管理：追加、名前の変更、削除

すべての話者を自動検出し、その後は完全に自由に管理できます。新しい話者を追加したり、ラベルを実名に変更したり、不要なセグメントを削除したりできます。すべての変更はエクスポートしたファイルに反映されます。

吹き替えと翻訳に直接接続

今すぐ始める

文字起こしの先へ

文字起こしを超えて

Perso Dubbing Speech to Text（音声テキスト化）は、単に音声を文字に変換するだけではありません。AIを活用した要約の作成、ミーティングからのアクションアイテムの抽出、そして共有可能な字幕付き動画のダウンロードまで行えます。1回のアップロードでこれら3つの機能すべてを兼ね備えた、唯一の文字起こしツールです。

📝

AI要約

録画の自動生成サマリーです。結果はすぐにコピーすることも、新しく生成し直すこともできます。長時間のコンテンツを、手早い要約に変えましょう。

☑

アクション項目

会議やインタビューから実行可能なタスクを自動で抽出します。手作業のメモ取りは不要で、次のアクションを整理された一覧で受け取れます。

🎥

字幕エンコード済み動画

字幕が永久に焼き込まれたMP4をダウンロードできます。別途字幕ファイルを用意せずに、SNS、社内チャンネル、またはプレゼンテーションで共有できます。

ユースケース

字幕、会議メモ、講義スクリプト

同じツールでも、必要に応じて異なる出力が得られます。

コンテンツクリエーター

Vlog、ポッドキャスト、動画を、数分でそのまま公開できる字幕に。アップロード、編集、書き出しまで、手作業の文字起こしは不要です。

YouTube、TikTok、Reels向けの自動字幕

エクスポート前にキャプションをその場で編集

100以上の言語をサポート

アップロードできる字幕入りMP4をダウンロード

SRT · VTT · MP4 エクスポート

チーム＆ビジネス

会議の録音を、検索可能で話者ラベル付きのノートに変換します。あらゆる会議プラットフォームやボイスレコーダーで利用できます。

ワンクリックでコピーできるAI要約

会議の録音からアクションアイテムを抽出する

話者ラベルを追加、名前変更、または削除する

自動話者分離

構造化されたExcel会議議事録

引用用の単語単位のタイムスタンプ

XLSX・JSON・MP4のエクスポート

XLSXのエクスポート

教育者

講義や授業コンテンツを高精度で文字起こし。アクセシビリティ向上や学習用のスクリプト用に字幕を生成します。

講義の要点をすばやく把握できるAI要約

アクセシビリティのための字幕付き動画

長時間講義の精度

LMS用の字幕生成

世界中の学生向けの多言語対応

アクセシビリティ対応

動画制作者

文字起こしから始めて、再アップロードすることなく、吹き替えや翻訳へ進めます。1回のアップロードで、ローカライズの全工程をカバーします。

文字起こし、編集、エクスポートを一連の流れで

字幕焼き込み済みのMP4をダウンロード

AI吹き替えと翻訳に接続します

オーディオ分離が含まれています

完全ローカライズ

今すぐ始める

1回のアップロードで、複数のエクスポート

字幕、スクリプト、またはタイムスタンプ付きの生データ。必要な形式を選択してください。

SRT

SRT字幕

業界標準の字幕形式。YouTube、Vimeo、および主要な動画プラットフォームでご利用いただけます。

VTT

WebVTT

スタイル対応のWebネイティブ字幕形式。HTML5動画プレーヤーやWeb埋め込みで利用できます。

XLS

Excel スクリプト

スプレッドシート形式の話者ラベル付き完全な文字起こしです。会議議事録、ドキュメント作成、アーカイブにご利用ください。

{ }

JSONデータ

単語レベルのタイムスタンプ、話者ID、信頼度スコアを含む構造化データ。API連携やカスタムワークフローに便利です。

MP4

字幕エンコード済みMP4

字幕が永久に焼き込まれた動画。別途字幕ファイルなしですぐに共有できます。

なぜ私たちを選ぶのか

Perso AIダビングと手動文字起こしの比較

時間、コスト、出力品質を横並びで比較。

大切なこと

Perso ダビング文字起こし

手動文字起こし

処理速度

音声1時間あたり約2分 · 結果は数時間ではなく数分で完了

音声1時間あたり3〜6時間の作業 · 事前予約が必要

対応言語

100以上の言語に対応 · 自動検出 · ネイティブレベルの精度

書き起こし担当者の母語に限定 · 混在言語のファイルには複数人が必要です

話者ダイアリゼーション

すべての話者を自動検出 · 各セグメントを別の検出済み話者に再割り当て可能 · 変更はエクスポートした字幕に反映されます

セグメントごとの手動タグ付け · 長時間録音では一貫性がなく · 話者が混同された場合は再タグ付けが必要

ダイアログ編集と同期

文字起こしされた対話をその場で編集 · 編集内容はSRT・VTT・XLSX・JSONエクスポートに自動で同期

文字起こしをプレーンテキストとして編集 · 変更ごとに字幕のタイミングを再調整し、個別に再エクスポート

タイムスタンプ

単語レベルの精度 · ミリ秒単位の正確さ · すべてのエクスポート形式に組み込み済み

手動セグメント調整・長時間の録音ではずれやすい

字幕のエクスポート

ワンクリックで SRT・VTT・XLSX・JSON にエクスポート — YouTube、DaVinci、Premiere、またはあらゆる LLM パイプラインですぐに使えます

別途の字幕作成ツールが必要です · タイミングは手動で再追加する必要があります

精度

95%以上のAI精度・組み込みエディタで単語単位の制御により微調整可能

個々の書き起こし担当者と音声品質によって85〜98％の範囲で変動します

話者管理

スピーカー管理

エディター内で話者を直接追加、名前変更、削除できます。変更はすべてのエクスポート形式に自動的に同期されます。

エディター上で話者を直接追加、名前変更、または削除できます。変更はすべてのエクスポート形式に自動的に同期されます。

エディター上で話者を直接追加、名前変更、または削除できます。変更はすべての書き出し形式に自動的に同期されます。

セグメントごとに手動で話者をタグ付けします。話者が変わった場合は再タグ付けが必要です。

セグメントごとに手動で話者タグを付けます。話者が変わった場合は再タグ付けが必要です。

AIの要約とアクション項目

AI要約と対応事項

AI要約とアクション項目

コピー、再生成、アクションアイテム抽出を備えた自動生成サマリー。1時間の録画を数秒で要約。

コピー、再生成、アクションアイテムの抽出ができる自動生成サマリー。1時間の録音を数秒で要約します。

コピー、再生成、アクション項目の抽出付きの自動生成サマリー。1時間分の録音を数秒で要約します。

聞いた後に手動で会議メモを作成します。アクションアイテムは別のツールで管理されます。

聞きながら会議のメモを手作業で作成。アクションアイテムは別のツールで追跡。

今すぐ始める

`Persoのダビング音声文字起こし機能はどのように機能しますか？`

動画を3つの簡単なステップで文字起こし・翻訳

ビデオやオーディオファイルをアップロードするだけ。Perso Dubbingが話者を自動的に分離し、100以上の言語で書き起こし、AIサマリーを生成し、SRT、VTT、XLSX、JSON、または字幕がエンコードされたMP4を書き出します。これだけで完了です。

今すぐ始めましょう

よくある質問

Perso Dubbing Speech to Textとは何ですか？また、一般的な音声文字起こしツールとはどのように異なりますか？

Perso Dubbing Speech to Textは、ビデオやオーディオファイルを、100以上の言語で話者ごとに分割された正確なスクリプトに変換します。一般的な文字起こしツールとは異なり、すべての話者を自動的に検出し、任意のセグメントを検出された別の話者に再割り当てすることができます。さらに、字幕作成、アーカイブ、またはコンテンツワークフロー向けに、編集可能なSRT、VTT、XLSX、JSONファイルをエクスポートできます。

Perso Dubbingでは音声文字変換（Speech to Text）の利用料金はどのように課金されますか？

Perso Dubbingでは、音声の文字起こし（Speech to Text）と話者分離（Voice Separation）において、メディアの長さ1分につき1クレジットが消費されます。これはAI Dubbingと同じ消費レートです。Lip Dubbing（リップシンク吹き替え）のみ3倍のクレジットを消費します。機能ごとの使用上限は設けられていないため、ワークフローのニーズに合わせて、音声の文字起こし、話者分離、吹き替え（Dubbing）の間で自由にクレジットを割り当ててご利用いただけます。

Perso Dubbingでは音声文字変換（Speech to Text）の利用料金はどのように課金されますか？

Perso Dubbing Speech to Text（音声テキスト化）は、無料プランで利用できますか？

はい、Persoダビングの無料プランでは、無料クレジットに含まれる1分間の範囲内で、音声テキスト変換（Speech to Text）を完全にご利用いただけます。これにより、有料プランにアップグレードしてより長いメディアを処理する前に、短いクリップを文字起こしし、話者分離の精度を検証し、SRTまたはVTT形式の書き出し品質についてテストすることができます。

Perso Dubbing Speech to Text（音声テキスト化）は、無料プランで利用できますか？

Speech to Text は、より高い精度のために低速モードをサポートしていますか？

いいえ。Low SpeedモードはSpeech to TextまたはVoice Separationではサポートされていません。これは、よりゆっくりとした、丁寧な処理によって翻訳品質が向上するAI DubbingとLip Dubbingでのみ利用できます。Speech to Textは、翻訳よりも文字起こしに最適化された、高速で高精度なパイプラインで動作します。

Speech to Text は、より高い精度のために低速モードをサポートしていますか？

Speech to Text の出力に対象言語を設定できますか？

いいえ。「Speech to Text（音声テキスト変換）」は、話された言語と同じ言語で音声を文字起こしする機能です。翻訳機能ではないため、翻訳先言語の設定はありません。動画を別の言語に翻訳して再度アフレコ（ナレーション入れ）を行う必要がある場合は、文字起こし、翻訳、音声合成を1つのワークフローで処理できる「Perso Dubbing」をご利用ください。

Speech to Text の出力に対象言語を設定できますか？

Perso Dubbing Speech to Textはどのようなエクスポート形式をサポートしていますか？

Persoのダビング音声テキスト化（Speech to Text）機能は、4つの形式でエクスポートできます。字幕やビデオプレーヤー用のSRTおよびVTT形式、編集レビューや翻訳ワークフロー用のXLSX形式、そして開発者のインテグレーションや自動化用のJSON形式です。すべての形式に、スピーカーラベル、タイムスタンプ、およびWebエディターで行ったすべての編集内容が含まれます。

Perso Dubbing Speech to Textはどのようなエクスポート形式をサポートしていますか？

Persoダビングの音声文字起こしは、何ヶ国語に対応していますか？

Perso Dubbingの音声文字起こし（Speech to Text）は、英語、韓国語、日本語、スペイン語、ドイツ語、フランス語、ポルトガル語、ロシア語を含む100以上の言語を自動的に検出して書き起こします。言語検出が自動で行われるため、事前にソース言語を選択することなく、多言語コンテンツをアップロードできます。

Persoダビングの音声文字起こしは、何ヶ国語に対応していますか？

エクスポートする前に、文字起こししたテキストを編集できますか？

はい。Perso Dubbingのウェブエディタ内で、書き起こされたすべてのテキスト行を直接編集し、誤認識された単語を修正し、句読点を調整することができます。編集内容はSRT、VTT、XLSX、JSONのエクスポートに自動的に同期されるため、修正後に字幕ファイルを手動で調整する必要はありません。

エクスポートする前に、文字起こししたテキストを編集できますか？

Perso Dubbing Speech to Textは、会議、インタビュー、YouTube動画に適していますか？

はい、Persoダビングの音声認識（Speech to Text）は、チームミーティング、ポッドキャストのインタビュー、ウェビナー、長時間のYouTube動画など、複数人が発言するメディア向けに最適化されています。自動話者識別（ダイアライゼーション）、正確なタイムスタンプ、SRT/VTTへの直接エクスポート機能により、コンテンツチームやリサーチチームにおける手動の文字起こしワークフローをそのまま置き換えることができます。

Perso Dubbing Speech to Textは、会議、インタビュー、YouTube動画に適していますか？

文字起こし後に話者を追加、名前変更、または削除できますか？

はい。Persoダビングの結果ページでは、新しい話者の追加、既存のラベルの本名への変更、不要な話者の削除が可能です。すべての変更は、SRT、VTT、XLSX、JSON、または字幕が埋め込まれた動画ファイルをダウンロードする際に自動的に反映されます。

文字起こし後に話者を追加、名前変更、または削除できますか？

字幕エンコーディングとは何ですか？また、字幕付き動画はどのようにダウンロードできますか？

字幕エンコードでは、文字起こしされた内容が動画に直接焼き込まれ、消せない字幕として表示されます。文字起こしの完了後、ダウンロードメニューから字幕エンコード済みMP4オプションを選択してください。書き出した動画は、SNS、社内チャネル、プレゼンテーションですぐに共有できます。

字幕エンコーディングとは何ですか？また、字幕付き動画はどのようにダウンロードできますか？

Persoダビングの音声文字起こしにおいて、AI要約はどのように機能しますか？

文字起こしの後、Persoダビングはコンテンツの簡潔な要約を自動的に生成します。要約はワンクリックでコピーでき、再生成して新しいバージョンにするほか、会議やインタビューからアクションアイテムを抽出することも可能です。AI要約は音声テキスト変換（Speech to Text）プロジェクトでご利用いただけます。