AIによる音声の文字起こし、話者検出、字幕のエクスポート

Perso AI Speech to Text は、AI 搭載の文字起こしツールで、音声および動画ファイルを自動話者検出付きで 99 以上の言語の編集可能なテキストに変換します。文字起こしの編集、話者ラベルの変更、SRT、VTT、Excel、または JSON へのエクスポートを、単語単位のタイムスタンプ付きで行えます。すべて 1 つのプロジェクトで完結します。

今すぐ試す

今すぐ試す

今すぐ試す

インストール不要 · 無料プランあり · 数秒で開始

最高のオーディオ分離ツール
最高のオーディオ分離ツール
最高のオーディオ分離ツール

出力形式 SRT · VTT · XLSX · JSON

出力形式 SRT · VTT · XLSX · JSON

99以上の言語を自動検出

99以上の言語を自動検出

単語レベルのタイムスタンプ

単語レベルのタイムスタンプ

自動話者検出

自動話者検出

数分で使える高速

数分で使える高速

速い · 安全 · 正確

コア機能

コア機能

1つのプロジェクトで文字起こし、編集、書き出し

1つのプロジェクトで文字起こし、編集、書き出し

自動言語検出:99以上の言語

任意の音声または動画ファイルをアップロードできます。Perso AIは、99以上の対応言語にわたって話されている言語を自動検出します。手動で選択する必要はありません。

話者ダイアライゼーションとラベル編集

話者を自動で分離し、各セグメントにラベルを付けます。任意のセグメントを別の検出済み話者に再割り当てでき、変更はエクスポートされたすべてのファイルに反映されます。

スクリプトと字幕の編集

任意の音声または動画ファイルをアップロードできます。Perso AIは、99以上の対応言語にわたって話されている言語を自動検出します。手動で選択する必要はありません。

マルチフォーマットエクスポート

任意の音声または動画ファイルをアップロードできます。Perso AIは、99以上の対応言語にわたって話されている言語を自動検出します。手動で選択する必要はありません。

吹き替えと翻訳に直接接続

任意の音声または動画ファイルをアップロードできます。Perso AIは、99以上の対応言語にわたって話されている言語を自動検出します。手動で選択する必要はありません。

今すぐ始める

今すぐ始める

今すぐ始める

1回のアップロードで、複数のエクスポート

字幕、スクリプト、またはタイムスタンプ付きの生データ。必要な形式を選択してください。

SRT

SRT字幕

業界標準の字幕形式。YouTube、Vimeo、および主要な動画プラットフォームでご利用いただけます。

VTT

WebVTT

スタイル対応のWebネイティブ字幕形式。HTML5動画プレーヤーやWeb埋め込みで利用できます。

XLS

Excel スクリプト

スプレッドシート形式の話者ラベル付き完全な文字起こしです。会議議事録、ドキュメント作成、アーカイブにご利用ください。

{ }

JSONデータ

単語レベルのタイムスタンプ、話者ID、信頼度スコアを含む構造化データ。API連携やカスタムワークフローに便利です。

字幕、会議メモ、講義スクリプト

同じツールでも、必要に応じて異なる出力が得られます。

コンテンツクリエーター

Vlog、ポッドキャスト、動画を、数分でそのまま公開できる字幕に。アップロード、編集、書き出しまで、手作業の文字起こしは不要です。

YouTube、TikTok、Reels向けの自動字幕

エクスポート前にキャプションをその場で編集

99以上の言語に対応

SRT・VTT エクスポート

チーム&ビジネス

会議の録音を、検索可能で話者ラベル付きのノートに変換します。あらゆる会議プラットフォームやボイスレコーダーで利用できます。

自動話者分離

構造化されたExcel会議議事録

引用用の単語単位のタイムスタンプ

XLSXのエクスポート

XLSXのエクスポート

教育者

講義や授業コンテンツを高精度で文字起こし。アクセシビリティ向上や学習用のスクリプト用に字幕を生成します。

長時間講義の精度

LMS用の字幕生成

世界中の学生向けの多言語対応

アクセシビリティ対応

動画制作者

文字起こしから始めて、再アップロードすることなく、吹き替えや翻訳へ進めます。1回のアップロードで、ローカライズの全工程をカバーします。

文字起こし → 編集 → エクスポートを一つの流れで

AI吹き替えと翻訳に接続します

オーディオ分離が含まれています

完全ローカライズ

今すぐ始める

今すぐ始める

今すぐ始める

なぜ私たちを選ぶのか

なぜ私たちを選ぶのか

Perso AI と手動文字起こしの比較

時間、コスト、出力品質を横並びで比較。

大切なこと

大切なこと

大切なこと

Perso AI 音声をテキストに変換

Perso AI 音声をテキストに変換

Perso AI 音声をテキストに変換

手動文字起こし

手動文字起こし

手動文字起こし

処理速度

処理速度

音声1時間あたり約2分 · 結果は数時間ではなく数分で完了

音声1時間あたり約2分 · 結果は数時間ではなく数分で完了

音声1時間あたり3〜6時間の作業 · 事前予約が必要

音声1時間あたり3〜6時間の作業 · 事前予約が必要

対応言語

対応言語

99以上の言語 · 自動検出 · ネイティブレベルの精度

99以上の言語 · 自動検出 · ネイティブレベルの精度

書き起こし担当者の母語に限定 · 混在言語のファイルには複数人が必要です

書き起こし担当者の母語に限定 · 混在言語のファイルには複数人が必要です

話者ダイアリゼーション

話者ダイアリゼーション

すべての話者を自動検出 · 各セグメントを別の検出済み話者に再割り当て可能 · 変更はエクスポートした字幕に反映されます

すべての話者を自動検出 · 各セグメントを別の検出済み話者に再割り当て可能 · 変更はエクスポートした字幕に反映されます

セグメントごとの手動タグ付け · 長時間録音では一貫性がなく · 話者が混同された場合は再タグ付けが必要

セグメントごとの手動タグ付け · 長時間録音では一貫性がなく · 話者が混同された場合は再タグ付けが必要

ダイアログ編集と同期

ダイアログ編集と同期

文字起こしされた対話をその場で編集 · 編集内容はSRT・VTT・XLSX・JSONエクスポートに自動で同期

文字起こしされた対話をその場で編集 · 編集内容はSRT・VTT・XLSX・JSONエクスポートに自動で同期

文字起こしをプレーンテキストとして編集 · 変更ごとに字幕のタイミングを再調整し、個別に再エクスポート

文字起こしをプレーンテキストとして編集 · 変更ごとに字幕のタイミングを再調整し、個別に再エクスポート

タイムスタンプ

タイムスタンプ

単語レベルの精度 · ミリ秒単位の正確さ · すべてのエクスポート形式に組み込み済み

単語レベルの精度 · ミリ秒単位の正確さ · すべてのエクスポート形式に組み込み済み

手動セグメント調整・長時間の録音ではずれやすい

手動セグメント調整・長時間の録音ではずれやすい

字幕のエクスポート

字幕のエクスポート

ワンクリックで SRT・VTT・XLSX・JSON にエクスポート — YouTube、DaVinci、Premiere、またはあらゆる LLM パイプラインですぐに使えます

ワンクリックで SRT・VTT・XLSX・JSON にエクスポート — YouTube、DaVinci、Premiere、またはあらゆる LLM パイプラインですぐに使えます

別途の字幕作成ツールが必要です · タイミングは手動で再追加する必要があります

別途の字幕作成ツールが必要です · タイミングは手動で再追加する必要があります

精度

精度

95%以上のAI精度・組み込みエディタで単語単位の制御により微調整可能

95%以上のAI精度・組み込みエディタで単語単位の制御により微調整可能

個々の書き起こし担当者と音声品質によって85〜98%の範囲で変動します

個々の書き起こし担当者と音声品質によって85〜98%の範囲で変動します

今すぐ始める

今すぐ始める

今すぐ始める

よくある質問

よくある質問

Perso AI Speech to Textとは何ですか?また、基本的な文字起こしツールとどう違いますか?

Perso AI Speech to Textは、動画や音声ファイルを99以上の言語で、話者ごとに分けた正確な文字起こしに変換します。基本的な文字起こしツールとは異なり、すべての話者を自動で検出し、任意のセグメントを別の検出済み話者に再割り当てでき、さらに編集可能なSRT、VTT、XLSX、JSONファイルとして書き出せるため、字幕制作、アーカイブ、コンテンツのワークフローに活用できます。

Perso AI の Speech to Text の利用料金はどのように請求されますか?

Perso AI 針對語音轉文字與人聲分離,會依媒體長度每分鐘扣除 1 點數,費率與 AI 配音相同。只有唇形配音需要 3 倍點數。各功能沒有使用上限,因此您可以依工作流程需求,自由分配點數到語音轉文字、人聲分離與配音。

Perso AI の Speech to Text の利用料金はどのように請求されますか?

Perso AI の音声をテキストに変換する機能は無料プランで利用できますか?

はい。Speech to Text は、Perso AI の無料プランで付帯の1分間の無料クレジット内で完全にご利用いただけます。これにより、短いクリップを書き起こしたり、話者分離の精度を確認したり、SRT または VTT のエクスポート品質をテストしたりしてから、より長いメディア向けに有料プランへアップグレードできます。

Perso AI の音声をテキストに変換する機能は無料プランで利用できますか?

Speech to Text は、より高い精度のために低速モードをサポートしていますか?

いいえ。Low SpeedモードはSpeech to TextまたはVoice Separationではサポートされていません。これは、よりゆっくりとした、丁寧な処理によって翻訳品質が向上するAI DubbingとLip Dubbingでのみ利用できます。Speech to Textは、翻訳よりも文字起こしに最適化された、高速で高精度なパイプラインで動作します。

Speech to Text は、より高い精度のために低速モードをサポートしていますか?

Speech to Text の出力に対象言語を設定できますか?

いいえ。Speech to Text は、話された言語をそのまま文字起こしする機能です。翻訳機能ではないため、ターゲット言語の設定はありません。動画を別の言語に翻訳し、音声も差し替えたい場合は、文字起こし、翻訳、音声合成を1つのワークフローで処理できる Perso AI Dubbing をご利用ください。

Speech to Text の出力に対象言語を設定できますか?

Perso AI Speech to Text はどのエクスポート形式をサポートしていますか?

Perso AI Speech to Textでは、4つの形式でエクスポートできます。字幕や動画プレーヤー向けのSRTとVTT、編集レビューや翻訳ワークフロー向けのXLSX、開発者向けの連携や自動化のためのJSONです。どの形式にも、話者ラベル、タイムスタンプ、そしてWebエディターで加えた編集内容が含まれます。

Perso AI Speech to Text はどのエクスポート形式をサポートしていますか?

Perso AI Speech to Text は何言語に対応していますか?

Perso AIの音声テキスト変換は、英語、韓国語、日本語、スペイン語、ドイツ語、フランス語、ポルトガル語、ロシア語を含む99以上の言語を自動で検出し、文字起こしします。言語検出は自動なので、ソース言語を事前に選択せずに多言語コンテンツをアップロードできます。

Perso AI Speech to Text は何言語に対応していますか?

エクスポートする前に、文字起こししたテキストを編集できますか?

はい。Perso AI のウェブエディタ内で、文字起こしされた各行を直接編集し、誤認識された単語を修正したり、句読点を整えたりできます。編集内容は SRT、VTT、XLSX、JSON の各エクスポートに自動で同期されるため、修正後に字幕ファイルを手作業で照合し直す必要はありません。

エクスポートする前に、文字起こししたテキストを編集できますか?

Perso AIの音声テキスト変換は、会議、インタビュー、YouTube動画に適していますか?

はい。Perso AI Speech to Text は、チーム会議、ポッドキャストのインタビュー、ウェビナー、長尺のYouTube動画など、複数話者のメディア向けに最適化されています。自動話者分離、正確なタイムスタンプ、SRT/VTTへの直接エクスポートにより、コンテンツチームやリサーチチームにおける手動文字起こしのワークフローをそのまま置き換えられます。

Perso AIの音声テキスト変換は、会議、インタビュー、YouTube動画に適していますか?

Perso AIで動画の文字起こしを始めましょう

動画をテキストに変換し、翻訳済みで口の動きに同期したバージョンをわずか数分で作成

Perso AIを無料で試す

Dashboard

Perso AIで動画の文字起こしを始めましょう

動画をテキストに変換し、翻訳済みで口の動きに同期したバージョンをわずか数分で作成

Perso AIを無料で試す

Dashboard

Perso AIで動画の文字起こしを始めましょう

動画をテキストに変換し、翻訳済みで口の動きに同期したバージョンをわずか数分で作成

Perso AIを無料で試す

Dashboard