🏆 世界トップクラスの分離性能

ボーカル・話者・音楽を分離
無料・オンライン・数秒で

撮影中に音楽が流れていませんか？背景に不要なノイズが入っていませんか？下に音声または動画ファイルをドロップすると、Perso Dubbing がボーカル、個々の話者、背景音楽に分離。登録前にすべてのトラックを試聴できます。

登録不要 · 最初の60秒は無料 · ファイルは保存されません

音声分離

クリック、またはファイルをドラッグ＆ドロップ

分離はすぐに開始 — アカウント不要（最大200MB）

mp4movwebm wavmp3m4a

ファイルがない場合は、サンプルでお試しください：

オーディオトラックを分離中...

音の周波数を解析し、声と周囲の背景音を分離しています

ワークスペースでは話者スクリプトを一文ずつ編集できます

ファイルが60秒を超えているため、品質を確認できるよう最初の1分のみを分離しました。ファイル全体を処理するにはサインイン →

ベンチマーク

世界最高水準の性能 — 主張ではなく、実測で

業界標準の公開ベンチマーク3種 — ボーカル分離の MUSDB18、ノイズ除去の VoiceBank-DEMAND、文字起こしの Open ASR Leaderboard。あらゆる研究論文が使うのと同じデータセットで、名前を明示したエンジンと比較し、サンプルごとのデータも公開。誰でも再検証できます。

ボーカル分離高いほど良い

MUSDB18 (vocals) · median SI-SDR

Perso Dubbing 🏆

10.67 dB

HTDemucs (Meta)

8.36 dB

LALAL.AI · MDX-Net

未テスト

50トラック中44で勝利 — 負けた場合でも差は最大 0.66 dB です。

ノイズ除去品質高いほど良い

VoiceBank-DEMAND · PESQ-WB

DeepFilterNet3

2.77

Perso Dubbing

2.64

ElevenLabs

2.38

ノイズ入り入力（クリーニング前）

1.70

専門特化の DeepFilterNet3 が僅差でリード（2.77 対 2.64）— どちらも ElevenLabs を大きく引き離しています。

音声の明瞭度高いほど良い

VoiceBank-DEMAND · ESTOI

DeepFilterNet3

0.821

Perso Dubbing

0.817

ElevenLabs

0.769

ノイズ入り入力（クリーニング前）

0.747

上位2つは事実上互角。ElevenLabs はサンプルの半数で音声を聞き取りにくくしますが、当社は96%で改善します。

ボイスクローン忠実度高いほど良い

話者30名 · クローンシステム2種 · cos_sim

クリーンな原音（上限）

0.736

Perso Dubbing 🏆

0.674

ElevenLabs Audio Iso.

0.665

DeepFilterNet3

0.652

テストした2つのクローンシステム双方で1位 — ElevenLabs 自身のクローナー内でも。縞模様のバーはクリーンな原音、つまり自然な上限です。

文字起こし精度（WER）低いほど良い

Open ASR Leaderboard · 8 configs · word error rate

8ベンチマークの平均統計的に同等

Scribe v2 (ElevenLabs)

7.52%

Perso Dubbing

7.61%

複数話者コンテンツ（GigaSpeech）

Perso Dubbing 🏆

10.70%

Scribe v2 (ElevenLabs)

11.48%

Whisper large-v3

未テスト

全体では Scribe v2 と統計的に同等 — しかしポッドキャストのような複数話者コンテンツでは当社が上回ります（バーが短い = エラーが少ない）。

わずかな差が見えるよう、バーは競合レンジに拡大表示しています — 判断基準は各バーの横にある正確な数値です。

これらのテストは何を測っているのか

🎯 ボーカル分離（SI-SDR）高いほど良い

声と音楽をどれだけクリーンに分離できるか — 声が一切残らないカラオケトラックを抽出するイメージです。当社スコア：10.67 dB、HTDemucs は 8.36 dB — トラック間の音漏れが少なく、50曲中44曲で勝利しています。

🔊 ノイズ除去（PESQ · ESTOI）高いほど良い

ノイズ除去後の音声がどれだけクリアで自然に聞こえるか — 通話品質の評価に使われるのと同じ指標です。当社は 2.64。専門特化の DeepFilterNet3（2.77）にわずかに及ばないものの、ElevenLabs（2.38）を大きく上回ります。明瞭度では首位タイです。

📝 文字起こし精度（WER）低いほど良い

話された100語のうち、何語が誤って書き起こされるか。当社の 7.61% は100語中およそ92語が正解という意味です — ElevenLabs Scribe v2（7.52%）と統計的に同等で、ポッドキャストのような複数話者の録音では上回ります。

🎤 ボイスクローン忠実度（cos_sim）高いほど良い

クリーニング後の音声から作ったボイスクローンは、まだ同じ人物の声に聞こえるか。元の声に対して0〜1で採点します。当社の 0.674 はテストした2つのクローンシステム双方で1位 — ElevenLabs 自身のクローナー内でもです。

正直な注記：ボーカル分離は MUSDB18 サンプルセットで測定（MUSDB18-HQ での完全な再測定を実施中、±0.5 dB 以内を見込み）。PESQ では DeepFilterNet3 が 0.15 上回りますが、明瞭度は同等、波形忠実度では当社がリード（+18.66 対 +17.31 dB SI-SDR）。MDX-Net と LALAL.AI は未テストのため、すべての分離ツールに勝るとは主張しません。2026年5月検証。

結論：公開ベンチマークにおいて、当社エンジンは50曲中44曲で Meta の HTDemucs よりクリーンにボーカルを分離し、ノイズ除去専門の DeepFilterNet3 と互角、ElevenLabs Audio Isolation にはテストサンプルの92〜100%で勝利しました。さらに ElevenLabs 自身のクローンシステム内でも、同社のプリプロセッサより優れたボイスクローンを構築します。2026年5月検証 — サンプルごとのデータを公開しており、誰でも再確認できます。

使い方

3ステップ、1分以内

STEP 1

ファイルをアップロード

音声または動画ファイルをドラッグ&ドロップ — MP3、WAV、M4A、MP4、MOV、WebM、最大200MB。最初の60秒はアカウント不要です。

STEP 2

分離トラックを試聴

AIがファイルを話者ごとの音声、純粋なBGM、リアクション入り背景に分割。各トラックをブラウザ上でそのまま再生できます。

STEP 3

ミックスを書き出し

必要なトラックを選んで1つのファイルに書き出せます。ダウンロードや長尺ファイルの全編処理にはサインインしてください。

Perso Dubbing を選ぶ理由

ボーカルリムーバーを超えて

😂 デュアル背景音モード

純粋なBGM、または笑い声や拍手をそのまま残したBGM。1回のアップロードで両方を提供する分離ツールは他にありません。

👤 複数話者の分離

「声と音楽」だけではありません — 話者分離により録音内のすべての人に専用トラックを用意し、99以上の言語に対応した話者ラベル付き文字起こしも付属します。

🔒 何も保存しません

お試しファイルは一時ストレージで処理され、セッション終了時に削除されます。保持も学習利用も一切ありません。

📝 99以上の言語で文字起こし

すべての分離に話者ラベル付きの自動文字起こしが含まれ、トラックのすぐ横に表示されます。言語検出は自動 — 追加のツールも手順も不要です。

🎬 音声も動画も対応

MP3、WAV、M4A、MP4、MOV、WebM をアップロード可能。字幕埋め込みでの書き出しも、SRT ファイルの分離出力も選べます。

🎚 選択ミックス書き出し

任意のトラックを1ファイルに結合 — たとえばBGM＋話者1。カスタムミックスをワンステップで書き出せるのは Perso Dubbing だけです。

デュアル背景音モード

動画から背景音楽やノイズを取り除く2つの方法

ポッドキャストの笑い声、観客のリアクション、講演中の咳払い — 多くのボーカルリムーバーはこれらを音声と区別できません。Perso Dubbing なら1回のアップロードで両方の選択肢が手に入ります。

MODE 1

バックグラウンドミュージック

話し声・笑い・拍手など人の音をすべて除去し、背景音だけを残します。著作権フリーのBGM抽出や、再吹き替え用のクリーンな音源に最適です。

🗣 話し声除去

😂 笑い / 拍手除去

🎵 バックグラウンドミュージック保持

MODE 2 · Only in Perso Dubbing

リアクション入り背景

話し声だけを除去し、笑い声・拍手・会場の熱気はそのまま。ポッドキャスト、ライブイベント、バラエティなど、空気感が命のコンテンツにぴったりです。

🗣 話し声除去

😂 笑い / 拍手保持

🎵 バックグラウンドミュージック保持

複数話者の分離

声ごとに1トラック — インタビュー・ポッドキャスト・会議のための話者分離

多くのボーカルリムーバーは、声と音楽の2ステムで止まります。Perso Dubbing の複数話者分離はさらに一歩先へ — AI が話している人数を検出し、録音を話者ごとの個別トラックに分割。各トラックに99以上の言語に対応したラベル付き文字起こしが付きます。

INPUT

ミックスされた1つの録音

音楽や室内ノイズの中で複数の人が話しているインタビュー・ポッドキャスト・会議の録音 — 1つの音声または動画ファイルとしてアップロードします。

🎙 話者1 + 話者2 + 音楽ミックス

OUTPUT · Speaker separation

話者ごとに個別のトラック

ワンクリックで音声から話者を分離。1人の話者のトラックだけ、あるいは好きな組み合わせで書き出せます — 手作業の編集は不要です。

🎤 話者1専用トラック

🎤 話者2専用トラック

🎵 バックグラウンドミュージック専用トラック

ユースケース

オーディオ分離は誰が使う？

🛡 著作権クレームの解決

セリフはそのままに著作権付きBGMだけを除去。ロイヤリティフリー音源に差し替えて、クレームなしで再アップロードできます。

🎙 ポッドキャスト編集

つなぎ言葉や不要な発話をカットしながら、観客の笑い声や場の空気はそのまま残せます。

🌍 動画の吹き替え

声の混入ゼロのクリーンなBGMトラックを抽出し、99以上の言語から選んだ新しいナレーションを重ねられます。

💼 会議・カンファレンス

Zoom や Meet の録音音声から話者を分離。参加者ごとに専用トラックを作成し、話者ラベル付きの文字起こしも標準装備です。

📱 SNS向けクリップ

ショート動画のBGMをトレンド曲に差し替え — ナレーションには一切手を加えません。

🎤 コンサート・ファンカム

ライブ映像から歓声や会場の残響を取り除き、アーティストの声や音楽だけを際立たせます。

📰 ジャーナリズム・インタビュー

複数話者の分離を使えば、騒がしい現場録音からインタビュー相手ごとの声を抽出できます。ファクトチェック用のクリーンな文字起こし付きです。

♻️ コンテンツの再活用

1回のアップロードが、ポッドキャスト音源、プロモ用BGM、SNS向け話者クリップ、ブログ用の完全な文字起こしに変わります。

Persoワークスペースでもっと多くのことを

FAQ

よくある質問

Perso Dubbing Audio Separation は無料で使えますか？

はい。任意の音声・動画ファイルをアップロードし、最初の60秒を完全無料で分離できます。登録もクレジットカードも不要です。結果のダウンロードや60秒を超えるファイルの処理には、Perso Dubbing のサブスクリプション登録が必要です。有料プランでは処理上限の拡大と話者編集機能が加わります。

オーディオ分離を試すのにアカウントは必要ですか？

いいえ。60秒のお試しはアカウントなしで完結します。ファイルをアップロードし、分離された各トラックをブラウザで聴いて、品質がニーズに合うかご判断ください。アカウントが必要になるのは、結果をダウンロードするか、より長いファイルを処理するときだけです。

ファイルが60秒を超えている場合はどうなりますか？

60秒を超えるファイルも受け付けます — AIが最初の60秒を処理するので、ご自身のコンテンツで分離品質を確かめられます。ファイル全体を分離するには、サインインしてファイルを再アップロードしてください。

アップロードしたファイルは Perso Dubbing のサーバーに保存されますか？

いいえ。お試しのアップロードは一時ストレージで処理され、セッション終了時に自動削除されます。Perso Dubbing が無料トライアルのファイルを保持・再利用・学習に使うことはありません。

対応しているファイル形式とサイズは？

Perso Dubbing は MP3・WAV・M4A の音声ファイルと、MP4・MOV・WebM の動画ファイルに対応し、1回のアップロードで最大200MBまで扱えます。動画は自動処理されます — AIが音声を抽出・分離します。

「バックグラウンドミュージック」と「リアクション入り背景」の違いは？

バックグラウンドミュージックは、話し声・笑い・拍手など人が発する音をすべて取り除き、純粋な背景音だけを残します。リアクション入り背景は話し声だけを取り除き、笑い声・拍手・観客の音を残すので、ポッドキャストやイベント録音のライブ感が保たれます。Perso Dubbing は1回のアップロードで両方のトラックを生成します。

Perso Dubbing はボーカルと音楽だけでなく、複数話者の分離もできますか？

できます。ボーカル/音楽の分離にとどまらず、Perso Dubbing は完全な話者分離（スピーカースプリットとも呼ばれます）を行います。AI が録音内の話者を検出し、話者ごとに個別トラックを生成。99以上の言語に対応した話者ラベル付き文字起こしも付属します。そのため音楽だけでなく、インタビュー、ポッドキャスト、会議録音にも適しています。

他のツールと比べて Perso Dubbing の分離精度は？

標準ベンチマークの MUSDB18 では、Perso Dubbing は50トラック中44で Meta の HTDemucs よりクリーンにボーカルを分離します（中央値 SI-SDR 10.67 対 8.36 dB）。VoiceBank-DEMAND のノイズ除去では専門特化の DeepFilterNet3 と互角で、ElevenLabs Audio Isolation にはサンプルの92〜100%で勝っています。サンプルごとの結果は公開されており、誰でも数値を検証できます。

動画から著作権付きのBGMを削除できますか？

できます。動画をアップロードし、AIに音声トラックを分離させ、BGMを除いたボーカル・話者トラックだけを書き出してください。YouTube、TikTok、Instagram の著作権クレームを、撮り直しなしで解決する最速の方法です。

自分で撮影した動画から背景音楽を消すには？

動画ファイルをそのままアップロードするだけ。先に音声を抽出する必要はありません。Perso Dubbing が音声・背景音楽・環境音を個別のトラックに分離するので、音声だけのミックスを書き出して音楽を除いたり、好きな組み合わせを残したりできます。MP4・MOV・WebM に対応し、最初の60秒は無料です。

LALAL.AI や Moises と何が違いますか？

音楽系ツールはボーカルと楽器を分離して、そこで終わりです。Perso Dubbing は分離に加えて、99以上の言語での文字起こし、話者の再割り当て、デュアル背景音モード、トラックの選択ミックスをひとつのワークフローに統合 — ミュージシャンだけでなく、動画クリエイターやコンテンツ編集者のために作られています。

選んだトラックを1つのファイルにまとめられますか？

できます。分離されたトラックを自由に組み合わせて — たとえばBGM＋話者1 — 1つの音声ファイルとして書き出せます。この選択ミックス書き出しは Perso Dubbing だけの機能です。

製品機能を見る

AI Dubbing Video Translation AI Lip Sync Voice Cloning Voice Translator Speech to Text Text-to-Speech AI Voice Generator Video Transcriber Subtitle Editor SRT Subtitles to MP4 Extract Audio from Video

あなたのファイルで試してみてください — 今すぐ

最初の60秒は無料。登録不要、ファイル保存なし、隠れた条件なし。

↑ ファイルをアップロード

ボーカル・話者・音楽を分離 無料・オンライン・数秒で

世界最高水準の性能 — 主張ではなく、実測で

ボーカル分離 高いほど良い

ノイズ除去品質 高いほど良い

音声の明瞭度 高いほど良い

ボイスクローン忠実度 高いほど良い

文字起こし精度（WER） 低いほど良い

これらのテストは何を測っているのか

🎯 ボーカル分離（SI-SDR） 高いほど良い

🔊 ノイズ除去（PESQ · ESTOI） 高いほど良い

📝 文字起こし精度（WER） 低いほど良い

🎤 ボイスクローン忠実度（cos_sim） 高いほど良い

3ステップ、1分以内

ファイルをアップロード

分離トラックを試聴

ミックスを書き出し

ボーカルリムーバーを超えて

😂 デュアル背景音モード

👤 複数話者の分離

🔒 何も保存しません

📝 99以上の言語で文字起こし

🎬 音声も動画も対応

🎚 選択ミックス書き出し

動画から背景音楽やノイズを取り除く2つの方法

バックグラウンドミュージック

リアクション入り背景

声ごとに1トラック — インタビュー・ポッドキャスト・会議のための話者分離

ミックスされた1つの録音

話者ごとに個別のトラック

オーディオ分離は誰が使う？

🛡 著作権クレームの解決

🎙 ポッドキャスト編集

🌍 動画の吹き替え

💼 会議・カンファレンス

📱 SNS向けクリップ

🎤 コンサート・ファンカム

📰 ジャーナリズム・インタビュー

♻️ コンテンツの再活用

よくある質問

製品機能を見る

あなたのファイルで試してみてください — 今すぐ

ボーカル・話者・音楽を分離
無料・オンライン・数秒で

ボーカル分離高いほど良い

ノイズ除去品質高いほど良い

音声の明瞭度高いほど良い

ボイスクローン忠実度高いほど良い

文字起こし精度（WER）低いほど良い

🎯 ボーカル分離（SI-SDR）高いほど良い

🔊 ノイズ除去（PESQ · ESTOI）高いほど良い

📝 文字起こし精度（WER）低いほど良い

🎤 ボイスクローン忠実度（cos_sim）高いほど良い