🏆 世界級的分離效能

分離人聲、說話者與音樂
免費、線上、數秒完成

拍攝時剛好有音樂在播放？背景混入了不想要的雜訊？在下方放入任何音訊或影片檔，Perso Dubbing 會將它分離為人聲、個別說話者與背景音樂，讓您在註冊前就能試聽每一軌。

無需註冊 · 前 60 秒免費 · 檔案絕不儲存

音訊分離

點擊或拖放您的檔案

立即開始分離 — 無需帳號（最大 200MB）

mp4movwebm wavmp3m4a

沒有檔案？試試範例：

正在分離音軌...

正在分析聲音頻率，將人聲與周圍背景元素分離

在工作區可逐句編輯講者字幕稿

您的檔案超過 60 秒 — 我們先分離前 1 分鐘，讓您評估品質。登入以處理完整檔案 →

基準測試

世界級效能 — 用數據證明，而非空口宣稱

三項業界標準公開基準測試 — 人聲分離用 MUSDB18、語音降噪用 VoiceBank-DEMAND、轉錄用 Open ASR Leaderboard。與每篇研究論文相同的資料集，對比具名引擎，並公開逐樣本數據，任何人都能重跑測試。

人聲分離越高越好

MUSDB18 (vocals) · median SI-SDR

Perso Dubbing 🏆

10.67 dB

HTDemucs (Meta)

8.36 dB

LALAL.AI · MDX-Net

尚未測試

50 條音軌中贏 44 條 — 即使落敗，差距最多也只有 0.66 dB。

降噪品質越高越好

VoiceBank-DEMAND · PESQ-WB

DeepFilterNet3

2.77

Perso Dubbing

2.64

ElevenLabs

2.38

含噪輸入（清理前）

1.70

專精降噪的 DeepFilterNet3 以毫釐領先（2.77 對 2.64）— 兩者都遠超 ElevenLabs。

語音清晰度越高越好

VoiceBank-DEMAND · ESTOI

DeepFilterNet3

0.821

Perso Dubbing

0.817

ElevenLabs

0.769

含噪輸入（清理前）

0.747

前兩名實際上不相上下。ElevenLabs 在一半樣本中讓語音更難聽清 — 我們則在 96% 的樣本中讓它更清晰。

語音克隆保真度越高越好

30 位說話者 · 2 套克隆系統 · cos_sim

乾淨原音（上限）

0.736

Perso Dubbing 🏆

0.674

ElevenLabs Audio Iso.

0.665

DeepFilterNet3

0.652

在兩套受測克隆系統中均居首位 — 即使在 ElevenLabs 自家的克隆器內也是。條紋柱是乾淨原音：天然的上限。

轉錄準確度（WER）越低越好

Open ASR Leaderboard · 8 configs · word error rate

8 項基準測試平均統計持平

Scribe v2 (ElevenLabs)

7.52%

Perso Dubbing

7.61%

多人對話內容（GigaSpeech）

Perso Dubbing 🏆

10.70%

Scribe v2 (ElevenLabs)

11.48%

Whisper large-v3

尚未測試

整體與 Scribe v2 統計持平 — 但在播客等多人對話內容上，我們勝出（柱越短 = 錯誤越少）。

長條圖已放大至競爭區間，讓微小差距保持可見 — 真正作準的是每條旁的精確數字。

這些測試究竟在衡量什麼？

🎯 人聲分離（SI-SDR）越高越好

人聲與音樂分離得有多乾淨 — 就像提取一條完全不殘留人聲的卡拉OK音軌。我們的分數：10.67 dB，HTDemucs 為 8.36 dB — 音軌之間串音更少，50 首歌中贏了 44 首。

🔊 降噪（PESQ · ESTOI）越高越好

去除噪音後語音聽起來有多清晰自然 — 與評估通話品質相同的指標。我們得到 2.64，僅以毫釐之差落後專精降噪的 DeepFilterNet3（2.77），大幅領先 ElevenLabs（2.38）。在清晰度上，我們並列第一。

📝 轉錄準確度（WER）越低越好

每 100 個口說詞彙中，有多少被寫錯。我們的 7.61% 意味著 100 個詞約有 92 個正確 — 與 ElevenLabs Scribe v2（7.52%）在統計上相當，在播客等多人對話錄音中則更勝一籌。

🎤 語音克隆保真度（cos_sim）越高越好

清理後，用該音訊建立的語音克隆聽起來還像同一個人嗎？以 0 到 1 對照原聲評分。我們的 0.674 在兩套受測克隆系統中均排名第一 — 包括在 ElevenLabs 自家的克隆器裡。

誠實註記：人聲分離以 MUSDB18 樣本集測得（MUSDB18-HQ 完整重測進行中，預期誤差 ±0.5 dB 內）。DeepFilterNet3 在 PESQ 上以 0.15 領先 — 清晰度我們持平，波形保真度我們領先（+18.66 對 +17.31 dB SI-SDR）。MDX-Net 與 LALAL.AI 尚未測試，因此我們不宣稱勝過所有分離工具。2026 年 5 月驗證。

結論：在公開基準測試中，我們的引擎在 50 首歌中有 44 首比 Meta 的 HTDemucs 分離得更乾淨，與降噪專家 DeepFilterNet3 打成平手，並在 92–100% 的測試樣本中勝過 ElevenLabs Audio Isolation。甚至在 ElevenLabs 自家的克隆系統內，它建立的語音克隆也比 ElevenLabs 自己的前處理器更好。2026 年 5 月驗證 — 逐樣本數據已公開，任何人皆可複查。

運作方式

三個步驟，一分鐘內完成

STEP 1

上傳檔案

拖放音訊或影片檔 — MP3、WAV、M4A、MP4、MOV 或 WebM，最大 200MB。前 60 秒無需帳戶。

STEP 2

試聽分離音軌

AI 將檔案拆分為各個說話者、純背景音樂，以及含反應的背景。每條音軌都能直接在瀏覽器播放。

STEP 3

匯出混音

挑選所需音軌，匯出為單一檔案。登入即可下載，或完整處理較長的檔案。

為什麼選擇 Perso Dubbing

不只是人聲移除工具

😂 雙背景音模式

純背景音樂，或保留笑聲與掌聲的背景音樂。沒有其他分離工具能在一次上傳中同時提供兩者。

👤 多說話者分離

不只是「人聲對音樂」— 說話者分離讓錄音中的每個人都有自己的音軌，還附上支援 99+ 種語言、標註說話者的逐字稿。

🔒 不儲存任何內容

試用檔案在暫存空間處理，工作階段結束即刪除。絕不保留，也絕不用於訓練。

📝 99+ 種語言轉錄

每次分離都包含自動語音轉文字與說話者標註，就顯示在音軌旁。語言自動偵測 — 無需額外工具或步驟。

🎬 音訊影片皆可

上傳 MP3、WAV、M4A、MP4、MOV 或 WebM。可匯出內嵌字幕的音軌，或另存 SRT 字幕檔。

🎚 自選混音匯出

將任意音軌合併為一個檔案 — 例如背景音樂加說話者 1。沒有其他分離工具能一步匯出客製混音。

雙背景音模式

移除影片背景音樂或雜訊的兩種方式

播客的笑聲、觀眾的反應、主題演講中的咳嗽 — 多數人聲移除工具無法將它們與語音區分。Perso Dubbing 讓您一次上傳，同時獲得兩種選擇。

MODE 1

背景音樂

移除所有人聲 — 說話、笑聲、拍手 — 只留下背景音。適合無版權疑慮的 BGM 與重新配音用的乾淨音底。

🗣 說話聲已移除

😂 笑聲 / 掌聲已移除

🎵 背景音樂保留

MODE 2 · Only in Perso Dubbing

含反應背景

只移除說話聲，保留笑聲、掌聲與現場氣氛。最適合播客、現場活動與講究氛圍的綜藝節目。

🗣 說話聲已移除

😂 笑聲 / 掌聲保留

🎵 背景音樂保留

多說話者分離

每個聲音一條音軌 — 為訪談、播客與會議打造的說話者分離

多數人聲移除工具只做到兩軌：人聲與音樂。Perso Dubbing 的多說話者分離更進一步——AI 會偵測有多少人在說話，將錄音拆分成各個說話者的獨立音軌，每軌都附上支援 99+ 種語言的標註逐字稿。

INPUT

一段混合錄音

一段訪談、播客或會議錄音，多人在音樂與環境噪音中交談——以單一音訊或影片檔上傳。

🎙 說話者 1 + 說話者 2 + 音樂混合

OUTPUT · Speaker separation

每位說話者一條獨立音軌

一鍵從音訊中分離說話者：可只匯出單一說話者的音軌，或任選組合——無需手動編輯。

🎤 說話者 1獨立音軌

🎤 說話者 2獨立音軌

🎵 背景音樂獨立音軌

使用情境

誰在使用音訊分離？

🛡 解決版權爭議

🎙 播客剪輯

剪掉贅詞與不需要的語音，同時完整保留觀眾笑聲與現場反應。

🌍 影片配音

提取零語音殘留的乾淨背景音樂，再疊上 99 種以上語言任選的新旁白。

💼 會議與研討會

從 Zoom 或 Meet 錄音的音訊中分離說話者——每位與會者都有自己的音軌，並內建說話者標註逐字稿。

📱 社群短影音

把短影音裡的原背景音樂換成時下流行曲 — 完全不動您的旁白。

🎤 演唱會與飯拍

去除現場片段中的人群噪音與場地殘響，突顯歌手的聲音或音樂本身。

📰 新聞與訪談

運用多說話者分離，從嘈雜的實地錄音中提取每位受訪者的聲音，並附上乾淨逐字稿以便查證。

♻️ 內容再利用

一次上傳，化為播客音訊、宣傳 BGM、社群用說話者短片，以及部落格用的完整逐字稿。

在 Perso 工作區做更多

FAQ

常見問題

Perso Dubbing Audio Separation 是免費的嗎？

是的。您可以上傳任何音訊或影片檔，前 60 秒完全免費分離，無需註冊也不需信用卡。若要下載結果或處理超過 60 秒的檔案，請訂閱 Perso Dubbing。付費方案可擴充處理上限並加入說話者編輯功能。

試用音訊分離需要建立帳戶嗎？

不需要。60 秒試用完全不需帳戶。上傳檔案，在瀏覽器中試聽每條分離音軌，再判斷品質是否符合需求。只有在下載結果或處理較長檔案時才需要帳戶。

如果我的檔案超過 60 秒會怎樣？

超過 60 秒的檔案一樣可以上傳 — AI 會處理前 60 秒，讓您用自己的內容評估分離品質。若要分離完整檔案，請登入後重新上傳檔案。

我的檔案會存放在 Perso Dubbing 的伺服器上嗎？

不會。試用上傳在暫存空間處理，工作階段結束後自動刪除。Perso Dubbing 不會保留、重複使用免費試用上傳的檔案，也不會用於訓練。

支援哪些檔案格式與大小？

Perso Dubbing 接受 MP3、WAV、M4A 音訊檔，以及 MP4、MOV、WebM 影片檔，每次上傳最大 200MB。影片會自動處理 — AI 提取音訊並分離。

「背景音樂」與「含反應背景」模式有什麼差別？

背景音樂會移除所有人為聲音 — 說話、笑聲、掌聲 — 只留下純粹的背景音。含反應背景只移除說話聲，保留笑聲、掌聲與觀眾聲，維持播客與活動錄音的現場氛圍。Perso Dubbing 一次上傳即可產生兩條音軌。

Perso Dubbing 能做多說話者分離，而不只是人聲和音樂嗎？

可以。除了人聲/音樂分離，Perso Dubbing 還會進行完整的說話者分離（也稱為 speaker split）：AI 偵測錄音中的每位說話者，為每人產生獨立音軌，並附上支援 99+ 種語言、標註說話者的逐字稿。因此不只適合音樂，也適合訪談、播客與會議錄音。

與其他工具相比，Perso Dubbing 的分離準確度如何？

在標準 MUSDB18 基準測試中，Perso Dubbing 在 50 條音軌中有 44 條比 Meta 的 HTDemucs 分離得更乾淨（中位數 SI-SDR 10.67 對 8.36 dB）。在 VoiceBank-DEMAND 降噪測試中與專精降噪的 DeepFilterNet3 持平，並在 92-100% 的樣本中勝過 ElevenLabs Audio Isolation。逐樣本結果已公開，任何人都能驗證這些數字。

我可以移除影片中受版權保護的背景音樂嗎？

如何移除我自己拍攝影片中的背景音樂？

直接上傳影片檔即可，不需要先擷取音訊。Perso Dubbing 會將語音、背景音樂與環境音分離成獨立音軌：匯出僅含語音的混音即可去除音樂，或依需求保留任意組合。支援 MP4、MOV 與 WebM，前 60 秒免費。

Perso Dubbing 與 LALAL.AI 或 Moises 有何不同？

音樂工具只把人聲和樂器分開 — 就到此為止。Perso Dubbing 在同一個工作流程中結合了分離、99+ 種語言的轉錄、說話者重新指派、雙背景音模式與自選音軌混音 — 為影片創作者與內容編輯而生，而不只是音樂人。

可以把選定的音軌合併成一個檔案嗎？

可以。任意組合分離後的音軌 — 例如背景音樂加說話者 1 — 匯出為單一音訊檔。這種自選混音匯出是 Perso Dubbing 獨有的功能。

探索我們的產品功能

AI Dubbing Video Translation AI Lip Sync Voice Cloning Voice Translator Speech to Text Text-to-Speech AI Voice Generator Video Transcriber Subtitle Editor SRT Subtitles to MP4 Extract Audio from Video

用您自己的檔案試試 — 就是現在

前 60 秒免費。無需註冊、不存檔案、沒有隱藏條件。

↑ 上傳檔案

分離人聲、說話者與音樂 免費、線上、數秒完成

世界級效能 — 用數據證明，而非空口宣稱

人聲分離 越高越好

降噪品質 越高越好

語音清晰度 越高越好

語音克隆保真度 越高越好

轉錄準確度（WER） 越低越好

這些測試究竟在衡量什麼？

🎯 人聲分離（SI-SDR） 越高越好

🔊 降噪（PESQ · ESTOI） 越高越好

📝 轉錄準確度（WER） 越低越好

🎤 語音克隆保真度（cos_sim） 越高越好

三個步驟，一分鐘內完成

上傳檔案

試聽分離音軌

匯出混音

不只是人聲移除工具

😂 雙背景音模式

👤 多說話者分離

🔒 不儲存任何內容

📝 99+ 種語言轉錄

🎬 音訊影片皆可

🎚 自選混音匯出

移除影片背景音樂或雜訊的兩種方式

背景音樂

含反應背景

每個聲音一條音軌 — 為訪談、播客與會議打造的說話者分離

一段混合錄音

每位說話者一條獨立音軌

誰在使用音訊分離？

🛡 解決版權爭議

🎙 播客剪輯

🌍 影片配音

💼 會議與研討會

📱 社群短影音

🎤 演唱會與飯拍

📰 新聞與訪談

♻️ 內容再利用

常見問題

探索我們的產品功能

用您自己的檔案試試 — 就是現在

分離人聲、說話者與音樂
免費、線上、數秒完成

人聲分離越高越好

降噪品質越高越好

語音清晰度越高越好

語音克隆保真度越高越好

轉錄準確度（WER）越低越好

🎯 人聲分離（SI-SDR）越高越好

🔊 降噪（PESQ · ESTOI）越高越好

📝 轉錄準確度（WER）越低越好

🎤 語音克隆保真度（cos_sim）越高越好