產品指南

如何下載您的 AI 配音影片：逐步指南（MP4、MP3、SRT）

最後更新

2026年5月12日

Written By

Untae Bae

，

成長主管與產品擁有人

總結與

Chat GPT

Perplexity

Claude

Gemini

Grok

跳到部分

總結與

Chat GPT

Perplexity

Claude

Gemini

Grok

人工智能視頻翻譯、定位和配音工具

免費試用

Perso Dubbing 可從單一配音專案中提供 10 個可下載的檔案，而不僅僅是配音後的影片。您可以獲得配音後的 MP4、來源和翻譯後的音軌 (WAV)、獨立的主講人音訊 (TAR)、分離的背景音樂 (WAV)、來源和翻譯後的字幕 (SRT) 以及雙語腳本 (XLSX)。每種檔案都可以透過每月 6.99 美元的 Starter 方案取得。本指南將說明每個檔案是什麼、何時使用以及如何下載。

數據說明：每個 AI 配音平台都能匯出配音後的影片。少數平台也能匯出字幕和音軌。而 Perso Dubbing 則可從每個配音專案中匯出 10 種檔案類型——包括分離的背景音樂、雙語 XLSX 腳本和按主講人分離的音訊——所有這些都包含在每月 6.99 美元的 Starter 方案中。沒有企業版門檻。沒有附加費用。

Perso Dubbing 配音後會匯出哪些檔案？

以下是您在任何 Perso Dubbing 配音專案後可以下載的完整檔案清單：

#	檔案	格式	包含內容	提供方案
1	配音影片匯出	MP4	包含翻譯配音、對嘴（嘴型同步）和原始畫面的完整影片	Starter (每月 $6.99)
2	來源音訊匯出	WAV	從您上傳的影片中提取的原始音軌	Starter
3	來源音訊（按主講人區分）	TAR	從原始音訊中分離出的每位主講人個別音訊檔案	Starter
4	翻譯音訊匯出	WAV	僅限配音音訊——無影片、無背景音樂	Starter
5	翻譯音訊（含背景音樂）	WAV	混入原始背景音樂的配音語音	Starter
6	背景音樂 (BGM) 匯出	WAV	僅限分離的背景音樂——人聲完全去除	Starter
7	來源字幕	SRT	以原始語言自動產生的字幕	Starter
8	翻譯字幕	SRT	目標語言字幕，與配音音訊時間同步	Starter
9	來源腳本	XLSX	試算表格式的原始音訊完整逐字稿	Starter
10	來源與翻譯腳本	XLSX	左右對照的雙語腳本——平行欄位中呈現原始與翻譯文字	Starter

Perso Dubbing 會自動產生這 10 個檔案。無需外掛程式，無需額外點數，無需個別工具。一個配音專案，10 個輸出成果。

一次配音，即可獲取所有檔案

1. 配音影片匯出 (MP4)

它是什麼：最終的配音影片——您的原始素材加上替換掉來源音訊的翻譯配音。聲音複製技術保留了原始說話者的音調、節奏和抑揚頓挫。對嘴功能會自動套用。

何時使用：

直接將配音版本發布到 YouTube、TikTok 或您的 LMS
嵌入到針對不同市場的到達網頁或產品頁面中
在分發前分享給利益相關者進行審查

有何不同：對嘴是 Perso Dubbing 配音工作流程中的一個可選步驟——使用者可自主決定專案是否需要，其結果以單一 MP4 匯出檔案交付。不過真正的差距在於品質。大多數提供對嘴功能的競爭對手仍會產生明顯的口型漂移、影格不匹配或生硬、機械式的動作，這會破壞觀眾的信任。Perso Dubbing 的對嘴技術經過精心設計，經得起仔細檢查——傲人的精準口型、自然的過渡以及廣播級的輸出品質。

2. 來源音訊匯出 (WAV)

它是什麼：從您上傳的影片中提取出來的原始音軌，為高品質 WAV 檔案。

何時使用：

在配音前封存乾淨的原始音訊
在不同的剪輯專案（Premiere Pro, DaVinci Resolve, Final Cut）中使用原始配音
並排比較原始音訊和配音音訊的品質

3. 來源音訊（按主講人區分）(TAR)

它是什麼：一個壓縮檔案包，包含在原始影片中偵測到的每位主講人的個別音訊檔案。如果您的影片有 3 位說話者，您將獲得 3 個獨立的 WAV 檔案。

何時使用：

需要獨立調整每位說話者音量或 EQ 的 Podcast 編輯器
訪談影片中，某位說話者需要重新錄製，而其他說話者保持不變
多說話者 QA——檢查每位說話者的聲音是否被正確複製

為什麼這很重要：按主講人分離音訊通常需要像 Descript 或 Adobe Podcast 等專用工具。Perso Dubbing 會自動將此功能包含在每個配音專案中。如需更深入的瞭解，請參閱「如何從影片中匯出按說話者分離的音訊」。

4. 翻譯音訊匯出 (WAV)

它是什麼：僅限配音音訊——無影片、無背景音樂。只是翻譯後的語音軌道。

何時使用：

Podcast 本地化：以另一種語言發布僅限音訊的版本
在您自己的剪輯時間軸（Premiere, Final Cut）中替換音訊，以進行自訂後期製作
用於廣播、內部培訓音訊或有聲書風格內容的僅限配音分發

專業建議：如果您在自己的非線性剪輯軟體 (NLE) 中重新剪輯，可以分別下載「翻譯音訊（無背景音樂）」和「背景音樂匯出」。這樣一來，您就能完全控制語音和音樂之間的混合比例。請參閱「如何在沒有影片的情況下下載配音音訊」以瞭解完整的工作流程。

5. 翻譯音訊（含背景音樂）(WAV)

它是什麼：與原始背景音樂混合的翻譯配音——可直接用作完整的音軌，無需影片。

何時使用：

音訊優先的分發（Podcast、內部通訊、語音電子報），您需要完整且「製作精良」的聲音感受
快速周轉：無需手動混音，背景音樂平衡已設定完成
保留了背景音樂的社群媒體音訊剪輯

6. 背景音樂 (BGM) 匯出 (WAV)

它是什麼：從原始影片中分離出來的背景音樂——所有歌聲和人聲均已移除。僅為乾淨的純樂器音軌。

何時使用：

在您的 DAW 或編輯器中，以自訂的語音對音樂比例重新混合配音音訊
在宣傳短片、預告片或精彩集錦中使用原始背景音樂
檢查 AI 是否正確地將音樂與語義分隔開來（QA 步驟）

為什麼這很稀有：沒有其他 AI 配音平台能單獨匯出背景音樂。Perso Dubbing 的音訊分離引擎在處理過程中會隔離人聲和背景音樂，並提供兩者的獨立下載。請參閱「如何使用 AI 從影片中提取背景音樂」以獲取完整指南。

7. 來源字幕 (SRT)

它是什麼：以影片原始語言自動產生的字幕，匯出為標準 SRT 檔案。Perso Dubbing 的語音識別功能涵蓋 100 種語言的逐字稿抄錄。

何時使用：

在 YouTube 或 Vimeo 上為原始影片添加隱藏式字幕
使您現有的內容符合無障礙規範 (ADA、WCAG)
將 SRT 輸入到其他翻譯工具或工作流程中
SEO：將 SRT 上傳到 YouTube 可提高原始語言的搜尋曝光度

格式細節：帶有序號、時間戳記（HH:MM:SS,mmm）和字幕文字的標準 SRT。與 YouTube、Vimeo、Premiere Pro、Final Cut、DaVinci Resolve 和所有主要影片平台相容。如需完整的 SRT 工作流程，請參閱「如何從任何影片自動產生 SRT 字幕」。

8. 翻譯字幕 (SRT)

它是什麼：目標語言的字幕，時間同步以匹配配音音訊的節奏——而不是原始發音的時間點。

何時使用：

雙語發布：將來源字幕和翻譯字幕同時上傳到 YouTube，作爲多個字幕音軌
目標市場的無障礙服務
燒錄式字幕工作流程，您可以使用 FFmpeg 或您的編輯器將字幕嵌入和硬化到影片中

與競爭對手的主要區別：許多字幕翻譯工具可以產生翻譯文字，但不會調整其時間以配合配音語速。Perso Dubbing 的翻譯 SRT 是與實際的配音時間同步的，因此字幕會在對的時間出現——而不是在原始說話者說話時出現。

9. 來源腳本 (XLSX)

它是什麼：將您原始影片的完整逐字稿匯出為試算表。每一行對應一個片段，並設有時間戳記、主講人標籤和轉錄文字等欄位。

何時使用：

內容再利用：將影片腳本轉化為部落格文章、社群媒體文案或電子郵件內容
對原始錄音中實際說過的話進行法律/合規性審查
可搜尋的存檔：XLSX 格式非常便於搜尋、排序和篩選

10. 來源與翻譯腳本 (XLSX)

它是什麼：原始文字與翻譯文字左右對照的雙語試算表。每一行以兩種語言顯示同一個片段，並附有時間戳記和主講人標籤。

何時使用：

翻譯品質保證 (QA)：審閱者可以逐行快速瀏覽兩個版本，而無需在不同檔案之間切換
語言學習內容：教育工作者將雙語腳本用作學習教材
本地化團隊交接：專案經理將 XLSX 分享給沒有 Perso Dubbing 存取權限的本地審閱者
合規性文件：受監管行業（醫療、法律、金融）保留已說內容以及如何翻譯的雙語記錄

為什麼是 XLSX 而不是 PDF？試算表是可編輯、可排序和可篩選的。如果審閱者指出第 47 行有翻譯問題，編輯者可以直接跳到 Perso Dubbing 編輯器中的該時間戳記並修正該行。有關使用案例和工作流程，請參閱「雙語腳本匯出：並排翻譯以用於 QA 與學習」。

如何下載您的檔案：簡單 3 步

步驟 1. 在 Perso Dubbing 中完成您的配音專案（上傳 > 選擇語言 > 處理）。

步驟 2. 在專案結果頁面上，按一下下載按鈕。下拉式選單會顯示所有可用的檔案類型。

步驟 3. 選擇您需要的檔案。每個檔案都會單獨下載，因此您可以精確挑選您需要的文件，而無需下載龐大的壓縮檔。

所有 10 種檔案類型皆可從 Starter 方案（每月 6.99 美元）起開始提供。免費方案不包含檔案匯出。

競爭對手會匯出哪些檔案？

檔案類型	Perso Dubbing	ElevenLabs	Descript	HeyGen	Synthesia	Rask AI
配音影片 (MP4)	是	是	是	是	是	是
來源音訊 (WAV)	是	是	是	部分支援	是	否
按主講人分離音訊	是 (TAR)	是 (ZIP)	需手動規避	否	否	否
僅限翻譯音訊	是	是	間接支援	部分支援	否	部分支援
翻譯音訊 + 背景音樂	是	是	否	否	否	否
背景音樂匯出（分離）	是	否	否	否	否	否
來源字幕 (SRT)	是	是	是 (SRT/VTT)	是 (Pro+)	是 (SRT/VTT)	是
翻譯字幕 (SRT)	是	是	是 (SRT/VTT)	是 (SRT/VTT/ASS)	是 (按語言)	是
來源腳本	是 (XLSX)	是 (CSV/TXT)	是 (TXT/DOCX/MD)	是 (XLSX, Pro+)	XLIFF (企業版)	是 (TXT/DOCX)
雙語腳本	是 (XLSX)	是 (CSV)	否	否	否	否
已確認匯出類型	10	8-9	6-7	5-6	5-6	4-5

Perso Dubbing 的脫穎之處

ElevenLabs 以 8-9 種匯出類型最為接近，包括按說話者分離的 WAV 音軌和 CSV 雙語腳本。但仍存在三點重大差異：

1. 只有 Perso Dubbing 支援背景音樂 (BGM) 匯出。 此清單中沒有其他平台可讓您將分離出的背景音樂下載為獨立的 WAV 檔案。對於需要按照自訂的語音對音樂比例重新混合配音音訊的創作者來說，這是唯一不需要使用額外音軌分離工具的選擇。

2. 僅需每月 6.99 美元起即可獲得所有檔案。 ElevenLabs 將部分匯出功能限制在較高级別的方案中。HeyGen 下載 SRT 和腳本需要 Pro+。Synthesia 限制腳本匯出 (XLIFF) 為企業版。而 Perso Dubbing 從 Starter 方案起就能提供全部 10 個檔案。

3. XLSX 優於 CSV。 ElevenLabs 匯出的雙語腳本為 CSV 格式——雖然這便於開發人員，但對行銷團隊、翻譯和專案經理來說不夠直觀。Perso Dubbing 匯出為具有結構化欄位的 XLSX 格式，無需轉換即可直接在 Excel 或 Google 試算表中開啟。

常見問題解答

問：Starter 方案是否已包含所有 10 種下載檔案，還是其中一些檔案需要更高級的級別？

Starter 方案（每月 6.99 美元）已包含所有 10 種檔案類型。不按檔案收費或收取任何附加費用。方案級別限制唯一限定的功能是 SRT 上傳（配音前匯入客製化字幕），這僅在企業方案 (Enterprise) 中提供。相比之下，HeyGen 限制 SRT 和腳本匯出在 Pro+，而 Synthesia 限制腳本匯出在企業版。

問：我可以下載幾週前完成的專案中的檔案嗎？

可以。所有已完成的專案及其可下載檔案都會保留在您的 Perso Dubbing 控制面板中。您可以隨時返回任何過去的專案並下載這 10 種檔案類型中的任何一種。

問：匯出的 WAV 檔案其音訊品質如何？

Perso Dubbing 以來源品質級別匯出 WAV 檔案。WAV 是一種無損壓縮格式，因此不會因壓縮而損失品質。這使得匯出檔案非常適合在 DAW 和影片編輯器中進行專業的後期製作工作流程。

開始匯出不僅僅是影片的豐富檔案

一個配音專案。十個檔案。影片、音訊、字幕、腳本——將您的內容再利用、轉化為觀眾所使用的每種格式所需的一切要素。

免費試用 Perso Dubbing 無需信用卡。Starter 方案提供 10 種匯出檔案類型。支援 33 種以上的配音語言。

內部連結：

數據說明：每個 AI 配音平台都能匯出配音後的影片。少數平台也能匯出字幕和音軌。而 Perso Dubbing 則可從每個配音專案中匯出 10 種檔案類型——包括分離的背景音樂、雙語 XLSX 腳本和按主講人分離的音訊——所有這些都包含在每月 6.99 美元的 Starter 方案中。沒有企業版門檻。沒有附加費用。

Perso Dubbing 配音後會匯出哪些檔案？

以下是您在任何 Perso Dubbing 配音專案後可以下載的完整檔案清單：

#	檔案	格式	包含內容	提供方案
1	配音影片匯出	MP4	包含翻譯配音、對嘴（嘴型同步）和原始畫面的完整影片	Starter (每月 $6.99)
2	來源音訊匯出	WAV	從您上傳的影片中提取的原始音軌	Starter
3	來源音訊（按主講人區分）	TAR	從原始音訊中分離出的每位主講人個別音訊檔案	Starter
4	翻譯音訊匯出	WAV	僅限配音音訊——無影片、無背景音樂	Starter
5	翻譯音訊（含背景音樂）	WAV	混入原始背景音樂的配音語音	Starter
6	背景音樂 (BGM) 匯出	WAV	僅限分離的背景音樂——人聲完全去除	Starter
7	來源字幕	SRT	以原始語言自動產生的字幕	Starter
8	翻譯字幕	SRT	目標語言字幕，與配音音訊時間同步	Starter
9	來源腳本	XLSX	試算表格式的原始音訊完整逐字稿	Starter
10	來源與翻譯腳本	XLSX	左右對照的雙語腳本——平行欄位中呈現原始與翻譯文字	Starter

Perso Dubbing 會自動產生這 10 個檔案。無需外掛程式，無需額外點數，無需個別工具。一個配音專案，10 個輸出成果。

一次配音，即可獲取所有檔案

1. 配音影片匯出 (MP4)

何時使用：

直接將配音版本發布到 YouTube、TikTok 或您的 LMS
嵌入到針對不同市場的到達網頁或產品頁面中
在分發前分享給利益相關者進行審查

2. 來源音訊匯出 (WAV)

它是什麼：從您上傳的影片中提取出來的原始音軌，為高品質 WAV 檔案。

何時使用：

在配音前封存乾淨的原始音訊
在不同的剪輯專案（Premiere Pro, DaVinci Resolve, Final Cut）中使用原始配音
並排比較原始音訊和配音音訊的品質

3. 來源音訊（按主講人區分）(TAR)

它是什麼：一個壓縮檔案包，包含在原始影片中偵測到的每位主講人的個別音訊檔案。如果您的影片有 3 位說話者，您將獲得 3 個獨立的 WAV 檔案。

何時使用：

需要獨立調整每位說話者音量或 EQ 的 Podcast 編輯器
訪談影片中，某位說話者需要重新錄製，而其他說話者保持不變
多說話者 QA——檢查每位說話者的聲音是否被正確複製

4. 翻譯音訊匯出 (WAV)

它是什麼：僅限配音音訊——無影片、無背景音樂。只是翻譯後的語音軌道。

何時使用：

Podcast 本地化：以另一種語言發布僅限音訊的版本
在您自己的剪輯時間軸（Premiere, Final Cut）中替換音訊，以進行自訂後期製作
用於廣播、內部培訓音訊或有聲書風格內容的僅限配音分發

5. 翻譯音訊（含背景音樂）(WAV)

它是什麼：與原始背景音樂混合的翻譯配音——可直接用作完整的音軌，無需影片。

何時使用：

音訊優先的分發（Podcast、內部通訊、語音電子報），您需要完整且「製作精良」的聲音感受
快速周轉：無需手動混音，背景音樂平衡已設定完成
保留了背景音樂的社群媒體音訊剪輯

6. 背景音樂 (BGM) 匯出 (WAV)

它是什麼：從原始影片中分離出來的背景音樂——所有歌聲和人聲均已移除。僅為乾淨的純樂器音軌。

何時使用：

在您的 DAW 或編輯器中，以自訂的語音對音樂比例重新混合配音音訊
在宣傳短片、預告片或精彩集錦中使用原始背景音樂
檢查 AI 是否正確地將音樂與語義分隔開來（QA 步驟）

7. 來源字幕 (SRT)

它是什麼：以影片原始語言自動產生的字幕，匯出為標準 SRT 檔案。Perso Dubbing 的語音識別功能涵蓋 100 種語言的逐字稿抄錄。

何時使用：

在 YouTube 或 Vimeo 上為原始影片添加隱藏式字幕
使您現有的內容符合無障礙規範 (ADA、WCAG)
將 SRT 輸入到其他翻譯工具或工作流程中
SEO：將 SRT 上傳到 YouTube 可提高原始語言的搜尋曝光度

8. 翻譯字幕 (SRT)

它是什麼：目標語言的字幕，時間同步以匹配配音音訊的節奏——而不是原始發音的時間點。

何時使用：

雙語發布：將來源字幕和翻譯字幕同時上傳到 YouTube，作爲多個字幕音軌
目標市場的無障礙服務
燒錄式字幕工作流程，您可以使用 FFmpeg 或您的編輯器將字幕嵌入和硬化到影片中

9. 來源腳本 (XLSX)

它是什麼：將您原始影片的完整逐字稿匯出為試算表。每一行對應一個片段，並設有時間戳記、主講人標籤和轉錄文字等欄位。

何時使用：

內容再利用：將影片腳本轉化為部落格文章、社群媒體文案或電子郵件內容
對原始錄音中實際說過的話進行法律/合規性審查
可搜尋的存檔：XLSX 格式非常便於搜尋、排序和篩選

10. 來源與翻譯腳本 (XLSX)

它是什麼：原始文字與翻譯文字左右對照的雙語試算表。每一行以兩種語言顯示同一個片段，並附有時間戳記和主講人標籤。

何時使用：

翻譯品質保證 (QA)：審閱者可以逐行快速瀏覽兩個版本，而無需在不同檔案之間切換
語言學習內容：教育工作者將雙語腳本用作學習教材
本地化團隊交接：專案經理將 XLSX 分享給沒有 Perso Dubbing 存取權限的本地審閱者
合規性文件：受監管行業（醫療、法律、金融）保留已說內容以及如何翻譯的雙語記錄

如何下載您的檔案：簡單 3 步

步驟 1. 在 Perso Dubbing 中完成您的配音專案（上傳 > 選擇語言 > 處理）。

步驟 2. 在專案結果頁面上，按一下下載按鈕。下拉式選單會顯示所有可用的檔案類型。

步驟 3. 選擇您需要的檔案。每個檔案都會單獨下載，因此您可以精確挑選您需要的文件，而無需下載龐大的壓縮檔。

所有 10 種檔案類型皆可從 Starter 方案（每月 6.99 美元）起開始提供。免費方案不包含檔案匯出。

競爭對手會匯出哪些檔案？

檔案類型	Perso Dubbing	ElevenLabs	Descript	HeyGen	Synthesia	Rask AI
配音影片 (MP4)	是	是	是	是	是	是
來源音訊 (WAV)	是	是	是	部分支援	是	否
按主講人分離音訊	是 (TAR)	是 (ZIP)	需手動規避	否	否	否
僅限翻譯音訊	是	是	間接支援	部分支援	否	部分支援
翻譯音訊 + 背景音樂	是	是	否	否	否	否
背景音樂匯出（分離）	是	否	否	否	否	否
來源字幕 (SRT)	是	是	是 (SRT/VTT)	是 (Pro+)	是 (SRT/VTT)	是
翻譯字幕 (SRT)	是	是	是 (SRT/VTT)	是 (SRT/VTT/ASS)	是 (按語言)	是
來源腳本	是 (XLSX)	是 (CSV/TXT)	是 (TXT/DOCX/MD)	是 (XLSX, Pro+)	XLIFF (企業版)	是 (TXT/DOCX)
雙語腳本	是 (XLSX)	是 (CSV)	否	否	否	否
已確認匯出類型	10	8-9	6-7	5-6	5-6	4-5

Perso Dubbing 的脫穎之處

ElevenLabs 以 8-9 種匯出類型最為接近，包括按說話者分離的 WAV 音軌和 CSV 雙語腳本。但仍存在三點重大差異：

常見問題解答

問：Starter 方案是否已包含所有 10 種下載檔案，還是其中一些檔案需要更高級的級別？

問：我可以下載幾週前完成的專案中的檔案嗎？

問：匯出的 WAV 檔案其音訊品質如何？

開始匯出不僅僅是影片的豐富檔案

一個配音專案。十個檔案。影片、音訊、字幕、腳本——將您的內容再利用、轉化為觀眾所使用的每種格式所需的一切要素。

免費試用 Perso Dubbing 無需信用卡。Starter 方案提供 10 種匯出檔案類型。支援 33 種以上的配音語言。

內部連結：

繼續閱讀

瀏覽全部

Product Guide

如何從影片中消除背景音樂和噪音

2026年7月14日

Untae Bae

成長主管與產品擁有人

Product Guide

如何自動為 TikTok & Reels 添加字幕 — 支援任何語言

2026年7月9日

Hyesun Shin

成長行銷人員

為什麼 AI 配音聽起來很假 — Perso Dubbing 改善嘴型同步的 5 個源影片修正指南

Product Guide

為什麼 AI 配音聽起來很糟糕？從您的源影片開始的 5 個修正方法

2026年7月7日

Hyesun Shin

成長行銷人員