AI 더빙된 비디오를 다운로드하는 방법: 단계별 가이드 (MP4, MP3, SRT)

AI 더빙, 영상 번역, 음성 번역, 립싱크
무료로 사용해보기
Perso AI는 하나의 더빙 프로젝트에서 10개의 다운로드 가능한 파일을 제공합니다 — 더빙된 비디오만이 아닙니다. 더빙된 MP4, 원본 및 번역 오디오 트랙(WAV), 발화자별 분리 오디오(TAR), 분리된 배경 음악(WAV), 원본 및 번역 자막(SRT), 그리고 이중 언어 스크립트(XLSX)를 받을 수 있습니다. 모든 파일은 월 $6.99의 Starter 요금제에서 이용할 수 있습니다. 이 가이드는 각 파일이 무엇인지, 언제 사용해야 하는지, 그리고 어떻게 다운로드하는지 설명합니다.
숫자로 보면: 모든 AI 더빙 플랫폼은 더빙 비디오를 내보냅니다. 일부는 자막과 오디오 트랙도 내보냅니다. Perso AI는 분리된 배경 음악, 이중 언어 XLSX 스크립트, 발화자 분리 오디오를 포함한 10가지 파일 형식을 모든 더빙 프로젝트에서 내보내며, 모두 월 $6.99의 Starter 요금제에서 이용할 수 있습니다. Enterprise 제한 없음. 추가 요금 없음.
더빙 후 Perso AI는 어떤 파일을 내보내나요?
다음은 어떤 Perso AI 더빙 프로젝트를 마친 후에도 다운로드할 수 있는 파일의 전체 목록입니다:
# | 파일 | 형식 | 포함 내용 | 이용 가능 요금제 |
|---|---|---|---|---|
1 | 더빙 비디오 내보내기 | MP4 | 번역된 보이스오버, 립싱크, 원본 비주얼이 포함된 전체 비디오 | Starter ($6.99/월) |
2 | 원본 오디오 내보내기 | WAV | 업로드한 비디오에서 추출한 원본 오디오 트랙 | Starter |
3 | 원본 오디오(발화자별) | TAR | 원본에서 발화자별로 분리된 개별 오디오 파일 | Starter |
4 | 번역 오디오 내보내기 | WAV | 더빙된 보이스오버 오디오만 — 비디오 없음, 배경 음악 없음 | Starter |
5 | 번역 오디오(BGM 포함) | WAV | 원본 배경 음악이 섞인 더빙 보이스오버 | Starter |
6 | BGM 내보내기 | WAV | 보컬이 완전히 제거된 분리된 배경 음악만 | Starter |
7 | 원본 자막 | SRT | 원본 언어로 자동 생성된 자막 | Starter |
8 | 번역 자막 | SRT | 더빙 오디오에 맞춰 시간 동기화된 대상 언어 자막 | Starter |
9 | 원본 스크립트 | XLSX | 스프레드시트 형식의 원본 오디오 전체 음성-텍스트 변환 | Starter |
10 | 원본 & 번역 스크립트 | XLSX | 원본 텍스트와 번역 텍스트가 나란히 있는 이중 언어 스크립트 — 평행 열로 배치 | Starter |
Perso AI는 모든 10개 파일을 자동으로 생성합니다. 추가 기능도, 추가 크레딧도, 별도 도구도 필요 없습니다. 하나의 더빙 프로젝트, 10개의 결과물.
한 번의 더빙으로 받을 수 있는 모든 파일 보기
1. 더빙 비디오 내보내기(MP4)
무엇인지: 최종 더빙 비디오입니다 — 원본 영상에 원본 오디오를 대체하는 번역된 보이스오버가 들어갑니다. 음성 복제는 원래 화자의 톤, 속도, 리듬을 유지합니다. 립싱크는 자동으로 적용됩니다.
언제 사용하나요:
YouTube, TikTok 또는 LMS에 더빙 버전을 바로 게시할 때
다른 시장을 위한 랜딩 페이지나 제품 페이지에 삽입할 때
배포 전에 검토용으로 이해관계자와 공유할 때
무엇이 다른가요: 립싱크는 Perso AI의 더빙 워크플로우 안에서 선택적으로 적용하는 단계입니다 — 사용자가 프로젝트에 필요한 시점을 결정하면, 결과는 하나의 MP4 내보내기로 제공됩니다. 하지만 진짜 차이는 품질입니다. 립싱크를 제공하는 대부분의 경쟁사는 여전히 눈에 띄는 입 모양 어긋남, 프레임 불일치, 또는 시청자의 신뢰를 깨는 딱딱하고 기계적인 움직임을 만들어냅니다. Perso AI의 립싱크는 근접 검수에서도 견딜 수 있도록 설계되었으며 — 정확한 입 모양, 자연스러운 전환, 방송 수준의 출력 품질을 제공합니다.
2. 원본 오디오 내보내기(WAV)
무엇인지: 업로드한 비디오에서 추출한 고품질 WAV 파일의 원본 오디오 트랙입니다.
언제 사용하나요:
더빙 전에 깨끗한 원본 오디오를 보관할 때
다른 편집 프로젝트(Premiere Pro, DaVinci Resolve, Final Cut)에서 원래 보이스오버를 사용할 때
원본 오디오와 더빙 오디오의 품질을 나란히 비교할 때
3. 발화자별 원본 오디오(TAR)
무엇인지: 원본 비디오에서 감지된 각 발화자별 개별 오디오 파일이 들어 있는 압축 아카이브입니다. 비디오에 발화자가 3명이라면, 서로 분리된 WAV 파일 3개를 받게 됩니다.
언제 사용하나요:
발화자별로 볼륨이나 EQ를 개별적으로 조정해야 하는 팟캐스트 편집자
한 발화자만 재녹음이 필요하고 다른 사람은 그대로 두는 인터뷰 영상
다중 발화자 QA — 각 발화자의 음성이 올바르게 복제되었는지 확인할 때
왜 중요한가요: 발화자 분리 오디오는 일반적으로 Descript나 Adobe Podcast 같은 전용 도구가 필요합니다. Perso AI는 이를 모든 더빙 프로젝트에 자동으로 포함합니다. 더 깊이 알아보려면 비디오에서 발화자 분리 오디오를 내보내는 방법을 참조하세요.
4. 번역 오디오 내보내기(WAV)
무엇인지: 더빙된 보이스오버 오디오만 제공합니다 — 비디오도 없고, 배경 음악도 없습니다. 번역된 음성 트랙만 있습니다.
언제 사용하나요:
팟캐스트 현지화: 다른 언어의 오디오 전용 버전을 게시할 때
맞춤 후반 작업을 위해 자체 편집 타임라인(Premiere, Final Cut)에서 오디오를 교체할 때
라디오, 내부 교육 오디오 또는 오디오북 스타일 콘텐츠용 보이스오버 전용 배포
전문가 팁: 자체 NLE에서 다시 편집한다면, 번역 오디오(배경 음악 없음)와 BGM 내보내기를 각각 따로 다운로드하세요. 그러면 음성과 음악의 믹스 비율을 완전히 제어할 수 있습니다. 전체 워크플로우는 비디오 없이 더빙 오디오를 다운로드하는 방법을 참조하세요.
5. BGM 포함 번역 오디오(WAV)
무엇인지: 더빙 보이스오버에 원본 배경 음악을 섞은 것으로, 비디오 없이 완전한 오디오 트랙으로 바로 사용할 수 있습니다.
언제 사용하나요:
오디오 우선 배포(팟캐스트, 내부 커뮤니케이션, 오디오 뉴스레터)처럼 완성된 사운드를 원할 때
빠른 작업이 필요할 때: 수동 믹싱이 필요 없고, BGM 균형이 이미 설정되어 있습니다
배경 음악이 유지된 소셜 미디어 오디오 클립
6. BGM 내보내기(WAV)
무엇인지: 원본 비디오에서 분리한 배경 음악만 제공합니다 — 보컬은 모두 제거됩니다. 깨끗한 연주 트랙만 남습니다.
언제 사용하나요:
DAW나 편집기에서 사용자 지정 음성:음악 비율로 더빙 오디오를 다시 믹싱할 때
프로모션 클립, 예고편 또는 하이라이트 영상에 원본 BGM을 사용할 때
AI가 음악과 음성을 올바르게 분리했는지 확인할 때(QA 단계)
왜 드문가요: 다른 어떤 AI 더빙 플랫폼도 BGM을 별도로 내보내지 않습니다. Perso AI의 오디오 분리 엔진은 처리 중 보컬과 배경 음악을 분리하고, 둘 다 개별 다운로드로 제공합니다. 전체 가이드는 AI로 비디오에서 배경 음악을 추출하는 방법을 참조하세요.
7. 원본 자막(SRT)
무엇인지: 비디오의 원래 언어로 자동 생성된 자막을 표준 SRT 파일로 내보냅니다. Perso AI의 음성 인식은 음성-텍스트 변환을 위해 100개 언어를 지원합니다.
언제 사용하나요:
YouTube나 Vimeo의 원본 비디오에 자막을 추가할 때
기존 콘텐츠의 접근성 준수(ADA, WCAG)
SRT를 다른 번역 도구나 워크플로우에 입력할 때
SEO: YouTube에 SRT를 업로드하면 원래 언어로의 발견 가능성이 높아집니다
형식 세부 정보: 순번, 타임스탬프(HH:MM:SS,mmm), 자막 텍스트를 포함한 표준 SRT입니다. YouTube, Vimeo, Premiere Pro, Final Cut, DaVinci Resolve, 그리고 모든 주요 비디오 플랫폼과 호환됩니다. 전체 SRT 워크플로우는 어떤 비디오든 SRT 자막을 자동 생성하는 방법을 참조하세요.
8. 번역 자막(SRT)
무엇인지: 대상 언어의 자막이며, 원본 발화 타이밍이 아니라 더빙 오디오 타이밍에 맞춰 시간 동기화됩니다.
언제 사용하나요:
이중 언어 게시: 원본 자막과 번역 자막을 YouTube에 여러 자막 트랙으로 함께 업로드할 때
대상 시장의 접근성 확보
FFmpeg나 편집기를 사용해 자막을 비디오에 하드코딩하는 삽입 자막 워크플로우
경쟁사와의 주요 차이: 많은 자막 번역 도구는 번역된 텍스트는 생성하지만 더빙 오디오의 속도에 맞게 타이밍을 조정하지는 않습니다. Perso AI의 번역 SRT는 실제 더빙 보이스오버에 동기화되므로, 자막이 원래 화자가 말하던 때가 아니라 정확한 순간에 표시됩니다.
9. 원본 스크립트(XLSX)
무엇인지: 원본 비디오 전체 음성-텍스트 변환을 스프레드시트로 내보낸 것입니다. 각 행은 하나의 세그먼트에 해당하며, 타임스탬프, 화자 레이블, 전사된 텍스트 열이 있습니다.
언제 사용하나요:
콘텐츠 재활용: 비디오 스크립트를 블로그 글, 소셜 캡션 또는 이메일 카피로 바꿀 때
원본 녹음에서 실제로 어떤 말이 나왔는지에 대한 법률/규정 준수 검토
검색 가능한 아카이브: XLSX는 검색, 정렬, 필터링이 쉽습니다
10. 원본 & 번역 스크립트(XLSX)
무엇인지: 원본 텍스트와 번역 텍스트가 나란히 있는 이중 언어 스프레드시트입니다. 각 행은 두 언어의 같은 세그먼트를 타임스탬프와 화자 레이블과 함께 보여줍니다.
언제 사용하나요:
번역 QA: 검토자가 파일을 오가며 전환하지 않고도 두 버전을 줄 단위로 확인할 수 있습니다
언어 학습 콘텐츠: 교육자는 이중 언어 스크립트를 학습 자료로 사용합니다
현지화 팀 인수인계: 프로젝트 관리자가 Perso AI에 접근할 수 없는 현지 검토자와 XLSX를 공유합니다
규정 준수 문서화: 규제가 엄격한 산업(의료, 법률, 금융)은 무엇이 말해졌고 어떻게 번역되었는지에 대한 이중 언어 기록을 보관합니다
왜 PDF가 아니라 XLSX인가요? 스프레드시트는 편집 가능하고, 정렬 가능하고, 필터링할 수 있습니다. 검토자가 47행의 번역 문제를 지적하면, 편집자는 Perso AI 편집기에서 해당 타임스탬프로 바로 이동해 해당 줄을 수정할 수 있습니다. 사용 사례와 워크플로우는 QA와 학습을 위한 나란히 보기 번역: 이중 언어 스크립트 내보내기를 참조하세요.
파일을 다운로드하는 방법: 3단계
1단계. Perso AI에서 더빙 프로젝트를 완료합니다(업로드 > 언어 선택 > 처리).
2단계. 프로젝트 결과 페이지에서 Download 버튼을 클릭합니다. 드롭다운 메뉴에 사용 가능한 모든 파일 형식이 표시됩니다.
3단계. 필요한 파일을 선택합니다. 각 파일은 개별적으로 다운로드되므로 대용량 아카이브를 받지 않고도 정확히 필요한 것만 선택할 수 있습니다.
모든 10개 파일 형식은 Starter 플랜 ($6.99/월)부터 이용 가능합니다. 무료 플랜에는 파일 내보내기가 포함되지 않습니다.
경쟁사는 어떤 파일을 내보내나요?
파일 유형 | Perso AI | ElevenLabs | Descript | HeyGen | Synthesia | Rask AI |
|---|---|---|---|---|---|---|
더빙 비디오(MP4) | 예 | 예 | 예 | 예 | 예 | 예 |
원본 오디오(WAV) | 예 | 예 | 예 | 부분 지원 | 예 | 아니요 |
발화자 분리 오디오 | 예 (TAR) | 예 (ZIP) | 수동 우회 방법 | 아니요 | 아니요 | 아니요 |
번역 오디오만 | 예 | 예 | 간접 | 부분 지원 | 아니요 | 부분 지원 |
번역 오디오 + BGM | 예 | 예 | 아니요 | 아니요 | 아니요 | 아니요 |
BGM 내보내기(분리) | 예 | 아니요 | 아니요 | 아니요 | 아니요 | 아니요 |
원본 자막(SRT) | 예 | 예 | 예 (SRT/VTT) | 예 (Pro+) | 예 (SRT/VTT) | 예 |
번역 자막(SRT) | 예 | 예 | 예 (SRT/VTT) | 예 (SRT/VTT/ASS) | 예 (언어별) | 예 |
원본 스크립트 | 예 (XLSX) | 예 (CSV/TXT) | 예 (TXT/DOCX/MD) | 예 (XLSX, Pro+) | XLIFF (Enterprise) | 예 (TXT/DOCX) |
이중 언어 스크립트 | 예 (XLSX) | 예 (CSV) | 아니요 | 아니요 | 아니요 | 아니요 |
확인된 내보내기 유형 | 10 | 8-9 | 6-7 | 5-6 | 5-6 | 4-5 |
Perso AI가 두드러지는 지점
ElevenLabs가 발화자 분리 WAV 트랙과 CSV 이중 언어 스크립트를 포함해 8-9개의 내보내기 유형으로 가장 근접합니다. 하지만 세 가지 차이가 남습니다:
1. BGM 내보내기는 Perso AI만 지원합니다. 이 목록의 다른 어떤 플랫폼도 분리된 배경 음악을 별도의 WAV 파일로 다운로드할 수 없습니다. 더빙 오디오를 사용자 지정 음성:음악 비율로 다시 믹싱해야 하는 제작자에게는, 별도의 스템 분리 도구가 필요 없는 유일한 옵션입니다.
2. 월 $6.99부터 모든 파일. ElevenLabs는 일부 내보내기를 더 높은 요금제 뒤에 가둡니다. HeyGen은 SRT와 스크립트 다운로드에 Pro+가 필요합니다. Synthesia는 스크립트 내보내기(XLIFF)를 Enterprise로 제한합니다. Perso AI는 Starter 요금제에서 10개 파일 모두를 제공합니다.
3. CSV보다 XLSX. ElevenLabs는 이중 언어 스크립트를 CSV로 내보내는데 — 개발자에게는 유용하지만 마케팅 팀, 번역가, 프로젝트 관리자에게는 직관적이지 않습니다. Perso AI는 변환 없이 Excel이나 Google Sheets에서 바로 열 수 있도록 구조화된 열을 가진 XLSX로 내보냅니다.
자주 묻는 질문
Q. Starter 요금제에 10개 다운로드 파일이 모두 포함되나요, 아니면 더 높은 요금제가 필요한가요?
10개 파일 형식 모두 Starter 요금제($6.99/월)에서 이용할 수 있습니다. 파일당 요금이나 추가 요금은 없습니다. 요금제에 따라 제한되는 유일한 기능은 SRT 업로드(더빙 전에 사용자 지정 자막 가져오기)이며, Enterprise 요금제에서만 이용할 수 있습니다. 비교하자면 HeyGen은 SRT와 스크립트 내보내기를 Pro+로 제한하고, Synthesia는 스크립트 내보내기를 Enterprise로 제한합니다.
Q. 몇 주 전에 완료한 프로젝트에서도 파일을 다운로드할 수 있나요?
예. 완료된 모든 프로젝트와 해당 다운로드 파일은 Perso AI 대시보드에서 계속 접근할 수 있습니다. 과거의 어떤 프로젝트로든 돌아가서 10개 파일 형식 중 원하는 것을 언제든 다운로드할 수 있습니다.
Q. WAV 내보내기의 오디오 품질은 어떤가요?
Perso AI는 원본 품질 수준으로 WAV 파일을 내보냅니다. WAV는 비압축 무손실 형식이므로 압축으로 인한 품질 손실이 없습니다. 따라서 DAW와 영상 편집기의 전문 후반 제작 워크플로우에 적합합니다.
비디오 그 이상을 내보내기 시작하세요
하나의 더빙 프로젝트. 열 개의 파일. 비디오, 오디오, 자막, 스크립트 — 청중이 사용하는 모든 형식에 걸쳐 콘텐츠를 재활용하는 데 필요한 모든 것.
Perso AI를 무료로 체험해 보세요 신용카드가 필요 없습니다. Starter에서 10가지 내보내기 유형 제공. 33개 이상의 더빙 언어.
내부 링크:
Perso AI는 하나의 더빙 프로젝트에서 10개의 다운로드 가능한 파일을 제공합니다 — 더빙된 비디오만이 아닙니다. 더빙된 MP4, 원본 및 번역 오디오 트랙(WAV), 발화자별 분리 오디오(TAR), 분리된 배경 음악(WAV), 원본 및 번역 자막(SRT), 그리고 이중 언어 스크립트(XLSX)를 받을 수 있습니다. 모든 파일은 월 $6.99의 Starter 요금제에서 이용할 수 있습니다. 이 가이드는 각 파일이 무엇인지, 언제 사용해야 하는지, 그리고 어떻게 다운로드하는지 설명합니다.
숫자로 보면: 모든 AI 더빙 플랫폼은 더빙 비디오를 내보냅니다. 일부는 자막과 오디오 트랙도 내보냅니다. Perso AI는 분리된 배경 음악, 이중 언어 XLSX 스크립트, 발화자 분리 오디오를 포함한 10가지 파일 형식을 모든 더빙 프로젝트에서 내보내며, 모두 월 $6.99의 Starter 요금제에서 이용할 수 있습니다. Enterprise 제한 없음. 추가 요금 없음.
더빙 후 Perso AI는 어떤 파일을 내보내나요?
다음은 어떤 Perso AI 더빙 프로젝트를 마친 후에도 다운로드할 수 있는 파일의 전체 목록입니다:
# | 파일 | 형식 | 포함 내용 | 이용 가능 요금제 |
|---|---|---|---|---|
1 | 더빙 비디오 내보내기 | MP4 | 번역된 보이스오버, 립싱크, 원본 비주얼이 포함된 전체 비디오 | Starter ($6.99/월) |
2 | 원본 오디오 내보내기 | WAV | 업로드한 비디오에서 추출한 원본 오디오 트랙 | Starter |
3 | 원본 오디오(발화자별) | TAR | 원본에서 발화자별로 분리된 개별 오디오 파일 | Starter |
4 | 번역 오디오 내보내기 | WAV | 더빙된 보이스오버 오디오만 — 비디오 없음, 배경 음악 없음 | Starter |
5 | 번역 오디오(BGM 포함) | WAV | 원본 배경 음악이 섞인 더빙 보이스오버 | Starter |
6 | BGM 내보내기 | WAV | 보컬이 완전히 제거된 분리된 배경 음악만 | Starter |
7 | 원본 자막 | SRT | 원본 언어로 자동 생성된 자막 | Starter |
8 | 번역 자막 | SRT | 더빙 오디오에 맞춰 시간 동기화된 대상 언어 자막 | Starter |
9 | 원본 스크립트 | XLSX | 스프레드시트 형식의 원본 오디오 전체 음성-텍스트 변환 | Starter |
10 | 원본 & 번역 스크립트 | XLSX | 원본 텍스트와 번역 텍스트가 나란히 있는 이중 언어 스크립트 — 평행 열로 배치 | Starter |
Perso AI는 모든 10개 파일을 자동으로 생성합니다. 추가 기능도, 추가 크레딧도, 별도 도구도 필요 없습니다. 하나의 더빙 프로젝트, 10개의 결과물.
한 번의 더빙으로 받을 수 있는 모든 파일 보기
1. 더빙 비디오 내보내기(MP4)
무엇인지: 최종 더빙 비디오입니다 — 원본 영상에 원본 오디오를 대체하는 번역된 보이스오버가 들어갑니다. 음성 복제는 원래 화자의 톤, 속도, 리듬을 유지합니다. 립싱크는 자동으로 적용됩니다.
언제 사용하나요:
YouTube, TikTok 또는 LMS에 더빙 버전을 바로 게시할 때
다른 시장을 위한 랜딩 페이지나 제품 페이지에 삽입할 때
배포 전에 검토용으로 이해관계자와 공유할 때
무엇이 다른가요: 립싱크는 Perso AI의 더빙 워크플로우 안에서 선택적으로 적용하는 단계입니다 — 사용자가 프로젝트에 필요한 시점을 결정하면, 결과는 하나의 MP4 내보내기로 제공됩니다. 하지만 진짜 차이는 품질입니다. 립싱크를 제공하는 대부분의 경쟁사는 여전히 눈에 띄는 입 모양 어긋남, 프레임 불일치, 또는 시청자의 신뢰를 깨는 딱딱하고 기계적인 움직임을 만들어냅니다. Perso AI의 립싱크는 근접 검수에서도 견딜 수 있도록 설계되었으며 — 정확한 입 모양, 자연스러운 전환, 방송 수준의 출력 품질을 제공합니다.
2. 원본 오디오 내보내기(WAV)
무엇인지: 업로드한 비디오에서 추출한 고품질 WAV 파일의 원본 오디오 트랙입니다.
언제 사용하나요:
더빙 전에 깨끗한 원본 오디오를 보관할 때
다른 편집 프로젝트(Premiere Pro, DaVinci Resolve, Final Cut)에서 원래 보이스오버를 사용할 때
원본 오디오와 더빙 오디오의 품질을 나란히 비교할 때
3. 발화자별 원본 오디오(TAR)
무엇인지: 원본 비디오에서 감지된 각 발화자별 개별 오디오 파일이 들어 있는 압축 아카이브입니다. 비디오에 발화자가 3명이라면, 서로 분리된 WAV 파일 3개를 받게 됩니다.
언제 사용하나요:
발화자별로 볼륨이나 EQ를 개별적으로 조정해야 하는 팟캐스트 편집자
한 발화자만 재녹음이 필요하고 다른 사람은 그대로 두는 인터뷰 영상
다중 발화자 QA — 각 발화자의 음성이 올바르게 복제되었는지 확인할 때
왜 중요한가요: 발화자 분리 오디오는 일반적으로 Descript나 Adobe Podcast 같은 전용 도구가 필요합니다. Perso AI는 이를 모든 더빙 프로젝트에 자동으로 포함합니다. 더 깊이 알아보려면 비디오에서 발화자 분리 오디오를 내보내는 방법을 참조하세요.
4. 번역 오디오 내보내기(WAV)
무엇인지: 더빙된 보이스오버 오디오만 제공합니다 — 비디오도 없고, 배경 음악도 없습니다. 번역된 음성 트랙만 있습니다.
언제 사용하나요:
팟캐스트 현지화: 다른 언어의 오디오 전용 버전을 게시할 때
맞춤 후반 작업을 위해 자체 편집 타임라인(Premiere, Final Cut)에서 오디오를 교체할 때
라디오, 내부 교육 오디오 또는 오디오북 스타일 콘텐츠용 보이스오버 전용 배포
전문가 팁: 자체 NLE에서 다시 편집한다면, 번역 오디오(배경 음악 없음)와 BGM 내보내기를 각각 따로 다운로드하세요. 그러면 음성과 음악의 믹스 비율을 완전히 제어할 수 있습니다. 전체 워크플로우는 비디오 없이 더빙 오디오를 다운로드하는 방법을 참조하세요.
5. BGM 포함 번역 오디오(WAV)
무엇인지: 더빙 보이스오버에 원본 배경 음악을 섞은 것으로, 비디오 없이 완전한 오디오 트랙으로 바로 사용할 수 있습니다.
언제 사용하나요:
오디오 우선 배포(팟캐스트, 내부 커뮤니케이션, 오디오 뉴스레터)처럼 완성된 사운드를 원할 때
빠른 작업이 필요할 때: 수동 믹싱이 필요 없고, BGM 균형이 이미 설정되어 있습니다
배경 음악이 유지된 소셜 미디어 오디오 클립
6. BGM 내보내기(WAV)
무엇인지: 원본 비디오에서 분리한 배경 음악만 제공합니다 — 보컬은 모두 제거됩니다. 깨끗한 연주 트랙만 남습니다.
언제 사용하나요:
DAW나 편집기에서 사용자 지정 음성:음악 비율로 더빙 오디오를 다시 믹싱할 때
프로모션 클립, 예고편 또는 하이라이트 영상에 원본 BGM을 사용할 때
AI가 음악과 음성을 올바르게 분리했는지 확인할 때(QA 단계)
왜 드문가요: 다른 어떤 AI 더빙 플랫폼도 BGM을 별도로 내보내지 않습니다. Perso AI의 오디오 분리 엔진은 처리 중 보컬과 배경 음악을 분리하고, 둘 다 개별 다운로드로 제공합니다. 전체 가이드는 AI로 비디오에서 배경 음악을 추출하는 방법을 참조하세요.
7. 원본 자막(SRT)
무엇인지: 비디오의 원래 언어로 자동 생성된 자막을 표준 SRT 파일로 내보냅니다. Perso AI의 음성 인식은 음성-텍스트 변환을 위해 100개 언어를 지원합니다.
언제 사용하나요:
YouTube나 Vimeo의 원본 비디오에 자막을 추가할 때
기존 콘텐츠의 접근성 준수(ADA, WCAG)
SRT를 다른 번역 도구나 워크플로우에 입력할 때
SEO: YouTube에 SRT를 업로드하면 원래 언어로의 발견 가능성이 높아집니다
형식 세부 정보: 순번, 타임스탬프(HH:MM:SS,mmm), 자막 텍스트를 포함한 표준 SRT입니다. YouTube, Vimeo, Premiere Pro, Final Cut, DaVinci Resolve, 그리고 모든 주요 비디오 플랫폼과 호환됩니다. 전체 SRT 워크플로우는 어떤 비디오든 SRT 자막을 자동 생성하는 방법을 참조하세요.
8. 번역 자막(SRT)
무엇인지: 대상 언어의 자막이며, 원본 발화 타이밍이 아니라 더빙 오디오 타이밍에 맞춰 시간 동기화됩니다.
언제 사용하나요:
이중 언어 게시: 원본 자막과 번역 자막을 YouTube에 여러 자막 트랙으로 함께 업로드할 때
대상 시장의 접근성 확보
FFmpeg나 편집기를 사용해 자막을 비디오에 하드코딩하는 삽입 자막 워크플로우
경쟁사와의 주요 차이: 많은 자막 번역 도구는 번역된 텍스트는 생성하지만 더빙 오디오의 속도에 맞게 타이밍을 조정하지는 않습니다. Perso AI의 번역 SRT는 실제 더빙 보이스오버에 동기화되므로, 자막이 원래 화자가 말하던 때가 아니라 정확한 순간에 표시됩니다.
9. 원본 스크립트(XLSX)
무엇인지: 원본 비디오 전체 음성-텍스트 변환을 스프레드시트로 내보낸 것입니다. 각 행은 하나의 세그먼트에 해당하며, 타임스탬프, 화자 레이블, 전사된 텍스트 열이 있습니다.
언제 사용하나요:
콘텐츠 재활용: 비디오 스크립트를 블로그 글, 소셜 캡션 또는 이메일 카피로 바꿀 때
원본 녹음에서 실제로 어떤 말이 나왔는지에 대한 법률/규정 준수 검토
검색 가능한 아카이브: XLSX는 검색, 정렬, 필터링이 쉽습니다
10. 원본 & 번역 스크립트(XLSX)
무엇인지: 원본 텍스트와 번역 텍스트가 나란히 있는 이중 언어 스프레드시트입니다. 각 행은 두 언어의 같은 세그먼트를 타임스탬프와 화자 레이블과 함께 보여줍니다.
언제 사용하나요:
번역 QA: 검토자가 파일을 오가며 전환하지 않고도 두 버전을 줄 단위로 확인할 수 있습니다
언어 학습 콘텐츠: 교육자는 이중 언어 스크립트를 학습 자료로 사용합니다
현지화 팀 인수인계: 프로젝트 관리자가 Perso AI에 접근할 수 없는 현지 검토자와 XLSX를 공유합니다
규정 준수 문서화: 규제가 엄격한 산업(의료, 법률, 금융)은 무엇이 말해졌고 어떻게 번역되었는지에 대한 이중 언어 기록을 보관합니다
왜 PDF가 아니라 XLSX인가요? 스프레드시트는 편집 가능하고, 정렬 가능하고, 필터링할 수 있습니다. 검토자가 47행의 번역 문제를 지적하면, 편집자는 Perso AI 편집기에서 해당 타임스탬프로 바로 이동해 해당 줄을 수정할 수 있습니다. 사용 사례와 워크플로우는 QA와 학습을 위한 나란히 보기 번역: 이중 언어 스크립트 내보내기를 참조하세요.
파일을 다운로드하는 방법: 3단계
1단계. Perso AI에서 더빙 프로젝트를 완료합니다(업로드 > 언어 선택 > 처리).
2단계. 프로젝트 결과 페이지에서 Download 버튼을 클릭합니다. 드롭다운 메뉴에 사용 가능한 모든 파일 형식이 표시됩니다.
3단계. 필요한 파일을 선택합니다. 각 파일은 개별적으로 다운로드되므로 대용량 아카이브를 받지 않고도 정확히 필요한 것만 선택할 수 있습니다.
모든 10개 파일 형식은 Starter 플랜 ($6.99/월)부터 이용 가능합니다. 무료 플랜에는 파일 내보내기가 포함되지 않습니다.
경쟁사는 어떤 파일을 내보내나요?
파일 유형 | Perso AI | ElevenLabs | Descript | HeyGen | Synthesia | Rask AI |
|---|---|---|---|---|---|---|
더빙 비디오(MP4) | 예 | 예 | 예 | 예 | 예 | 예 |
원본 오디오(WAV) | 예 | 예 | 예 | 부분 지원 | 예 | 아니요 |
발화자 분리 오디오 | 예 (TAR) | 예 (ZIP) | 수동 우회 방법 | 아니요 | 아니요 | 아니요 |
번역 오디오만 | 예 | 예 | 간접 | 부분 지원 | 아니요 | 부분 지원 |
번역 오디오 + BGM | 예 | 예 | 아니요 | 아니요 | 아니요 | 아니요 |
BGM 내보내기(분리) | 예 | 아니요 | 아니요 | 아니요 | 아니요 | 아니요 |
원본 자막(SRT) | 예 | 예 | 예 (SRT/VTT) | 예 (Pro+) | 예 (SRT/VTT) | 예 |
번역 자막(SRT) | 예 | 예 | 예 (SRT/VTT) | 예 (SRT/VTT/ASS) | 예 (언어별) | 예 |
원본 스크립트 | 예 (XLSX) | 예 (CSV/TXT) | 예 (TXT/DOCX/MD) | 예 (XLSX, Pro+) | XLIFF (Enterprise) | 예 (TXT/DOCX) |
이중 언어 스크립트 | 예 (XLSX) | 예 (CSV) | 아니요 | 아니요 | 아니요 | 아니요 |
확인된 내보내기 유형 | 10 | 8-9 | 6-7 | 5-6 | 5-6 | 4-5 |
Perso AI가 두드러지는 지점
ElevenLabs가 발화자 분리 WAV 트랙과 CSV 이중 언어 스크립트를 포함해 8-9개의 내보내기 유형으로 가장 근접합니다. 하지만 세 가지 차이가 남습니다:
1. BGM 내보내기는 Perso AI만 지원합니다. 이 목록의 다른 어떤 플랫폼도 분리된 배경 음악을 별도의 WAV 파일로 다운로드할 수 없습니다. 더빙 오디오를 사용자 지정 음성:음악 비율로 다시 믹싱해야 하는 제작자에게는, 별도의 스템 분리 도구가 필요 없는 유일한 옵션입니다.
2. 월 $6.99부터 모든 파일. ElevenLabs는 일부 내보내기를 더 높은 요금제 뒤에 가둡니다. HeyGen은 SRT와 스크립트 다운로드에 Pro+가 필요합니다. Synthesia는 스크립트 내보내기(XLIFF)를 Enterprise로 제한합니다. Perso AI는 Starter 요금제에서 10개 파일 모두를 제공합니다.
3. CSV보다 XLSX. ElevenLabs는 이중 언어 스크립트를 CSV로 내보내는데 — 개발자에게는 유용하지만 마케팅 팀, 번역가, 프로젝트 관리자에게는 직관적이지 않습니다. Perso AI는 변환 없이 Excel이나 Google Sheets에서 바로 열 수 있도록 구조화된 열을 가진 XLSX로 내보냅니다.
자주 묻는 질문
Q. Starter 요금제에 10개 다운로드 파일이 모두 포함되나요, 아니면 더 높은 요금제가 필요한가요?
10개 파일 형식 모두 Starter 요금제($6.99/월)에서 이용할 수 있습니다. 파일당 요금이나 추가 요금은 없습니다. 요금제에 따라 제한되는 유일한 기능은 SRT 업로드(더빙 전에 사용자 지정 자막 가져오기)이며, Enterprise 요금제에서만 이용할 수 있습니다. 비교하자면 HeyGen은 SRT와 스크립트 내보내기를 Pro+로 제한하고, Synthesia는 스크립트 내보내기를 Enterprise로 제한합니다.
Q. 몇 주 전에 완료한 프로젝트에서도 파일을 다운로드할 수 있나요?
예. 완료된 모든 프로젝트와 해당 다운로드 파일은 Perso AI 대시보드에서 계속 접근할 수 있습니다. 과거의 어떤 프로젝트로든 돌아가서 10개 파일 형식 중 원하는 것을 언제든 다운로드할 수 있습니다.
Q. WAV 내보내기의 오디오 품질은 어떤가요?
Perso AI는 원본 품질 수준으로 WAV 파일을 내보냅니다. WAV는 비압축 무손실 형식이므로 압축으로 인한 품질 손실이 없습니다. 따라서 DAW와 영상 편집기의 전문 후반 제작 워크플로우에 적합합니다.
비디오 그 이상을 내보내기 시작하세요
하나의 더빙 프로젝트. 열 개의 파일. 비디오, 오디오, 자막, 스크립트 — 청중이 사용하는 모든 형식에 걸쳐 콘텐츠를 재활용하는 데 필요한 모든 것.
Perso AI를 무료로 체험해 보세요 신용카드가 필요 없습니다. Starter에서 10가지 내보내기 유형 제공. 33개 이상의 더빙 언어.
내부 링크:
계속 읽기
모두 보기





