화자 감지 및 자막 내보내기를 지원하는 AI 음성-텍스트 변환

Perso AI Speech to Text는 오디오 및 비디오 파일을 99개 이상의 언어로 편집 가능한 텍스트로 변환하며, 자동 화자 감지 기능을 갖춘 AI 기반 전사 도구입니다. 전사본을 편집하고, 화자 이름을 다시 지정하며, 단어 수준 타임스탬프가 포함된 SRT, VTT, Excel 또는 JSON 형식으로 내보낼 수 있습니다. 모든 기능을 하나의 프로젝트에서 제공합니다.

지금 사용해 보기

지금 사용해 보기

지금 사용해 보기

설치 불필요 · 무료 플랜 제공 · 몇 초 만에 시작

최고의 오디오 분리 도구
최고의 오디오 분리 도구
최고의 오디오 분리 도구

내보내기 형식 SRT · VTT · XLSX · JSON

내보내기 형식 SRT · VTT · XLSX · JSON

99개 이상의 언어 자동 감지

99개 이상의 언어 자동 감지

단어별 타임스탬프

단어별 타임스탬프

자동 화자 감지

자동 화자 감지

몇 분 안에 빠른 속도 준비 완료

몇 분 안에 빠른 속도 준비 완료

빠른 · 안전한 · 정확한

핵심 기능

핵심 기능

하나의 프로젝트에서 전사, 편집, 내보내기

하나의 프로젝트에서 전사, 편집, 내보내기

자동 언어 감지: 99개 이상의 언어

오디오 또는 비디오 파일을 업로드하세요. Perso AI는 99개 이상의 지원 언어 중에서 음성 언어를 자동으로 감지합니다. 수동 선택은 필요하지 않습니다.

화자 분리 및 레이블 편집

화자를 자동으로 분리하고 각 세그먼트에 레이블을 지정합니다. 감지된 다른 화자로 각 세그먼트를 다시 할당하면 변경 사항이 모든 내보낸 파일에 적용됩니다.

스크립트 및 자막 편집

오디오 또는 비디오 파일을 업로드하세요. Perso AI는 99개 이상의 지원 언어 중에서 음성 언어를 자동으로 감지합니다. 수동 선택은 필요하지 않습니다.

다중 형식 내보내기

오디오 또는 비디오 파일을 업로드하세요. Perso AI는 99개 이상의 지원 언어 중에서 음성 언어를 자동으로 감지합니다. 수동 선택은 필요하지 않습니다.

더빙 및 번역에 직접 연결

오디오 또는 비디오 파일을 업로드하세요. Perso AI는 99개 이상의 지원 언어 중에서 음성 언어를 자동으로 감지합니다. 수동 선택은 필요하지 않습니다.

지금 시작하기

지금 시작하기

지금 시작하기

한 번 업로드, 여러 번 내보내기

자막, 스크립트 또는 타임스탬프가 포함된 원시 데이터. 필요한 형식을 선택하세요.

SRT

SRT 자막

업계 표준 자막 형식입니다. YouTube, Vimeo 및 모든 주요 동영상 플랫폼에서 바로 사용할 수 있습니다.

VTT

WebVTT

스타일링 지원이 포함된 웹 기반 자막 형식입니다. HTML5 비디오 플레이어와 웹 임베드에서 작동합니다.

XLS

엑셀 스크립트

스프레드시트 형식의 전체 녹취록이며, 화자 레이블이 포함되어 있습니다. 회의록, 문서화 또는 기록 보관용으로 사용하세요.

{ }

JSON 데이터

단어 수준 타임스탬프, 화자 ID, 신뢰도 점수가 포함된 구조화된 데이터입니다. API 통합이나 사용자 지정 워크플로에 유용합니다.

자막, 회의록, 강의 대본

같은 도구, 필요에 따라 다른 결과물이 제공됩니다.

콘텐츠 제작자

몇 분 만에 브이로그, 팟캐스트, 동영상을 게시 준비가 된 자막으로 바꾸세요. 업로드, 편집, 내보내기 — 수동 전사 없이도 가능합니다.

YouTube, TikTok, Reels용 자동 자막

내보내기 전에 자막을 인라인에서 편집

99개 이상의 언어 지원

SRT · VTT 내보내기

팀 및 비즈니스

회의 녹음을 검색 가능한 화자별 메모로 변환하세요. 어떤 화상 회의 플랫폼이나 음성 녹음기와도 작동합니다.

자동 화자 분리

체계적인 엑셀 회의록

인용을 위한 단어 수준 타임스탬프

XLSX 내보내기

XLSX 내보내기

교육자

강의와 강좌 콘텐츠를 높은 정확도로 전사하세요. 접근성을 위한 자막이나 학습용 스크립트를 생성합니다.

장시간 강의 정확도

LMS용 자막 생성

전 세계 학생들을 위한 다국어

접근성 지원

영상 제작자

전사부터 시작해, 다시 업로드하지 않고 더빙이나 번역으로 진행하세요. 한 번 업로드하면 현지화 전체 파이프라인을 모두 처리할 수 있습니다.

전사 → 편집 → 내보내기를 하나의 흐름으로

AI 더빙 및 번역에 연결

오디오 분리 포함

완전한 현지화

지금 시작하기

지금 시작하기

지금 시작하기

왜 우리를 선택해야 할까요

왜 우리를 선택해야 할까요

Perso AI 대 수동 전사

시간, 비용, 그리고 출력 품질을 나란히 비교합니다.

시간, 비용, 그리고 출력 품질을 나란히.

무엇이 중요한가

무엇이 중요한가

무엇이 중요한가

Perso AI 음성을 텍스트로 변환

Perso AI 음성 텍스트 변환

Perso AI 음성 텍스트 변환

수동 전사

수동 전사

수동 전사

처리 속도

처리 속도

오디오 1시간 분량을 약 2분에 처리 · 결과는 몇 시간이 아닌 몇 분 만에 준비됩니다

오디오 1시간 분량을 약 2분에 처리 · 결과는 몇 시간이 아닌 몇 분 만에 준비됩니다

오디오 1시간당 3–6시간의 작업 · 사전 예약 필요

오디오 1시간당 3–6시간의 작업 · 사전 예약 필요

지원 언어

지원 언어

99개 이상의 언어 · 자동 감지 · 원어민 수준의 정확도

99개 이상의 언어 · 자동 감지 · 원어민 수준의 정확도

전사자의 모국어로만 가능 · 여러 언어가 섞인 파일은 여러 사람이 필요합니다

전사자의 모국어로만 가능 · 여러 언어가 섞인 파일은 여러 사람이 필요합니다

화자 분리

화자 분리

모든 화자를 자동으로 감지합니다 · 모든 세그먼트를 다른 감지된 화자로 다시 지정할 수 있습니다 · 변경 사항은 내보낸 자막에 반영됩니다

모든 화자를 자동으로 감지합니다 · 모든 세그먼트를 다른 감지된 화자로 다시 지정할 수 있습니다 · 변경 사항은 내보낸 자막에 반영됩니다

세그먼트별 수동 태깅 · 긴 녹음에서는 일관성이 떨어짐 · 화자가 혼동되면 다시 태깅 필요

세그먼트별 수동 태깅 · 긴 녹음에서는 일관성이 떨어짐 · 화자가 혼동되면 다시 태깅 필요

대사 편집 및 싱크

대사 편집 및 싱크

전사된 대화를 인라인에서 편집 · 편집 내용이 SRT · VTT · XLSX · JSON 내보내기에 자동으로 동기화됩니다

전사된 대화를 인라인으로 편집 · 편집 내용은 SRT · VTT · XLSX · JSON 내보내기와 자동으로 동기화됩니다

전사된 대화를 인라인으로 편집 · 편집 내용은 SRT · VTT · XLSX · JSON 내보내기와 자동으로 동기화됩니다

대본을 일반 텍스트로 편집 · 자막 타이밍을 다시 맞추고 변경할 때마다 개별적으로 다시 내보내기

대본을 일반 텍스트로 편집 · 자막 타이밍을 다시 맞추고 변경할 때마다 별도로 다시 내보내기

대본을 일반 텍스트로 편집 · 변경할 때마다 자막 타이밍을 다시 맞추고 별도로 다시 내보내기

타임스탬프

타임스탬프

단어 수준의 정밀도 · 밀리초 단위의 정확도 · 모든 내보내기 형식에 내장

단어 수준의 정밀도 · 밀리초 단위의 정확도 · 모든 내보내기 형식에 내장

수동 구간 정렬 · 긴 녹음에서는 드리프트가 발생하기 쉽습니다

수동 구간 정렬 · 긴 녹음에서는 드리프트가 발생하기 쉽습니다

자막 내보내기

자막 내보내기

원클릭으로 SRT · VTT · XLSX · JSON 내보내기 — YouTube, DaVinci, Premiere 또는 모든 LLM 파이프라인에 바로 사용 가능

원클릭으로 SRT · VTT · XLSX · JSON 내보내기 — YouTube, DaVinci, Premiere 또는 모든 LLM 파이프라인에 바로 사용 가능

별도의 자막 도구가 필요합니다 · 타이밍은 수동으로 다시 추가해야 합니다

별도의 자막 도구가 필요합니다 · 타이밍은 수동으로 다시 추가해야 합니다

정확성

정확도

정확도

95%+ AI 정확도 · 내장 편집기에서 단어 수준 제어로 수정 가능

95%+ AI 정확도 · 내장 편집기에서 단어 수준 제어로 수정 가능

개별 전사자와 오디오 품질에 따라 85~98%로 달라집니다

개별 전사자와 오디오 품질에 따라 85~98%로 달라집니다

지금 시작하기

지금 시작하기

지금 시작하기

자주 묻는 질문

자주 묻는 질문

Perso AI 음성 텍스트 변환이란 무엇이며, 기본 전사 도구와 어떻게 다른가요?

Perso AI Speech to Text는 동영상 및 오디오 파일을 99개 이상의 언어로 정확하게 화자별로 구분된 스크립트로 변환합니다. 기본적인 받아쓰기 도구와 달리, 모든 화자를 자동으로 감지하고, 각 구간을 다른 감지된 화자로 다시 지정할 수 있으며, 자막 제작, 보관, 콘텐츠 워크플로우를 위해 편집 가능한 SRT, VTT, XLSX, JSON 파일로 내보냅니다.

Perso AI는 Speech to Text 사용 요금을 어떻게 청구하나요?

Perso AI는 Speech to Text와 Voice Separation에 대해 미디어 길이 1분당 1크레딧을 차감합니다. 이는 AI Dubbing과 동일한 요율입니다. Lip Dubbing만 3배의 크레딧을 사용합니다. 기능별 사용 한도는 없으므로, 워크플로에 맞게 Speech to Text, Voice Separation, Dubbing에 크레딧을 자유롭게 배분할 수 있습니다.

Perso AI는 Speech to Text 사용 요금을 어떻게 청구하나요?

Perso AI 음성 텍스트 변환은 무료 요금제에서 사용할 수 있나요?

네. Speech to Text는 Perso AI 무료 플랜에서 제공되는 1분의 무료 크레딧 내에서 완전히 이용할 수 있습니다. 이를 통해 짧은 클립을 받아쓰기하고, 화자 분리 정확도를 확인하며, SRT 또는 VTT 내보내기 품질을 테스트한 뒤 더 긴 미디어를 위해 유료 플랜으로 업그레이드할 수 있습니다.

Perso AI 음성 텍스트 변환은 무료 요금제에서 사용할 수 있나요?

Speech to Text가 더 높은 정확도를 위해 Low Speed 모드를 지원하나요?

아니요. 저속 모드는 Speech to Text 또는 Voice Separation에서는 지원되지 않습니다. 이 모드는 번역 품질이 더 정교한 느린 처리의 이점을 얻는 AI Dubbing 및 Lip Dubbing에서만 사용할 수 있습니다. Speech to Text는 번역이 아니라 전사에 최적화된 빠르고 높은 정확도의 파이프라인에서 실행됩니다.

Speech to Text가 더 높은 정확도를 위해 Low Speed 모드를 지원하나요?

Speech to Text 출력의 대상 언어를 설정할 수 있나요?

아니요. Speech to Text는 음성이 사용된 언어와 같은 언어로 음성을 텍스트로 변환할 뿐이며, 번역 기능이 아니므로 대상 언어 설정은 없습니다. 비디오를 다른 언어로 번역하고 다시 더빙하려면 Perso AI Dubbing을 사용하세요. 이 기능은 하나의 워크플로에서 전사, 번역, 음성 합성을 모두 처리합니다.

Speech to Text 출력의 대상 언어를 설정할 수 있나요?

Perso AI Speech to Text는 어떤 내보내기 형식을 지원하나요?

Perso AI Speech to Text는 네 가지 형식으로 내보낼 수 있습니다: SRT와 VTT는 자막 및 동영상 플레이어용, XLSX는 편집 검토 또는 번역 워크플로용, JSON은 개발자 통합 및 자동화용입니다. 모든 형식에는 화자 레이블, 타임스탬프, 그리고 웹 편집기에서 적용한 모든 수정 사항이 포함됩니다.

Perso AI Speech to Text는 어떤 내보내기 형식을 지원하나요?

Perso AI 음성 텍스트 변환은 몇 개 언어를 지원하나요?

Perso AI 음성 텍스트 변환은 영어, 한국어, 일본어, 스페인어, 독일어, 프랑스어, 포르투갈어, 러시아어를 포함한 99개 이상의 언어를 자동으로 감지하고 텍스트로 변환합니다. 언어 감지는 자동으로 이루어지므로, 원본 언어를 미리 선택하지 않고도 다국어 콘텐츠를 업로드할 수 있습니다.

Perso AI 음성 텍스트 변환은 몇 개 언어를 지원하나요?

내보내기 전에 전사된 텍스트를 편집할 수 있나요?

네. Perso AI 웹 편집기에서 전사된 모든 줄을 직접 편집하고, 잘못 인식된 단어를 수정하며, 구두점을 다듬을 수 있습니다. 수정 내용은 SRT, VTT, XLSX, JSON 내보내기와 자동으로 동기화되므로, 수정 후 자막 파일을 수동으로 다시 맞출 필요가 없습니다.

내보내기 전에 전사된 텍스트를 편집할 수 있나요?

Perso AI 음성 텍스트 변환은 회의, 인터뷰, 그리고 YouTube 동영상에 적합한가요?

네. Perso AI Speech to Text는 팀 회의, 팟캐스트 인터뷰, 웨비나, 장편 YouTube 영상과 같은 다중 화자 미디어에 최적화되어 있습니다. 자동 화자 분리, 정확한 타임스탬프, 그리고 SRT/VTT 직접 내보내기를 통해 콘텐츠 및 리서치 팀의 수동 전사 워크플로를 바로 대체할 수 있습니다.

Perso AI 음성 텍스트 변환은 회의, 인터뷰, 그리고 YouTube 동영상에 적합한가요?

Perso AI와 함께 동영상을 시작하십시오

비디오를 텍스트로 변환하고 몇 분 안에 번역된 립싱크 버전을 만드세요

Perso AI를 무료로 사용해보세요

Dashboard

Perso AI와 함께 동영상을 시작하십시오

비디오를 텍스트로 변환하고 몇 분 안에 번역된 립싱크 버전을 만드세요

Perso AI를 무료로 사용해보세요

Dashboard

Perso AI와 함께 동영상을 시작하십시오

비디오를 텍스트로 변환하고 몇 분 안에 번역된 립싱크 버전을 만드세요

Perso AI를 무료로 사용해보세요

Dashboard