AI에게 망설이는 법을 가르치는 방법: 추론 시점 컴퓨팅과 신중한 번역의 기술

AI 더빙, 영상 번역, 음성 번역, 립싱크
무료로 사용해보기
AI가 망설이는 법을 가르치기
며칠 전 유튜브 클립 하나를 보게 됐다. 뉴스 앵커 손석희가 소설가 김애란을 인터뷰하고 있었다. 질문은 "휴먼이 AI에 없는 무엇을 가지고 있는가?"였고, 그녀의 대답은 "망설임."이었다.
그 소설가는 앵커의 옛 방송 중 한 장면을 꺼내 들었다. 고 노회찬 전 노동운동가이자 정치인의 사망 소식을 전하던 중 그는 20초 동안 말을 잇지 못했다. 말을 삼키고, 흔들리고, 분별하는 그 순간—망설임. AI는 이것을 할 수 없다. 그러나 휴먼의 망설임은 위로가 되고 예의가 된다.
약 20년 전, 내가 슈팅 게임 개발에 집중하던 시절의 일이다. 3D 캐릭터 모델링을 하던 동료가 "내 고등학교 친구가 소설가인데, 이걸 읽어봐."라며 책 한 권을 건넸다. 재치가 배어 있는 깊은 관찰. 나는 완전히 빠져들었다. 그 책은 김애란의 단편소설집 Run, Daddy, Run (달려라 아비)이었다. 그때부터 나는 그녀의 팬이 되었다.
망설임에는 시간과 낮은 확실성이 필요하다
김애란은 글쓰기 근육이 매 줄마다 공을 들이고 스스로를 되묻는 지난한 과정을 통해 단단해졌다고 말했다. 문장과 문장 사이에 들이는 시간은 타인을 배려하는 시간이 된다고도 했다. 또 문학의 진정한 가치는 내용이 아니라 형식에 있다고도 말했다. 그렇다면 형식도 중요하다면, AI도 적어도 어렴풋이 흉내 낼 수 있지 않을까?
물리학의 관점에서 시간은 물리적 상태의 변화다. 상태가 변하지 않았다면 시간도 흐르지 않은 셈이다. 따라서 상태 변화가 적을수록 시간은 느리고, 변화가 많을수록 시간은 길다. 인간에게 찰나의 1초는 AI에게 수천억, 심지어 수조 번의 부동소수점 연산(FLOPs)에 걸쳐 늘어진 영원과 같다. 과거의 소프트웨어에 비하면, 최근 AI의 답변은 길고 고통스러운 노고의 산물이다. 그래서 AI 산업은 매출은 성장하면서도 수익성에서는 고전할 수 있다. 레거시 소프트웨어의 관점에서 보면 AI는 기계치고는 너무 느리다. JSON 형식 검증처럼 단순한 일도 대규모 언어모델 추론을 거치면, 레거시 소프트웨어에 비해 수억 번의 연산 비용이 든다.
AI의 최근 발전을 이끄는 대규모 언어모델(LLMs)은 문장에서 다음 단어를 예측하는 프로그램이다. AI는 다음 단어를 찾기 위해 전류를 흘린다. 거대한 행렬을 반복해서 곱하고 더한다. AI의 연산에는 하드웨어의 물리적 소모가 필요하다. AI에 최소한 망설임이라는 형식, 즉 휴먼의 고뇌에 해당하는 시간을 부여하려면, 강도 높은 연산에 거쳐야 한다. 다음 단어 하나를 만들어내는 데 수천억 번의 연산이 든다. 그다음 단어를 만들기 위해 또 수천억 번의 연산이 이어진다.
현대 딥러닝 연산의 대부분은 가중합으로 이루어지며, 이 가중합에 쓰이는 미리 계산된 값들을 파라미터라고 한다.
우리가 'Qwen 3.6 27B' 모델에 대해 말할 때는, 가중합에 사용할 준비가 된 270억 개의 파라미터가 있다는 뜻이며, 다음 토큰 하나를 예측하는 데만 약 270억 번의 곱셈이 필요하다. 그것은 시작에 불과하다. 게다가 정수 곱셈 하나에도 수십 개의 논리 연산이 들어가고, 부동소수점 연산은 수천 개가 필요하다. 이 정도의 복잡성이라면 아찔하다고 해도 된다.
온도를 낮추면 편향이 더 선명해진다
LLM이 어떻게 작동하는지 더 깊이 들여다보자. LLM의 기반인 딥러닝이 학습 때 익힌 패턴을 실제 사용에 적용하는 패턴 매칭 기계라는 사실은 이제 널리 알려져 있다. 그 되풀이의 과정을 좌우하는 두 가지는 토큰 샘플링과 온도다.

하나의 다음 단어를 예측하기 위해 모델은 수만 개의 후보 단어 각각에 점수(logit)를 부여한다. 그런 다음 그 점수는 확률로 변환되고, 각 확률에 비례해 하나의 단어가 선택된다. 이 과정을 샘플링이라고 한다.
샘플링에 변화를 주기 위해 'temperature'라는 수학적 매개변수가 도입되었다. 온도를 낮추면 후보 점수 간의 간격이 극단적으로 벌어진다. 확률이 높은 단어는 기준선보다 더 자주 선택된다. 확률이 낮은 단어는 더 적게 선택된다. 부자는 더 부유해지고 가난한 자는 더 가난해지는 것과 비슷하다. 반대로 온도가 올라가면 그 간격은 좁아진다. 간격은 평평해지고 고르게 된다. 원래라면 지나쳤을 확률이 낮은 단어들도 온도가 올라가면 더 높은 비율로 선택될 수 있다.
휴먼의 언어도 이와 비슷하다. 내가 속한 집단과 문화는 내 언어의 확률 분포에 반영된다. 더 차갑고 날카로운 언어는 더 합리적이고, 더 최적화되어 있으며, 다수에 더 부합하는 말을 낳는다. 더 따뜻하고 둥근 언어는 덜 합리적이고 덜 최적화되어 있지만, 소수를 함께 고려한다.
배려란 자신의 생각이 가진 확률 분포 밖으로 벗어나기 위해 추가 에너지를 쓰는 행위다. 다수가 가리는 것을 알아차리고, 평소에는 쓰지 않는 문장을 찾아내는 것을 뜻한다. 작가가 지난한 글쓰기 과정이라고 묘사한 것은, AI에게는 편향된 학습에만 의존한 응답을 거부하고 그 너머로 나아가려 애쓰는 행위가 되어야 한다.
기계적 망설임
AI가 배려할 수 있게 하려면 어떻게 해야 할까? 가장 높은 확률의 단어를 곧바로 내뱉게 해서는 안 된다. 그러면 학습 데이터에 내재한 편향을 그대로 내보낼 뿐이다.
오늘날 AI 모델이 그렇게 눈에 띄는 결과를 내는 이유는, 이 분야가 'Inference-Time Compute'에 초점을 맞춘 기술을 발전시켜 왔기 때문이다. AI가 대답하기 전에 더 많은 연산 시간을 주는 기술이다. 과거의 AI 모델은 단순히 계산된 첫 번째 답을 출력했는데, 다시 말해 머리에 가장 먼저 떠오른 답을 내놓았다. 반면 오늘날의 사고형 모델은 여러 갈래의 추론 경로를 생성한다.

이들은 다양한 후보 답변을 만들고, 내재 보상 모델을 통해 이를 평가한다. 단어가 문맥에 맞는지, 그리고 너무 단정적으로 들리지는 않는지 확인하는 과정을 거친 뒤, 필요하면 내부적으로 버린다.
이는 사람이 말하기 전에 머릿속으로 문장을 고치는 것과 비슷하다. 확률 분포에 기반해 가능한 한 정확한 답을 AI가 곧바로 내놓도록 요구하는 대신, 계산 자원을 들여 그것이 수정할 시간을 준다. 우리는 AI가 확률 질량의 중심에서 가장자리로 벗어나도록 둔다. 일종의 기계적 고심이다.
영상 번역의 망설임
일반 번역은 의미만 맞으면 끝나지만, 영상 번역은 정확한 의미뿐 아니라 입 모양의 움직임 길이와 타이밍까지 맞아야 한다.
화면 속 배우가 1.8초 동안 입을 움직이며 영어 음절 11개를 내뱉는다면, 번역가는 그 1.8초 안에 들어가는 한국어 대사를 만들어야 한다. 의미를 살리면 길이가 깨지고, 길이를 맞추면 의미가 흐려진다. 받침과 열린 모음이 원본과 다르면 보는 순간 어딘가 어색하다고 느낀다. 자막은 또 다른 제약을 둔다: 초당 12~15자의 읽기 속도. 그래서 더빙 작업을 하는 번역가는 의미가 같은 다섯 개의 문장을 떠올리고, 음절을 세고, 강세를 맞춘 뒤, 가장 정확한 번역이 아니라 제약 속에서 손실이 가장 적은 번역을 고른다.

Perso AI의 번역 팀은 바로 이 문제를 다뤄 왔다. 이 팀은 영상 번역에서 등시성 (길이 준수)과 의미 정합성 사이의 균형을 수치화한 EMNLP 논문(https://aclanthology.org/2025.emnlp-demos.37)을 발표했다.
EMNLP(Empirical Methods in Natural Language Processing)는 자연어 처리 분야의 최상위 학회다. 이름 그대로, 순수한 이론 가설이 아니라 데이터와 실험을 통해 기술의 실제 효과를 입증하는 실증 연구를 중시한다. 그 성격에 걸맞게 ESTsoft 연구팀의 논문은 영상 번역의 어려운 문제를 데이터로 정량화하고, 알고리즘으로 풀어냈다. 실용적이고 현실적인 기여다.
Perso AI 더빙 파이프라인이 고려하는 핵심 질문은 바로 여기에 있다. 글자도 아니고, 음절도 아니고, 말의 가장 작은 단위인 음소다. 글자와 음절은 화면 위의 단위이고, 음소는 실제로 입 안에서 쓰이는 시간에 대응한다. 논문에서 제안한 알고리즘 CountPhonemes는 번역문에 들어 있는 음소 수를 세고, 목표 음소 수와 비교한 뒤, 두 값이 맞아떨어지도록 문장을 수정한다.
기존 기계번역 모델은 BLEU와 COMET 같은 의미 보존 지표에 맞춰 최적화되어 있다. 가능한 한 빠르게 가장 그럴듯한 번역을 내놓도록 학습된다. 그러나 영상 번역은 때로 가장 그럴듯한 번역을 거부해야 한다. 음소가 부족하면 일부 의미를 포기하고 다른 표현을 찾아야 한다. 우리는 AI에게 "가장 확률이 높은 답"이 아니라 "모든 제약을 통과하는 답"을 요구하는 것이다.
이것이 바로 Perso AI의 더빙 파이프라인이 해결하는 문제다. 번역 단계에서 시스템은 길이와 음소 제약을 만족하는 수많은 후보를 생성한 뒤, 의미 손실이 가장 적은 것을 고른다. 이는 앞선 섹션의 inference-time compute 아이디어를 더빙 영역으로 옮겨온 것이다. 모델이 머리에 가장 먼저 떠오른 답을 불쑥 내뱉지 못하게 하자. 다시 쓰게 하자. 검증하게 하자. 이 iterative translation은 기계에 의도적으로 부여한 망설임이다. iterative feedback loop 안에서 모델은 길이 준수(Isochrony)와 의미 정합성(Semantic Alignment) 사이의 최적점을 좇는다. 이는 영상 번역가의 고심을 모델 자체에 이식하는 작업이다.
맺으며
망설임은 단순한 불완전함도, 단순한 속도 저하도 아니다. 그것은 타인을 배려하는 데 들인 시간이 쌓인 것이다. AI가 언젠가 배려를 위해 멈추는 법을 배운다면, 그것은 모델이 더 똑똑해졌기 때문이 아니다. 우리가 그것을 덜 확신하게 만들고, 더 오래 머물게 하고, 망설이도록 설계했기 때문이다.
AI가 망설이는 법을 가르치기
며칠 전 유튜브 클립 하나를 보게 됐다. 뉴스 앵커 손석희가 소설가 김애란을 인터뷰하고 있었다. 질문은 "휴먼이 AI에 없는 무엇을 가지고 있는가?"였고, 그녀의 대답은 "망설임."이었다.
그 소설가는 앵커의 옛 방송 중 한 장면을 꺼내 들었다. 고 노회찬 전 노동운동가이자 정치인의 사망 소식을 전하던 중 그는 20초 동안 말을 잇지 못했다. 말을 삼키고, 흔들리고, 분별하는 그 순간—망설임. AI는 이것을 할 수 없다. 그러나 휴먼의 망설임은 위로가 되고 예의가 된다.
약 20년 전, 내가 슈팅 게임 개발에 집중하던 시절의 일이다. 3D 캐릭터 모델링을 하던 동료가 "내 고등학교 친구가 소설가인데, 이걸 읽어봐."라며 책 한 권을 건넸다. 재치가 배어 있는 깊은 관찰. 나는 완전히 빠져들었다. 그 책은 김애란의 단편소설집 Run, Daddy, Run (달려라 아비)이었다. 그때부터 나는 그녀의 팬이 되었다.
망설임에는 시간과 낮은 확실성이 필요하다
김애란은 글쓰기 근육이 매 줄마다 공을 들이고 스스로를 되묻는 지난한 과정을 통해 단단해졌다고 말했다. 문장과 문장 사이에 들이는 시간은 타인을 배려하는 시간이 된다고도 했다. 또 문학의 진정한 가치는 내용이 아니라 형식에 있다고도 말했다. 그렇다면 형식도 중요하다면, AI도 적어도 어렴풋이 흉내 낼 수 있지 않을까?
물리학의 관점에서 시간은 물리적 상태의 변화다. 상태가 변하지 않았다면 시간도 흐르지 않은 셈이다. 따라서 상태 변화가 적을수록 시간은 느리고, 변화가 많을수록 시간은 길다. 인간에게 찰나의 1초는 AI에게 수천억, 심지어 수조 번의 부동소수점 연산(FLOPs)에 걸쳐 늘어진 영원과 같다. 과거의 소프트웨어에 비하면, 최근 AI의 답변은 길고 고통스러운 노고의 산물이다. 그래서 AI 산업은 매출은 성장하면서도 수익성에서는 고전할 수 있다. 레거시 소프트웨어의 관점에서 보면 AI는 기계치고는 너무 느리다. JSON 형식 검증처럼 단순한 일도 대규모 언어모델 추론을 거치면, 레거시 소프트웨어에 비해 수억 번의 연산 비용이 든다.
AI의 최근 발전을 이끄는 대규모 언어모델(LLMs)은 문장에서 다음 단어를 예측하는 프로그램이다. AI는 다음 단어를 찾기 위해 전류를 흘린다. 거대한 행렬을 반복해서 곱하고 더한다. AI의 연산에는 하드웨어의 물리적 소모가 필요하다. AI에 최소한 망설임이라는 형식, 즉 휴먼의 고뇌에 해당하는 시간을 부여하려면, 강도 높은 연산에 거쳐야 한다. 다음 단어 하나를 만들어내는 데 수천억 번의 연산이 든다. 그다음 단어를 만들기 위해 또 수천억 번의 연산이 이어진다.
현대 딥러닝 연산의 대부분은 가중합으로 이루어지며, 이 가중합에 쓰이는 미리 계산된 값들을 파라미터라고 한다.
우리가 'Qwen 3.6 27B' 모델에 대해 말할 때는, 가중합에 사용할 준비가 된 270억 개의 파라미터가 있다는 뜻이며, 다음 토큰 하나를 예측하는 데만 약 270억 번의 곱셈이 필요하다. 그것은 시작에 불과하다. 게다가 정수 곱셈 하나에도 수십 개의 논리 연산이 들어가고, 부동소수점 연산은 수천 개가 필요하다. 이 정도의 복잡성이라면 아찔하다고 해도 된다.
온도를 낮추면 편향이 더 선명해진다
LLM이 어떻게 작동하는지 더 깊이 들여다보자. LLM의 기반인 딥러닝이 학습 때 익힌 패턴을 실제 사용에 적용하는 패턴 매칭 기계라는 사실은 이제 널리 알려져 있다. 그 되풀이의 과정을 좌우하는 두 가지는 토큰 샘플링과 온도다.

하나의 다음 단어를 예측하기 위해 모델은 수만 개의 후보 단어 각각에 점수(logit)를 부여한다. 그런 다음 그 점수는 확률로 변환되고, 각 확률에 비례해 하나의 단어가 선택된다. 이 과정을 샘플링이라고 한다.
샘플링에 변화를 주기 위해 'temperature'라는 수학적 매개변수가 도입되었다. 온도를 낮추면 후보 점수 간의 간격이 극단적으로 벌어진다. 확률이 높은 단어는 기준선보다 더 자주 선택된다. 확률이 낮은 단어는 더 적게 선택된다. 부자는 더 부유해지고 가난한 자는 더 가난해지는 것과 비슷하다. 반대로 온도가 올라가면 그 간격은 좁아진다. 간격은 평평해지고 고르게 된다. 원래라면 지나쳤을 확률이 낮은 단어들도 온도가 올라가면 더 높은 비율로 선택될 수 있다.
휴먼의 언어도 이와 비슷하다. 내가 속한 집단과 문화는 내 언어의 확률 분포에 반영된다. 더 차갑고 날카로운 언어는 더 합리적이고, 더 최적화되어 있으며, 다수에 더 부합하는 말을 낳는다. 더 따뜻하고 둥근 언어는 덜 합리적이고 덜 최적화되어 있지만, 소수를 함께 고려한다.
배려란 자신의 생각이 가진 확률 분포 밖으로 벗어나기 위해 추가 에너지를 쓰는 행위다. 다수가 가리는 것을 알아차리고, 평소에는 쓰지 않는 문장을 찾아내는 것을 뜻한다. 작가가 지난한 글쓰기 과정이라고 묘사한 것은, AI에게는 편향된 학습에만 의존한 응답을 거부하고 그 너머로 나아가려 애쓰는 행위가 되어야 한다.
기계적 망설임
AI가 배려할 수 있게 하려면 어떻게 해야 할까? 가장 높은 확률의 단어를 곧바로 내뱉게 해서는 안 된다. 그러면 학습 데이터에 내재한 편향을 그대로 내보낼 뿐이다.
오늘날 AI 모델이 그렇게 눈에 띄는 결과를 내는 이유는, 이 분야가 'Inference-Time Compute'에 초점을 맞춘 기술을 발전시켜 왔기 때문이다. AI가 대답하기 전에 더 많은 연산 시간을 주는 기술이다. 과거의 AI 모델은 단순히 계산된 첫 번째 답을 출력했는데, 다시 말해 머리에 가장 먼저 떠오른 답을 내놓았다. 반면 오늘날의 사고형 모델은 여러 갈래의 추론 경로를 생성한다.

이들은 다양한 후보 답변을 만들고, 내재 보상 모델을 통해 이를 평가한다. 단어가 문맥에 맞는지, 그리고 너무 단정적으로 들리지는 않는지 확인하는 과정을 거친 뒤, 필요하면 내부적으로 버린다.
이는 사람이 말하기 전에 머릿속으로 문장을 고치는 것과 비슷하다. 확률 분포에 기반해 가능한 한 정확한 답을 AI가 곧바로 내놓도록 요구하는 대신, 계산 자원을 들여 그것이 수정할 시간을 준다. 우리는 AI가 확률 질량의 중심에서 가장자리로 벗어나도록 둔다. 일종의 기계적 고심이다.
영상 번역의 망설임
일반 번역은 의미만 맞으면 끝나지만, 영상 번역은 정확한 의미뿐 아니라 입 모양의 움직임 길이와 타이밍까지 맞아야 한다.
화면 속 배우가 1.8초 동안 입을 움직이며 영어 음절 11개를 내뱉는다면, 번역가는 그 1.8초 안에 들어가는 한국어 대사를 만들어야 한다. 의미를 살리면 길이가 깨지고, 길이를 맞추면 의미가 흐려진다. 받침과 열린 모음이 원본과 다르면 보는 순간 어딘가 어색하다고 느낀다. 자막은 또 다른 제약을 둔다: 초당 12~15자의 읽기 속도. 그래서 더빙 작업을 하는 번역가는 의미가 같은 다섯 개의 문장을 떠올리고, 음절을 세고, 강세를 맞춘 뒤, 가장 정확한 번역이 아니라 제약 속에서 손실이 가장 적은 번역을 고른다.

Perso AI의 번역 팀은 바로 이 문제를 다뤄 왔다. 이 팀은 영상 번역에서 등시성 (길이 준수)과 의미 정합성 사이의 균형을 수치화한 EMNLP 논문(https://aclanthology.org/2025.emnlp-demos.37)을 발표했다.
EMNLP(Empirical Methods in Natural Language Processing)는 자연어 처리 분야의 최상위 학회다. 이름 그대로, 순수한 이론 가설이 아니라 데이터와 실험을 통해 기술의 실제 효과를 입증하는 실증 연구를 중시한다. 그 성격에 걸맞게 ESTsoft 연구팀의 논문은 영상 번역의 어려운 문제를 데이터로 정량화하고, 알고리즘으로 풀어냈다. 실용적이고 현실적인 기여다.
Perso AI 더빙 파이프라인이 고려하는 핵심 질문은 바로 여기에 있다. 글자도 아니고, 음절도 아니고, 말의 가장 작은 단위인 음소다. 글자와 음절은 화면 위의 단위이고, 음소는 실제로 입 안에서 쓰이는 시간에 대응한다. 논문에서 제안한 알고리즘 CountPhonemes는 번역문에 들어 있는 음소 수를 세고, 목표 음소 수와 비교한 뒤, 두 값이 맞아떨어지도록 문장을 수정한다.
기존 기계번역 모델은 BLEU와 COMET 같은 의미 보존 지표에 맞춰 최적화되어 있다. 가능한 한 빠르게 가장 그럴듯한 번역을 내놓도록 학습된다. 그러나 영상 번역은 때로 가장 그럴듯한 번역을 거부해야 한다. 음소가 부족하면 일부 의미를 포기하고 다른 표현을 찾아야 한다. 우리는 AI에게 "가장 확률이 높은 답"이 아니라 "모든 제약을 통과하는 답"을 요구하는 것이다.
이것이 바로 Perso AI의 더빙 파이프라인이 해결하는 문제다. 번역 단계에서 시스템은 길이와 음소 제약을 만족하는 수많은 후보를 생성한 뒤, 의미 손실이 가장 적은 것을 고른다. 이는 앞선 섹션의 inference-time compute 아이디어를 더빙 영역으로 옮겨온 것이다. 모델이 머리에 가장 먼저 떠오른 답을 불쑥 내뱉지 못하게 하자. 다시 쓰게 하자. 검증하게 하자. 이 iterative translation은 기계에 의도적으로 부여한 망설임이다. iterative feedback loop 안에서 모델은 길이 준수(Isochrony)와 의미 정합성(Semantic Alignment) 사이의 최적점을 좇는다. 이는 영상 번역가의 고심을 모델 자체에 이식하는 작업이다.
맺으며
망설임은 단순한 불완전함도, 단순한 속도 저하도 아니다. 그것은 타인을 배려하는 데 들인 시간이 쌓인 것이다. AI가 언젠가 배려를 위해 멈추는 법을 배운다면, 그것은 모델이 더 똑똑해졌기 때문이 아니다. 우리가 그것을 덜 확신하게 만들고, 더 오래 머물게 하고, 망설이도록 설계했기 때문이다.
계속 읽기
모두 보기





