[시니어의 시선] 토크나이저를 버렸다, 음성 합성의 룰을 깬 'VoxCPM' 심층 분석

Posted Apr 14, 2026

[Senior's Perspective] Discarding the Tokenizer: Deep Dive into VoxCPM that Broke the Rules of TTS

18 min read

1. The Hook (공감과 도발)

솔직히, 기존 음성 합성(TTS) API나 오픈소스 모델들을 실무에 도입하면서 욕 안 해본 개발자 있을까요? VALL-E나 Bark 같은 모델들이 처음 나왔을 때, 우리는 ‘이제 진짜 사람 같은 목소리를 낼 수 있겠구나’라며 환호했습니다. 하지만 막상 프로덕션 환경에 올려보면 현실은 참담했죠. 갑자기 말끝을 흐리며 발생하는 기계음(Metallic Artifacts), 알 수 없는 숨소리와 쩝쩝거리는 노이즈, 그리고 SSML(Speech Synthesis Markup Language) 태그를 수십 개씩 덕지덕지 붙여야 겨우 나오는 어색한 억양까지. 실무에서 마주한 이산형 토큰(Discrete Token) 기반 TTS의 한계는 명확했습니다.

근본적인 문제가 뭘까요? 바로 ‘음성이라는 연속적인 파동을 억지로 텍스트처럼 잘게 쪼개어(Tokenize) 처리하려 했다’는 점입니다. 언어 모델(LLM)이 토큰을 다루는 데 능숙하다는 이유만으로, 풍부한 음향적 디테일을 강제로 규격화된 박스 안에 우겨 넣은 것이죠. 하지만 최근, 이 낡은 패러다임을 정면으로 박살 낸 괴물 같은 녀석이 등장했습니다. 토크나이저를 쓰레기통에 처박고 연속적 잠재 공간(Continuous Space)에서 직접 음성을 생성해 내는 모델, 바로 VoxCPM입니다.

2. TL;DR (The Core)

바쁘신 분들을 위해 결론부터 말씀드리겠습니다.

VoxCPM은 기존 오디오 토크나이저를 완전히 폐기하고, 계층적 언어 모델링(TSLM, RALM)과 FSQ(Finite Scalar Quantization) 기반의 확산(Diffusion) 디코더를 결합하여, 단 3초의 오디오만으로 화자의 미세한 감정과 숨소리까지 48kHz 스튜디오 급으로 복제해 내는 차세대 제로샷(Zero-shot) TTS 시스템입니다.

3. Deep Dive: Under the Hood (핵심 아키텍처 심층 분석)

사실 처음 이 기술의 논문을 봤을 때 꽤 회의적이었습니다. ‘토크나이저 없이 연속적인 신호를 자가회귀(Autoregressive)로 생성한다고? 에러 누적(Error Accumulation) 때문에 문장이 길어지면 무조건 무너질 텐데?’ 이것이 그동안 업계의 상식이었습니다. 하지만 VoxCPM은 이 딜레마를 계층적 의미-음향 모델링(Hierarchical Semantic-Acoustic Modeling)이라는 아주 우아한 구조로 해결했습니다.

핵심은 MiniCPM-4 백본 위에서 돌아가는 4단계 파이프라인(LocEnc → TSLM → RALM → LocDiT)과 FSQ(Finite Scalar Quantization)의 도입입니다.

과거 모델들은 ‘무엇을 말할지(Semantic)’와 ‘어떻게 소리 낼지(Acoustic)’를 하나의 토큰 안에 뒤섞어 놨습니다. 반면 VoxCPM은 이를 철저히 분리합니다.

TSLM (Text-Semantic Language Model): 먼저 텍스트를 입력받아 화자의 ‘의미적, 운율적 계획(Prosodic Plan)’을 생성합니다. 여기서는 발음, 강세, 감정의 큰 틀만 잡습니다.
RALM (Residual Acoustic Model): 그다음, TSLM이 만든 뼈대 위에 화자의 독특한 음색(Timbre), 미세한 떨림 같은 디테일한 음향적 잔차(Residual)를 입힙니다.
FSQ Bottleneck: 이 두 모델 사이에서 FSQ라는 미분 가능한 양자화 병목을 둡니다. 완전한 이산 토큰도 아니고, 완전한 연속 신호도 아닌 ‘반이산적(Semi-discrete)’ 표현을 강제함으로써, 에러 누적은 막으면서도 음향적 풍부함은 보존하는 기가 막힌 트레이드오프를 이뤄냈습니다.
LocDiT (Local Diffusion Transformer): 마지막으로 이렇게 생성된 잠재 벡터를 확산 모델 기반의 디코더가 44.1kHz(v1.5) 또는 48kHz(v2.0)의 초고음질 파형으로 렌더링합니다.

이 구조가 얼마나 파괴적인 차이를 만드는지 아래 표로 정리해 봤습니다.

비교 항목	기존 토큰 기반 TTS (VALL-E, Bark 등)	VoxCPM (Tokenizer-Free)
표현 방식	이산형 토큰 (Discrete Tokens)	연속적 잠재 공간 + FSQ 반이산화 (Semi-discrete)
의미-음향 분리	토큰 병합으로 인한 혼재 (Entanglement)	`TSLM`(의미) → `RALM`(음향) 계층적 완전 분리
샘플링 속도 지원	일반적으로 16kHz~24kHz 한계 (고주파 손실)	44.1kHz (v1.5) ~ 48kHz (v2.0) 네이티브 스튜디오급 지원
LM 토큰 레이트	50Hz 이상 (연산량 매우 높음)	6.25Hz (v1.5 기준) 극강의 연산 효율성
치명적 문제점	금속성 노이즈(Artifacts), 로봇 같은 기계적 리듬	초기 프퍼런스(Reference) 음질에 대한 극단적 의존성

이 모든 과정이 6.25Hz라는 극도로 낮은 토큰 레이트에서 돌아갑니다. 모델이 가벼워지니 실시간 스트리밍이 가능해지죠. 아래는 실무에서 사용할 법한 Nano-vLLM 기반의 비동기 스트리밍 추론 코드 스니펫입니다. (기존 PyTorch 구현체보다 훨씬 빠르고 동시 요청을 견뎌냅니다)

  
import asyncio
import numpy as np
import soundfile as sf
from nanovllm_voxcpm import VoxCPM

async def serve_streaming_tts():
    # 실무 환경을 가정한 vLLM 서버 풀 초기화 (VRAM 효율화)
    server = VoxCPM.from_pretrained(
        model="openbmb/VoxCPM-0.5B",
        devices=[0], 
        max_num_batched_tokens=8192,
        max_num_seqs=16,          # 동시 요청 처리량 확보
        gpu_memory_utilization=0.95
    )
    await server.wait_for_ready()

    # 제로샷 클로닝을 위한 레퍼런스 오디오 및 텍스트
    target_text = "VoxCPM의 비동기 스트리밍 인퍼런스 테스트입니다. 정말 빠르네요!"
    
    chunks = []
    # Async Generator를 통해 첫 바이트(TTFB) 응답성을 극대화
    async for chunk in server.generate(target_text=target_text):
        chunks.append(chunk) # Chunk는 float32 numpy array
        
    # 오디오 청크 병합 후 44.1kHz로 저장
    wav = np.concatenate(chunks, axis=0)
    sf.write("output_streaming.wav", wav, 44100)

asyncio.run(serve_streaming_tts())

이 코드의 핵심은 async for chunk in server.generate() 부분입니다. 긴 텍스트를 모두 합성할 때까지 기다리지 않고, 오디오 청크가 생성되는 즉시 클라이언트(웹/앱)로 쏴줄 수 있습니다. 챗봇이나 실시간 대화형 AI 시스템에 붙이기에 완벽한 구조입니다.

4. Pragmatic Use Cases (실무 적용 시나리오)

‘아키텍처 좋은 건 알겠고, 그래서 내 프로덕트에 어떻게 쓰는데?’ 라고 물으신다면, 현업에서 즉시 도입을 고려해 볼 만한 세 가지 시나리오를 제시합니다.

1. 상황(Context)을 이해하는 다이내믹 AI 튜터 / 게임 NPC 기존 TTS는 “앗! 뒤에 적이 나타났어”라는 대사와 “음… 그 문제의 정답은 말이지”라는 대사를 똑같은 속도와 톤으로 읽었습니다. 개발자가 일일이 <prosody rate="fast"> 같은 SSML 태그를 하드코딩해야 했죠. VoxCPM은 180만 시간의 코퍼스 학습을 통해 텍스트의 문맥을 스스로 파악합니다. 느낌표가 있으면 다급하게, 말줄임표가 있으면 뜸을 들이며 페이스를 조절합니다. 유저와의 상호작용이 중요한 AI 튜터나 게임 NPC 시스템에 이 모델을 붙이면 별도의 로직 수정 없이 극강의 몰입감을 줄 수 있습니다.

2. 트래픽 스파이크 시의 비용 최적화 고성능 서빙 B2C 서비스에서 TTS 기능이 바이럴을 타면 서버 비용이 기하급수적으로 늘어납니다. 외부 클라우드 TTS API는 글자당 과금을 때리니까요. VoxCPM 1.5버전은 토큰 레이트를 6.25Hz까지 낮췄고, RTX 4090 하나로 RTF(Real-Time Factor) 0.17을 찍습니다. 즉, 1초짜리 음성을 만드는 데 0.17초밖에 안 걸린다는 뜻입니다. Nano-vLLM과 결합하여 자체 GPU 서버 인스턴스에 올리면, 대규모 트래픽 스파이크에도 API 호출 비용 없이 유연한 오토스케일링이 가능해집니다.

3. 보이스 디자인(Voice Design)을 통한 레거시 탈피 가장 최신 버전인 VoxCPM2에 도입된 ‘Voice Design’ 기능은 기획자들에게 축복입니다. 더 이상 비싼 돈을 주고 성우를 섭외하거나 수많은 레퍼런스 오디오를 찾아 헤맬 필요가 없습니다. 프롬프트에 "20대 여성, 차분하고 신뢰감 있는 톤, 약간 빠른 템포"라고 텍스트로만 지시(Control Instruction)해도, 모델이 스스로 조건에 맞는 잠재 벡터를 생성해 새로운 목소리를 창조합니다.

5. Honest Review & Trade-offs (진짜 장단점과 한계)

칭찬은 여기까지 하겠습니다. 산전수전 다 겪은 시니어 개발자로서, 이 모델을 당장 상용 프로덕트에 올리려 할 때 마주하게 될 진짜 피의 대가(Trade-offs)를 날카롭게 짚어보겠습니다.

첫째, ‘Garbage In, Garbage Out’의 극대화입니다. VoxCPM은 44.1kHz~48kHz의 고주파수 대역을 완벽하게 살려냅니다. 문제는 제로샷 클로닝을 할 때, 3~10초짜리 레퍼런스 오디오에 아주 미세한 에어컨 화이트 노이즈나 울림(Reverb)이 섞여 있다면? 모델이 그 노이즈와 공간의 울림까지 화자의 고유한 특징으로 착각하고 기가 막히게 복제해 버립니다. 스튜디오 급의 아웃풋을 얻으려면 역설적으로 완벽하게 클렌징된 스튜디오 급의 레퍼런스 인풋이 필수적입니다. 실무에서는 유저가 폰으로 대충 녹음한 음성으로 클로닝을 시도할 텐데, 이 경우 결과물이 심각하게 오염될 수 있습니다.

둘째, 환각(Hallucination)과 길이의 불안정성입니다. 연속적 공간으로 넘어왔다 한들, 뼈대는 여전히 자가회귀(Autoregressive) 기반입니다. 한 번에 30초 이상의 긴 텍스트를 입력하면, 모델이 어느 순간 단어를 건너뛰거나, 갑자기 외계어를 중얼거리는 등 환각 증세를 보입니다. 프로덕션에 적용하려면 텍스트를 문장이나 구문 단위로 영리하게 청킹(Chunking)하여 파이프라인을 구축해야 하는 골치 아픈 전처리/후처리 엔지니어링이 동반되어야 합니다.

셋째, 막중한 윤리적 책임과 딥페이크 리스크입니다. 이건 기술적 단점이 아니라 비즈니스 리스크입니다. 단 3초 만에 목소리의 억양과 숨소리까지 완벽히 털립니다(?). 보이스피싱이나 사칭 등 악용의 여지가 너무나도 명백합니다. 서비스 내에 반드시 워터마크 기술이나 강력한 인증 로직을 태워야 하며, 이는 곧 개발 및 유지보수 비용의 증가를 의미합니다.

6. Closing Thoughts

이런저런 한계점들을 뼈아프게 지적하긴 했지만, VoxCPM을 로컬 환경에 띄워 첫 음성 합성을 성공시켰을 때의 그 전율은 쉽게 잊히지 않습니다. 토크나이저라는 오랜 족쇄를 끊어내고 연속적 파동의 본질에 다가선 이 접근법은, 앞으로 음성 AI 생태계의 거대한 패러다임 시프트를 이끌 것입니다.

더 이상 우리는 음성을 ‘조립(Assemble)’하지 않습니다. 텍스트의 맥락과 감정선에 따라 음성을 ‘발생(Generate)’시키는 시대로 넘어왔습니다. Apache 2.0 라이선스로 풀린 이 강력한 무기를 어떻게 비즈니스 가치로 치환할 것인지, 이제 우리 현업 실무자들의 치열한 고민과 해킹이 필요한 시점입니다. 당장 GitHub 레포지토리를 클론하고, 여러분의 낡은 TTS 파이프라인을 엎어보시길 권합니다. 새로운 차원의 귀 호강(그리고 삽질)이 기다리고 있을 겁니다.

References

https://github.com/OpenBMB/VoxCPM
https://huggingface.co/openbmb/VoxCPM-0.5B
https://arxiv.org/abs/2509.24650
https://github.com/a710128/nanovllm-voxcpm

Tech

This post is licensed under CC BY 4.0 by the author.