Skip to Content

04. Voice Pipeline (TTS/STT/LipSync) / 음성 파이프라인 (TTS/STT/LipSync)

Last verified: 2026년 2월 / February 2026


한국어

개요

음성 파이프라인은 사용자의 음성을 인식(STT)하고, AI NPC의 답변을 자연스러운 목소리로 합성(TTS)하며, 이를 캐릭터의 입 모양과 동기화(LipSync)하는 핵심 기술 요소입니다. 혜경궁 홍씨(Lady Hyegyong) AI NPC 프로젝트에서는 조선 시대 왕실의 격조 있는 말투와 감정을 생생하게 전달하기 위해 고품질의 한국어 음성 합성과 실시간 반응성이 필수적입니다.

본 문서는 다양한 TTS, STT, LipSync 솔루션을 비교 분석하고, Unity MR 환경(Quest 3)에서 최적의 사용자 경험을 제공하기 위한 기술적 전략을 제시합니다. 특히 한국어와 영어 이중언어 지원 및 스트리밍 기반의 레이턴시(Latency) 최적화 방안을 중점적으로 다룹니다.

핵심 발견

  • TTS 성능: ElevenLabs Turbo v2.5는 약 75ms~250ms의 매우 낮은 지연 시간(TTFB)을 기록하며, Typecast의 ssfm-v30 모델은 7가지 감정 표현과 한국어 격식체 구현에 강점을 보입니다.
  • STT 온디바이스화: Whisper Sentis를 활용하면 Quest 3 기기 내에서 네트워크 없이 실시간 음성 인식이 가능하여 개인정보 보호와 안정성을 동시에 확보할 수 있습니다.
  • 립싱크 최적화: Quest 3 환경에서는 Meta의 OVRLipSync가 가장 낮은 레이턴시와 높은 최적화 수준을 보이며, SALSA LipSync v2는 오디오 파형 분석을 통해 범용적인 Unity 연동을 지원합니다.
  • 스트리밍 패턴: 문장 단위 버퍼링(Sentence-level buffering)과 WebSocket 연결을 통해 전체 체감 지연 시간(TTFA)을 1초 미만으로 단축할 수 있습니다.
  • 알려진 버그: 오픈소스 엔진인 Coqui는 한국어 특정 발음에서 부자연스러운 기계음이나 발음 오류가 발생하는 갭이 확인되었습니다.

비교 분석

1. TTS (Text-to-Speech) 비교표

서비스한국어 품질감정 표현격식체스트리밍 지연Unity 연동커스텀 음성비용 (2026.02)오프라인
Typecast최상 (Native)7종 (ssfm-v30)우수~300msSDK 지원가능$0.05/자불가
ElevenLabs우수 (Multilingual)우수보통75ms (Turbo)SDK/API가능$0.30/1k자불가
Azure Speech우수멀티 스타일우수~200msSDK 지원가능$16/1M자일부 가능
NAVER CLOVA최상 (Native)4단계 (vyuna)우수~250msAPI 지원가능₩0.1/자불가
Google Cloud보통제한적보통~300msAPI 지원불가$16/1M자불가
Coqui보통 (버그 존재)가능보통가변적플러그인가능무료 (오픈소스)가능

2. STT (Speech-to-Text) 비교표

서비스유형한국어 정확도지연 시간Unity 연동비용 (2026.02)오프라인
Whisper Sentis온디바이스우수낮음 (로컬)Sentis SDK무료가능
Azure Speech클라우드최상보통SDK 지원$1.00/시간불가
Google Speech클라우드우수보통API 지원$0.024/분불가

3. LipSync (립싱크) 비교표

솔루션접근 방식품질Unity 연동비용 (2026.02)지연 시간
OVRLipSyncViseme 기반우수Meta XR SDK무료최저 (~100ms)
SALSA v2파형 분석보통에셋 스토어$45 (1회)보통 (~150ms)
Audio2FaceAI 기반최상Omniverse무료 (NVIDIA)높음 (~300ms)

TTS 평가 모순 해결 (TTS Evaluation Contradiction Resolution)

본 프로젝트의 초기 리서치(Research 2)와 심층 리서치(Research 7) 결과 사이에서 TTS 서비스 순위에 대한 모순이 발견되었습니다.

  • Research 2 (초기 평가): 범용적인 한국어 자연스러움과 접근성을 기준으로 NAVER CLOVA와 Google Cloud TTS를 높게 평가했습니다.
  • Research 7 (심층 평가): 실시간 대화형 NPC 구현을 위한 ‘스트리밍 레이턴시’와 ‘감정 제어의 세밀함’을 기준으로 ElevenLabs와 Typecast를 최상위로 재평가했습니다.
  • 해결 방안: 본 프로젝트는 실시간 상호작용이 핵심이므로, Research 7의 결과를 우선순위로 채택합니다. 다만, 안정적인 한국어 격식체 표현이 필요한 특정 시나리오(예: 긴 나레이션)에서는 Research 2에서 높게 평가된 NAVER CLOVA를 폴백(Fallback) 옵션으로 고려합니다.

추천 및 Trade-off 분석

옵션 1: ElevenLabs Turbo v2.5 (반응성 중심)

  • 장점: 75ms 수준의 압도적인 속도, 단일 모델로 한국어/영어 이중언어 완벽 지원, 자연스러운 호흡음 포함.
  • 단점: 한국어 전용 엔진에 비해 특정 고어(Archaic Korean) 발음이 다소 어색할 수 있음.
  • 추천 상황: 빠른 티키타카 대화와 글로벌 확장이 중요한 경우.

옵션 2: Typecast ssfm-v30 (감정 및 문화적 맥락 중심)

  • 장점: 한국어 네이티브 엔진으로 ‘격식체’와 ‘감정(슬픔, 단호함 등)’ 표현이 매우 뛰어남. 혜경궁의 복잡한 심경 표현에 최적.
  • 단점: ElevenLabs 대비 레이턴시가 약간 높으며, 영어 지원 품질이 한국어만큼 압도적이지 않음.
  • 추천 상황: 역사적 고증과 캐릭터의 감정적 깊이가 최우선인 시나리오.

알려진 갭 및 향후 과제

  • Coqui 한국어 발음: 오픈소스 Coqui 엔진 사용 시 한국어 특정 음절에서 금속성 기계음이 섞이는 버그가 확인되었습니다. 오프라인 환경 구축 시 이 문제의 해결이 선행되어야 합니다.
  • Samsung Galaxy XR: Android XR 기반의 OpenXR 호환성은 이론적으로 가능하나, 전용 음성 SDK의 최적화 수준은 아직 검증되지 않은 알려진 갭(Known Gap)입니다.
  • 이중언어 전환: 대화 도중 한국어와 영어를 혼용할 때 발생하는 음색 변화를 최소화하기 위한 단일 보이스 클로닝 기술 적용이 필요합니다.

출처 및 참고문헌

  • ElevenLabs API Documentation (2026)
  • Typecast SSFM v3.0 Technical Whitepaper (2026)
  • Microsoft Azure AI Speech Service Docs (2026)
  • Unity Sentis & Whisper Integration Guide (2025)
  • Meta XR SDK: OVRLipSync Reference (2026)

English

Overview

The voice pipeline is a critical technical component that recognizes the user’s voice (STT), synthesizes the AI NPC’s response into a natural voice (TTS), and synchronizes it with the character’s mouth shapes (LipSync). In the Lady Hyegyong (혜경궁 홍씨) AI NPC project, high-quality Korean voice synthesis and real-time responsiveness are essential to vividly convey the elegant tone and emotions of the Joseon (조선) dynasty royalty.

This document provides a comparative analysis of various TTS, STT, and LipSync solutions and presents technical strategies to provide an optimal user experience in a Unity MR environment (Quest 3). It focuses particularly on Korean and English bilingual support and streaming-based latency optimization.

Key Findings

  • TTS Performance: ElevenLabs Turbo v2.5 records a very low latency (TTFB) of approximately 75ms to 250ms, while Typecast’s ssfm-v30 model excels in expressing 7 types of emotions and formal Korean speech.
  • On-device STT: Utilizing Whisper Sentis allows for real-time speech recognition within the Quest 3 device without a network connection, ensuring both privacy and stability.
  • LipSync Optimization: In the Quest 3 environment, Meta’s OVRLipSync shows the lowest latency and highest level of optimization, while SALSA LipSync v2 supports universal Unity integration through audio waveform analysis.
  • Streaming Patterns: Total perceived latency (TTFA) can be reduced to less than 1 second through sentence-level buffering and WebSocket connections.
  • Known Bug: The open-source engine Coqui has been identified with a gap where unnatural mechanical sounds or pronunciation errors occur in specific Korean pronunciations.

Comparative Analysis

1. TTS (Text-to-Speech) Comparison Table

ServiceKorean QualityEmotionFormal SpeechStreaming LatencyUnity IntegrationCustom VoiceCost (As of 2026.02)Offline
TypecastBest (Native)7 types (ssfm-v30)Excellent~300msSDK SupportAvailable$0.05/charNo
ElevenLabsExcellent (Multi)ExcellentAverage75ms (Turbo)SDK/APIAvailable$0.30/1k charsNo
Azure SpeechExcellentMulti-styleExcellent~200msSDK SupportAvailable$16/1M charsPartial
NAVER CLOVABest (Native)4 levels (vyuna)Excellent~250msAPI SupportAvailable₩0.1/charNo
Google CloudAverageLimitedAverage~300msAPI SupportN/A$16/1M charsNo
CoquiAverage (Bugs)AvailableAverageVariablePluginAvailableFree (OSS)Yes

2. STT (Speech-to-Text) Comparison Table

ServiceTypeKorean AccuracyLatencyUnity IntegrationCost (As of 2026.02)Offline
Whisper SentisOn-deviceExcellentLow (Local)Sentis SDKFreeYes
Azure SpeechCloudBestAverageSDK Support$1.00/hourNo
Google SpeechCloudExcellentAverageAPI Support$0.024/minNo

3. LipSync Comparison Table

SolutionApproachQualityUnity IntegrationCost (As of 2026.02)Latency
OVRLipSyncViseme-basedExcellentMeta XR SDKFreeLowest (~100ms)
SALSA v2Waveform AnalysisAverageAsset Store$45 (One-time)Average (~150ms)
Audio2FaceAI-basedBestOmniverseFree (NVIDIA)High (~300ms)

TTS Evaluation Contradiction Resolution

A contradiction was found in the ranking of TTS services between the initial research (Research 2) and deep research (Research 7) results of this project.

  • Research 2 (Initial Evaluation): Ranked NAVER CLOVA and Google Cloud TTS highly based on general Korean naturalness and accessibility.
  • Research 7 (Deep Evaluation): Re-evaluated ElevenLabs and Typecast as top-tier based on ‘streaming latency’ and ‘granularity of emotion control’ for real-time conversational NPC implementation.
  • Resolution: Since real-time interaction is core to this project, the results of Research 7 are adopted as the priority. However, for specific scenarios requiring stable formal Korean expression (e.g., long narrations), NAVER CLOVA, which was highly rated in Research 2, is considered as a fallback option.

Recommendations & Trade-off Analysis

Option 1: ElevenLabs Turbo v2.5 (Responsiveness-focused)

  • Pros: Overwhelming speed at the 75ms level, perfect support for Korean/English bilingualism with a single model, includes natural breathing sounds.
  • Cons: Certain archaic Korean (고어) pronunciations may sound slightly awkward compared to Korean-only engines.
  • Recommended for: Scenarios where fast back-and-forth dialogue and global expansion are important.

Option 2: Typecast ssfm-v30 (Emotion & Cultural Context-focused)

  • Pros: As a Korean native engine, it excels in ‘formal speech’ and ‘emotion (sadness, firmness, etc.)’ expression. Optimal for expressing Lady Hyegyong’s complex feelings.
  • Cons: Slightly higher latency compared to ElevenLabs, and English support quality is not as overwhelming as Korean.
  • Recommended for: Scenarios where historical accuracy and emotional depth of the character are the top priority.

Known Gaps & Future Work

  • Coqui Korean Pronunciation: A bug has been confirmed where metallic mechanical sounds are mixed in specific Korean syllables when using the open-source Coqui engine. This issue must be resolved before building an offline environment.
  • Samsung Galaxy XR: While OpenXR compatibility based on Android XR is theoretically possible, the optimization level of the dedicated voice SDK is still an unverified known gap.
  • Bilingual Switching: Application of single voice cloning technology is needed to minimize tone changes that occur when mixing Korean and English during conversation.

Sources & References

  • ElevenLabs API Documentation (2026)
  • Typecast SSFM v3.0 Technical Whitepaper (2026)
  • Microsoft Azure AI Speech Service Docs (2026)
  • Unity Sentis & Whisper Integration Guide (2025)
  • Meta XR SDK: OVRLipSync Reference (2026)