01. Executive Summary / 실행 요약
Last verified: 2026년 2월 / February 2026
한국어
프로젝트 배경
‘혜경궁: 라이브 헤리티지 MR 플랫폼’ 프로젝트는 조선 시대의 비극적 역사를 품은 혜경궁 홍씨(Lady Hyegyong)를 AI NPC로 재현하여, 사용자가 혼합 현실(MR) 환경에서 역사적 인물과 직접 소통하고 전통문화를 체험할 수 있도록 하는 혁신적인 문화유산 콘텐츠입니다. 본 프로젝트는 혜경궁 홍씨가 직접 저술한 회고록인 ‘한중록(Hanjungnok)‘을 일차 사료로 삼아, 학술적 근거에 기반한 고도의 역사적 진실성(Historical Authenticity)을 확보하는 것을 최우선 과제로 설정하였습니다.
단순한 시각적 재현을 넘어, 최신 거대 언어 모델(LLM)과 음성 합성(TTS), 그리고 실시간 애니메이션 기술을 결합하여 1816년이라는 시간적 배경 내에서 혜경궁 홍씨의 페르소나를 완벽하게 구현하고자 합니다. 사용자는 Meta Quest 3 헤드셋을 통해 자신의 현실 공간에서 혜경궁 홍씨를 만나고, 편지 쓰기, 서예, 예절, 다과와 같은 조선 왕실의 문화를 함께 수행하며 깊이 있는 역사적 체험을 하게 됩니다. 본 리서치 컴펜디움은 이러한 목표를 달성하기 위한 시스템 아키텍처, 대화 엔진, 음성 파이프라인, 애니메이션, 전시 인프라 등 9가지 핵심 영역에 대한 심층적인 연구 결과를 집대성한 것입니다.
9대 리서치 영역 요약
- 시스템 아키텍처 (System Architecture): 클라우드 기반의 고성능 처리와 엣지 서버(Edge Server)를 통한 로컬 최적화, 그리고 온디바이스(On-device) 처리를 유기적으로 결합한 4단계 폴백(Fallback) 구조를 설계했습니다. 이를 통해 전시장 내 네트워크 불안정성에도 불구하고 1.5초 이내의 저지연 상호작용과 중단 없는 전시 운영을 보장합니다.
- AI 대화 엔진 (Conversation Engine): LLM의 자연스러운 언어 생성 능력과 Arbor 및 ChatSOP와 같은 구조화된 계획(Structured Planning) 시스템을 결합한 하이브리드 아키텍처를 채택했습니다. 이는 역사적 사실에서 벗어나는 환각(Hallucination) 현상을 방지하고, 정해진 교육적 목표를 자연스럽게 달성하도록 돕습니다.
- 음성 파이프라인 (Voice Pipeline): ElevenLabs와 Typecast를 활용한 고품질 TTS와 Whisper Sentis 기반의 온디바이스 STT를 통해, 조선 왕실의 격조 있는 말투와 감정을 실시간으로 전달합니다. 특히 스트리밍 기반의 최적화를 통해 전체 체감 지연 시간을 1초 미만으로 단축하는 방안을 제시했습니다.
- 애니메이션 시스템 (Animation System): Unity의 Mecanim 시스템을 기반으로 한 4레이어 구조와 레이턴시 마스킹(Latency Masking) 기술을 적용했습니다. AI의 사고 시간을 자연스러운 동작으로 전환하여 사용자 경험의 단절을 막고, ‘불쾌한 골짜기’ 현상을 최소화하는 정교한 애니메이션 시퀀스를 구축했습니다.
- 캐릭터 페르소나 (Character Persona): ‘한중록’ 텍스트 분석을 통해 도출된 7가지 핵심 특성(지적 호기심, 감정적 절제, 모성애 등)과 7계층 프롬프트 프레임워크를 구축했습니다. 이를 통해 역사적 진실성을 갖춘 혜경궁 홍씨의 정체성을 구현하고, 활동별로 페르소나의 강조점을 달리하여 다채로운 경험을 제공합니다.
- Quest 3 MR 기술 (Quest 3 MR): Scene Mesh API와 Spatial Anchor 기술을 활용하여 현실 공간의 기하학적 구조를 이해하고 가상 캐릭터를 자연스럽게 배치합니다. 또한 Passthrough Opacity Fade 기술을 통해 현실(MR)에서 가상 세계(VR)로의 몰입감 있는 전환 시퀀스를 구현했습니다.
- 플랫폼 비교 (Platform Comparison): Convai, Inworld AI, NVIDIA ACE, Custom Stack 등 주요 AI NPC 플랫폼의 성능과 비용을 심층 분석했습니다. 프로젝트의 목적과 개발 기간, 예산 규모에 따라 최적의 기술 스택을 선택할 수 있는 의사결정 트리와 가이드라인을 제공합니다.
- 전시 인프라 (Exhibition Infrastructure): Wi-Fi 6E 전용 망과 NVIDIA Jetson AGX Orin 엣지 서버를 기반으로, 다수의 사용자가 동시에 안정적으로 체험할 수 있는 박물관급 운영 환경을 설계했습니다. 실시간 모니터링 체계와 개인정보 보호를 위한 ‘No Data Retention’ 정책을 포함합니다.
- 비용 분석 (Cost Analysis): 6개월 전시 운영을 기준으로 세 가지 기술 경로(Path A, B, C)의 초기 투자 및 운영 비용을 산출했습니다. 하드웨어 도입비, API 사용료, 유지보수 비용 등을 종합적으로 고려하여 예산 규모에 따른 재무적 근거를 제시했습니다.
추천 기술 스택 및 Trade-off 분석
본 리서치 결과를 바탕으로 제안하는 핵심 기술 스택과 각 선택지에 따른 장단점은 다음과 같습니다.
- 개발 플랫폼: Unity 6 + OpenXR + Meta XR SDK
- 장점: Quest 3의 하드웨어 성능을 100% 활용 가능하며, 업계 표준인 OpenXR을 통해 향후 타 기기로의 확장성을 확보할 수 있습니다.
- Trade-off: Meta 생태계에 대한 의존도가 높으며, 타 플랫폼 이식 시 추가적인 최적화 작업이 필요합니다.
- 대화 엔진: GPT-4o (Custom Stack) 또는 Convai
- GPT-4o: 최고의 추론 능력과 한국어 품질을 제공하지만, 개별 API 연동 및 동기화 로직을 직접 구축해야 하므로 개발 난이도가 높습니다.
- Convai: STT, LLM, TTS, LipSync가 통합된 SDK를 제공하여 개발 속도가 매우 빠르지만, 세밀한 페르소나 제어와 커스터마이징에 제약이 있을 수 있습니다.
- 음성 합성 (TTS): ElevenLabs Turbo v2.5 또는 Typecast ssfm-v30
- ElevenLabs: 75ms 수준의 압도적인 반응 속도와 자연스러운 호흡음을 제공하여 실시간 대화에 최적화되어 있습니다.
- Typecast: 한국어 네이티브 엔진으로서 조선 시대 격식체와 감정 표현의 미세한 뉘앙스를 살리는 데 강점이 있습니다.
- 음성 인식 (STT): Whisper Sentis (On-device)
- 장점: Quest 3 기기 내에서 네트워크 없이 실시간 음성 인식을 수행하여 개인정보 보호와 네트워크 장애 시의 안정성을 동시에 확보합니다.
- Trade-off: 클라우드 기반 STT에 비해 복잡한 문장이나 소음 환경에서의 인식률이 다소 낮을 수 있습니다.
- 립싱크 (LipSync): SALSA LipSync v2 또는 OVRLipSync
- SALSA v2: 오디오 파형 분석을 통해 범용적이고 가벼운 립싱크를 구현할 수 있으며, Unity와의 연동성이 뛰어납니다.
- OVRLipSync: Meta에서 제공하는 전용 기술로 Quest 3 환경에서 최적의 성능과 낮은 레이턴시를 보장합니다.
비용 요약 (3가지 경로)
6개월 전시 운영(5대 헤드셋, 일평균 200명 방문)을 기준으로 산출된 예상 비용입니다.
| 경로 (Path) | 주요 구성 | 6개월 총 비용 (예상) | 특징 및 장단점 |
|---|---|---|---|
| Path A: Convai Scale | Convai 통합 플랫폼 + Quest 3 | ~$10,000 | 빠른 프로토타이핑 가능, 플랫폼 종속성 존재 |
| Path B: Custom Stack | GPT-4o + ElevenLabs + Quest 3 | ~$11,300 - $13,000 | 최상의 한국어 품질 및 제어권, 높은 운영비 |
| Path C: Full Custom | Local LLM + Whisper Sentis + Quest 3 | ~$9,000 | 오프라인 안정성 최우수, 최저 운영비, 개발 난이도 높음 |
알려진 갭 (Known Gaps)
리서치 과정에서 확인된 기술적 한계 및 향후 해결해야 할 과제입니다.
- Samsung Galaxy XR 호환성: 본 프로젝트의 아키텍처는 현재 Meta XR SDK를 중심으로 설계되었습니다. Samsung Galaxy XR은 Android XR 기반의 새로운 플랫폼으로, OpenXR 표준을 따르지만 전용 SDK의 최적화 수준과 성능 데이터가 아직 확보되지 않은 알려진 갭(Known Gap)입니다.
- Coqui 한국어 발음 오류: 오픈소스 음성 엔진인 Coqui 사용 시 특정 한국어 음절에서 금속성 기계음이나 발음 뭉개짐 현상이 확인되었습니다. 오프라인 환경 구축을 위한 로컬 TTS 도입 시 이 문제의 해결이 선행되어야 합니다.
- NVIDIA ACE 구동 제약: NVIDIA ACE는 디지털 휴먼 구현을 위한 최상위 기술이나, 고성능 NVIDIA GPU가 필수적이어서 Quest 3 단독 구동이 불가능합니다. 전시장 내 별도의 GPU 서버를 통한 스트리밍 방식 도입 시 인프라 비용이 상승합니다.
- 한복 물리 시뮬레이션: 혜경궁 홍씨의 의상인 한복의 자연스러운 움직임을 실시간으로 구현하는 것은 Quest 3의 연산 성능 내에서 큰 도전 과제입니다. 현재는 본 애니메이션 기반의 베이크된 물리 사용을 권장합니다.
향후 추진 계획 (Next Steps)
- 시스템 통합 및 최적화: Quest 3 실기 환경에서 4단계 폴백(Fallback) 시스템의 전환 로직을 검증하고, 전체 파이프라인의 레이턴시를 1.5초 이내로 최적화합니다.
- 페르소나 및 데이터 고도화: ‘한중록’ 기반의 RAG 데이터셋을 정교화하고, 역사적 고증을 거친 대화 시나리오를 확장하여 페르소나의 깊이를 더합니다.
- 전시 환경 실증: 실제 전시장과 유사한 Wi-Fi 6E 환경에서 5대 이상의 헤드셋 동시 접속 테스트를 수행하고, 엣지 서버의 부하 분산 및 모니터링 체계를 점검합니다.
- 차세대 플랫폼 대응: Samsung Galaxy XR 개발자 키트 확보 시 OpenXR 기반의 이식성 테스트를 수행하고, Android XR 환경에 최적화된 렌더링 및 음성 파이프라인을 구축합니다.
English
Project Background
The ‘Hyegyong: Live Heritage MR Platform’ project is an innovative cultural heritage content that recreates Lady Hyegyong, a figure who bore the tragic history of the Joseon (조선) Dynasty, as an AI NPC. It allows users to directly communicate with this historical figure and experience traditional culture within a Mixed Reality (MR) environment. Based on Lady Hyegyong’s memoir, ‘Hanjungnok’ (한중록, The Memoirs of Lady Hyegyong), the project prioritizes securing a high level of historical authenticity based on academic evidence.
Beyond simple visual representation, the project aims to perfectly implement the persona of Lady Hyegyong within the historical context of 1816 by combining the latest Large Language Models (LLMs), Text-to-Speech (TTS), and real-time animation technologies. Through the Meta Quest 3 headset, users meet Lady Hyegyong in their own physical space and engage in deep historical experiences by performing Joseon royal court activities such as letter writing, calligraphy (서예, Seoye), etiquette (예절, Yejeol), and tea ceremonies (다과, Dagwa). This research compendium is a compilation of in-depth research results across nine core areas, including system architecture, conversation engines, voice pipelines, animation, and exhibition infrastructure, to achieve these goals.
9 Research Area Summaries
- System Architecture: Designed a 4-tier fallback structure that organically combines cloud-based high-performance processing, local optimization via edge servers, and on-device processing. This ensures low-latency interaction within 1.5 seconds and uninterrupted exhibition operation despite network instability within the venue.
- AI Conversation Engine: Adopted a hybrid architecture that combines the natural language generation capabilities of LLMs with structured planning systems such as Arbor and ChatSOP. This prevents hallucinations that deviate from historical facts and helps naturally achieve set educational goals.
- Voice Pipeline: Delivers the elegant tone and emotions of the Joseon royal court in real-time through high-quality TTS using ElevenLabs and Typecast, and on-device STT based on Whisper Sentis. Specifically, it presents a plan to reduce the total perceived latency to less than 1 second through streaming-based optimization.
- Animation System: Applied a 4-layer Mecanim structure and latency masking technology based on Unity’s Mecanim system. It prevents disconnection in the user experience by transitioning AI thinking time into natural motions and establishes sophisticated animation sequences that minimize the ‘Uncanny Valley’ effect.
- Character Persona: Constructed a 7-layer prompt framework and identified seven core traits (intellectual curiosity, emotional restraint, maternal love, etc.) derived through the text analysis of ‘Hanjungnok.’ This implements Lady Hyegyong’s identity with historical authenticity and provides a diverse experience by varying the emphasis of the persona for each activity.
- Quest 3 MR Technology: Leverages Scene Mesh API and Spatial Anchor technology to understand the geometric structure of physical space and naturally place virtual characters. It also implements an immersive transition sequence from reality (MR) to the virtual world (VR) through Passthrough Opacity Fade technology.
- Platform Comparison: Conducted an in-depth analysis of the performance and cost of major AI NPC platforms, including Convai, Inworld AI, NVIDIA ACE, and Custom Stacks. It provides a decision tree and guidelines for selecting the optimal tech stack based on project objectives, development periods, and budget scales.
- Exhibition Infrastructure: Designed a museum-grade operating environment based on a dedicated Wi-Fi 6E network and NVIDIA Jetson AGX Orin edge servers, allowing multiple users to experience the content stably and simultaneously. It includes a real-time monitoring system and a ‘No Data Retention’ policy for privacy protection.
- Cost Analysis: Calculated initial investment and operational costs for three technical paths (Path A, B, and C) based on a 6-month exhibition. It provides a financial basis according to budget scale by comprehensively considering hardware introduction costs, API usage fees, and maintenance costs.
Recommended Tech Stack & Trade-off Analysis
The core tech stack proposed based on these research results and the pros and cons of each option are as follows:
- Development Platform: Unity 6 + OpenXR + Meta XR SDK
- Pros: Can utilize 100% of Quest 3’s hardware performance and secure scalability to other devices in the future through the industry-standard OpenXR.
- Trade-off: High dependency on the Meta ecosystem, requiring additional optimization work when porting to other platforms.
- Conversation Engine: GPT-4o (Custom Stack) or Convai
- GPT-4o: Provides the best reasoning capabilities and Korean quality, but has high development difficulty as individual API integration and synchronization logic must be built directly.
- Convai: Provides an integrated SDK for STT, LLM, TTS, and LipSync, allowing for very fast development, but may have limitations in fine-grained persona control and customization.
- Speech Synthesis (TTS): ElevenLabs Turbo v2.5 or Typecast ssfm-v30
- ElevenLabs: Optimized for real-time conversation by providing an overwhelming response speed of 75ms and natural breathing sounds.
- Typecast: As a Korean native engine, it excels in capturing the subtle nuances of Joseon Dynasty formal speech and emotional expression.
- Speech Recognition (STT): Whisper Sentis (On-device)
- Pros: Ensures both privacy protection and stability during network failures by performing real-time speech recognition within the Quest 3 device without a network connection.
- Trade-off: Recognition rates for complex sentences or in noisy environments may be slightly lower compared to cloud-based STT.
- LipSync: SALSA LipSync v2 or OVRLipSync
- SALSA v2: Enables universal and lightweight lip-sync implementation through audio waveform analysis, with excellent integration with Unity.
- OVRLipSync: A dedicated technology provided by Meta that ensures optimal performance and low latency in the Quest 3 environment.
Cost Summary (3 Paths)
Estimated costs calculated based on a 6-month exhibition operation (5 headsets, average 200 visitors/day).
| Path | Main Components | Total 6-Month Cost (Est.) | Features, Pros & Cons |
|---|---|---|---|
| Path A: Convai Scale | Convai Integrated Platform + Quest 3 | ~$10,000 | Rapid prototyping possible, platform dependency exists |
| Path B: Custom Stack | GPT-4o + ElevenLabs + Quest 3 | ~$11,300 - $13,000 | Best Korean quality and control, high operational costs |
| Path C: Full Custom | Local LLM + Whisper Sentis + Quest 3 | ~$9,000 | Best offline stability, lowest operational costs, high dev difficulty |
Known Gaps
Technical limitations and future tasks identified during the research process:
- Samsung Galaxy XR Compatibility: The project’s architecture is currently designed around the Meta XR SDK. While the Samsung Galaxy XR is a new platform based on Android XR and follows OpenXR standards, the optimization level and performance data for its dedicated SDK have not yet been secured, making it a Known Gap.
- Coqui Korean Pronunciation Errors: When using the open-source voice engine Coqui, metallic mechanical sounds or pronunciation blurring have been confirmed in specific Korean syllables. This issue must be resolved before introducing local TTS for offline environments.
- NVIDIA ACE Operation Constraints: NVIDIA ACE is a top-tier technology for digital human implementation, but it requires high-performance NVIDIA GPUs, making standalone operation on Quest 3 impossible. Infrastructure costs increase if a streaming method via a separate GPU server in the exhibition hall is introduced.
- Hanbok Physics Simulation: Implementing the natural movement of Hanbok (한복), Lady Hyegyong’s traditional attire, in real-time is a major challenge within the computational performance of Quest 3. Currently, the use of baked physics based on bone animation is recommended.
Future Implementation Plan (Next Steps)
- System Integration & Optimization: Verify the transition logic of the 4-tier fallback system in an actual Quest 3 environment and optimize the total pipeline latency to within 1.5 seconds.
- Persona & Data Advancement: Refine the RAG dataset based on ‘Hanjungnok’ and expand historical dialogue scenarios to add depth to the persona.
- Exhibition Environment Validation: Perform simultaneous connection tests for five or more headsets in a Wi-Fi 6E environment similar to an actual exhibition hall, and check the load balancing and monitoring systems of the edge server.
- Next-Generation Platform Response: Perform OpenXR-based portability tests once the Samsung Galaxy XR developer kit is secured and build a rendering and voice pipeline optimized for the Android XR environment.