Skip to Content

종합 의사결정 매트릭스 / Comprehensive Decision Matrix

Last verified: 2026년 2월 / February 2026


한국어

개요

본 문서는 혜경궁 홍씨(Lady Hyegyong) AI NPC 프로젝트의 성공적인 구현을 위해 검토된 모든 기술적 선택지를 하나의 통합된 프레임워크로 정리한 종합 의사결정 매트릭스입니다. 시스템 아키텍처, 대화 엔진, 음성 파이프라인, 애니메이션, MR 기술, 전시 인프라 등 9개 섹션에서 도출된 핵심 결정 포인트들을 분석하여, 프로젝트의 목표와 제약 조건에 따른 최적의 경로를 제시합니다.

본 매트릭스는 특정 기술을 최종적으로 확정하기보다는, 개발 기간, 예산, 품질 목표, 오프라인 안정성 등 팀이 직면한 상황에 따라 어떤 기술을 선택해야 하는지에 대한 조건부 가이드를 제공합니다. 또한, 전시 운영 중 발생할 수 있는 주요 위험 요소와 이에 대한 대응 전략, 그리고 단계별 구현 로드맵을 포함하여 프로젝트의 전체적인 실행 전략을 수립하는 데 기여합니다.

핵심 발견

  • 품질 vs 속도: Convai와 같은 통합 플랫폼은 개발 속도에서 압도적이지만, 커스텀 스택(GPT-4o + ElevenLabs)은 한국어 품질과 세밀한 페르소나 제어에서 우위를 점합니다.
  • 오프라인 안정성: 전시 환경의 특성상 인터넷 단절에 대비한 4단계 폴백(Fallback) 전략이 필수적이며, 이를 위해 Jetson AGX Orin 기반의 엣지 서버 구축이 권장됩니다.
  • 레이턴시 관리: 1.5초 이내의 체감 레이턴시를 달성하기 위해 ElevenLabs Turbo v2.5와 같은 저지연 TTS와 ‘생각 중’ 애니메이션 마스킹 기술의 결합이 핵심입니다.
  • Samsung Galaxy XR: 현재 모든 기술적 검토는 Quest 3를 기준으로 완료되었으며, Samsung Galaxy XR은 ‘알려진 갭(Known Gap)‘으로서 향후 이식성을 고려한 OpenXR 표준 준수가 필요합니다.

마스터 의사결정 매트릭스 (Master Decision Matrix)

2026년 2월 기준

결정 포인트옵션 A (통합/속도)옵션 B (고품질/커스텀)옵션 C (안정성/로컬)추천 조건
1. AI 플랫폼ConvaiCustom StackAzure AI빠른 구축은 A, 품질은 B, 보안은 C
2. LLM 모델Convai Built-inGPT-4oClaude 3.5레이턴시는 A, 추론은 B, 지침 준수는 C
3. TTS 서비스ElevenLabs TurboTypecastNAVER CLOVA속도는 A, 감정은 B, 한국어 자연스러움은 C
4. STT 솔루션Whisper SentisAzure SpeechGoogle Speech오프라인은 A, 정확도는 B, 범용성은 C
5. 립싱크 (LipSync)OVRLipSyncSALSA v2Audio2FaceQuest 최적화는 A, 범용은 B, 실사는 C
6. 엣지 하드웨어Jetson AGX OrinMini PC (RTX 4070)Cloud Only산업용 안정성은 A, 성능은 B, 저예산은 C
7. 로컬 LLMLlama 3.2 (3B/8B)HyperCLOVA XOPEN-SOLAR-KO속도는 A, 한국어 맥락은 B, 오픈소스는 C
8. Unity XR 프레임워크Meta XR SDKAR FoundationOpenXR NativeQuest 전용은 A, 확장성은 B, 표준은 C
9. 애니메이션 시스템Mecanim LayersPlayables APITimeline직관적 제어는 A, 동적 합성은 B, 시퀀스는 C
10. 메모리 시스템Sliding WindowENGRAM Triple MemoryVector DB (RAG)단순 대화는 A, 장기 기억은 B, 지식 검색은 C
11. 대화 엔진ArborChatSOPNative Scripting논리 흐름은 A, 절차 제어는 B, 단순 로직은 C
12. 페르소나 프레임워크MemorIAEsthaAIAHA Guidelines빠른 생성은 A, 일관성은 B, 역사 고증은 C
13. 레이턴시 마스킹Thinking AnimationUI LoadingAudio Filler몰입감은 A, 정보 전달은 B, 단순 대기는 C
14. MR 오클루전Depth APIScene MeshStatic Mesh실시간은 A, 가구 인식은 B, 고정 환경은 C
15. MR 조명Light EstimationStatic LightingFake Shadows실시간 동기화는 A, 성능 최적화는 B, 단순 구현은 C
16. 폴백 전략4단계 (Cloud-Edge-On-Pre)2단계 (Cloud-Pre)Cloud Only전시 안정성은 A, 중급은 B, 테스트용은 C
17. 네트워크Wi-Fi 6EWi-Fi 6Ethernet다수 기기 간섭 방지는 A, 일반은 B, 고정형은 C
18. 모니터링Prometheus/GrafanaCloud DashboardNone실시간 관제는 A, 사후 분석은 B, 소규모는 C
19. 보안/개인정보Zero-RetentionLocal StorageCloud Storage법규 준수는 A, 데이터 분석은 B, 편의성은 C
20. 캐릭터 모델High-poly (50k)Mid-poly (35k)Low-poly (20k)근접 체험은 A, 표준은 B, 다수 NPC는 C

기술 선택 의사결정 트리 (Technology Selection Decision Tree)

위험 매트릭스 (Risk Matrix)

위험 요소발생 가능성영향도완화 전략 (Mitigation)
전시 중 네트워크 단절높음매우 높음4단계 폴백(Fallback) 구축, Jetson 기반 엣지 서버 운영
API 비용 초과중간중간ElevenLabs Turbo 사용, 문장 단위 캐싱, 일일 쿼터 설정
한국어 TTS 품질 저하낮음높음ElevenLabs/Typecast 이중화, 특정 시나리오 NAVER CLOVA 사용
Samsung Galaxy XR 호환성높음중간OpenXR 표준 준수, AR Foundation 추상화 레이어 강화
페르소나 열화 (오프라인)중간중간로컬 모델용 경량화 프롬프트 최적화, 규칙 기반 보조 시스템
레이턴시 1.5초 초과중간높음스트리밍 TTS 적용, ‘생각 중’ 애니메이션 즉시 트리거
Quest 3 발열/쓰로틀링중간높음FFR(Fixed Foveated Rendering) 적용, 외부 쿨링 솔루션 검토

구현 로드맵 (Implementation Roadmap)

Phase 1: 프로토타입 개발 (4-6주)

  • 목표: 핵심 파이프라인 검증 및 기본 페르소나 구현
  • 주요 과업:
    • STT-LLM-TTS-LipSync 기본 연동 (Path A 또는 B)
    • 혜경궁 홍씨 기본 시스템 프롬프트 설계
    • 단일 활동(예: 인사 및 대화) 프로토타입 구축
    • Quest 3 Passthrough 기본 환경 설정

Phase 2: 시스템 통합 및 고도화 (6-8주)

  • 목표: 4대 활동 통합 및 엣지 서버 구축
  • 주요 과업:
    • 4가지 활동(편지, 서예, 예절, 다과) 시퀀스 구현
    • Jetson AGX Orin 기반 엣지 서버 및 로컬 LLM 최적화
    • 4단계 폴백(Fallback) 로직 완성
    • ENGRAM 3중 메모리 시스템 적용

Phase 3: 최적화 및 전시 준비 (4-6주)

  • 목표: 성능 튜닝 및 안정성 테스트
  • 주요 과업:
    • 90fps 유지를 위한 렌더링 최적화 (LOD, GPU Skinning)
    • 전시장 네트워크(Wi-Fi 6E) 환경 스트레스 테스트
    • 모니터링 대시보드(Grafana) 연동
    • 최종 역사 고증 검수 및 가드레일 강화

평가 기준 가중치 (Evaluation Criteria Weights)

평가 항목가중치산출 근거
한국어 대화 품질25%역사적 인물과의 몰입감을 결정하는 가장 핵심적인 요소
레이턴시 성능20%상호작용의 자연스러움을 좌우하며 멀미 방지에 기여
운영 비용 (6개월)15%한정된 예산 내에서 지속 가능한 전시 운영 가능 여부
오프라인 구동 능력15%전시장 네트워크 불안정 시에도 중단 없는 체험 보장
커스터마이징 깊이15%혜경궁 홍씨만의 독특한 페르소나와 활동 구현의 자유도
Quest 3 호환성10%주 타깃 기기에서의 성능 최적화 및 SDK 지원 수준

알려진 갭 및 향후 과제

  • Samsung Galaxy XR (알려진 갭): 본 매트릭스의 성능 데이터는 Quest 3 기준이며, Samsung 기기에서의 실제 레이턴시 및 렌더링 효율은 추가 검증이 필요합니다.
  • 멀티모달 연동: 사용자의 동작(서예, 다과)을 실시간으로 분석하여 대화에 반영하는 기술은 현재 레이턴시 문제로 인해 Phase 2 이후의 과제로 설정되었습니다.

출처 및 참고문헌

  1. Convai, Inworld, ElevenLabs 공식 기술 문서 (2026).
  2. Meta Quest 3 Developer Guide: Performance Optimization (2025).
  3. NVIDIA Jetson AGX Orin vLLM Deployment Guide (2025).
  4. “Hybrid AI NPC Architecture for Cultural Heritage,” Journal of Digital Heritage (2025).

English

Overview

This document is a Comprehensive Decision Matrix that synthesizes all technical options reviewed for the successful implementation of the Lady Hyegyong (혜경궁 홍씨) AI NPC project into a unified framework. By analyzing key decision points derived from nine sections—including system architecture, conversation engine, voice pipeline, animation, MR technology, and exhibition infrastructure—it presents the optimal path based on project goals and constraints.

Rather than finalizing specific technologies, this matrix provides a conditional guide on which technologies to select based on the situation the team faces, such as development period, budget, quality goals, and offline stability. It also contributes to establishing an overall execution strategy for the project by including major risk factors that may occur during exhibition operation, corresponding mitigation strategies, and a step-by-step implementation roadmap.

Key Findings

  • Quality vs. Speed: Integrated platforms like Convai are overwhelming in development speed, but custom stacks (GPT-4o + ElevenLabs) hold the edge in Korean quality and fine-grained persona control.
  • Offline Stability: Due to the nature of exhibition environments, a 4-tier fallback strategy against internet disconnection is essential, and building an edge server based on Jetson AGX Orin is recommended for this purpose.
  • Latency Management: To achieve a perceived latency of less than 1.5 seconds, the combination of low-latency TTS like ElevenLabs Turbo v2.5 and ‘Thinking’ animation masking technology is key.
  • Samsung Galaxy XR: All technical reviews have been completed based on Quest 3. Samsung Galaxy XR is a ‘Known Gap,’ requiring compliance with OpenXR standards for future portability.

Master Decision Matrix

As of February 2026

Decision PointOption A (Integrated/Speed)Option B (High Quality/Custom)Option C (Stability/Local)Recommended Condition
1. AI PlatformConvaiCustom StackAzure AIA for rapid build, B for quality, C for security
2. LLM ModelConvai Built-inGPT-4oClaude 3.5A for latency, B for reasoning, C for instruction following
3. TTS ServiceElevenLabs TurboTypecastNAVER CLOVAA for speed, B for emotion, C for Korean naturalness
4. STT SolutionWhisper SentisAzure SpeechGoogle SpeechA for offline, B for accuracy, C for versatility
5. LipSyncOVRLipSyncSALSA v2Audio2FaceA for Quest optimization, B for universal, C for realism
6. Edge HardwareJetson AGX OrinMini PC (RTX 4070)Cloud OnlyA for industrial stability, B for performance, C for low budget
7. Local LLMLlama 3.2 (3B/8B)HyperCLOVA XOPEN-SOLAR-KOA for speed, B for Korean context, C for open source
8. Unity XR FrameworkMeta XR SDKAR FoundationOpenXR NativeA for Quest-only, B for scalability, C for standards
9. Animation SystemMecanim LayersPlayables APITimelineA for intuitive control, B for dynamic synthesis, C for sequences
10. Memory SystemSliding WindowENGRAM Triple MemoryVector DB (RAG)A for simple dialogue, B for long-term memory, C for knowledge search
11. Conversation EngineArborChatSOPNative ScriptingA for logic flow, B for procedural control, C for simple logic
12. Persona FrameworkMemorIAEsthaAIAHA GuidelinesA for fast generation, B for consistency, C for historical verification
13. Latency MaskingThinking AnimationUI LoadingAudio FillerA for immersion, B for info delivery, C for simple waiting
14. MR OcclusionDepth APIScene MeshStatic MeshA for real-time, B for furniture recognition, C for fixed environments
15. MR LightingLight EstimationStatic LightingFake ShadowsA for real-time sync, B for performance, C for simple implementation
16. Fallback Strategy4-tier (Cloud-Edge-On-Pre)2-tier (Cloud-Pre)Cloud OnlyA for exhibition stability, B for intermediate, C for testing
17. NetworkWi-Fi 6EWi-Fi 6EthernetA for interference prevention, B for general, C for fixed
18. MonitoringPrometheus/GrafanaCloud DashboardNoneA for real-time control, B for post-analysis, C for small scale
19. Security/PrivacyZero-RetentionLocal StorageCloud StorageA for compliance, B for data analysis, C for convenience
20. Character ModelHigh-poly (50k)Mid-poly (35k)Low-poly (20k)A for close-up experience, B for standard, C for multiple NPCs

Technology Selection Decision Tree

Risk Matrix

Risk FactorProbabilityImpactMitigation Strategy
Network Outage during ExhibitionHighVery HighBuild 4-tier fallback, operate Jetson-based edge server
API Cost OverrunMediumMediumUse ElevenLabs Turbo, sentence-level caching, set daily quotas
Korean TTS Quality DegradationLowHighRedundancy with ElevenLabs/Typecast, use NAVER CLOVA for specific scenarios
Samsung Galaxy XR CompatibilityHighMediumComply with OpenXR standards, strengthen AR Foundation abstraction layer
Persona Degradation (Offline)MediumMediumOptimize lightweight prompts for local models, rule-based assistance system
Latency Exceeding 1.5sMediumHighApply streaming TTS, immediately trigger ‘Thinking’ animation
Quest 3 Thermal ThrottlingMediumHighApply FFR (Fixed Foveated Rendering), review external cooling solutions

Implementation Roadmap

Phase 1: Prototype Development (4-6 weeks)

  • Goal: Verify core pipeline and implement basic persona.
  • Key Tasks:
    • Basic integration of STT-LLM-TTS-LipSync (Path A or B).
    • Design basic system prompt for Lady Hyegyong.
    • Build prototype for a single activity (e.g., greeting and dialogue).
    • Set up basic Quest 3 Passthrough environment.

Phase 2: System Integration & Advancement (6-8 weeks)

  • Goal: Integrate 4 main activities and build edge server.
  • Key Tasks:
    • Implement sequences for 4 activities (Letter, Calligraphy, Etiquette, Tea Ceremony).
    • Optimize Jetson AGX Orin-based edge server and local LLM.
    • Complete 4-tier fallback logic.
    • Apply ENGRAM triple memory system.

Phase 3: Optimization & Exhibition Prep (4-6 weeks)

  • Goal: Performance tuning and stability testing.
  • Key Tasks:
    • Rendering optimization (LOD, GPU Skinning) to maintain 90fps.
    • Stress test exhibition network (Wi-Fi 6E) environment.
    • Integrate monitoring dashboard (Grafana).
    • Final historical verification and reinforcement of guardrails.

Evaluation Criteria Weights

CriterionWeightRationale
Korean Dialogue Quality25%The most core factor determining immersion with a historical figure.
Latency Performance20%Governs the naturalness of interaction and contributes to motion sickness prevention.
Operational Cost (6mo)15%Whether sustainable exhibition operation is possible within a limited budget.
Offline Capability15%Ensures uninterrupted experience even during exhibition network instability.
Customization Depth15%Freedom to implement Lady Hyegyong’s unique persona and activities.
Quest 3 Compatibility10%Level of performance optimization and SDK support on the primary target device.

Known Gaps & Future Work

  • Samsung Galaxy XR (Known Gap): Performance data in this matrix is based on Quest 3; actual latency and rendering efficiency on Samsung devices require further verification.
  • Multimodal Integration: Technology to analyze user movements (calligraphy, tea ceremony) in real-time and reflect them in dialogue has been set as a task for after Phase 2 due to current latency issues.

Sources & References

  1. Convai, Inworld, ElevenLabs Official Technical Documentation (2026).
  2. Meta Quest 3 Developer Guide: Performance Optimization (2025).
  3. NVIDIA Jetson AGX Orin vLLM Deployment Guide (2025).
  4. “Hybrid AI NPC Architecture for Cultural Heritage,” Journal of Digital Heritage (2025).