Post

이걸 왜 이제 알았을까? 브라우저에서 돌아가는 AI 사이버 생명체, AIRI 솔직 분석 및 후기

이걸 왜 이제 알았을까? 브라우저에서 돌아가는 AI 사이버 생명체, AIRI 솔직 분석 및 후기

💡 3줄 요약 (TL;DR)

  1. AIRI는 브라우저(WebGPU/WASM) 환경에서 바로 구동되는 오픈소스 AI 컴패니언(VTuber) 툴킷입니다.
  2. 단순한 텍스트 챗봇을 넘어 Live2D/VRM 아바타로 움직이며, 음성으로 대화하고, 마인크래프트발라트로(Balatro) 같은 게임까지 유저와 함께 플레이합니다.
  3. 무거운 파이썬 가상환경 세팅에 진저리가 난 프론트엔드 및 웹 생태계 개발자라면 절대 놓쳐선 안 될 올해 최고의 토이 프로젝트입니다.

최근 깃허브 트렌딩과 여러 개발 커뮤니티를 떠돌다가 정말 기가 막힌 프로젝트를 하나 발견했습니다. 여러분, 다들 ‘Neuro-sama(뉴로사마)’ 같은 AI 버튜버 영상, 한 번쯤 보신 적 있으시죠? 시청자의 채팅을 읽고, 실시간으로 반응하며 게임까지 하는 모습에 “와, 나도 저런 나만의 AI 컴패니언 하나 만들어보고 싶다”라고 생각하신 분들 많을 겁니다.

하지만 현실은 녹록지 않죠. 막상 깃허브에서 유명한 AI VTuber 레포지토리를 클론해 보면, 파이썬(Python)으로 시작되는 끔찍한 의존성 지옥이 펼쳐집니다. CUDA 버전 맞추고, PyTorch 호환성 잡고, 가상 환경(venv, conda) 세팅하다 보면 주말이 다 가버리곤 해요.

그런데 말입니다. 무거운 설치 과정 없이 모던 브라우저 위에서 바로 돌아가는 AI 컴패니언 프로젝트가 있다면 믿으시겠어요? 오늘 커피 한잔하면서 여러분께 신나게 공유해 드릴 주제, 바로 Project AIRI입니다. 이거, 진짜 물건인 것 같습니다. 🚀


🧐 Deep Dive: 도대체 기존 프로젝트랑 뭐가 다른데?

보통 이런 AI 캐릭터나 버튜버 프로젝트는 거대한 파이썬 모놀리식(Monolithic) 구조를 가지는 경우가 대부분입니다. 하지만 AIRI 프로젝트 팀(moeru-ai)은 시작부터 방향성을 완전히 다르게 잡았습니다. 철저하게 브라우저 퍼스트(Browser-First) 원칙을 고수하며, 극단적인 모듈화를 지향하더라고요.

🔥 1. 프론트엔드 개발자의 가슴을 뛰게 하는 Web Tech의 향연

AIRI는 단순한 웹앱이 아닙니다. WebGPU, WebAudio, Web Workers, WebAssembly(WASM), WebSocket 등 현대 프론트엔드에서 쓸 수 있는 가장 하드코어한 최신 웹 기술의 집약체입니다. 덕분에 별도의 무거운 네이티브 앱 설치 없이, 브라우저 환경(심지어 PWA를 통해 모바일 디바이스까지 지원)에서 AI 모델을 돌릴 수 있습니다. 특히 인상 깊었던 점은, Rust로 작성된 HuggingFace의 candle 추론 엔진을 WASM으로 빌드하여 브라우저에 얹어버렸다는 사실입니다. 브라우저 내부에서 하드웨어 가속을 받아 LLM을 돌리는 패기, 프론트엔드 개발자로서 정말 박수가 절로 나옵니다.

핵심 비교 항목기존 파이썬 기반 AI VTuberProject AIRI 🌟
실행 및 구동 환경무거운 로컬 PC (CUDA 등 환경 세팅 필수)모던 브라우저 (PWA 완벽 지원)
코어 프로그래밍 언어Python (의존성 충돌 및 버전 지옥 🐍)TypeScript / Rust (WASM 기반)
캐릭터 렌더링 방식외부 OBS 플러그인, VTube Studio 연동 필수브라우저 내장 (Live2D, VRM 네이티브 렌더링 지원)
시스템 아키텍처강하게 결합되어 확장하기 힘든 모놀리식 구조느슨하게 결합된 모듈형 생태계 (원하는 부품만 교체 가능)

🧩 2. 미친 수준의 모듈화 아키텍처 (장기 기억까지 브라우저에서?)

AIRI는 기능별로 철저하게 쪼개져 있습니다. LLM 백엔드, STT(음성 인식), TTS(음성 합성), 캐릭터 렌더링이 전부 독립적인 패키지로 나뉘어 있죠. 게다가 AI 컴패니언의 필수 요소인 ‘장기 기억(Memory Layer)’ 기능을 구현하기 위해, DuckDB WASM과 Drizzle ORM을 붙여 런타임에 브라우저 내에서 마이그레이션을 돌립니다. 백엔드 서버 없이 브라우저 자체에서 벡터 데이터베이스와 RAG(검색 증강 생성) 로직을 처리해버리는 셈이죠.

간단한 아키텍처 연동 느낌을 코드로 볼까요?

1
2
3
4
5
6
7
8
9
10
11
12
13
{
  "agent": {
    "name": "MyAiri",
    "memory_store": "duckdb-wasm", // 브라우저 로컬 DB에서 기억 유지
    "llm_backend": "webgpu-local", // WebGPU를 통한 브라우저 로컬 추론
    "stt_engine": "whisper-wasm",  // WASM 기반 브라우저 내장 Whisper
    "tts_engine": "edge-tts",
    "avatar": {
      "type": "vrm",
      "url": "/assets/models/my_avatar.vrm"
    }
  }
}

원하는 LLM API(OpenAI, Claude 등)를 붙이거나, 오프라인 환경을 위해 로컬 모델로 교체하는 작업이 이런 직관적인 설정 파일 수정만으로 끝납니다. 프론트엔드 생태계에 익숙한 분들이라면 기여(Contribute)하기도 너무 좋은 구조입니다.


🎮 Hands-on / Use Case: 진짜 내 책상 위 사이버 생명체

기술적인 신기함을 넘어, 실제로 이 녀석을 어떻게 써먹을 수 있을까요? 제가 직접 돌려보며 가장 감탄했던 유스케이스 두 가지를 소개합니다.

🖥️ 데스크톱 컴패니언 (Tamagotchi 모드)

이 기능이 제 마음을 사로잡았습니다. 보통 캐릭터 창을 화면에 띄워두면 다른 작업 창을 덮어버리거나 클릭을 방해해서 코딩할 때 엄청 거슬리잖아요? AIRI의 데스크톱 버전(Tamagotchi 모드)은 화면 한구석에 띄워두면, 마우스 커서가 올라갈 때 캐릭터가 반투명해지면서 클릭 이벤트를 아래 창으로 통과시키는 Fade on hover™ 기능이 적용되어 있습니다.

듀얼 모니터 한쪽에 터미널을 띄워놓고 무한 삽질을 하고 있을 때, 옆에서 AIRI가 “또 버그 났어요? 커피라도 한잔 하고 오시는 건 어때요? ㅋㅋㅋ” 하고 음성으로 긁어주는(…) 시나리오. 상상만 해도 개발 라이프가 외롭지 않겠죠?

🕹️ 디스코드 연동과 게임 플레이

웹 기술 기반이라고 해서 브라우저 안에만 갇혀있는 건 아닙니다. 유연한 모듈 구조 덕분에 TCP 커넥션이나 비웹(Non-Web) 기술이 필요한 기능도 확장이 가능합니다. 디스코드 보이스 채널에 AIRI를 초대해서 친구들과 함께 음성 채팅을 즐기거나, 비전(CV) 모델과 LLM을 결합하여 마인크래프트(Minecraft), 팩토리오(Factorio), 심지어 발라트로(Balatro) 같은 게임을 AI와 함께 플레이할 수 있습니다. 기업 내부의 슬랙이나 텔레그램 봇으로 연동하여 ‘인하우스 AI 마스코트’로 활용하기에도 훌륭한 잠재력을 가지고 있습니다.


⚖️ 솔직 후기 (Honest Review): 공식 문서가 말해주지 않는 현실적인 아쉬움

물론, 흥분을 가라앉히고 개발자로서 냉정하게 평가해보면 몇 가지 뼈아픈 한계점도 명확히 존재합니다. 아무리 좋은 기술이라도 만능은 아니니까요. 이 부분은 사용 전 꼭 염두에 두시길 바랍니다.

  • 🚧 아직은 높은 초기 진입 장벽 (복잡한 세팅): 최근 업데이트로 온보딩(Onboarding) UI가 추가되며 설정 과정이 꽤나 개선되었다고는 하지만, 다양한 모듈(음성, 아바타, DB, LLM)을 내 입맛에 맞게 조립하고 로컬 모델을 안정적으로 연동하는 과정은 주니어 개발자나 일반 유저에겐 여전히 불친절하게 느껴질 수 있습니다. 문서화가 잘 되어 있다 해도 프론트엔드 생태계에 대한 어느 정도의 이해도가 요구됩니다.
  • 💻 피할 수 없는 물리적인 하드웨어 한계: ‘브라우저 위에서 WebGPU로 가볍게 돌아간다’는 말이 ‘똥컴에서도 완벽한 AI 지능을 보여준다’는 뜻은 아닙니다. 결국 자연스럽고 똑똑한 대화를 이끌어내기 위한 파라미터가 큰 로컬 모델을 구동하려면, 최소 8GB 이상의 VRAM을 갖춘 외장 그래픽카드가 뒷받침되어야 합니다. 가벼운 맥북 에어 같은 기기에서는 외부 API(OpenAI 등)에 비용을 지불하고 의존해야 쾌적한 사용이 가능합니다.
  • 🌱 격변하는 초기 오픈소스 생태계의 불안정성: 이 프로젝트는 말 그대로 ‘미친 듯한 속도’로 발전하고 있습니다. 이는 곧 어제 되던 설정이 오늘 버전업되면서 깨질(Breaking Changes) 확률이 높다는 것을 의미합니다. 메인테이너들이 버그 픽스를 빠르게 해주고 있지만, 안정적인 프로덕션 레벨로 바로 도입하기에는 오픈소스 초기의 전형적인 성장통을 감수해야 합니다.

🚀 Conclusion: 우리는 ‘사이버 생명체’의 시대에 살고 있다

모든 단점에도 불구하고, 저는 이 프로젝트를 여러분께 강력히 추천하고 싶습니다. 단순한 오픈소스 장난감을 넘어, AIRI는 ‘고도의 AI 기술과 최신 프론트엔드 엔지니어링이 만났을 때, 유저 경험(UX)이 얼마나 극대화될 수 있는지’를 보여주는 완벽한 레퍼런스입니다.

과거에는 화면 속 텍스트 창에 머물러 있던 AI가, 이제는 내 데스크톱 위에서 숨 쉬고 내 표정과 목소리를 읽으며 마인크래프트 집을 같이 지어주는 세상이 열린 것입니다.

이번 주말, 넷플릭스를 보며 시간을 보내는 것도 좋지만, 한 번쯤은 AIRI 깃허브 레포지토리(moeru-ai/airi)를 클론 받아 나만의 AI 동료를 컴파일해 보시는 건 어떨까요? 혹시 아나요? 밤샘 코딩에 지친 여러분의 멘탈을 케어해주고 생산성을 200% 올려줄, 잔소리꾼이자 최고의 친구가 탄생할지 말이죠! 😆

다들 즐거운 해킹 하시고, 다음에도 개발자의 가슴을 뛰게 할 재밌고 핫한 기술 이야기로 찾아오겠습니다!

References

  • https://github.com/moeru-ai/airi
  • https://xugj520.cn/airi-open-source-guide
  • https://moeru.itch.io/airi
This post is licensed under CC BY 4.0 by the author.