온프레미스냐 클라우드냐? 음성 AI 대표전화를 통합하는 두 가지 배포 아키텍처 — 어떻게 고르고, 어떻게 연결하나
기업이 음성 AI 대표전화를 도입할 때 IT와 보안이 가장 먼저 묻는 것은 '정확한가'가 아니라 '고객 데이터와 녹취가 우리 데이터센터를 벗어나는가', '기존 PBX에 어떻게 연결하나'입니다. Qubby는 동일한 컨테이너화 서비스를 온프레미스와 클라우드 두 방식으로 제공합니다. AI 추론은 항상 클라우드에서 동작하며, 차이는 미디어·녹취·고객 데이터의 위치와 운영 책임뿐입니다.

기업이 음성 AI 대표전화를 도입할 때, IT와 보안이 가장 먼저 묻는 것은 "정확한가"가 아닙니다. 더 현실적인 두 가지입니다. "고객 데이터와 통화 녹취가 우리 데이터센터를 벗어나는가", 그리고 "오래 써 온 전화 시스템에 어떻게 연결하나".
Qubby의 답은 동일한 컨테이너화 서비스를 두 가지 방식으로 제공하는 것입니다 — 고객 자체 데이터센터로의 온프레미스 배포, 또는 Qubby 클라우드 호스팅. 두 경우 모두 AI 음성 추론은 클라우드의 Qubby 음성 멀티모달 모델에서 동작하며, 진짜 차이는 미디어·녹취·고객 데이터가 어디에 남는가와 누가 운영을 맡는가뿐입니다.
아키텍처 1: 온프레미스 — 데이터는 건물 밖으로 나가지 않는다
서비스 전체를 Docker로 고객 자체 IDC에 배포합니다. SIP 트렁크는 데이터센터 안에서 종단되고, AI는 기존 PBX의 내부 네트워크에 "내선"으로 등록됩니다 — 같은 시설 내 네트워크 핸드셰이크이므로 음성 지연이 가장 낮습니다.
핵심은 데이터 흐름입니다. 통화 녹취, 통화 기록, 고객 개인정보는 모두 내부 네트워크에 남습니다. 외부로 나가는 것은 "AI 추론" 한 줄기뿐이며, 방화벽/프록시를 거쳐 TLS로 암호화되어 송출됩니다. 그 외 음성 미디어는 일절 외부로 나가지 않습니다.

개인정보의 내부 보관과 컴플라이언스 요건이 엄격한 금융·의료·공공·대기업에 최적 — 데이터 주권이 자사 손에 남습니다.
아키텍처 2: Qubby 클라우드 호스팅 — 운영할 데이터센터가 없음
서비스 전체가 Qubby 관리형 AWS(멀티 리전: 대만, 일본 등 추가 가능)에서 동작합니다. Global Accelerator가 가까운 입구로 라우팅하고, ALB + 인증서가 HTTPS를 종단합니다. 당사 클라우드 전화 교환 모듈이 IP Phone(내선)으로 VPN을 통해 고객 PBX에 등록됩니다 — 네트워크를 넘기 때문에 지연은 온프레미스보다 약간 높습니다.
데이터(역할/설정/통화 기록)는 클라우드 Firestore, 녹취는 S3, 설정은 Redis 캐시에 저장되며, 모니터링·업데이트·확장은 모두 Qubby가 운영합니다.

빠르게 가동하고 탄력적으로 확장하며 데이터센터를 직접 운영하고 싶지 않은 기업에 최적 — 계정 개설, SIP 트렁크 연결로 가동할 수 있습니다.
연동의 핵심: AI는 PBX를 "대체"하지 않고 "붙는다"
두 아키텍처의 서비스 모듈은 완전히 동일합니다: 전화 교환(asterisk), 통화 제어(sidecar), AI 음성 대화 코어(backend), 운영 관리 콘솔(admin-console), AI 플로우 생성 엔진(ivr-builder-api), 웹 음성 상담(share-web, 선택).
연동의 핵심은 같은 한 동작입니다: AI가 기존 PBX에 하나의 "내선"으로 등록 — 교환기·번호·기존 내선은 손대지 않습니다. 차이는 그 내선의 연결 방식뿐. 온프레미스는 SIP 트렁크가 데이터센터에 들어오고 내선은 내부 네트워크를 통하며, 클라우드는 내선이 VPN으로 네트워크를 넘어 등록합니다.
표 하나로 아키텍처 고르기
| 관점 | 온프레미스 IDC | Qubby 클라우드 호스팅 |
|---|---|---|
| 데이터 위치 | 녹취/통화 기록/개인정보는 자체 DC에 남고 AI 추론만 송출 | 데이터는 클라우드 Firestore/S3에 저장(Qubby 관리) |
| 음성 지연 | 최저: AI 내선과 PBX가 같은 시설 내부망에서 등록 | 약간 높음: AI 내선이 네트워크를 넘어 등록(VPN) |
| 보안/컴플라이언스 | 자체 DC·개인정보 위치 요건에 최적합 | 클라우드 사업자 컴플라이언스 준수(국경 간 검토 필요) |
| 운영 책임 | 고객이 시설/하드웨어/네트워크 제공, Qubby가 컨테이너와 업데이트 제공 | Qubby 완전 관리형(모니터링/업데이트/확장) |
| 확장성 | 물리 용량에 제약, 확장은 하드웨어 구매 필요 | 빠르고 탄력적(멀티 리전/수평 확장) |
| 도입 기간 | 김: 시설 구축/회선 개통/방화벽 허용 목록 | 가장 빠름: 계정 개설 + SIP 트렁크 연결로 가동 |
| 비용 모델 | 시설/하드웨어 CAPEX + 라이선스, 장기 자가 보유 | 구독/사용량 OPEX, 하드웨어 투자 제로 |
둘 다 클라우드의 Qubby 음성 멀티모달 모델로 추론합니다. 온프레미스 버전은 "이 한 줄기" AI 트래픽만 암호화 송출하고 나머지는 내부에 둡니다.
먼저 클라우드 PoC, 이후 온프레미스로 매끄럽게 이전
두 아키텍처는 서비스 모듈이 완전히 동일하므로, 먼저 클라우드 호스팅으로 빠르게 PoC를 하고, 이후 온프레미스 운영 배포로 매끄럽게 이전할 수 있습니다 — 재구축이 필요 없습니다. AI 추론조차 네트워크 밖으로 나가면 안 되는 컴플라이언스 요건이라면 "온프레미스 LLM/프라이빗 음성 모델" 옵션도 평가할 수 있습니다(별도 연산 자원 계획 필요).
데이터 주권을 우선하든 가동 속도를 우선하든, 연동의 본질은 같습니다: AI를 하나의 내선으로 기존 전화 시스템에 붙이고, 나머지는 Qubby에 맡기세요. 어떤 아키텍처가 귀사의 시설과 컴플라이언스 조건에 맞는지, 당사 컨설턴트와 상담해 보세요.
