CyberVerse是一套实时音视频 Agent 平台,基于 WebRTC、人设记忆、RAG 等技术,能让数字人拥有独立人格,支持长时间对话、语音打断,甚至能结合知识库精准回答问题。

一、CyberVerse 到底能做啥?
一张照片,让数字人真正「活」起来:
- 一张照片生成数字人:不用 3D 建模、不用动捕,上传一张正面照,就能生成会说话、有表情、口型同步的数字人,支持自定义人格、声线。
- 实时音视频对话:基于 WebRTC 技术,低延迟视频通话,支持随时打断、语音文本混合聊,数字人会有自然待机呼吸感,不是僵硬的动画。
- 纯语音 / 视频双模式:没 GPU 也能玩,关闭数字人视频,就是纯语音助手;有 GPU 就能开实时数字人,灵活适配设备。
- 人格记忆 + 知识库问答:每个数字人有独立记忆,跨对话不遗忘;还能导入文档、资料,结合 RAG 精准回答专业问题。
- 插件化可定制:大模型、语音合成、语音识别都能换,支持阿里云、火山引擎等主流服务商,按需求自由搭配。

二、搭建前准备:环境 + 配置
搭建分纯语音模式(无 GPU) 和数字人视频模式(有 GPU),新手先试纯语音,不用额外硬件,跟着准备就行。
1. 基础环境(必装)
系统:Windows/macOS/Linux 都行
核心软件:
验证命令(终端输入,有版本号就 ok):
node --version
go version
ffmpeg -version
conda --version2. API 密钥(必配,免费够用)
需要一个大模型 API 密钥,推荐阿里云通义千问或火山引擎豆包,免费额度足够个人测试:
阿里云:申请DASHSCOPE_API_KEY
火山引擎:申请DOUBAO_ACCESS_TOKEN和DOUBAO_APP_ID
3. 数字人视频模式额外要求(可选)
想生成会动的数字人视频,需要:
显卡:RTX 4090/5090 或更高(显存 24GB+)
CUDA 12.8+、PyTorch 2.8
预训练模型:FlashHead(轻量)或 LiveAct(高清)
三、从零开始搭建:5 步搞定纯语音版(新手首选)
纯语音版不用 GPU,5 步就能跑通,跟着复制命令就行,全程无复杂操作。
第 1 步:克隆项目仓库
打开终端,输入命令,把项目下载到本地:
git clone https://github.com/dsd2077/CyberVerse.git
cd CyberVerse第 2 步:创建 Python 虚拟环境
用 Conda 创建专属环境,避免依赖冲突:
conda create -n cyberverse python=3.10
conda activate cyberverse第 3 步:配置 API 密钥
- 复制环境变量模板:
cp infra/.env.example .env- 打开
.env文件,填入你的 API 密钥(二选一):
# 阿里云通义千问
DASHSCOPE_API_KEY=你的密钥
# 火山引擎豆包
DOUBAO_ACCESS_TOKEN=你的密钥
DOUBAO_APP_ID=你的APPID第 4 步:开启纯语音模式
复制配置文件,关闭数字人视频(不用 GPU):
cp infra/cyberverse_config.example.yaml cyberverse_config.yaml打开cyberverse_config.yaml,找到这行,改为false:
yaml
inference:
avatar:
enabled: false # 关闭数字人视频,纯语音模式第 5 步:安装依赖 + 启动服务
1. 安装所有依赖
make setup
pip install -e ".[all]"2. 启动 3 个服务(开 3 个终端,分别执行)
终端 1:Python 推理服务
conda activate cyberverse
make inference终端 2:Go API 服务
make server终端 3:前端页面
make frontend3. 验证是否成功
终端输入命令,返回ok就正常:
curl -s http://localhost:8080/api/v1/health
浏览器打开http://localhost:5173,就能进入 CyberVerse 后台!
四、进阶:开启数字人视频
有 RTX 4090 以上显卡,就能开启实时数字人,口型、表情全同步,步骤很简单。
1. 下载数字人模型
推荐 FlashHead(轻量,4090 就能跑),终端执行:
# 安装下载工具
pip install "huggingface_hub[cli]"
# 国内用户用镜像(加速)
export HF_ENDPOINT=https://hf-mirror.com
# 下载FlashHead模型
hf download Soul-AILab/SoulX-FlashHead-1_3B --local-dir ./checkpoints/SoulX-FlashHead-1_3B
# 下载音频特征模型
hf download facebook/wav2vec2-base-960h --local-dir ./checkpoints/wav2vec2-base-960h2. 开启数字人配置
打开cyberverse_config.yaml,修改为:
yaml
inference:
avatar:
enabled: true # 开启数字人
default: "flash_head" # 用FlashHead模型
flash_head:
checkpoint_dir: "./checkpoints/SoulX-FlashHead-1_3B" # 模型路径
wav2vec_dir: "./checkpoints/wav2vec2-base-960h"
model_type: "lite" # lite=流畅,pro=高清(需更高GPU)3. 重启服务
关闭之前的 3 个终端,重新执行启动命令,看到Active avatar model initialized就成功了。
五、实测使用:
搭建完成后,直接在浏览器里操作,3 分钟创建专属数字人,实测体验拉满。
1. 创建专属数字人
- 浏览器打开
http://localhost:5173,注册登录(本地部署,随便填信息)。 - 点击「创建角色」,上传一张正面清晰照片(无遮挡、光线足)。
- 设置角色信息:
- 点击「生成」,等待 1-2 分钟,数字人就创建好了!
2. 实时对话实测
- 进入角色页面,点击「开始对话」,允许麦克风权限。
- 直接说话:比如 “你好,介绍一下你自己”,数字人会实时回复,支持随时打断,不用等它说完。
- 混合输入:既能语音聊,也能打字发消息,数字人会无缝衔接回复。
- 知识库问答:上传一份 PDF / 文档,数字人能基于文档内容精准回答,比如 “总结这份文档的核心内容”。
3. 真实体验感受
- 语音延迟:很低,几乎实时,打断响应快,没有明显卡顿。
- 数字人表现:口型和语音完全同步,待机时会有轻微呼吸动作,表情自然,不是僵硬的 “假人”。
- 记忆能力:关闭页面再重新打开,之前的对话内容还在,能记住你的偏好,连续对话感强。
六、避坑总结:
- 依赖安装失败:用 Conda 创建专属环境,避免和本地 Python 冲突;国内用户建议换清华源。
- 服务启动报错:检查 API 密钥是否正确、端口是否被占用(8080/5173/50051),关闭占用端口的程序。
- 数字人不显示:确认 GPU 显存≥24GB、CUDA 安装正确;模型路径填对,
model_type先选lite。 - 语音没声音:检查麦克风权限、API 密钥(语音合成需要对应服务商密钥)。
七、最后想说
CyberVerse 是目前最容易上手、功能最完整的开源数字人平台,没有花里胡哨的冗余功能,聚焦 “实时对话 + 数字人互动”,不管是个人玩、做内容创作,还是开发定制 AI 助手,都很合适。
它的核心价值,是降低了数字人的制作和使用门槛—— 不用专业技术,一张照片就能拥有专属 AI,这在以前根本不敢想。而且开源免费(GPL v3.0 协议),个人商用都没问题,后续还会更新声音克隆、口型精准同步等功能,潜力很大。