开源 CyberVerse 实测教程一键搭建照片生成实时音视频 AI 数字人

一张照片 “复活” 数字人！开源 CyberVerse 搭建 + 实测，实时音视频对话太绝了

极客 · 2026-05-21

CyberVerse是一套实时音视频 Agent 平台，基于 WebRTC、人设记忆、RAG 等技术，能让数字人拥有独立人格，支持长时间对话、语音打断，甚至能结合知识库精准回答问题。

一、CyberVerse 到底能做啥？

一张照片，让数字人真正「活」起来：

一张照片生成数字人：不用 3D 建模、不用动捕，上传一张正面照，就能生成会说话、有表情、口型同步的数字人，支持自定义人格、声线。
实时音视频对话：基于 WebRTC 技术，低延迟视频通话，支持随时打断、语音文本混合聊，数字人会有自然待机呼吸感，不是僵硬的动画。
纯语音 / 视频双模式：没 GPU 也能玩，关闭数字人视频，就是纯语音助手；有 GPU 就能开实时数字人，灵活适配设备。
人格记忆 + 知识库问答：每个数字人有独立记忆，跨对话不遗忘；还能导入文档、资料，结合 RAG 精准回答专业问题。
插件化可定制：大模型、语音合成、语音识别都能换，支持阿里云、火山引擎等主流服务商，按需求自由搭配。

二、搭建前准备：环境 + 配置

搭建分纯语音模式（无 GPU） 和数字人视频模式（有 GPU），新手先试纯语音，不用额外硬件，跟着准备就行。

1. 基础环境（必装）

系统：Windows/macOS/Linux 都行

核心软件：

验证命令（终端输入，有版本号就 ok）：

node --version
go version
ffmpeg -version
conda --version

2. API 密钥（必配，免费够用）

需要一个大模型 API 密钥，推荐阿里云通义千问或火山引擎豆包，免费额度足够个人测试：

阿里云：申请DASHSCOPE_API_KEY

火山引擎：申请DOUBAO_ACCESS_TOKEN和DOUBAO_APP_ID

3. 数字人视频模式额外要求（可选）

想生成会动的数字人视频，需要：

显卡：RTX 4090/5090 或更高（显存 24GB+）

CUDA 12.8+、PyTorch 2.8

预训练模型：FlashHead（轻量）或 LiveAct（高清）

三、从零开始搭建：5 步搞定纯语音版（新手首选）

纯语音版不用 GPU，5 步就能跑通，跟着复制命令就行，全程无复杂操作。

第 1 步：克隆项目仓库

打开终端，输入命令，把项目下载到本地：

git clone https://github.com/dsd2077/CyberVerse.git
cd CyberVerse

第 2 步：创建 Python 虚拟环境

用 Conda 创建专属环境，避免依赖冲突：

conda create -n cyberverse python=3.10
conda activate cyberverse

第 3 步：配置 API 密钥

复制环境变量模板：

cp infra/.env.example .env

打开.env文件，填入你的 API 密钥（二选一）：

# 阿里云通义千问
DASHSCOPE_API_KEY=你的密钥

# 火山引擎豆包
DOUBAO_ACCESS_TOKEN=你的密钥
DOUBAO_APP_ID=你的APPID

第 4 步：开启纯语音模式

复制配置文件，关闭数字人视频（不用 GPU）：

cp infra/cyberverse_config.example.yaml cyberverse_config.yaml

打开cyberverse_config.yaml，找到这行，改为false：

yaml

inference:
  avatar:
    enabled: false  # 关闭数字人视频，纯语音模式

第 5 步：安装依赖 + 启动服务

1. 安装所有依赖

make setup
pip install -e ".[all]"

2. 启动 3 个服务（开 3 个终端，分别执行）

终端 1：Python 推理服务

conda activate cyberverse
make inference

终端 2：Go API 服务

make server

终端 3：前端页面

make frontend

3. 验证是否成功

终端输入命令，返回ok就正常：

curl -s http://localhost:8080/api/v1/health

浏览器打开http://localhost:5173，就能进入 CyberVerse 后台！

四、进阶：开启数字人视频

有 RTX 4090 以上显卡，就能开启实时数字人，口型、表情全同步，步骤很简单。

1. 下载数字人模型

推荐 FlashHead（轻量，4090 就能跑），终端执行：

# 安装下载工具
pip install "huggingface_hub[cli]"

# 国内用户用镜像（加速）
export HF_ENDPOINT=https://hf-mirror.com

# 下载FlashHead模型
hf download Soul-AILab/SoulX-FlashHead-1_3B --local-dir ./checkpoints/SoulX-FlashHead-1_3B

# 下载音频特征模型
hf download facebook/wav2vec2-base-960h --local-dir ./checkpoints/wav2vec2-base-960h

2. 开启数字人配置

打开cyberverse_config.yaml，修改为：

yaml

inference:
  avatar:
    enabled: true  # 开启数字人
    default: "flash_head"  # 用FlashHead模型
    flash_head:
      checkpoint_dir: "./checkpoints/SoulX-FlashHead-1_3B"  # 模型路径
      wav2vec_dir: "./checkpoints/wav2vec2-base-960h"
      model_type: "lite"  # lite=流畅，pro=高清（需更高GPU）

3. 重启服务

关闭之前的 3 个终端，重新执行启动命令，看到Active avatar model initialized就成功了。

五、实测使用：

搭建完成后，直接在浏览器里操作，3 分钟创建专属数字人，实测体验拉满。

1. 创建专属数字人

浏览器打开http://localhost:5173，注册登录（本地部署，随便填信息）。
点击「创建角色」，上传一张正面清晰照片（无遮挡、光线足）。
设置角色信息：
点击「生成」，等待 1-2 分钟，数字人就创建好了！

2. 实时对话实测

进入角色页面，点击「开始对话」，允许麦克风权限。
直接说话：比如 “你好，介绍一下你自己”，数字人会实时回复，支持随时打断，不用等它说完。
混合输入：既能语音聊，也能打字发消息，数字人会无缝衔接回复。
知识库问答：上传一份 PDF / 文档，数字人能基于文档内容精准回答，比如 “总结这份文档的核心内容”。

3. 真实体验感受

语音延迟：很低，几乎实时，打断响应快，没有明显卡顿。
数字人表现：口型和语音完全同步，待机时会有轻微呼吸动作，表情自然，不是僵硬的 “假人”。
记忆能力：关闭页面再重新打开，之前的对话内容还在，能记住你的偏好，连续对话感强。

六、避坑总结：

依赖安装失败：用 Conda 创建专属环境，避免和本地 Python 冲突；国内用户建议换清华源。
服务启动报错：检查 API 密钥是否正确、端口是否被占用（8080/5173/50051），关闭占用端口的程序。
数字人不显示：确认 GPU 显存≥24GB、CUDA 安装正确；模型路径填对，model_type先选lite。
语音没声音：检查麦克风权限、API 密钥（语音合成需要对应服务商密钥）。

七、最后想说

CyberVerse 是目前最容易上手、功能最完整的开源数字人平台，没有花里胡哨的冗余功能，聚焦 “实时对话 + 数字人互动”，不管是个人玩、做内容创作，还是开发定制 AI 助手，都很合适。

它的核心价值，是降低了数字人的制作和使用门槛—— 不用专业技术，一张照片就能拥有专属 AI，这在以前根本不敢想。而且开源免费（GPL v3.0 协议），个人商用都没问题，后续还会更新声音克隆、口型精准同步等功能，潜力很大。

全部评论 (0)

请登录后发表评论

暂时还没有评论，快来评论一条吧