0
0
一张照片 “复活” 数字人!开源 CyberVerse 搭建 + 实测,实时音视频对话太绝了
极客极客 · 2026-05-21

CyberVerse是一套实时音视频 Agent 平台,基于 WebRTC、人设记忆、RAG 等技术,能让数字人拥有独立人格,支持长时间对话、语音打断,甚至能结合知识库精准回答问题。

一、CyberVerse 到底能做啥?

一张照片,让数字人真正「活」起来:

  1. 一张照片生成数字人:不用 3D 建模、不用动捕,上传一张正面照,就能生成会说话、有表情、口型同步的数字人,支持自定义人格、声线。
  2. 实时音视频对话:基于 WebRTC 技术,低延迟视频通话,支持随时打断、语音文本混合聊,数字人会有自然待机呼吸感,不是僵硬的动画。
  3. 纯语音 / 视频双模式:没 GPU 也能玩,关闭数字人视频,就是纯语音助手;有 GPU 就能开实时数字人,灵活适配设备。
  4. 人格记忆 + 知识库问答:每个数字人有独立记忆,跨对话不遗忘;还能导入文档、资料,结合 RAG 精准回答专业问题。
  5. 插件化可定制:大模型、语音合成、语音识别都能换,支持阿里云、火山引擎等主流服务商,按需求自由搭配。

二、搭建前准备:环境 + 配置

搭建分纯语音模式(无 GPU) 和数字人视频模式(有 GPU),新手先试纯语音,不用额外硬件,跟着准备就行。


1. 基础环境(必装)

系统:Windows/macOS/Linux 都行

核心软件:

验证命令(终端输入,有版本号就 ok):

node --version
go version
ffmpeg -version
conda --version

2. API 密钥(必配,免费够用)

需要一个大模型 API 密钥,推荐阿里云通义千问或火山引擎豆包,免费额度足够个人测试:

阿里云:申请DASHSCOPE_API_KEY

火山引擎:申请DOUBAO_ACCESS_TOKEN和DOUBAO_APP_ID

3. 数字人视频模式额外要求(可选)

想生成会动的数字人视频,需要:

显卡:RTX 4090/5090 或更高(显存 24GB+)

CUDA 12.8+、PyTorch 2.8

预训练模型:FlashHead(轻量)或 LiveAct(高清)

三、从零开始搭建:5 步搞定纯语音版(新手首选)

纯语音版不用 GPU,5 步就能跑通,跟着复制命令就行,全程无复杂操作。


第 1 步:克隆项目仓库

打开终端,输入命令,把项目下载到本地:

git clone https://github.com/dsd2077/CyberVerse.git
cd CyberVerse

第 2 步:创建 Python 虚拟环境

用 Conda 创建专属环境,避免依赖冲突:

conda create -n cyberverse python=3.10
conda activate cyberverse

第 3 步:配置 API 密钥

  1. 复制环境变量模板:
cp infra/.env.example .env
  1. 打开.env文件,填入你的 API 密钥(二选一):


# 阿里云通义千问
DASHSCOPE_API_KEY=你的密钥

# 火山引擎豆包
DOUBAO_ACCESS_TOKEN=你的密钥
DOUBAO_APP_ID=你的APPID

第 4 步:开启纯语音模式

复制配置文件,关闭数字人视频(不用 GPU):

cp infra/cyberverse_config.example.yaml cyberverse_config.yaml

打开cyberverse_config.yaml,找到这行,改为false:

yaml

inference:
  avatar:
    enabled: false  # 关闭数字人视频,纯语音模式

第 5 步:安装依赖 + 启动服务

1. 安装所有依赖

make setup
pip install -e ".[all]"

2. 启动 3 个服务(开 3 个终端,分别执行)

终端 1:Python 推理服务

conda activate cyberverse
make inference

终端 2:Go API 服务

make server

终端 3:前端页面

make frontend

3. 验证是否成功

终端输入命令,返回ok就正常:

curl -s http://localhost:8080/api/v1/health

浏览器打开http://localhost:5173,就能进入 CyberVerse 后台!

四、进阶:开启数字人视频

有 RTX 4090 以上显卡,就能开启实时数字人,口型、表情全同步,步骤很简单。

1. 下载数字人模型

推荐 FlashHead(轻量,4090 就能跑),终端执行:

# 安装下载工具
pip install "huggingface_hub[cli]"

# 国内用户用镜像(加速)
export HF_ENDPOINT=https://hf-mirror.com

# 下载FlashHead模型
hf download Soul-AILab/SoulX-FlashHead-1_3B --local-dir ./checkpoints/SoulX-FlashHead-1_3B

# 下载音频特征模型
hf download facebook/wav2vec2-base-960h --local-dir ./checkpoints/wav2vec2-base-960h

2. 开启数字人配置

打开cyberverse_config.yaml,修改为:

yaml

inference:
  avatar:
    enabled: true  # 开启数字人
    default: "flash_head"  # 用FlashHead模型
    flash_head:
      checkpoint_dir: "./checkpoints/SoulX-FlashHead-1_3B"  # 模型路径
      wav2vec_dir: "./checkpoints/wav2vec2-base-960h"
      model_type: "lite"  # lite=流畅,pro=高清(需更高GPU)

3. 重启服务

关闭之前的 3 个终端,重新执行启动命令,看到Active avatar model initialized就成功了。


五、实测使用:

搭建完成后,直接在浏览器里操作,3 分钟创建专属数字人,实测体验拉满。


1. 创建专属数字人

  1. 浏览器打开http://localhost:5173,注册登录(本地部署,随便填信息)。
  2. 点击「创建角色」,上传一张正面清晰照片(无遮挡、光线足)。
  3. 设置角色信息:
  4. 点击「生成」,等待 1-2 分钟,数字人就创建好了!


2. 实时对话实测


  1. 进入角色页面,点击「开始对话」,允许麦克风权限。
  2. 直接说话:比如 “你好,介绍一下你自己”,数字人会实时回复,支持随时打断,不用等它说完。
  3. 混合输入:既能语音聊,也能打字发消息,数字人会无缝衔接回复。
  4. 知识库问答:上传一份 PDF / 文档,数字人能基于文档内容精准回答,比如 “总结这份文档的核心内容”。


3. 真实体验感受


  • 语音延迟:很低,几乎实时,打断响应快,没有明显卡顿。
  • 数字人表现:口型和语音完全同步,待机时会有轻微呼吸动作,表情自然,不是僵硬的 “假人”。
  • 记忆能力:关闭页面再重新打开,之前的对话内容还在,能记住你的偏好,连续对话感强。


六、避坑总结:

  1. 依赖安装失败:用 Conda 创建专属环境,避免和本地 Python 冲突;国内用户建议换清华源。
  2. 服务启动报错:检查 API 密钥是否正确、端口是否被占用(8080/5173/50051),关闭占用端口的程序。
  3. 数字人不显示:确认 GPU 显存≥24GB、CUDA 安装正确;模型路径填对,model_type先选lite。
  4. 语音没声音:检查麦克风权限、API 密钥(语音合成需要对应服务商密钥)。


七、最后想说

CyberVerse 是目前最容易上手、功能最完整的开源数字人平台,没有花里胡哨的冗余功能,聚焦 “实时对话 + 数字人互动”,不管是个人玩、做内容创作,还是开发定制 AI 助手,都很合适。

它的核心价值,是降低了数字人的制作和使用门槛—— 不用专业技术,一张照片就能拥有专属 AI,这在以前根本不敢想。而且开源免费(GPL v3.0 协议),个人商用都没问题,后续还会更新声音克隆、口型精准同步等功能,潜力很大。



0
0
全部评论 (0)
请登录后发表评论
暂时还没有评论,快来评论一条吧