无需编程！HeyGem可视化界面手把手教你做数字人-深圳市維司達科技有限公司

无需编程！HeyGem可视化界面手把手教你做数字人

你有没有想过，不用写一行代码、不装复杂环境、不调参数、不配GPU——只要点点鼠标，就能把一段录音变成口型精准、表情自然的数字人视频？不是概念演示，不是实验室demo，而是今天就能在自己电脑或服务器上跑起来的真实工具。

这就是 HeyGem 数字人视频生成系统批量版 WebUI 版。它由开发者“科哥”二次开发构建，把原本需要工程能力才能调用的AI模型，封装成一个像剪映一样直观的网页界面。没有技术背景的运营、讲师、市场人员，甚至实习生，花10分钟看懂操作，就能独立产出专业级数字人视频。

本文不讲原理、不堆术语，只聚焦一件事：怎么用它，把你的想法，一秒变视频。

1. 第一步：启动服务，三秒打开界面

别被“系统”“部署”吓到。这不是要你敲几十行命令、改配置文件、查端口冲突。整个过程，就像打开一个本地软件。

1.1 一键启动，不折腾

进入项目所在目录（比如/root/workspace/heygem），执行这一行：

bash start_app.sh

几秒钟后，终端会输出类似这样的提示：

INFO: Uvicorn running on http://0.0.0.0:7860 INFO: Application startup complete.

这就成了。

1.2 浏览器访问，即开即用

打开 Chrome、Edge 或 Firefox（Safari 暂不推荐），在地址栏输入：

http://localhost:7860

如果你是在云服务器上运行，就把localhost换成你的服务器公网IP，例如：

http://123.56.78.90:7860

页面加载完成，你会看到一个干净、分区清晰的界面——顶部是模式切换标签，中间是两大操作区，右侧是预览窗口。没有弹窗广告，没有注册墙，没有试用限制。所有功能，全部开放。

小贴士：如果打不开页面，请确认：
服务器防火墙是否放行了7860端口；
浏览器是否拦截了不安全脚本（关闭广告屏蔽插件试试）；
终端里start_app.sh是否真的执行成功（没报错、没中断）。

2. 第二步：选对模式——批量 or 单个？看你做什么

HeyGem 提供两种工作方式，不是为了炫技，而是真正对应两类真实需求：

单个处理模式：适合快速验证、临时救急、试效果、调风格；
批量处理模式：适合正式出片、多角色适配、多语言分发、团队协作。

别纠结，先看场景：

你的情况	推荐模式	为什么
给领导快速做个30秒汇报视频，就用1个形象	单个处理	步骤最少，3次点击搞定
同一段产品介绍音频，要生成5位不同数字人代言版本	批量处理	上传1次音频 + 添加5个视频 = 5条成品，不重复操作
做英语课件，同一段讲解要配中/英/日三语+三位老师	批量处理	可分别上传三段音频，各自匹配多个视频，任务互不干扰

我们从最常用的批量处理模式开始，手把手带你走完全流程。

3. 第三步：批量处理——5分钟做出5条数字人视频

切换到顶部标签页的“批量处理模式”，界面自动刷新为左右双区布局：左侧是操作控制台，右侧是实时预览区。

3.1 上传你的声音：一段清晰人声就够了

点击左上角“上传音频文件”区域（灰色虚线框），选择你准备好的语音文件。

支持格式：.wav、.mp3、.m4a、.aac、.flac、.ogg
最佳实践：用手机录音笔录的纯人声、会议转写的TTS音频、剪辑好的课程旁白都行；避免带强烈背景音乐或混响过重的音频。

上传完成后，你会看到波形图显示，并可点击 ▶ 播放按钮听一遍——这一步千万别跳过。很多效果问题，根源就在音频本身：语速太快、有杂音、开头有“喂喂”测试音，都会影响口型同步质量。

3.2 添加你的数字人：支持任意真人/虚拟人脸视频

接着，点击下方“拖放或点击选择视频文件”区域。

你可以：

直接把.mp4、.mov、.avi、.mkv、.webm、.flv文件拖进这个区域；
或点击后，在弹窗中按住Ctrl（Windows）或Cmd（Mac）多选多个视频。

推荐视频要求：

人物正脸、居中、光线均匀；
视频中人物保持静止（不要晃动、不要大幅度转头）；
分辨率建议 720p 或 1080p（太低模糊，太高耗时）；
时长建议 ≤5分钟（单条越长，生成越久）。

添加成功后，左侧列表会立刻出现所有视频名称。你可以：

点击任一视频名 → 右侧预览区自动播放该视频原片；
勾选多个 → 点击“删除选中”移除误传项；
点击“清空列表” → 一键重来。

3.3 开始生成：进度看得见，失败不中断

确认音频和视频都没问题后，点击醒目的“开始批量生成”按钮。

此时界面不会变灰、不会卡死，而是立刻进入“工作状态”：

左上角显示当前正在处理的视频名（如teacher_01.mp4）；
中间进度条动态增长，标注 “2/5” 这样的实时计数；
下方滚动日志告诉你每一步在做什么：“正在提取语音特征…”、“唇形关键点检测中…”、“神经渲染第127帧…”

关键优势来了：哪怕第3个视频因格式异常失败，系统也会跳过它，继续处理第4、第5个。你最终拿到的是4条完整视频 + 1条失败提示，而不是“全军覆没”。

这意味着：你可以放心去泡杯茶、回个消息，回来直接看结果。

3.4 查看与下载：预览、单下、打包，全在一页

生成全部完成后，“生成结果历史”区域会自动展开，以缩略图网格形式展示所有成品。

点击任意缩略图 → 右侧播放器立即播放该数字人视频（带音轨）；
点击缩略图下方的下载图标（⬇）→ 直接保存单个.mp4到本地；
点击顶部“📦 一键打包下载”→ 系统自动生成 ZIP 压缩包，包含本次所有视频，命名规范如heygem_batch_export_20250405_153241.zip，点击即可下载。

更贴心的是：

历史记录支持分页（◀ 上一页 / 下一页 ▶），避免页面过长；
可勾选多个缩略图 → 点击“🗑 批量删除选中”，彻底清理空间；
每个缩略图右下角还标有分辨率（如1080p）和时长（如02:18），一眼识别质量。

4. 第四步：单个处理——30秒搞定一条应急视频

当你只需要快速出一条视频，比如临时补个社群预告、给客户发个简短说明，用“单个处理模式”更轻快。

切换到顶部标签页“单个处理模式”，界面变为左右并列两块：

左侧：上传音频（同批量模式）；
右侧：上传视频（同批量模式）。

操作极简：

左边传语音，右边传数字人视频；
点击“开始生成”；
等待进度条走完（通常比批量单条更快，因无队列调度开销）；
结果直接出现在下方“生成结果”区，点击播放、点击下载，一步到位。

适合场景：

音频和视频都只有一份，不想进列表管理；
想快速对比不同视频模板的效果（换一个，再点一次）；
网络不稳定时，小文件上传成功率更高。

5. 第五步：避坑指南——这些细节，决定效果上限

HeyGem 很傻瓜，但“傻瓜”不等于“随便”。几个关键准备细节，能让你的数字人视频从“能用”跃升到“惊艳”。

5.1 音频怎么录才自然？

做法：用手机备忘录录音，或用 Audacity 录制人声，导出为.wav；语速适中（每分钟180–220字），句尾留0.5秒停顿。
避免：微信语音转发（压缩严重）、带BGM的短视频配音（AI会混淆主声源）、会议录音（多人声+回声）。

5.2 数字人视频怎么选才专业？

做法：用高清自拍（手机横屏，正面，白墙背景），或购买商用数字人素材（注意版权）；确保嘴部清晰、无遮挡、无反光。
避免：GIF动图（不支持）、竖屏短视频（拉伸变形）、戴口罩/墨镜/大幅侧脸的视频。

5.3 效果不满意？先检查这三点

问题现象	最可能原因	快速自查
口型明显不同步	音频开头有“滴”声或空白过长	用 Audacity 截掉前0.3秒
画面闪烁/边缘模糊	视频编码过于高压缩（如某些抖音下载版）	用格式工厂转码为 H.264+AAC 的标准MP4
生成中途卡住	服务器显存不足（尤其无GPU时）	查看日志`/root/workspace/运行实时日志.log`，确认是否OOM