news 2026/5/10 7:51:05

【技术教程】Pixelle-Video:AI 全自动短视频生成引擎

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【技术教程】Pixelle-Video:AI 全自动短视频生成引擎

Pixelle-Video:AI 全自动短视频生成引擎

一、产品概述

输入一个主题,Pixelle-Video 自动完成文案撰写、配图生成、语音合成、视频剪辑,全流程无需人工干预。

核心工作流:

输入主题 → LLM 生成脚本 → 生成配图提示词 → TTS 合成语音 → 生成图片 → 合成视频帧 → 拼接 + 加 BGM → 输出视频

二、核心功能

模块说明
AI 写稿支持通义千问 / GPT / DeepSeek 等主流 LLM
AI 配图通过 ComfyUI(本地)或 RunningHub(云端)生成插图
AI 配音支持 Edge-TTS / Index-TTS / Chat-TTS,支持声音克隆
视频模板内置静态 / 图片 / 视频背景模板,支持竖屏、横屏、方形
背景音乐内置 BGM,支持自定义音乐文件

三、适用场景

  • 知识类短视频:历史、科学、财经、生活技巧等科普内容
  • 批量内容生产:自媒体矩阵、电商产品视频、多平台分发
  • 创意快速验证:低成本试水话题,无需剪辑技能
  • 私有化部署:数据不出本地,完全本地运行

四、安装方式

方式一:Windows 一键整合包(推荐新手)

  1. 前往 GitHub Release 页面下载整合包
  2. 解压到任意文件夹
  3. 双击运行start.bat
  4. 浏览器访问http://localhost:8501
  5. 在「⚙️ 系统配置」中填入 LLM API Key,即可开始使用

整合包已内置所有依赖,无需安装 Python 或配置环境。


方式二:源码安装(适合 Mac / Linux / 进阶用户)

Step 0:安装前置依赖

安装uv(Python 包管理器):

  • 参考 uv 官网 按系统安装
  • 验证:uv --version

安装ffmpeg(视频处理工具):

# macOSbrewinstallffmpeg# Ubuntu / Debiansudoaptupdate&&sudoaptinstallffmpeg# Windows:下载后将 bin 目录添加到系统 PATH

验证:ffmpeg -version

Step 1:克隆项目

gitclone https://github.com/AIDC-AI/Pixelle-Video.gitcdPixelle-Video

Step 2:启动 Web 界面

uv run streamlit run web/app.py

浏览器访问http://localhost:8501


五、Web 界面使用说明

界面分为左、中、右三栏,依次配置后点击生成。

左栏:内容输入

选项说明
AI 生成内容输入主题,由 LLM 自动写稿
固定文案内容粘贴已有脚本,跳过 AI 写稿
分镜数滑动条控制片段数量(每个分镜对应一张图 + 一段语音)
BGM可选无 BGM、内置音乐或自定义 MP3/WAV 文件

中栏:语音 + 视觉设置

语音设置:

TTS 方案特点
edge-tts免费,开箱即用,需联网
index-tts支持声音克隆,需上传参考音频
chat-tts备选 TTS 方案
  • 可上传本人录音作为参考音频,AI 克隆音色,适合个人 IP 打造
  • 支持点击「预览语音」试听效果

视觉设置:

选项说明
图像工作流Selfhost(本地 ComfyUI,免费)或 RunningHub(云端,付费)
图像尺寸默认 1024×1024,可调整
提示词前缀控制配图风格,需用英文,支持预览
视频模板按类型(静态 / 图片 / 视频背景)和尺寸(竖屏 / 横屏 / 方形)选择
自定义参数可配置author(作者名)、brand(品牌名)、describe(描述)

右栏:生成视频

配置完成后点击「🎬 生成视频」,实时显示进度:

生成文案 → 分镜 1/N 生成插图 → ... → 合成语音 → 合成视频

生成完成后自动预览,视频文件保存至output/文件夹。


六、费用对比

方案LLM图像生成费用适合人群
完全免费Ollama(本地)ComfyUI(本地)0 元有 GPU、追求零成本
推荐方案通义千问 APIComfyUI(本地)极低(几分钱/条)性价比优先
云端方案OpenAI / GPTRunningHub较高不想折腾本地环境

七、完整示例

以生成「如何增加被动收入」短视频为例:

1. 配置 API(首次)

  • 展开「⚙️ 系统配置」
  • 选择通义千问,填入 API Key
  • 配置本地 ComfyUI 地址(默认http://127.0.0.1:8188),点击测试连接
  • 保存配置

2. 内容输入

  • 模式:AI 生成内容
  • 主题:如何增加被动收入
  • 分镜数:10
  • BGM:default.mp3

3. 语音设置

  • TTS:edge-tts
  • 音色:男声-专业(云健)
  • 语速:1.2x

4. 视觉设置

  • 图像工作流:image_flux.json - Selfhost
  • 图像尺寸:1024×1024
  • 提示词前缀:Minimalist black-and-white matchstick figure style illustration, clean lines, simple sketch style
  • 视频模板:image_default.html(竖屏 1080×1920)
  • author:@Pixelle.AI,brand:Pixelle-Video

5. 点击生成,等待几分钟,右侧即显示完整视频。


八、常见问题

Q:生成一条视频需要多长时间?
通常几分钟内完成,具体取决于分镜数量和本地 GPU / 网络速度。

Q:效果不满意如何调整?

  • 换 LLM 模型 → 改变文案风格
  • 改提示词前缀 → 改变配图风格
  • 换 TTS 方案或上传参考音频 → 改变声音
  • 换视频模板 → 改变画面布局

Q:可以商用吗?
可以,项目采用 Apache 2.0 许可证,允许商业使用。

Q:支持哪些语言?
界面为中文,生成内容支持中文文案与语音。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/10 7:41:40

RAG系统必看!Recall@K、MRR、NDCG这3个指标,一篇搞懂检索质量评估!

本文以通俗易懂的方式讲解了RAG系统中三个核心检索质量指标:RecallK、MRR和NDCG。RecallK关注正确结果是否出现在前K条中,MRR关注第一个正确结果的排名,NDCG则综合评估多个相关结果的排序质量及相关性。文章通过实例和图示对比了三者区别&…

作者头像 李华
网站建设 2026/5/10 7:39:37

如何在Python中快速接入Taotoken并调用多个大模型API

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 如何在Python中快速接入Taotoken并调用多个大模型API 对于刚接触Taotoken的开发者来说,最关心的问题之一就是如何快速将…

作者头像 李华
网站建设 2026/5/10 7:39:36

集成电路工艺节点逻辑单元相似性分析与硬件安全检测

1. 工艺节点逻辑单元相似性分析概述在集成电路设计领域,工艺节点的每一次演进都带来标准单元库的显著变化。从90nm到28nm工艺,晶体管尺寸的缩小不仅改变了单元的电学特性,也使得逻辑单元之间的功能相似性分析变得更为复杂。这种相似性分析对于…

作者头像 李华
网站建设 2026/5/10 7:37:38

Blender 3MF插件完整指南:如何在Blender中直接处理3D打印文件

Blender 3MF插件完整指南:如何在Blender中直接处理3D打印文件 【免费下载链接】Blender3mfFormat Blender add-on to import/export 3MF files 项目地址: https://gitcode.com/gh_mirrors/bl/Blender3mfFormat 你是否厌倦了在Blender和3D打印软件之间来回切换…

作者头像 李华
网站建设 2026/5/10 7:34:06

从 egghead-next 项目拆解企业级 Next.js 应用架构与工程实践

1. 项目概述与核心价值 如果你是一名前端开发者,尤其是对现代技术栈如 Next.js、React、TypeScript 和 Tailwind CSS 感兴趣,那么 egghead-next 这个项目绝对值得你花时间深入研究。它不是一个简单的教学示例,而是支撑着知名开发者学习平台…

作者头像 李华