news 2026/4/23 12:45:05

【AAAI2026】阿里云人工智能平台PAI视频编辑算法论文入选

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【AAAI2026】阿里云人工智能平台PAI视频编辑算法论文入选

近期,阿里云人工智能平台 PAI 的视频编辑算法论文在 AAAI2026 上正式亮相发表(Zero-to-Hero: Empowering Video Appearance Transfer with Zero-Shot Initialization and Holistic Restoration)。AAAI 是人工智能领域最具影响力的国际顶级会议之一,旨在为研究人员、工程师与产业界专家提供交流平台,展示在机器学习、计算机视觉与生成式 AI 等方向的最新研究成果与应用进展。此次入选标志着阿里云人工智能平台 PAI 在视频编辑算法方面的研究获得了学术界的充分认可。

视频编辑的目标是根据用户需求对目标视频进行修改,其中“外观编辑”是一类关键任务:在尽可能保留视频结构与运动模式的前提下,改变目标主体的颜色、纹理或整体风格。过往主流方法多采用文本提示(prompt)引导编辑,但文本表达往往存在歧义,且难以精确描述细粒度外观(例如复杂配色、局部纹理布局等),从而限制了用户对编辑结果的精细控制。因此,更符合真实创作流程的方案是“参考图驱动的视频编辑”:用户先对某一帧进行精修,得到理想外观的参考图(可通过 Photoshop、ComfyUI 或任意图像编辑工具完成),再将该外观一致地传播到后续帧中(如图1所示)。这类任务天然地将问题拆解为两步:先获得高质量参考帧,再实现跨帧外观一致传播。

图1. 我们提出的视频编辑算法与主流方法的对比

尽管参考图驱动的视频外观传播已有不少探索,但现有方法仍面临明显局限。一类方法依赖光流估计来对齐并传播外观特征,其效果容易受到光流精度影响,在大幅运动、遮挡或复杂镜头变化下会明显退化;另一类方法基于图生视频(I2V)模型进行反演与去噪传播,但往往受显存限制约束视频长度,且轻量时序建模对大运动范围适应不足。此外,近年来一些零样本(zero-shot)外观迁移方法通过干预扩散模型的注意力机制实现跨帧传播,虽然能提升鲁棒性,但往往会引入复合画质退化,例如模糊、颜色缺失或过饱和等问题,并且这种退化会随着多帧传播而累积。

针对上述问题,PAI 团队提出了全新的两阶段方法 Zero-to-Hero,用于提升视频外观迁移的准确性、时序一致性与最终画质。Zero-to-Hero 将“外观传播”解耦为两个阶段:首先生成一个可靠的零样本传播初始化(Zero-Stage),再通过整体性视频修复模型提升画质(Hero-Stage)。图2展示了我们算法的整体框架。在 Zero-Stage 中,我们利用原始视频帧之间的对应关系来引导扩散模型的注意力传播,相比以往依赖光流或额外时序模块的方案,在处理大运动目标时更稳健,从而提供准确且时序一致的初始化结果。然而,对注意力机制的干预会带来难以避免的模糊与颜色缺失等退化。为突破这一零样本上限,我们进一步提出 Hero-Stage:训练一个面向退化模式的条件生成模型,对视频进行画质修复。

图 2:视频编辑过程示意图

如图3所示,Zero-to-Hero 在 Colorization 与 Blender-Color-Edit 两项可逐帧评测的任务上均取得最优结果(PSNR 分别达 28.21/26.76 dB,且 LPIPS 最低、SSIM 最高),同时在 General-Edit 上也在锚点帧指标与时序一致性(MS/SC)上整体领先,体现了更稳定的外观传播与更高的画质保真。

图 3:实验效果概览

如图4所示,在 General-Edit 数据集的定性对比中,Zero-to-Hero 能更准确地贴合参考帧外观,同时最大程度保持原视频的结构与运动一致性;相比基线方法,结果中外观漂移与细节模糊现象更少,整体观感更稳定。

图 4:Zero-to-Hero与其他方法编辑结果示例

论文信息

论文名字:Zero-to-Hero: Empowering Video Appearance Transfer with Zero-Shot Initialization and Holistic Restoration

论文作者:苏彤彤、汪诚愚、廖海鹏、黄俊、鲁东明

论文 pdf 链接:https://arxiv.org/abs/2505.23134

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/25 22:47:22

9-1Python魔术方法完全指南:从基础到高级应用

魔术方法(Magic Methods)是Python面向对象编程中极具特色的功能,它们以双下划线开头和结尾(如__init__),允许开发者自定义类的行为,使其能够与Python语言特性无缝集成。本文将深入解析Python中最…

作者头像 李华
网站建设 2026/4/22 15:32:35

转录因子研究套路(三)

在先前的推文中,小远发现大家对转录因子相关的文章比较感兴趣,因此猜测应该很多人都在做这方面的研究,为了更好的帮助大家开展转录因子的研究,本次推文主要是和大家一起来复盘一下转录因子的常规研究思路及方法,内容可…

作者头像 李华
网站建设 2026/4/18 10:39:20

Kubernetes HPA(Horizontal Pod Autoscaler)详解

本文由deepseek回答。当前大模型质量有一定瑕疵,不过可以作为思路,可以参考 HPA是Kubernetes的水平Pod自动伸缩器,它根据资源使用率或其他自定义指标自动增加或减少Pod的副本数量。 一、HPA的核心概念 1. 水平伸缩 vs 垂直伸缩 水平伸缩(HPA):增加/减少Pod数量 垂直伸…

作者头像 李华
网站建设 2026/4/18 14:59:56

【日记】拖延症玩了一整天游戏(1308 字)

正文 昨天在医院蹲了一整天,挂了 3 个科室(如果不算放射科的话),做了 2 个超声,1 个 CT。属于是把病攒到一起看了…… 好消息,肺结节消了一个。坏消息,消的是小的那个,6mm x 5mm 那个…

作者头像 李华
网站建设 2026/4/16 16:55:11

UUID的隐形成本:一个让数据库“慢下来”的陷阱

UUID的隐形成本:一个让数据库“慢下来”的陷阱 最近我们在性能优化中发现了一个隐蔽的问题:数据库的写入和查询性能在数据量增长后出现明显下降。经过层层排查,最终定位到一个令人意外的原因——我们大量使用的UUID作为主键。 本文将剖析UU…

作者头像 李华
网站建设 2026/4/18 12:13:27

基于深度强化学习的工作负载自适应边缘服务器布局决策方法

1. 论文中文标题 基于深度强化学习的工作负载自适应边缘服务器布局决策方法 2. 论文主要内容概括 本文提出了一种基于深度强化学习的自适应边缘服务器布局与动态优化方法(APD),以解决移动边缘计算中服务器布局问题。该方法将边缘服务器布局建模为马尔可夫决策过程,通过引…

作者头像 李华