在视频扩散生成领域,如何精准操控视频中的运动细节而又不牺牲画面质量,一直是研究者共同追逐的目标。来自 Neflix、Stony Brook 大学等机构的研究人员创新性地提出通过结构化的潜在噪声采样控制运动。实现方法很简单,只要对训练视频做预处理,生成结构化噪声。这一过程不涉及扩散模型的设计,无需改变其架构和训练流程。研究提出了一种全新的噪声扭曲算法,速度超快,能实时运行。它用光流场推导的扭曲噪声,取代随机的时序高斯噪声,同时保持了空间高斯性。由于算法高效,能用扭曲噪声以极小的成本微调视频扩散基础模型。这为用户提供了全面的运动控制方案,可用于局部物体运动控制、全局摄像机运动控制以及运动迁移等场景。此外,算法兼顾了扭曲噪声的时序一致性和空间高斯性,既能保证每帧画面的像素质量,又能有效控制运动。论文链接:https://arxiv.org/pdf/2501.08331本研究的贡献如下:创新的视频扩散模型解决方案:提出一种简单新颖的方法,将运动控制转化为可用于噪声变形的流场,在潜在空间采样时能直接使用。它不仅能与任意视频扩散基础模型搭配,还可和其他控制方式协同使用。高效的噪声变形算法:研发出高效的噪声变形算法,它既能保持空间高斯性,又能追踪跨帧的时间运动流。这让微调运动可控的视频扩散模型时,花费的成本最小,操作也更方便。实验和用户研究充分验证了该方法在各类运动控制应用中的优势。这些应用涵盖局部物体运动控制、运动传递到新场景、基于参考的全局相机运动控制等。在像素质量、可
一拖一拽小猫“活了”,Netflix 等噪声扭曲算法让运动控制更简单
2025-02-03 21:37:49来源: IT之家

关注公众号
赞
你的鼓励是对作者的最大支持
- 消息称 vivo X200 Pro mini 手机将在海外发布,国内上市价 4699 元起2025-02-03 20:55:52
- 苹果公司开年首“修”:发布补丁解决 iOS / macOS 已被黑客利用 CVE-2025-24085 提权漏洞2025-02-03 21:15:25
- 火狐 Firefox 浏览器 135 桌面版发布2025-02-03 21:50:02
- 苹果 Apple Music“音乐回忆 2025”歌单上线,每周更新收录用户常听歌曲2025-02-03 22:28:09
- Nothing Phone(3a)系列手机侧面配“神秘按钮”,有望支持唤醒 AI 或进行快速拍摄2025-02-03 22:33:55
- 《哪吒之魔童闹海》进入中国影史票房前 10:含预售总票房突破 41 亿,有望冲击第一2025-02-03 22:36:36
- 《文明 7》全球媒体评测解禁:IGN 7 分“游戏 UI 过度简化、难以上手”2025-02-03 23:00:44
- 连微商都嫌弃玛莎拉蒂了2025-02-03 15:51:00
- 比亚迪、长安汽车等中企进驻泰国,工作许可证签发数量超日本2025-02-02 18:10:55
- 比亚迪 1 月销售新车超 30 万辆,乘用车同比增长 47.5%2025-02-02 18:23:37
- 1Meta 股价连续 16 日上涨,市值逼近 2 万亿美元
- 2英伟达 RTX 5090 FE 显卡供电接口熔化被指电缆功率分配不均,单根高达 269W
- 3PassMark 测试 20 年来首次出现处理器平均跑分下滑
- 4DeepSeek 被曝估值最高 1500 亿美元达 OpenAI 一半,巴黎地铁 70 岁老人都在聊
- 5海信电视接入 DeepSeek,支持 AI 语音对话
- 6消息称英伟达 GeForce RTX 5070 显卡上市推迟:从 2 月延至 3 月初
- 72024 年中国汽车进口 70.5 万辆:同比下降 11.7%,连续四年下滑
- 8长安公布旗下飞行汽车部分规格:原地垂直起降 + AI 自动驾驶、最大航程 30 公里
- 9旗下首款 240Hz OLED 超感曲面游戏显示器,联想拯救者 Pro34 预热
- 10Anduril 接手美国陆军 IVAS 头显生产工作,微软退出硬件开发