环球体育(HQ Sports) CVPR 2026 视频模子趋势梳理：不啻生成下一帧，更要见地下一步

发布日期：2026-05-17 13:35 来源：未知作者：admin 浏览次数：

视频智能正从画面生成走向见地收敛、动态建模、信号见地与真是场景应用。

作家丨郑佳好意思

裁剪丨马晓宁

昔日，视频生成更多是在科罚"像不像"的问题：东说念主物是否廓清，画面是否见地，作风是否调解。但跟着模子能力进步，视频信得过穷困的部分开始显现出来——它不是一组漂亮帧的见地播放，而是一个由时刻、空间、见地、相机、光照和物理信号共同组成的动态系统。

只须模子无法见地这些隐含结构，它生成的视频就可能看似传神，却在见地逻辑、视角一致性或真是场景适合上露出裂缝。因此，视频智能正在干预一个更深的阶段：不仅仅生成画面，而是见地画面为什么会这么变化。

从见地轨迹裁剪、3D 结构拘谨、可迭代文生视频，到自适合视频 token、永久见地表征、频闪去除、热成像分离和地球不雅测模子，商讨者本体上都在处理团结个底层问题：怎样让模子把视频从"像素序列"见地为"动态寰宇"。

幸运飞艇APP官网下载

这亦然本年 CVPR 相关地方中一个值得庄重的信号——视频模子的竞争要点，正在从视觉质料转向对时刻、空间和物理规矩的建模能力。

换句话说，视频 AI 的下一步，不是单纯把视频生成得更长、更明晰、更炫，而是让模子知说念见地从何处来、结构为什么踏实、信号怎样形成，以及复杂场景中的变化怎样被计算和收敛。

当这些能力迟缓补皆，视频模子才可能信得过从内容生成器具，走向或者见地、裁剪和推演施行寰宇的动态智能系统。

从改画面到改见地

视频生成和视频裁剪正在从"画面是否颜面"，走向"见地是否可控"。谷歌和石溪大学共同提议的《MotionV2V: Editing Motion in a Video》商讨的恰是怎样不单修改视频作风或局部外不雅，而是平直裁剪视频里的"见地"。

比如让东说念主物换地方、让物体晚少量出现，或在保留场景内容的同期编削镜头见地。现存递次一朝触及物体见地、相机轨迹或时刻递次变化，就很难保留原视频后续帧中已有的内容。

MotionV2V 的中枢念念路是把视频见地示意成疏淡轨迹点，并让用户平直裁剪这些轨迹。系统先从输入视频中索取物体或场景点的原始见地轨迹，用户再指定主见见地，模子凭据"原始轨迹"和"主见轨迹"之间的各异生成裁剪后的视频。论文把这种各异称为 motion edit，并用它指令视频扩散模子，在尽量保留原视频内容的同期，让主见物体或相机按新的方法见地。

论文地址：https://arxiv.org/pdf/2511.20640v1

它的亮点在于，MotionV2V 不是从单张图片再行生成视频，而是信得过以完好输入视频为条款进行 video-to-video motion editing。因此它不错诓骗视频中率性时刻点的信息，处理首帧里还没出现的物体，也能搭救物体见地、相机见地、时刻收敛和见地屡次裁剪。

作家还构建了 motion counterfactuals，即内容换取但见地不同的视频对，用来微调 motion-conditioned video diffusion 架构。从论文对比来看，MotionV2V 在内容保留、见地收敛和全体裁剪质料上优于已有递次，用户商讨中也取得约 70% 的偏好率。全体来看，这篇论文把视频裁剪从"改外不雅"推动到"改见地"。

当见地裁剪触及相机、物体和非刚性形变时，仅靠 2D 见地痕迹时常不够。Adobe 和马里兰大学帕克分校共同提议的《Generative Video Motion Editing with 3D Point Tracks》进一步使用 3D point tracks 作为调解的见地收敛示意，同期编削视频里的相机见地和物体见地。

系统会先揣度输入视频中的相机参数和 3D 点轨迹，用户裁剪相机见地或物体轨迹后，再由 video-to-video 生成模子合成新视频。

论文地址：https://arxiv.org/pdf/2512.02015v1

比较 2D 轨迹，3D 轨迹提供了深度信息，不错匡助模子判断膺惩关系、前后档次和真是空间见地。论文还假想了 3D track conditioner，通过 cross-attention 从输入视频中采样视觉高下文，并把这些信息对皆到主见帧空间中，让模子在编削见地的同期保执画面连贯。

由于真是寰宇中很难取得成对试验数据，作家弃取两阶段试验：先用合成数据学习基础见地收敛，竞博体育JBO(中国)官网再用真是单目视频构造非见地片断对，缩小合成到真是的差距。全体来看，这篇论文把视频见地裁剪推动到更 3D-aware 的阶段，也搭救见地移动、非刚性变形、物体移除和复制等着力。

要是输入惟有一张物体图像，模子如安在相机绕物体旋转时生成踏实、真是、结构一致的视频？澳大利亚国立大学和亚马逊共同提议的《Towards Realistic and Consistent Orbital Video Generation via 3D Foundation Priors》商讨的便是从单张物体图像生成 orbital video。现存视频生成递次在大角度视角变化时穷乏可靠像素对应关系，容易生成结构污蔑或不对理的物体神气。雷峰网

论文地址：https://arxiv.org/pdf/2604.12309

这篇论文的中枢念念路是引入 3D foundation model 中学到的神气先验，用它缓助视频扩散模子生成更踏实的环绕视频。模子从单张输入图像中索取两类 3D latent features：全局 latent vector 提供全体结构指令，体积特征投影得到的 latent images 提供随视角变化的几何细节。

比较深度图或法线图，这些 3D latent features 能抒发更完好的物体神气，也幸免显式索取 mesh 的稀奇支拨。作家还假想了 multi-scale 3D adapter，把不同范例的 3D 特征接入基础视频模子，从而进步生成视频的真是感、物体神气合感性和多视角一致性。

谷歌和新加坡国立大学共同提议的《VISTA: A Test-Time Self-Improving Video Generation Agent》则把重点放在生成历程自己：当用户给出文本想法后，系统能弗成反复评估、反念念和修改，直到生成更妥当意图的视频。

它商讨的是 test-time self-improvement，也便是不再行试验视频生成模子，而是在推理阶段通过反复评价和改写 prompt 来进步收尾。

VISTA 会先把用户想法拆成带未必刻结构的场景策动，包括时长、变装、动作、对白、环境、相机、声息和感情等成分；生成多个候选视频后，通过 pairwise tournament 选出面前最佳收尾；随后由视觉、音频和高下文评审智能体提议意见，终末由 reasoning agent 轮廓响应并改写 prompt，干预下一轮生成。

论文地址：https://arxiv.org/pdf/2510.15831

它的亮点在于，VISTA 不是只优化某个研讨，而是把视频策动、候选筛选、多维度评价和教唆词重写串成自动闭环。论文中提到，VISTA 在自动研讨下相较先进基线最高达到 60% 的 pairwise win rate，在东说念主工评测中也取得 66.4% 的偏好率。全体来看，环球体育(HQ Sports)它把文生视频从"一次性生成"推动到"生成—评价—反念念—再生成"。

让模子先学会「何如动」

要让视频模子更好地生成和裁剪内容，底层示意也需要更高效。上海交通大学、香港汉文大学多媒体实验室、上海东说念主工智能实验室 OpenGVLab、同济大学、清华大学共同提议的《AdapTok: Learning Adaptive and Temporally Causal Video Tokenization in a 1D Latent Space》商讨的是视频 tokenization 问题，也便是怎样把见地视频帧压缩成更妥当自总结模子处理的翻脸 token。

论文地址：https://arxiv.org/pdf/2505.17011v2

AdapTok 的中枢念念路是让视频 token 分派变得自适合。它不是给每个时刻段分派雷同多的 token，而是凭据视频内容、时刻变化和全体预算，动态决定何处多用 token、何处少用 token。

它使用 1D latent token space 示意视频，并引入 temporal causality，让前边帧的编码妥协码不依赖将来帧，更妥当流式处理和自总结生成；同期通过 block-wise masking、block causal scorer 和 IPAL 计策完成自适合分派。

这么一来，见地光显、场景变化大的片断会取得更多 token，静态或冗余片断则使用更少 token。在 UCF-101 和 Kinetics-600 任务中，AdapTok 在不同 token 预算下都能进步重建质料和生成表露。

AdapTok 科罚的是视频怎样被高效示意，而 CompVis @ LMU、MCML 和苹果共同提议的《Learning Long-term Motion Embeddings for Efficient Kinematics Generation》进一步追问：要是仅仅见地将来何如动，是否一定要完好生成像素视频。论文转向学习一种更紧凑的 long-term motion embedding，用来示意场景中的永久见地规矩。

它从大限度 tracker 模子得到的轨迹数据中学习压缩见地空间，把疏淡轨迹和肇始帧编码成 latent motion grid，并可在职意空间查询点上重建密集见地；随后在这个见地 latent 空间里试验 conditional flow-matching 模子，凭据文本任务描述或 spatial pokes 生成永久见地。这种示意可达到 64 倍时刻压缩，也便是说模子无谓逐帧生成视频，就能在更抽象的见地空间中推断将来动态。

论文地址：https://arxiv.org/pdf/2604.11737

这篇论文的亮点在于，它把"生成视频"拆成了更基础的"生成见地"。这种 kinematics-first 方法更妥当探索多个可能将来，也更妥当机器东说念主策动、轨迹计算和永久动态建模。

在敞开域互联网视频和 LIBERO 机器东说念主基准上，它的见地生成质料、条款遵照能力和着力都优于挑升轨迹计算递次以及 Wan、Veo 3 等视频模子基线。全体来看，AI 不一定要先"画出将来"，也不错先学会"将来应该何如动"。

从缔造画面到见地信号来源

除了生成和裁剪，视频与图像商讨也在关心怎样从复杂成像退化中回应可靠信息。南开大学国外先进商讨院、鹏城实验室、南开大学蓄意机学院、香港理工大学、OPPO 商讨院共同提议的《It Takes Two: A Duet of Periodicity and Directionality for Burst Flicker Removal》商讨的是短曝光连拍图像中的 flicker artifact 去除问题。

这类退化由东说念主工光源频闪和 rolling shutter 共同酿成，表露为条纹状、明暗不均的精明，弗成浅薄行为每每噪声或低光增强处理。

Flickerformer 的中枢念念路是诓骗精明退化的周期性和地方性。周期性来自交流电光源亮度变化，地方性与相机逐行扫描机制关联。针对这两个特色，Flickerformer 假想了 PFM、AFFN 和 WDAM 三个模块，分别用于帧间相位相关会通、单帧自相关建模，以及小波域地方性高频缔造。雷峰网

论文地址：https://arxiv.org/pdf/2603.22794v1

它的亮点在于，把频闪自己的物理先验嵌上钩络结构里，而不是把 flicker removal 当成每每图像增强任务。在 BurstDeflicker benchmark 上，Flickerformer 进步多种图像规复和 burst restoration 递次，取得 31.226 PSNR、0.920 SSIM、0.045 LPIPS。全体来看，这篇论文让模子或者更准确地去除条纹精明，同期保留细节并减少重影。

雷同念念路也出咫尺热成像商讨中。CMU 提议的《Dual Band Video Thermography: Separating Time-Varying Reflection and Emission Near Ambient Conditions》商讨的是热成像中的放射 / 反射分离问题。

热相机看到的长波红外信号既可能来自物体自身热辐射，也可能来自周围环境反射；在接近室温的日常场景中，这两部分信号强度接近且都会随时刻变化，因此很难判断亮暗变化到底来自物体温度变化，还是配景反射。

论文地址：https://arxiv.org/pdf/2509.11334

论文提议 dual-band thermal videography，用两个长波红外子波段视频分离"物体自身放射"和"配景反射"。它同期诓骗光谱痕迹和时刻痕迹：团结材料在两个波段中的放射率比例相对固定，而物体热传导变化频繁更平滑、配景反射变化更快。

实验中，递次能把咖啡壶升温时的热放射与摆布出动东说念主物的反射分开，也能别离玻璃板上的手指热印和手指反射。在羽觞和咖啡壶视频中的非校准温度揣度弊端分别约为 1.72% 和 5.34%。全体来看，这篇论文把热成像从"看到温度漫衍"推动到"见地热信号来源"。

让视觉模子干预真是寰宇任务

当视觉模子干预遥感和地球不雅测场景时，问题会比每每图像更复杂：模子不仅要处理图像，还要同期见地时刻序列、多源数据和舆图标注。艾伦东说念主工智能商讨所、华盛顿大学、亚利桑那州立大学、不列颠哥伦比亚大学积存提议的《Helios: Stable Latent Image Modeling for Multimodal Earth Observation》商讨的是面向地球不雅测数据的多模态基础模子。

地球不雅测数据既有图像空间结构，也有雷同视频或文本的时刻序列特征，还包含卫星影像、舆图、地形、作物、地皮遮掩等多种模态。

这篇论文提议的模子叫 OlmoEarth，主见是让地球不雅测基础模子更踏实、更高效，也更容易落地到环保、东说念主说念主义和巨匠利益相关任务中。它不单试验模子，还配套构建端到端平台，用于数据积存、标注、试验和推理，裁减真是组织使用前沿地球不雅测模子的门槛。

论文地址：https://arxiv.org/pdf/2511.13655

OlmoEarth 的中枢递次是 Latent MIM Lite。它用立时运升沉、试验中冻结的线性投影层，把图像 patch 投到 token 空间作为计算主见，在保留 latent modeling 表征能力的同期进步试验踏实性。这个假想还把自监督数据和带标注舆图数据调解到团结个 token 空间里，让模子不错用换取亏空学习不雅测数据和标签舆图。

针对遥感数据空间、时刻和模态高度冗余的问题，OlmoEarth 弃取 modality-aware masking，让模子必须从其他时刻、空间或模态中推断缺失信息；同期只在团结 bandset 内进行 token 对比，幸免无数"太容易"的负样本松开试验着力。

轮廓评估中，OlmoEarth 与 12 个其他基础模子比较，在 embedding 评估中于 24 个任务里的 15 个取得最佳表露；在 full fine-tuning 竖立下，于 29 个任务里的 19 个取得最佳表露。全体来看，这篇论文为地球不雅测任务提议了一个更踏实、更敞开、更面向真是应用的多模态基础模子体系。

此次去 CVPR 现场，一定不要错过

【意志大牛 + 赚外快】的契机

需要你作念什么：把你最关心的 10 个大会论述，每页 PPT 都拍下来

你能取得什么？

意志大牛：你将不错干预 CVPR 名师博士社群；

钱多活少：提供丰厚奖金，任务量精简；

听会解放：你的行程你作念主，顺遂就把外快赚。拍下你最感兴味的 10 个论述 PPT 即可。

要是你行将前去 CVPR，想边听会边收货，还能趁便为 AI 学术社区作念孝敬、意志更多大牛，宽容磋商咱们： [ 添加微信号 :MS_Yahei ]

【名额 5 位，先到先得】

上一篇：上一篇：环球体育官网登录入口刘伯承评价豫东接触：这场仗唯独粟裕敢打，也唯独他能打赢

下一篇：下一篇：环球体育登录入口科莫1-0帕尔马，阿尔韦托-莫雷诺制胜球

环球资讯

环球体育(HQ Sports) CVPR 2026 视频模子趋势梳理：不啻生成下一帧，更要见地下一步