环球体育(HQ Sports) CVPR 2026 视频模子趋势梳理:不啻生成下一帧,更要见地下一步


视频智能正从画面生成走向见地收敛、动态建模、信号见地与真是场景应用。
作家丨郑佳好意思
裁剪丨马晓宁
昔日,视频生成更多是在科罚"像不像"的问题:东说念主物是否廓清,画面是否见地,作风是否调解。但跟着模子能力进步,视频信得过穷困的部分开始显现出来——它不是一组漂亮帧的见地播放,而是一个由时刻、空间、见地、相机、光照和物理信号共同组成的动态系统。
只须模子无法见地这些隐含结构,它生成的视频就可能看似传神,却在见地逻辑、视角一致性或真是场景适合上露出裂缝。因此,视频智能正在干预一个更深的阶段:不仅仅生成画面,而是见地画面为什么会这么变化。
从见地轨迹裁剪、3D 结构拘谨、可迭代文生视频,到自适合视频 token、永久见地表征、频闪去除、热成像分离和地球不雅测模子,商讨者本体上都在处理团结个底层问题:怎样让模子把视频从"像素序列"见地为"动态寰宇"。
幸运飞艇APP官网下载这亦然本年 CVPR 相关地方中一个值得庄重的信号——视频模子的竞争要点,正在从视觉质料转向对时刻、空间和物理规矩的建模能力。
换句话说,视频 AI 的下一步,不是单纯把视频生成得更长、更明晰、更炫,而是让模子知说念见地从何处来、结构为什么踏实、信号怎样形成,以及复杂场景中的变化怎样被计算和收敛。
当这些能力迟缓补皆,视频模子才可能信得过从内容生成器具,走向或者见地、裁剪和推演施行寰宇的动态智能系统。
01
从改画面到改见地
视频生成和视频裁剪正在从"画面是否颜面",走向"见地是否可控"。谷歌和石溪大学共同提议的《MotionV2V: Editing Motion in a Video》商讨的恰是怎样不单修改视频作风或局部外不雅,而是平直裁剪视频里的"见地"。
比如让东说念主物换地方、让物体晚少量出现,或在保留场景内容的同期编削镜头见地。现存递次一朝触及物体见地、相机轨迹或时刻递次变化,就很难保留原视频后续帧中已有的内容。
MotionV2V 的中枢念念路是把视频见地示意成疏淡轨迹点,并让用户平直裁剪这些轨迹。系统先从输入视频中索取物体或场景点的原始见地轨迹,用户再指定主见见地,模子凭据"原始轨迹"和"主见轨迹"之间的各异生成裁剪后的视频。论文把这种各异称为 motion edit,并用它指令视频扩散模子,在尽量保留原视频内容的同期,让主见物体或相机按新的方法见地。

论文地址:https://arxiv.org/pdf/2511.20640v1
它的亮点在于,MotionV2V 不是从单张图片再行生成视频,而是信得过以完好输入视频为条款进行 video-to-video motion editing。因此它不错诓骗视频中率性时刻点的信息,处理首帧里还没出现的物体,也能搭救物体见地、相机见地、时刻收敛和见地屡次裁剪。
作家还构建了 motion counterfactuals,即内容换取但见地不同的视频对,用来微调 motion-conditioned video diffusion 架构。从论文对比来看,MotionV2V 在内容保留、见地收敛和全体裁剪质料上优于已有递次,用户商讨中也取得约 70% 的偏好率。全体来看,这篇论文把视频裁剪从"改外不雅"推动到"改见地"。

当见地裁剪触及相机、物体和非刚性形变时,仅靠 2D 见地痕迹时常不够。Adobe 和马里兰大学帕克分校共同提议的《Generative Video Motion Editing with 3D Point Tracks》进一步使用 3D point tracks 作为调解的见地收敛示意,同期编削视频里的相机见地和物体见地。
系统会先揣度输入视频中的相机参数和 3D 点轨迹,用户裁剪相机见地或物体轨迹后,再由 video-to-video 生成模子合成新视频。

论文地址:https://arxiv.org/pdf/2512.02015v1
比较 2D 轨迹,3D 轨迹提供了深度信息,不错匡助模子判断膺惩关系、前后档次和真是空间见地。论文还假想了 3D track conditioner,通过 cross-attention 从输入视频中采样视觉高下文,并把这些信息对皆到主见帧空间中,让模子在编削见地的同期保执画面连贯。
由于真是寰宇中很难取得成对试验数据,作家弃取两阶段试验:先用合成数据学习基础见地收敛,竞博体育JBO(中国)官网再用真是单目视频构造非见地片断对,缩小合成到真是的差距。全体来看,这篇论文把视频见地裁剪推动到更 3D-aware 的阶段,也搭救见地移动、非刚性变形、物体移除和复制等着力。

要是输入惟有一张物体图像,模子如安在相机绕物体旋转时生成踏实、真是、结构一致的视频?澳大利亚国立大学和亚马逊共同提议的《Towards Realistic and Consistent Orbital Video Generation via 3D Foundation Priors》商讨的便是从单张物体图像生成 orbital video。现存视频生成递次在大角度视角变化时穷乏可靠像素对应关系,容易生成结构污蔑或不对理的物体神气。雷峰网

论文地址:https://arxiv.org/pdf/2604.12309
这篇论文的中枢念念路是引入 3D foundation model 中学到的神气先验,用它缓助视频扩散模子生成更踏实的环绕视频。模子从单张输入图像中索取两类 3D latent features:全局 latent vector 提供全体结构指令,体积特征投影得到的 latent images 提供随视角变化的几何细节。
比较深度图或法线图,这些 3D latent features 能抒发更完好的物体神气,也幸免显式索取 mesh 的稀奇支拨。作家还假想了 multi-scale 3D adapter,把不同范例的 3D 特征接入基础视频模子,从而进步生成视频的真是感、物体神气合感性和多视角一致性。

谷歌和新加坡国立大学共同提议的《VISTA: A Test-Time Self-Improving Video Generation Agent》则把重点放在生成历程自己:当用户给出文本想法后,系统能弗成反复评估、反念念和修改,直到生成更妥当意图的视频。
它商讨的是 test-time self-improvement,也便是不再行试验视频生成模子,而是在推理阶段通过反复评价和改写 prompt 来进步收尾。
VISTA 会先把用户想法拆成带未必刻结构的场景策动,包括时长、变装、动作、对白、环境、相机、声息和感情等成分;生成多个候选视频后,通过 pairwise tournament 选出面前最佳收尾;随后由视觉、音频和高下文评审智能体提议意见,终末由 reasoning agent 轮廓响应并改写 prompt,干预下一轮生成。

论文地址:https://arxiv.org/pdf/2510.15831
它的亮点在于,VISTA 不是只优化某个研讨,而是把视频策动、候选筛选、多维度评价和教唆词重写串成自动闭环。论文中提到,VISTA 在自动研讨下相较先进基线最高达到 60% 的 pairwise win rate,在东说念主工评测中也取得 66.4% 的偏好率。全体来看,环球体育(HQ Sports)它把文生视频从"一次性生成"推动到"生成—评价—反念念—再生成"。

02
让模子先学会「何如动」
要让视频模子更好地生成和裁剪内容,底层示意也需要更高效。上海交通大学、香港汉文大学多媒体实验室、上海东说念主工智能实验室 OpenGVLab、同济大学、清华大学共同提议的《AdapTok: Learning Adaptive and Temporally Causal Video Tokenization in a 1D Latent Space》商讨的是视频 tokenization 问题,也便是怎样把见地视频帧压缩成更妥当自总结模子处理的翻脸 token。

论文地址:https://arxiv.org/pdf/2505.17011v2
AdapTok 的中枢念念路是让视频 token 分派变得自适合。它不是给每个时刻段分派雷同多的 token,而是凭据视频内容、时刻变化和全体预算,动态决定何处多用 token、何处少用 token。
它使用 1D latent token space 示意视频,并引入 temporal causality,让前边帧的编码妥协码不依赖将来帧,更妥当流式处理和自总结生成;同期通过 block-wise masking、block causal scorer 和 IPAL 计策完成自适合分派。
这么一来,见地光显、场景变化大的片断会取得更多 token,静态或冗余片断则使用更少 token。在 UCF-101 和 Kinetics-600 任务中,AdapTok 在不同 token 预算下都能进步重建质料和生成表露。

AdapTok 科罚的是视频怎样被高效示意,而 CompVis @ LMU、MCML 和苹果共同提议的《Learning Long-term Motion Embeddings for Efficient Kinematics Generation》进一步追问:要是仅仅见地将来何如动,是否一定要完好生成像素视频。论文转向学习一种更紧凑的 long-term motion embedding,用来示意场景中的永久见地规矩。
它从大限度 tracker 模子得到的轨迹数据中学习压缩见地空间,把疏淡轨迹和肇始帧编码成 latent motion grid,并可在职意空间查询点上重建密集见地;随后在这个见地 latent 空间里试验 conditional flow-matching 模子,凭据文本任务描述或 spatial pokes 生成永久见地。这种示意可达到 64 倍时刻压缩,也便是说模子无谓逐帧生成视频,就能在更抽象的见地空间中推断将来动态。

论文地址:https://arxiv.org/pdf/2604.11737
这篇论文的亮点在于,它把"生成视频"拆成了更基础的"生成见地"。这种 kinematics-first 方法更妥当探索多个可能将来,也更妥当机器东说念主策动、轨迹计算和永久动态建模。
在敞开域互联网视频和 LIBERO 机器东说念主基准上,它的见地生成质料、条款遵照能力和着力都优于挑升轨迹计算递次以及 Wan、Veo 3 等视频模子基线。全体来看,AI 不一定要先"画出将来",也不错先学会"将来应该何如动"。

03
从缔造画面到见地信号来源
除了生成和裁剪,视频与图像商讨也在关心怎样从复杂成像退化中回应可靠信息。南开大学国外先进商讨院、鹏城实验室、南开大学蓄意机学院、香港理工大学、OPPO 商讨院共同提议的《It Takes Two: A Duet of Periodicity and Directionality for Burst Flicker Removal》商讨的是短曝光连拍图像中的 flicker artifact 去除问题。
这类退化由东说念主工光源频闪和 rolling shutter 共同酿成,表露为条纹状、明暗不均的精明,弗成浅薄行为每每噪声或低光增强处理。
Flickerformer 的中枢念念路是诓骗精明退化的周期性和地方性。周期性来自交流电光源亮度变化,地方性与相机逐行扫描机制关联。针对这两个特色,Flickerformer 假想了 PFM、AFFN 和 WDAM 三个模块,分别用于帧间相位相关会通、单帧自相关建模,以及小波域地方性高频缔造。雷峰网

论文地址:https://arxiv.org/pdf/2603.22794v1
它的亮点在于,把频闪自己的物理先验嵌上钩络结构里,而不是把 flicker removal 当成每每图像增强任务。在 BurstDeflicker benchmark 上,Flickerformer 进步多种图像规复和 burst restoration 递次,取得 31.226 PSNR、0.920 SSIM、0.045 LPIPS。全体来看,这篇论文让模子或者更准确地去除条纹精明,同期保留细节并减少重影。

雷同念念路也出咫尺热成像商讨中。CMU 提议的《Dual Band Video Thermography: Separating Time-Varying Reflection and Emission Near Ambient Conditions》商讨的是热成像中的放射 / 反射分离问题。
热相机看到的长波红外信号既可能来自物体自身热辐射,也可能来自周围环境反射;在接近室温的日常场景中,这两部分信号强度接近且都会随时刻变化,因此很难判断亮暗变化到底来自物体温度变化,还是配景反射。

论文地址:https://arxiv.org/pdf/2509.11334
论文提议 dual-band thermal videography,用两个长波红外子波段视频分离"物体自身放射"和"配景反射"。它同期诓骗光谱痕迹和时刻痕迹:团结材料在两个波段中的放射率比例相对固定,而物体热传导变化频繁更平滑、配景反射变化更快。
实验中,递次能把咖啡壶升温时的热放射与摆布出动东说念主物的反射分开,也能别离玻璃板上的手指热印和手指反射。在羽觞和咖啡壶视频中的非校准温度揣度弊端分别约为 1.72% 和 5.34%。全体来看,这篇论文把热成像从"看到温度漫衍"推动到"见地热信号来源"。

04
让视觉模子干预真是寰宇任务
当视觉模子干预遥感和地球不雅测场景时,问题会比每每图像更复杂:模子不仅要处理图像,还要同期见地时刻序列、多源数据和舆图标注。艾伦东说念主工智能商讨所、华盛顿大学、亚利桑那州立大学、不列颠哥伦比亚大学积存提议的《Helios: Stable Latent Image Modeling for Multimodal Earth Observation》商讨的是面向地球不雅测数据的多模态基础模子。
地球不雅测数据既有图像空间结构,也有雷同视频或文本的时刻序列特征,还包含卫星影像、舆图、地形、作物、地皮遮掩等多种模态。
这篇论文提议的模子叫 OlmoEarth,主见是让地球不雅测基础模子更踏实、更高效,也更容易落地到环保、东说念主说念主义和巨匠利益相关任务中。它不单试验模子,还配套构建端到端平台,用于数据积存、标注、试验和推理,裁减真是组织使用前沿地球不雅测模子的门槛。

论文地址:https://arxiv.org/pdf/2511.13655
OlmoEarth 的中枢递次是 Latent MIM Lite。它用立时运升沉、试验中冻结的线性投影层,把图像 patch 投到 token 空间作为计算主见,在保留 latent modeling 表征能力的同期进步试验踏实性。这个假想还把自监督数据和带标注舆图数据调解到团结个 token 空间里,让模子不错用换取亏空学习不雅测数据和标签舆图。
针对遥感数据空间、时刻和模态高度冗余的问题,OlmoEarth 弃取 modality-aware masking,让模子必须从其他时刻、空间或模态中推断缺失信息;同期只在团结 bandset 内进行 token 对比,幸免无数"太容易"的负样本松开试验着力。
轮廓评估中,OlmoEarth 与 12 个其他基础模子比较,在 embedding 评估中于 24 个任务里的 15 个取得最佳表露;在 full fine-tuning 竖立下,于 29 个任务里的 19 个取得最佳表露。全体来看,这篇论文为地球不雅测任务提议了一个更踏实、更敞开、更面向真是应用的多模态基础模子体系。

此次去 CVPR 现场,一定不要错过
【意志大牛 + 赚外快】的契机
需要你作念什么:把你最关心的 10 个大会论述,每页 PPT 都拍下来
你能取得什么?
意志大牛:你将不错干预 CVPR 名师博士社群;
钱多活少:提供丰厚奖金,任务量精简;
听会解放:你的行程你作念主,顺遂就把外快赚。拍下你最感兴味的 10 个论述 PPT 即可。
要是你行将前去 CVPR,想边听会边收货,还能趁便为 AI 学术社区作念孝敬、意志更多大牛,宽容磋商咱们: [ 添加微信号 :MS_Yahei ]
【名额 5 位,先到先得】
