Westlake University Zhang Chi Team: Achieving Longer and More Stable Video Generation Without Retraining | CVPR 2026
Leiphone
雷锋网
过去一段时间,AI 视频最让人惊艳的,往往都是前几秒。人物状态自然,光影氛围到位,动作也足够流畅,很容易让人产生一种感觉,视频生成已经离真正可用不远了。 但行业越往前走,问题也越清楚,真正难的从来不是做出一小段漂亮画面,而是能不能把这种质量稳定地延续下去。一旦视频时长被拉长,很多模型就会开始慢慢失稳,人物、场景和动作表面上还在延续,内部却已经出现细节漂移和时序松动。 这也是为什么,今天 AI 视频行业真正卡住的地方,已经不只是能不能生成片段,而是能不能生成连续、稳定、可以承载完整情境的内容。 比如一段厨房视频里,镜头从备菜推进到下锅,再切到摆盘,观众期待看到的是同一个空间、同一套器具和同一份食材被自然地串联起来。再比如一段城市通勤视频里,人物从地铁口走到街边店铺,镜头可以变化,但人物状态、环境关系和动作逻辑不能越走越散。 只有解决这种长时间稳定性问题,AI 视频才真正有机会从展示走向创作和生产。也正是在这样的背景下,西湖大学的张驰团队提出了《Free-Lunch Long Video Generation via Layer-Adaptive O.O.D Correction》。 这项
