Westlake University Zhang Chi Team: Achieving Longer and More Stable Video Generation Without Retraining | CVPR 2026

Leiphone

雷锋网

Apr 22, 2026, 02:28 AM

过去一段时间，AI 视频最让人惊艳的，往往都是前几秒。人物状态自然，光影氛围到位，动作也足够流畅，很容易让人产生一种感觉，视频生成已经离真正可用不远了。但行业越往前走，问题也越清楚，真正难的从来不是做出一小段漂亮画面，而是能不能把这种质量稳定地延续下去。一旦视频时长被拉长，很多模型就会开始慢慢失稳，人物、场景和动作表面上还在延续，内部却已经出现细节漂移和时序松动。这也是为什么，今天 AI 视频行业真正卡住的地方，已经不只是能不能生成片段，而是能不能生成连续、稳定、可以承载完整情境的内容。比如一段厨房视频里，镜头从备菜推进到下锅，再切到摆盘，观众期待看到的是同一个空间、同一套器具和同一份食材被自然地串联起来。再比如一段城市通勤视频里，人物从地铁口走到街边店铺，镜头可以变化，但人物状态、环境关系和动作逻辑不能越走越散。只有解决这种长时间稳定性问题，AI 视频才真正有机会从展示走向创作和生产。也正是在这样的背景下，西湖大学的张驰团队提出了《Free-Lunch Long Video Generation via Layer-Adaptive O.O.D Correction》。这项