"Dual-line Testing" Qwen 3.6-Plus, is Agentic Coding already this capable of "handling the workload"?

Leiphone

雷锋网

May 10, 2026, 11:44 PM

雷峰网讯你可以从同事.skill 的爆火中看到两种截然不同的时代情绪，其一固然是对 Markdown 文件“大变活人”这一魔幻现实的试探，而反面则是如今对模型能力的评价，已经离不开工作级任务的场景。 “AI 能不能替代程序员”的老生常谈之下，今天的真问题是，国产大模型能在多大程度上接管开发工作流。这背后是一个被反复验证的痛点：当 AI Agent 被放进真实项目，它并没有想象中那么“能扛活”。它能开始任务，但执行过程反复中断，多轮对话后上下文丢失，结果前后不一致。面对非标准需求时，工具调用也频频失误。你一觉醒来，发现流程早已卡死，标准结局总是如此。问题的根源不在 Agent 的外壳，而在底层大模型本身还缺乏稳定可靠的“执行力”和“决策力”。 4月7日，阿里云通义千问 Qwen3.6-Plus 正式上线，在 Terminal-Bench 2.0 编程测试中超越了 Claude Opus 4.5，拿下全球编程模型榜首。但我们决定换一种更接近真实场景的方式测一次，不用单点的 Benchmark，而是用两套真实复杂任务，覆盖“决策”与“执行”两条能力轴，全面评估 Qwen 3.6-Pl