阿里Qwen3.7-Plus发布多模态智能体?11小时自主完成开发刷新行业纪录

阿里Qwen3.7-Plus发布多模态智能体?11小时自主完成开发刷新行业纪录——这一产业前瞻已在通义实验室的最新发布中得到确凿印证,6月2日凌晨千问团队正式推出Qwen3.7-Plus多模态智能体模型,Hybrid-Agent系统连续稳定运行11小时以上、自主生成超10000行代码、触发超1000次智能体调用,完整走通从需求文档到版本迭代的APP全生命周期。当Qwen3.7-Plus多模态智能体开始代替人类"看屏幕、点按钮、写代码、交付结果",传统基于页面浏览和用户点击的追踪链路正在被智能体的无头操作彻底击穿。

"能看、能想、能动手":Qwen3.7-Plus多模态智能体的核心能力拆解
Qwen3.7-Plus在Qwen3.7强大的文本与Agent能力基础上深度融合视觉能力,其核心突破在于将"看、想、写、做、验证"五个环节统一在单一智能体循环中。模型可看懂图形界面并精准定位UI元素、操作桌面和移动端应用、从视觉参考生成可执行代码、在GUI和CLI之间无缝切换,并利用环境反馈进行自我验证与迭代优化。

Qwen3.7-Plus在权威视觉模型排名上帮助阿里进入全球前五、中国第一。纯文本测试中,它接近Max级别模型表现——Terminal Bench 2.0得分70.3%,SWE-Verified得分77.7%,SciCode得分51.3%,在编码智能体和通用智能体任务上均达到Plus级顶尖水平。

多模态测试数据更为亮眼:BabyVision显著提升(空间建模和路径搜索能力增强)、ScreenSpot Pro和AndroidWorld大幅改善(屏幕内容识别、UI元素定位和多步交互能力)、OSWorld-Verified突破性表现(真实桌面环境中的复杂任务执行)。这意味着Qwen3.7-Plus多模态智能体不仅能"识别界面",更能"操作界面"甚至"构建界面"。
11小时自主开发APP:Hybrid-Agent系统的端到端闭环实测
最具颠覆性的实测来自Hybrid-Agent系统。该系统基于Qwen3.7构建,将大模型的代码生成能力与GUI自动化执行深度融合,实现了从需求分析到版本迭代的APP全链路开发。
Agent持续稳定运行11小时以上,全程自动完成一款英语单词学习APP的:累计生成代码超10000行,触发Agent调用超1000次,覆盖需求文档生成、代码自动编写、自动化安装部署、测试用例创建、GUI自动化测试、多场景并行化测试、产品说明自动更新及自动版本迭代演进——全流程零人工干预。
桌面应用场景同样令人震撼。Agent自主交互macOS原生Stocks应用,理解UI布局与功能细节后自动生成SwiftUI源码,接入LongBridge真实行情API获取实时数据,自动编译构建并启动复刻应用,随后自主执行10项功能验证测试全部通过,完整复现原生Stocks应用的暗色主题、分栏布局与实时行情交互体验。
浏览器Agent场景中,基于Qwen3.7-Plus开发的"Qwen for Chrome"浏览器扩展可理解非技术用户的自然语言请求,自主进入阿里云控制台完成ECS云服务器的选型、比价、配置与采购,甚至独立处理停机扩容等复杂运维升级链路。
全域思考模式与跨框架泛化:Qwen3.7-Plus的技术架构创新
Qwen3.7-Plus的技术架构创新集中在一个核心命题:如何让视觉推理链、代码推理链和文本推理链在同一循环中协同工作。Qwen3.7系列引入的"全域思考模式(All-field Thinking)"首次实现文本+图像+代码的统一推理链,打破了GPT-5.5和Claude Opus 4.7仅支持文本思考链的限制。
跨框架泛化是另一个关键优势。Qwen3.7-Plus无论通过Claude Code、OpenClaw、Qwen Code还是其他框架部署,均能——这意味着它不是绑死在某个特定脚手架上的模型,而是真正具备通用智能体基座能力的底层模型。目前Qwen3.7-Plus已在阿里云百炼平台上线,支持OpenAI兼容API与Anthropic协议调用。
认知转折:GUI操控智能体让页面追踪体系全面失灵
当Qwen3.7-Plus多模态智能体自主操控GUI完成从需求分析到APP交付的全流程时,一个根本性问题浮出水面:传统基于页面浏览和用户点击的追踪体系正在被智能体的"无头操作"彻底击穿。
主动页面流量的逻辑是:用户打开App→浏览列表→点击按钮→填写表单→提交订单。每一步都产生可视化的页面交互,每一步都可以被埋点追踪,从曝光到点击到转化的完整归因链路清晰可查。
智能体操控流量的逻辑则完全不同:用户发出一句指令→智能体理解意图→后台自主操控GUI点击、输入、导航→多步操作串联执行→交付最终结果。整个过程对用户而言只有"输入指令"和"拿到结果"两个触点,中间的界面浏览、按钮点击、表单填写全部由智能体在后台完成。传统的页面级埋点在这一场景下几乎全部失效——没有用户触发的页面曝光,没有用户主动的按钮点击,没有可追踪的浏览路径。

这意味着,当Qwen3.7-Plus多模态智能体成为用户与商业服务的主要交互方式时,基于页面浏览的全渠道统计体系将面临根本性重构。开发者必须从"追踪页面行为"转向"追踪智能体操控链",从"记录点击路径"转向"还原智能体决策链"。
智能体GUI操控的参数丢失与归因断裂
智能体跨应用操作时的意图追踪
当Qwen3.7-Plus多模态智能体在多个应用之间自主跳转、点击、输入时,用户的原始意图需要从指令入口贯穿到最终交付结果。这一过程中,用户在指令中表达的偏好(如"最便宜的ECS服务器")如何在智能体的多步GUI操作链路中完整保留?具体做法是在智能体启动时将意图令牌通过机制嵌入到每一步操作的上下文中,确保智能体的每次GUI点击、每次表单提交、每次跨应用跳转都能回溯到用户的原始意图,从而实现从指令到交付的确定性归因。
智能体跳转后的上下文恢复
当Qwen3.7-Plus多模态智能体从浏览器跳转至原生应用完成后续操作时(如从千问对话跳转至阿里云控制台),技术确保智能体首次打开目标应用时系统能自动解析延迟参数字符串,即时恢复由智能体发起的操作状态。具体做法是在智能体触发应用跳转时,将完整的操作上下文通过深度链接协议写入通用链接,目标应用SDK自动读取并解析这些参数,将智能体直接带入对应操作页面(跳过手动搜索与导航环节),实现从浏览器Agent到原生应用的无损衔接。
从开发者视角看GUI智能体的追踪焦虑
对开发者和增长团队而言,Qwen3.7-Plus多模态智能体的GUI操控能力释放了一个清晰的信号:用户获取服务的交互方式正在从"手动点击"迁移到"智能体代劳"。这一变化带来的焦虑是结构性的。
当智能体代替用户操控GUI完成全流程操作时,传统的归因链路被打断:用户发出指令→智能体在后台自主操控→应用完成交付,整个过程没有"用户主动点击"这一步,传统的点击归因体系全部失效。开发者无法判断这个用户是被智能体的指令触发的,还是被应用的搜索推荐转化的,甚至无法确认这个用户到底"看到"了什么界面。
更深层的问题在于操作黑盒。当智能体在后台自主完成搜索、比价、下单的全流程时,开发者失去了对用户决策路径的可见性——不知道智能体比对了哪些选项,不知道智能体在哪个环节调整了策略,不知道智能体最终为什么选择了A方案而非B方案。这些数据在页面流量时代是可追踪的,但在智能体操控流量时代,它们被智能体的黑盒执行过程吞噬了。方案在智能体操控场景下依然需要从"追踪页面行为"升级为"追踪智能体操控链",才能避免在页面流量退场后陷入归因盲区。
本文所述能力边界声明:openinstall的深度链接与全渠道统计方案可确保智能体跨应用跳转时操作上下文的完整传递与确定性归因,但智能体在后台执行过程中的GUI操作路径追踪仍受限于各平台的数据开放程度。多模态智能体时代的数据可见性,需要行业在智能体协议层面对齐后方可实现全链路透明。
开发团队与增长团队的协同新范式
在Qwen3.7-Plus多模态智能体场景下,开发团队和增长团队面临截然不同但紧密关联的挑战。
开发团队需要确保智能体跨应用GUI操作时的上下文完整性,解决从千问对话到目标应用的技术对接问题,包括API鉴权、意图令牌传递、延迟深度链接的SDK集成等工程细节。他们关注的是"智能体的操作链路能不能跑通"——每一次跨应用跳转、每一次参数传递、每一次上下文恢复,都必须是确定性的、可复现的。
增长团队则需要重新定义"转化"的度量标准。当用户不再通过页面浏览路径转化,而是通过一句指令让智能体代劳时,传统的漏斗模型(曝光→点击→加购→支付)需要被替换为智能体操控漏斗(指令下发→智能体执行→操作完成→交付确认)。他们关注的是"智能体操控的流量到底从哪来、到哪去"——需要全渠道统计方案在智能体操控场景下依然能够提供确定性归因,而不是在页面流量退场后陷入归因盲区。

智能体自主开发引发行业追问
Qwen3.7-Plus多模态智能体与GPT-5.5在GUI操控上有什么区别?
Qwen3.7-Plus的核心差异在于"全域思考模式"——它在单一循环中统一了视觉推理链、代码推理链和文本推理链,而GPT-5.5目前仅支持文本思考链。这意味着Qwen3.7-Plus在看到屏幕画面的同时可以同时进行视觉理解和代码规划,而不需要将视觉任务拆解后单独交给代码模块处理。在ScreenSpot Pro和AndroidWorld等GUI操控基准测试中,Qwen3.7-Plus的表现提升尤为明显。
智能体自主操控GUI时用户数据如何不被丢失?
核心在于意图令牌的加密传递与操作上下文的完整性校验。当智能体启动GUI操控任务时,用户的关键偏好和约束条件被打包为加密令牌,在智能体的每一步操作中持续传递。智能体跨应用跳转时,延迟深度链接技术确保目标应用能自动恢复操作状态(包括此前在源应用中的指令历史与选择偏好),实现从指令到交付的无损衔接。
11小时自主开发APP意味着传统开发者会被替代吗?
短期不会。11小时自主开发的是一款英语单词学习APP,属于中等复杂度的标准应用场景。Qwen3.7-Plus多模态智能体目前最擅长的是"有明确需求、有参考界面、有标准流程"的开发任务,而非需要深度业务理解、创意决策或跨团队协作的复杂项目。但趋势已经明确:开发工作中"写代码+测功能"的重复性环节正在被智能体快速接管,开发者需要向需求定义、架构决策和智能体编排等更高价值环节迁移。
openinstall运营团队
2026-06-02
22
闽公网安备35058302351151号