EN
uoa.zqysoft.com

滚烫的儿媳陈菲最后跟谁在一起了端到端GUI智能体首次实现“犯错-反思-修正”闭环,模拟人类认知

随着多模态大模型的发展,端到端GUI智能体在手机、电脑等设备上的自动化任务中展示出巨大潜力。它们能够看懂设备屏幕,模拟人类去点击按钮、输入文本,从而完成复杂的任务。 然而,当前端到端GUI多智能体的训练范式仍存在明显的瓶颈:当前模型往往使用几乎完美的离线演示轨迹进行训练,使得模型缺乏反思和改正自身错误的能力,并进一步限制了通过在线强化学习激发和提升能力的可能。 GUI-Reflection的核心思想是在智能体的各个训练阶段引入“反思与纠错”机制,这一机制贯穿预训练、监督微调和在线训练全过程,模拟了人类“犯错→反思→重试”的认知过程。 GUI预训练阶段:提出GUI-Reflection Task Suite任务套件, 将反思纠错能力进一步分解,让模型在预训练阶段框架让模型初步接触反思类任务,为后续打下基础。离线监督微调阶段:构建自动化数据管道,从已有离线无错轨迹中构建带有反思和纠错的行为数据,让模型成功习得反思纠错行为。在线训练阶段:搭建分布式移动端GUI学习环境,并设计迭代式反思反馈调优算法,让模型在与真实环境交互中进一步提升相关能力。 GUI-Reflection 是一个贯穿训练全过程的框架,旨在系统性地赋予多模态GUI智能体以“自我反思与纠错”的能力。该框架由三大关键阶段组成,分别对应模型能力的认知启发、行为习得与交互强化: 现有GUI预训练多聚焦于界面理解和操作感知,而忽视了反思相关的原生能力构建。GUI-Reflection 首次提出专为反思设计的GUI-Reflection Task Suite,包含三类关键任务: Action Verification(动作验证):判断某一步操作是否达成了预期目标,训练模型识别执行偏差。Action Reversal(动作回滚):学习如何撤销错误操作,回退到正确的任务路径。Mistake-Informed Reattempt(基于错误的再尝试):在明确过去错误的前提下,生成新的、改进的操作策略。 针对当前GUI数据集缺少犯错和纠错数据的问题,GUI-Reflection设计了一个自动化反思纠错数据生成管道。该方法从已有成功轨迹中自动构造出“带错轨迹”与“纠错行为”,实现数据维度上的“反思注入”。具体包括: 目标扰动生成错误行为:通过修改原始任务目标,使模型原本的动作在新目标下变成“错误”动作,并构建对应的反思错误行为数据。行为插入模拟失误:向成功轨迹中插入无效操作,让模型对无效错误操作做出反思并尝试新的正确操作。 为了进一步提升模型在真实环境中的适应能力,GUI-Reflection构建了一个分布式安卓模拟环境,涵盖11个app和 215 个任务模板,支持高并发交互。基于此环境,GUI-Reflection设计了一种自动化迭代式在线反思调优算法: 成功轨迹将被细粒度验证,仅保留每一步的有效执行;失败轨迹则被自动定位错误步骤,并为该步骤自动生成前向修正(Pre-Error Correction)与后向反思(Post-Error Reflection)操作。 通用大模型(如 GPT-4o、Gemini)在GUI任务中具备不错的原生反思能力,能够初步识别错误并进行合理推理;小规模开源模型在这方面能力明显不足,尤其在面对失败操作时难以自我修复;更关键的是,现有的标准GUI预训练流程,反而会削弱模型原本具备的反思能力 当在预训练阶段引入反思导向任务数据,即使是较小规模的模型,也能显著提升其在反思相关任务中的表现,甚至达到接近闭源大模型的水平。 在离线监督微调阶段引入反思类数据,可以显著提升模型的任务完成表现;进一步结合在线反思调优算法进行训练,模型的成功率持续提升,表现出更强的泛化能力与稳定性。 GUI-Relection-8B模型在AndroidWorld基准中也实现了 34.5% 的成功率,证明了GUI-Reflection框架的有效性。这一系列结果充分表明:在多个训练阶段显式引入反思机制,是提升GUI智能体能力的关键路径,而不仅仅依赖大规模演示数据或强模型本身。 GUI-Reflection为端到端多模态 GUI 智能体注入了全新的“自我反思”能力。从预训练、离线微调到在线交互,它系统性地打通了“犯错—反思—修正”的认知闭环,使模型在面对真实环境中的不确定性时,能够更加鲁棒、灵活地应对各种突发状况。

滚烫的儿媳陈菲最后跟谁在一起了
滚烫的儿媳陈菲最后跟谁在一起了6月24日,第十六届夏季达沃斯论坛在国家会展中心(天津)拉开帷幕。来自90多个国家和地区的1700余名代表参会,人数创近年新高。记者在采访中发现,中外嘉宾普遍较为关注人工智能(AI)发展情况以及在各领域的应用潜力。多位企业家表示,凭借庞大的国内市场、有力的政策支持、旺盛的创新活力,中国在人工智能领域取得了令人瞩目的进展。这不仅为中国经济带来了新增长点,更有望为世界经济发展注入新动能。虽说有传言称,尼克斯也在追求杜兰特,但是自今年交易截止日以来(2月7日),(双方)没有进行过重大讨论。同样的事情也发生在灰熊身上,多位消息人士证实,在1换7送贝恩去魔术之后,孟菲斯球队并没有在积极追求杜兰特,也不打算参与这些抽奖活动。滚烫的儿媳陈菲最后跟谁在一起了17c官方网站(一幅史诗级的动漫艺术作品:夜晚,一位巫师立于山顶,向黑暗的天空施展宇宙咒语,由彩色能量构成的“Qwen VLo!”字样在夜空中显现。)乌政治观察家图拉加诺夫表示,随着相关项目不断推进,乌中合作内容也在不断拓展,从最初的清洁能源发电,逐步延伸到更广泛的能源保障方向。在这一过程中,乌中双方围绕能源发展整体布局展开了富有成效的探索,为今后在绿色转型方面拓展更多可能性打下基础。绿色能源不仅有利于生态环境的改善,更体现了国家发展理念的更新。
20250814 🌸 滚烫的儿媳陈菲最后跟谁在一起了巴西环球体育报道称,内马尔已与桑托斯就续约达成协议,新合同有效期至2025年底,内马尔团队接受了桑托斯续约6个月的提议,与俱乐部的愿望和最初谈判中预计续约至2026年世界杯不同,新协议将签订至今年12月。官方宣布预计将在未来几天内进行。免费网站在线观看人数在哪软件北控男篮还希望对阵容进行进一步升级,以期待变得更有竞争力。北控男篮在今年夏天有部分球员合同到期,这包括林彦廷、陈国豪、刘晓宇等球员。相关方面表示,部分球员将会离队。北控男篮希望在休赛期在后卫以及锋线位置上进行补强,同时他们也希望能够引入更强力、更加符合球队需要的外援。”
滚烫的儿媳陈菲最后跟谁在一起了
📸 陈彦萍记者 章军 摄
20250814 🔞 滚烫的儿媳陈菲最后跟谁在一起了“美国总统的推文和采访,(很明显)他在谈论美国在(美国可能介入)这些问题上的领导地位。”阿拉格奇21日稍早前对外表示,“不幸的是,我们听说美国可能会加入这场侵略行动。那将非常不幸,我认为这对各方而言都将非常、非常危险。”少女国产免费观看高清电视剧大全李昊分析认为,美军空袭伊朗,整个行动的特点是“冷启动”、“热打击”,即利用B-2轰炸机和核潜艇这类难以被探测的隐形平台发起突袭,力求在不引发大规模军事冲突的前提下,达成摧毁目标的目的,使伊朗方面难以做出及时的军事反击。
滚烫的儿媳陈菲最后跟谁在一起了
📸 钟莉记者 骆飞 摄
™ 在该领域之中,人们基于对于未来的预期值,来不断地更新当前的估计值,这让时序差分方法在解决“未来奖赏预测”和“行动规划优化”这两类任务上展现出了卓越性能。九·幺.9.1
扫一扫在手机打开当前页