随着多模态大模型的发展,端到端GUI智能体在手机、电脑等设备上的自动化任务中展示出巨大潜力。它们能够看懂设备屏幕,模拟人类去点击按钮、输入文本,从而完成复杂的任务。 然而,当前端到端GUI多智能体的训练范式仍存在明显的瓶颈:当前模型往往使用几乎完美的离线演示轨迹进行训练,使得模型缺乏反思和改正自身错误的能力,并进一步限制了通过在线强化学习激发和提升能力的可能。 GUI-Reflection的核心思想是在智能体的各个训练阶段引入“反思与纠错”机制,这一机制贯穿预训练、监督微调和在线训练全过程,模拟了人类“犯错→反思→重试”的认知过程。 GUI预训练阶段:提出GUI-Reflection Task Suite任务套件, 将反思纠错能力进一步分解,让模型在预训练阶段框架让模型初步接触反思类任务,为后续打下基础。离线监督微调阶段:构建自动化数据管道,从已有离线无错轨迹中构建带有反思和纠错的行为数据,让模型成功习得反思纠错行为。在线训练阶段:搭建分布式移动端GUI学习环境,并设计迭代式反思反馈调优算法,让模型在与真实环境交互中进一步提升相关能力。 GUI-Reflection 是一个贯穿训练全过程的框架,旨在系统性地赋予多模态GUI智能体以“自我反思与纠错”的能力。该框架由三大关键阶段组成,分别对应模型能力的认知启发、行为习得与交互强化: 现有GUI预训练多聚焦于界面理解和操作感知,而忽视了反思相关的原生能力构建。GUI-Reflection 首次提出专为反思设计的GUI-Reflection Task Suite,包含三类关键任务: Action Verification(动作验证):判断某一步操作是否达成了预期目标,训练模型识别执行偏差。Action Reversal(动作回滚):学习如何撤销错误操作,回退到正确的任务路径。Mistake-Informed Reattempt(基于错误的再尝试):在明确过去错误的前提下,生成新的、改进的操作策略。 针对当前GUI数据集缺少犯错和纠错数据的问题,GUI-Reflection设计了一个自动化反思纠错数据生成管道。该方法从已有成功轨迹中自动构造出“带错轨迹”与“纠错行为”,实现数据维度上的“反思注入”。具体包括: 目标扰动生成错误行为:通过修改原始任务目标,使模型原本的动作在新目标下变成“错误”动作,并构建对应的反思错误行为数据。行为插入模拟失误:向成功轨迹中插入无效操作,让模型对无效错误操作做出反思并尝试新的正确操作。 为了进一步提升模型在真实环境中的适应能力,GUI-Reflection构建了一个分布式安卓模拟环境,涵盖11个app和 215 个任务模板,支持高并发交互。基于此环境,GUI-Reflection设计了一种自动化迭代式在线反思调优算法: 成功轨迹将被细粒度验证,仅保留每一步的有效执行;失败轨迹则被自动定位错误步骤,并为该步骤自动生成前向修正(Pre-Error Correction)与后向反思(Post-Error Reflection)操作。 通用大模型(如 GPT-4o、Gemini)在GUI任务中具备不错的原生反思能力,能够初步识别错误并进行合理推理;小规模开源模型在这方面能力明显不足,尤其在面对失败操作时难以自我修复;更关键的是,现有的标准GUI预训练流程,反而会削弱模型原本具备的反思能力 当在预训练阶段引入反思导向任务数据,即使是较小规模的模型,也能显著提升其在反思相关任务中的表现,甚至达到接近闭源大模型的水平。 在离线监督微调阶段引入反思类数据,可以显著提升模型的任务完成表现;进一步结合在线反思调优算法进行训练,模型的成功率持续提升,表现出更强的泛化能力与稳定性。 GUI-Relection-8B模型在AndroidWorld基准中也实现了 34.5% 的成功率,证明了GUI-Reflection框架的有效性。这一系列结果充分表明:在多个训练阶段显式引入反思机制,是提升GUI智能体能力的关键路径,而不仅仅依赖大规模演示数据或强模型本身。 GUI-Reflection为端到端多模态 GUI 智能体注入了全新的“自我反思”能力。从预训练、离线微调到在线交互,它系统性地打通了“犯错—反思—修正”的认知闭环,使模型在面对真实环境中的不确定性时,能够更加鲁棒、灵活地应对各种突发状况。
特种兵营里被轮流的小说叫什么来着这脑回路也是没谁了,也因此让观众质疑她不光重男轻女,还有“魅男”的问题,似乎是在现实生活中会因为丈夫疼爱女儿,就吃女儿醋的那类人。截至4月16日,二十届中央第免费韩漫网站五轮巡视完成进驻工作。中央第六巡视组巡视昆明市工作动员会上,中央第六巡视组组长王荣馃崋军指出,中央巡视组将紧盯权力和责任,紧盯“一把手”和领导班子麻豆精品秘 国产传媒夏夏,紧盯群众反映强烈的问题,着力查找政治偏差,推动解决突出问题,为推进中国式现代化提供有力保障。云南省委常委、昆明市委书记刘洪建作表态发言称,这次巡视是对昆明的一次全面政治体检,是对全市党员干部的一次组织考验和党性锤炼。他表示,坚决服从巡视工作安排,全力支持配合巡视组开展工作,坚决抓好问题整改。特种兵营里被轮流的小说叫什么来着两个男人搞一个女人的心理叫什么尸三是收入客观:人工智能领域的人才供不应求,因此薪水待遇相对较高。具备人工智能技能的专业人才通常能够获得丰厚的薪水和福利待遇。前不久,美国和日本贸易谈判,美国三位代表,财长贝森特、商务部长卢特尼克和贸易代表格里尔,当众吵起来了。不是他们和日本人吵,而是他们三人当着日本人的面吵。
20250814 🖤 特种兵营里被轮流的小说叫什么来着最近,海王星位于双鱼座一片没有亮星的区域,平时寻找起来有些困难,29日前后几天,利用土星寻找海王星,是一个不错的机会。wow亚洲服有永久60级么雅诗兰黛的“小棕瓶”,属于短期救急长期维稳都很优秀的精华,一直是很受欢迎的空瓶回购,它保湿、修护、抗衰、抗氧化效果都很显著。
📸 刘兴华记者 秦吉祥 摄
20250814 💋 特种兵营里被轮流的小说叫什么来着拜仁的意向是在今年夏天出售萨拉戈萨以回收部分投资。今年1月,拜仁为他支付了1650万欧元的基础转会费加上400万欧元的浮动费用。尽管德甲豪门希望直接出售球员,但他们也愿意考虑其他形式,如带有强制买断或选择性买断条款的租借。然而,简单的租借模式将不会再次出现,就像上赛季被外租至奥萨苏纳那样(拜仁还承担了球员一半的薪水)。满18岁免费观看高清电视剧推荐加州大学伯克利分校也不遑多让,甚至还多出一个评判维度:belonging, DEI升级成DEIB。举例来说,如果一位教师在评职称的时候,仅仅参加过一到两项DEIB活动,那么,这位老师只能得到五分中的一分或是两分,要拿全这五分,老师must demonstrate a history of commitment to DEIB activities, such as having “organized or spoken at workshops or other events aimed at increasing others understanding of diversity, equity, inclusion and belonging…Candidates must also integrate DEIB into their scholarship and clearly formulate new ideas for advancing equity and inclusion at Berkeley and within their field, through their research, teaching and/or service”。你不仅要宣扬DEIB,还要付诸行动。更绝的是,如果你拒绝按照这样的政治指挥棒从事学术活动,那么你必须provide reasons for not considering diversity in hiring,也就是老师要自证为什么不能向DEIB的标准看齐。看来,学术中没有政治,在哪儿都是梦。
📸 蔡东记者 尹从克 摄
🔞 2、东城还是朝阳,常规就是牛娃肯定去朝阳啊,普娃更适合东城。因为既然是小升初跨区,那牛娃如果在东城就只能是凭运气派位,万一排进普校不就吃亏了吗?所以最好来朝阳,牛校大多数都能单校划片,进入牛校的概率高,在校内能得到更好的资源和氛围。床上108种插杆方式