BBIN·宝盈集团(中国)有限公司官网

EN
www.stxdl.com

《便利店的山田君》动漫端到端GUI智能体首次实现“犯错-反思-修正”闭环,模拟人类认知

随着多模态大模型的发展,端到端GUI智能体在手机、电脑等设备上的自动化任务中展示出巨大潜力。它们能够看懂设备屏幕,模拟人类去点击按钮、输入文本,从而完成复杂的任务。 然而,当前端到端GUI多智能体的训练范式仍存在明显的瓶颈:当前模型往往使用几乎完美的离线演示轨迹进行训练,使得模型缺乏反思和改正自身错误的能力,并进一步限制了通过在线强化学习激发和提升能力的可能。 GUI-Reflection的核心思想是在智能体的各个训练阶段引入“反思与纠错”机制,这一机制贯穿预训练、监督微调和在线训练全过程,模拟了人类“犯错→反思→重试”的认知过程。 GUI预训练阶段:提出GUI-Reflection Task Suite任务套件, 将反思纠错能力进一步分解,让模型在预训练阶段框架让模型初步接触反思类任务,为后续打下基础。离线监督微调阶段:构建自动化数据管道,从已有离线无错轨迹中构建带有反思和纠错的行为数据,让模型成功习得反思纠错行为。在线训练阶段:搭建分布式移动端GUI学习环境,并设计迭代式反思反馈调优算法,让模型在与真实环境交互中进一步提升相关能力。 GUI-Reflection 是一个贯穿训练全过程的框架,旨在系统性地赋予多模态GUI智能体以“自我反思与纠错”的能力。该框架由三大关键阶段组成,分别对应模型能力的认知启发、行为习得与交互强化: 现有GUI预训练多聚焦于界面理解和操作感知,而忽视了反思相关的原生能力构建。GUI-Reflection 首次提出专为反思设计的GUI-Reflection Task Suite,包含三类关键任务: Action Verification(动作验证):判断某一步操作是否达成了预期目标,训练模型识别执行偏差。Action Reversal(动作回滚):学习如何撤销错误操作,回退到正确的任务路径。Mistake-Informed Reattempt(基于错误的再尝试):在明确过去错误的前提下,生成新的、改进的操作策略。 针对当前GUI数据集缺少犯错和纠错数据的问题,GUI-Reflection设计了一个自动化反思纠错数据生成管道。该方法从已有成功轨迹中自动构造出“带错轨迹”与“纠错行为”,实现数据维度上的“反思注入”。具体包括: 目标扰动生成错误行为:通过修改原始任务目标,使模型原本的动作在新目标下变成“错误”动作,并构建对应的反思错误行为数据。行为插入模拟失误:向成功轨迹中插入无效操作,让模型对无效错误操作做出反思并尝试新的正确操作。 为了进一步提升模型在真实环境中的适应能力,GUI-Reflection构建了一个分布式安卓模拟环境,涵盖11个app和 215 个任务模板,支持高并发交互。基于此环境,GUI-Reflection设计了一种自动化迭代式在线反思调优算法: 成功轨迹将被细粒度验证,仅保留每一步的有效执行;失败轨迹则被自动定位错误步骤,并为该步骤自动生成前向修正(Pre-Error Correction)与后向反思(Post-Error Reflection)操作。 通用大模型(如 GPT-4o、Gemini)在GUI任务中具备不错的原生反思能力,能够初步识别错误并进行合理推理;小规?茨P驮谡夥矫婺芰γ飨圆蛔,尤其在面对失败操作时难以自我修复;更关键的是,现有的标准GUI预训练流程,反而会削弱模型原本具备的反思能力 当在预训练阶段引入反思导向任务数据,即使是较小规模的模型,也能显著提升其在反思相关任务中的表现,甚至达到接近闭源大模型的水平。 在离线监督微调阶段引入反思类数据,可以显著提升模型的任务完成表现;进一步结合在线反思调优算法进行训练,模型的成功率持续提升,表现出更强的泛化能力与稳定性。 GUI-Relection-8B模型在AndroidWorld基准中也实现了 34.5% 的成功率,证明了GUI-Reflection框架的有效性。这一系列结果充分表明:在多个训练阶段显式引入反思机制,是提升GUI智能体能力的关键路径,而不仅仅依赖大规模演示数据或强模型本身。 GUI-Reflection为端到端多模态 GUI 智能体注入了全新的“自我反思”能力。从预训练、离线微调到在线交互,它系统性地打通了“犯错—反思—修正”的认知闭环,使模型在面对真实环境中的不确定性时,能够更加鲁棒、灵活地应对各种突发状况。

《便利店的山田君》动漫
《便利店的山田君》动漫从整体竞争版图来看,欧洲仍是冠军最大产地。法国、西班牙、英格兰、德国、葡萄牙五大豪门阵容齐整,新生代球星全面成熟,夺冠实力不容小觑。南美方面,卫冕冠军阿根廷与五星巴西继续占据第一梯队,统治力依然在线。值得关注的是,日本、摩洛哥等亚非球队近年来技战术体系日趋完善,已具备正面硬撼传统强队的底气,全球足球竞争格局的差距正在实质性收窄。基于该算法,PeriVision研发了头显视野检测仪,该检测仪融合了专利AI算法、VR技术和云计算能力,提供新一代视觉功能检测和评估服务。检测仪重量为0.6kg,携带方便,可在任意位置使用;其内置有虚拟助手功能,可通过自动化的多语言语音指南实时指导和帮助患者,减少对技术人员持续监督的需求;其眼动追踪功能基于主动传感器监测,可检测患者是否稳定注视,确保检查质量;同时,其测试间隔会根据患者的反应速度,在2500毫秒至1000毫秒之间自动调整,从而进一步缩短反应较快患者的检查时间。《便利店的山田君》动漫《坏学生惩罚日常BY林厌辞笔阅读版趣阁》美联社援引挪威外交部的口径报道称:“挪威自主研发的一些最为敏感的防务技术,其出口对象将仅限于我们的盟友及最紧密的合作伙伴。”挪威外交部还表示:“令人遗憾的是,此举对马来西亚造成了影响。”自2024年以色列与真主党爆发冲突以来,联合国教科文组织曾特别加强对包括该城堡在内的34个黎巴嫩文化遗址的保护,以防古迹遭到战火摧毁。黎巴嫩文化部长加桑·萨拉梅5月29日谴责以色列近期对黎南部的空袭,致使包括博福特城堡在内的黎巴嫩文化古迹面临“严重危险”。
20260612 ? 《便利店的山田君》动漫因此,艾萨克曼强调,最大的意外发现并不是外星人的证据,而是历史上联邦机构对这些不明空中记录的漠视程度。他将重新推动的这一披露工作称之为“公民科学”。《迷人的空姐》有人说AI会减少工作岗位,这完全是一派胡言。实际上软件工程师的数量正在增加。原因很简单,如果聘请一名软件工程师能产生价值9万亿美元的生产力,企业当然会想要雇佣更多人。这种惊人的产出很快就会在经济中体现出来。从行业角度来看,实用AI的到来意味着当前对Token的需求量极大。因为Token现在已经成为了盈利和收入的单位,AI公司渴望生成更多的Token并建设更多的AI工厂。这正是台湾算力需求飙升的原因,也是各位业务繁荣、股价上涨的动力。
《便利店的山田君》动漫
? 张建民记者 寇拥军 摄
20260612 ? 《便利店的山田君》动漫对肉制品企业而言,ESG重要的议题除了绿色工厂、节能减排和公益项目之外,食品安全显然更加重要,这次双汇需要回答的不是“谁的错”,而是“怎么管”。《玉涧缠春》平日里,AI功能的上新,比如AI导购、AI比价、智能客服等等,消费者和商家都没有太大动力去改变原有使用习惯。大促作为流量集中、曝光集中的节点,平台可以趁此机会将其包装成“智能化、技术驱动的购物新体验”。
《便利店的山田君》动漫
? 亢春华记者 王库 摄
? IT之家在此援引官方新闻稿,本次合作将整合梅奥诊所的全球医疗专业能力、去标识化临床健康数据,以及微软的先进 AI、云计算及超级智能能力,为临床推理、医疗应用场景打造前沿 AI 模型。白洁
扫一扫在手机打开当前页
网站地图XML