四川铁皮保温施工_鑫诚防腐保温工程有限公司

阳泉罐体保温香港理工大学等机构商量建议的GUI定位新法

199 2026-06-23 02:09

这项由香港理工大学、佐亚大学、INFLYTech以及腾讯AILab商量完成的推敲，发表于2026年6月，论文编号为arXiv:2606.18101v2，有利思入了解的读者不错通过该编号查询完满论文。推敲的中枢议题是：如何让AI在电脑或手机屏幕上地找到你想的阿谁按钮。

假定你雇了位助手，让他帮你操作电脑，你对他说"帮我阿谁'保存'按钮"。这位助手需要在满屏密密匝匝的界面中，找到阿谁像指甲盖样小的按钮，并精准地把鼠标移到正确位置。这等于AI域所说的"GUI定位"（GUIGrounding）——GUI是"图形用户界面"的缩写，也等于咱们日常使用的电脑桌面、网页、手机App这些可视化界面。推敲团队靠近的中枢挑战是：现存的AI老师法并不成让AI信得过"学好"这项妙技，尤其是在分辨率的复杂界面中，标的元素往往又小又密集，AI容易找错位置。

推敲团队建议的处置案被称为"质地感知自蒸馏"（Quality-AwareSelf-Distillation），这个名字听起来很，但背后的好奇其实朴素得很：当老诚的指自己靠不住时，学生应该学会扣头地听，而不是盲目照单全收。这项推敲在六个主流GUI定位测评基准上越了此前的竞争法，交出了令东谈主确信的收货单。

、为什么AI找按钮这样难

回到那位助手的譬如。若是你让助手在张完满的办公桌相片上找"红回形针"，他先要看懂整张图，然后在密密匝匝的物品中精准指出阿谁小东西的位置，后还要用像素别的精度告诉你它在相片的哪个坐标点。AI作念GUI定位的难度与此访佛，何况往往比这难，因为当代软件界面的截图分辨率，按钮可能只占整个这个词屏幕的小部分。

咫尺主流的老师法玩忽分三类。类叫作念"监督微调"（SFT），相配于给AI批标注好的"题目和谜底"——屏幕截图加上正确坐标——让AI反复练习。这种法结识可靠，但有个明的障碍：谜底仅仅个硬邦邦的坐标数字，不告诉AI"为什么是这里"、"隔邻其他位置的可能有多大"。就像只告诉学生"谜底是3"，却不讲受命何解题想路。

二类法叫作念"强化学习"，代表本领是GRPO，相配于让AI我方作念题，作念对了给励，作念错了不给。但这种式需要AI产生无数的尝试，老本很，何况励信号特殊稀少——AI作念了许多事，只得到个依稀的"对"或"错"的反映，关于精细则位这种需要像素精度的任务来说，这种粗粒度的反映果有限。

三类，亦然本文的起点，叫作念"在线自蒸馏"（On-PolicySelf-Distillation，OPSD）。这个法的想路是：与其只看终谜底对不合，不如在AI生成谜底的每步王人从个"利弊的老诚"那边得到指。这个老诚不是别东谈主，等于AI我方的个加强版，它领有些额外的信息（比如知谈标的按钮约略在屏幕的哪个区域），因此能给出有参考价值的辅导。这种逐字迟缓的密集指，表面上比只看终坐标对不合要丰富得多。

关联词，推敲团队发现，凯旋把这套法用在GUI定位上，果并不睬想。原因就荫藏在个玄机的细节里。

二、老诚的指，什么时代会酿成误

模范悟这个问题，需要先显着AI是如何"说出"坐标的。AI瞻望屏幕坐标时，并不是语气给出"(452,318)"这样个完满数字，而是像写字样，个字符个字符地生成：先生成"4"，再生成"5"，再生成"2"，以此类。

咫尺，加强版老诚的处事是：在AI生成每个字符的时代，告诉AI"接下来这个位置，哪个数字好"。老诚拿到的条目是AI咫尺还是生成的那些字符（称为"前缀"），然后基于这个前缀给出建议。

问题就出在这里。假定AI在生成x坐标时，个数字就猜错了，写成了"7"（正确应该是"4"），那么后续的字符王人要基于这个作假的起首不绝生成。老诚此时被要求基于"7..."这个作假的前缀给出建议，它能作念的好的事情，也仅仅告诉AI"在以7起首的坐标里，下个数字是什么"——换句话说，老诚只可帮AI把作假的坐标写得"运动"，而不是把AI拉回正确的向。

这就好比个舆图向，他的处事是告诉司机"在现时位置阳泉罐体保温，下步应该若何走"。但若是司机还是开错路，走进了条作假的街谈，向此时给出的"下步"辅导，履行上是在帮司机地迷入邪道，而不是帮他回到正确门道。这种情况下，向的"指"不但莫得匡助，反而可能无益。

推敲团队把这种气候归纳为：当学生生成的前缀还是偏离正确坐标时，老诚在该前缀下给出的坐标字符建议，就成了"不可靠的老诚信号"，盲目照着学会只会让AI越学越偏。

三、贤慧地对待老诚的建议：两个互补的机制

为了处置这个问题，推敲团队设想了两个互相谐和的机制，合在起就组成了"质地感知自蒸馏"法。

个机制叫作念"软正确感知门控"（SoftCorrectness-AwareGating）。这个机制作念的事情，浅近来说等于"查验老诚现时给的建议，在逻辑上还有莫得救"。具体操作是这样的：在AI生成坐标的每步，系统会巡视老诚现时倾向荐的阿谁数字，然后追问个问题——基于学生咫尺还是生成的前缀，若是领受老诚的建议，剩下的数字还有莫得可能组合出个落在正确标的区域内的坐标？若是有可能，这条建议就被以为是"可靠的"；若是论若何补全后续数字，终坐标王人没目的落在正确区域内，这条建议就被以为是"不可靠的"。

要道在于，推敲团队莫得选拔把"不可靠的建议"凯旋扔掉，而是选拔"折"——将其对终老师耗费的孝敬缩短到蓝本的半，而不是归。原因很直不雅：即使老诚的建议还是偏离了正确标的，这条建议自己仍然可能包含些有效的局部信息，比如对某个视觉区域特征的感知。废弃这些信息未过于坚贞；但保残守缺地领受，又可能让AI学坏。折是种温存的折中：保留潜在价值，同期收缩潜在的负面影响。

在数学公式上，这被抒发为个"软门"：若是老诚建议通过覆按，门值为1（保留）；若是没通过覆按，门值为α，在主实验中α取0.5。这个α就像是个"信任整个"，驱散着对不可靠建议的保留进度。

二个机制叫作念"教师概率缩放"（Teacher-ProbabilityScaling）。这个机制处置的是另个维度的问题：即便老诚的建议通过了空间覆按（被以为是"可靠的"），不同建议的质地也可能收支很大。个老诚对某个数字的荐概率是90，和另个荐概率唯有55，这两种情况下老诚的"把捏进度"是霄壤之别的。

推敲团队的直观是：老诚越有把捏的建议，学生应该越负责对待；老诚我方王人不太细则的建议，学生听听就好，别太当真。因此，他们用老诚对其荐数字的概率值，动作个额外的"权重因子"，凯旋乘在老师耗费上。老诚把捏越大（概率越），对应的老师权重越大，学生学得越负责；老诚我方王人摸不准，概率低，权重就小，学生跟跟蜻蜓点水地参考下即可。

为了止这两个机制交流之后，坐标字符的全体老师信号变得太弱，推敲团队还引入了个固定的"放大整个"λ，在主实验中设为3，相配于给可靠的坐标建议统加大音量，确保这些要道信息不会被其他非坐标字符的学习信号归拢。

终，三者共同组成了每个老师法子的权重：不是坐标字符，就通俗学；是坐标字符且通过了可靠覆按，就用λ乘以老诚概率来决定学习力度；是坐标字符但没通过覆按，就用α乘以λ再乘以老诚概率，也等于折之后再按把捏进度转念。这套机制使得AI的老师进程既有原则（可靠覆按），设备保温施工又有弹（概率转念），而不长短此即彼的惨酷处理。

四、老诚的特殊待遇：让老诚看到多

除了上述两个中枢计制，这套法还延续了个在GUI定位域被诠释注解有的设想想路：给老诚提供"舞弊卡"，但不给学生看。

具体作念法是：在老师时，老诚看到的屏幕截图是经过处理的特殊版块——标的按钮场所的区域被保留并亮示（用绿框绚烂），而屏幕其他区域则被层缓缓加的斯依稀遮罩压暗。同期，老诚收到的笔墨教导里还附带了句"教导：谜底就在绿框内"。这样，老诚险些不可能给出作假的空间建议，它的信号质地就比莫得这些额外信息时。

与此同期，学生在老师和理时，长期只可看到普通的原始截图，莫得任何教导和亮。这个设想的逻辑是：老诚的作用是在老师时提供质地的指信号阳泉罐体保温，而学生终要立上岗，必须学会在莫得扶助信息的情况下立完成定位。让老诚享有特权，是为了让老诚的指有价值；不给学生特权，是为了确保学生信得过学会立智商，而不是依赖外部教导。

这种老诚/学生信息不合称的设想，与本文的中枢想想度吻合：老诚应当在条目好的情况下给出建议，而学生应当有选拔地、带着判断力地从中领受养分。

五、实验效用：数字言语

推敲团队在六个公认的GUI定位基准测试上对这套法进行了评估，分别是ScreenSpot-Pro、ScreenSpot-v2、UI-Vision元素定位、OSWorld-G、OSWorld-G-R以及MMBench-GUIL2元素定位，涵盖了桌面、网页、移动等多种界面类型，既有普通分辨率也有业分辨率场景。

基础模子Qwen3.5-9B在六个基准上的平均准确率是65.19分。这是个相配有竞争力的首先，但推敲团队想知谈多样老师法能把它进步些许。

用强化学习（GRPO）老师后，平均准确率进步至65.86，跨越不算著。用传统监督微调（SFT）老师后，平均准确率进步至68.09，跨越明。第一版块的在线自蒸馏（Naive-OPSD，老诚仅仅被呈报谜底的笔墨坐标，莫得视觉亮）将平均准确率进步至68.91。此前强的竞争基线GUI-SD（老诚看到亮图像，并用特定权重和基于熵的缩放来转念坐标字符的学习强度）将平均准确率进步至70.07。

本文建议的质地感知自蒸馏法，将平均准确率进步至72.23，比GUI-SD出2.16分，比SFT出4.14分，比GRPO出6.37分。在整个六个基准上，这套法均位列。

迥殊值得温存的是，与GUI-SD比较，两者的本体区别在于：GUI-SD通过位置权重和熵值来加强坐标字符的学习信号，但并不查验这些信号是否信得过可靠，作假的信号可能被不加差异地放大；而本文法通过可靠覆按和概率转念，主动差异"值得多学的信号"和"应当折的信号"，从而让老师进程有针对、少受到噪声骚动。

六、拆解实验：两个机制缺不可

推敲团队作念了系列细巧的消融实验（即逐去掉某个组件，不雅察果如何变化），得出了个颇故道理的发现：软正确感知门控和教师概率缩放这两个机制，单使用时王人不成结识进步能，但组合在起，果就会著进步。

从"仅有视觉特权信息的基线"（平均70.43分）启程，单加入软正确感知门控后，平中分反而降到了69.97；单加入教师概率缩放后，平中分降到了70.19。两者王人莫得过基线。关联词，把两者团结起来，平中分跳升至72.23，举过基线1.80分。

这个气候揭示了两个机制各自的"盲区"。单使用门控时，会把部分本来还有参考价值的老诚信号压低，却莫得机制来保证剩余信号的质地低之分，致全体指果被削弱。单使用概率缩放时，能够差异老诚"有把捏"和"没把捏"的情况，却莫得过滤掉那些空间上根柢不可能正确的建议，致某些置信度但向作假的信号被作假放大。两者团结后，门控负责把空间上"可救药"的信号折，概率缩放负责在剩余信号中跨越差异质地低，两谈过滤器相得益彰，缺不可。

在门控强度的对比实验中，推敲团队还比较了"去掉门控"、"软门控（α=0.5）"和"硬门控（α=0，即凯旋丢弃不可靠信号）"三种政策。硬门控的平均准确率是71.46，软门控是72.23，硬门控反而不如软门控。原因在于：当AI生成了作假的坐标前缀，后续整个坐标字符王人会被门控判定为不可靠，从而被丢弃。但这些"失败景色"下的老诚信号，其实还包含着"当你还是走错路时，如何尽量减少耗费"的信息。丢掉这些信号，就相配于割断了AI从作假中学习翻新政策的契机。软门控通过保留半的信号强度，既缩短了作假信号的误风险，又保留了定的纠错学习空间。

在放大整个λ的实验中，λ=1时平均准确率71.20，λ=2时71.32，λ=3时72.23，λ=4时反降至71.80。这诠释λ过小会让坐标字符的学习信号被非坐标字符的信号归拢，λ过大则会让模子过度聚焦于坐标精度而糟跶全体的定位泛化智商。λ=3是个在充分嗜好坐标字符学习与保持全体均衡之间的折中。

七、这想路的平凡道理

推敲团队在盘问中指出，GUI定位任务之是以相宜探索这套可靠感知的老师式，恰是因为它具备"空间可考据"——任何个坐标瞻望，王人不错凯旋用果然的标的规模框来覆按是否合理。这种可考据让推敲者不错使用个凯旋的、基于任务自己结构的圭臬来评判老诚信号的可靠，而不是依赖熵值、困惑度等迤逦代理设想。

曩昔的许多法，举例基于熵的缩放、基于困惑度的降权，本体上王人在用"老诚是否自信"来代替"老诚是否正确"，这两者之间并不老是致的——老诚可能自信地给出个作假向，也可能方寸大乱地给出个正确向。本文的门控机制凯旋问的是"这个建议在标的敛迹下是否可行"，是个凯旋、有保险的判据。

推敲团队坦承，这套法咫尺还有定的局限。门控机制依赖于老师时的果然规模框标注，是以凯旋适用于有空间标注的场景。关于莫得明确坐标谜底的任务，如何设想访佛的可靠覆按，还需要跨越探索。此外，咫尺的实验王人在Qwen3.5-9B这个领域的模子上进行，这套法在不同模子领域和其他类型的视觉定位任务上的迁徙果，也有待后续推敲考据。

归根结底，这项推敲想说的中枢好奇，其实是件特殊日常的事：当你向别东谈主学习时，对给出的建议并不是王人值得同等对待——有些建议在当下的情境下根柢行欠亨，有些建议天然向对，但对我方也没多大把捏。贤慧的学习者，应该学会识别哪些建议值得负责对待、哪些建议应该保持距离，而不是不加想辨地照单全收。这套质地感知自蒸馏法，恰是把这个朴素的好奇，以严谨的数学式镶嵌到了AI的老师进程中，让AI也能在学习时懂得"信任对的老诚"。

有利思跨越了解这项推敲细节的读者，不错通过arXiv编号2606.18101查询完满论文原文。

Q&A

Q1：GUI定位任务和普通的图像识别有什么区别？

A：普通图像识别每每是判断"图中有什么"，而GUI定位要求AI精准回应"标的元素在屏幕的哪个像素坐标位置"。这意味着不仅要识别内容，还要给出像素精度的位置输出，差错哪怕唯有几个像素就可能到作假的按钮，对精准度要求。

Q2：质地感知自蒸馏法为什么比传统监督微调果好？

A：传统监督微调只告诉AI"正确谜底是这个坐标"，不明释为什么，也不提供坐标隔邻其他位置的概率信息。质地感知自蒸馏则让AI在生成坐标的每步王人能参考个"有信息"的老诚散播，同期通过可靠覆按和概率转念，确保参考的信号质地，相配于既有丰富的指，又对指质地作念了筛选。

Q3：软正确感知门控和硬门控有什么具体区别？

A：硬门控是"不可靠的老诚建议凯旋丢弃，权重归"；软门控是"不可靠的建议保留半权重，不废弃"。实验示软门控果好，因为即使坐标前缀还是偏离标的，后续的老诚建议仍然可能包含如安在作假景色下调节的有效信息，丢弃这部分信号会让AI失去从作假中学习翻新政策的契机。邮箱：215114768@qq.com相关词条:铁皮保温施工隔热条设备锚索离心玻璃棉万能胶生产厂家

1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定阳泉罐体保温，并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方，并积极配合修改。
3.凡用户访问本网页，均表示默认详情页的描述，不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》，以此来变相勒索商家索要赔偿的违法恶意行为。

香港机构商量理工大学阳泉罐体保温

推荐资讯

阳泉罐体保温香港理工大学等机构商量建议的GUI定位新法

张掖铝皮保温厂家又一个万亿级赛道中国低空经济一飞冲天

赣州罐体保温福建海警位金门附近海域依法开展常态执法巡查

双河储罐保温施工跟着曼联2-1逆袭, 阿森纳险胜, 英新积

阳泉罐体保温 香港理工大学等机构商量建议的GUI定位新法

张掖铝皮保温厂家 又一个万亿级赛道 中国低空经济一飞冲天

赣州罐体保温 福建海警位金门附近海域依法开展常态执法巡查

双河储罐保温施工 跟着曼联2-1逆袭, 阿森纳险胜, 英新积

阳泉罐体保温香港理工大学等机构商量建议的GUI定位新法

张掖铝皮保温厂家又一个万亿级赛道中国低空经济一飞冲天

赣州罐体保温福建海警位金门附近海域依法开展常态执法巡查

双河储罐保温施工跟着曼联2-1逆袭, 阿森纳险胜, 英新积