参考指南

这项由ServiceNow、魁北克人工智能研究院、蒙特利尔大学、约克大学、蒙特利尔理工学院和麦吉尔大学联合进行的研究发表于2025年10月，论文编号为arXiv:2510.03230v1。研究团队由王苏宇辰、张天宇、Ahmed Masry、Christopher Pal、Spandana Gella、刘邦和Perouz Taslakian等学者组成，他们致力于解决人工智能在GUI（图形用户界面）自动化中面临的核心难题。有兴趣深入了解的读者可以通过论文编号arXiv:2510.03230v1查询完整论文。

现代生活中，我们每天都要与各种软件界面打交道——从手机应用到电脑程序，从网页浏览到办公软件。如果能让人工智能像人类一样准确地识别和操作这些界面元素，将会极大提升工作效率。然而，要让AI准确找到屏幕上的按钮、文本框或菜单项，就像要求一个从未见过地图的人在陌生城市中找到特定建筑物一样困难。

这项研究的核心贡献在于解决了当前视觉语言模型在GUI定位任务中的一个根本性问题：如何将自然语言指令准确转换为屏幕上的像素坐标。研究团队发现，现有方法就像让一个盲人通过触摸来画地图一样效率低下，因为AI模型需要在没有明确参照物的

GUI自动化的新突破：ServiceNow让AI更准确定位屏幕界面元素

乌无人机深入...

狼人内讧自取...

真挚的祝福！...

蔚来年底盈利...

中国信达减持...

9月1日起实...

直落四局轻松取胜！WTT横滨冠军赛：孙颖莎强势跻身四强

俄乌冲突三年，炮火炸出全球财富新地图

内塔尼亚胡称支持美方＂20条计划＂对哈马斯放狠话

白金卡旅客途中骚扰空姐让绯闻满公司飞逼得空姐离职

陈天桥抢先押注的脑机接口企业首次公开演示，渐冻症患者用意念操控苹果设备

粗腿救星！“仙女裤”火了，比奶奶裤更显时髦！

找回状态！大坂直美两盘击败陶森，晋级WTA1000蒙特利尔站决赛

美商务部长称拟于8月初与中方会谈美方成员名单公布

春节档后的票房冠军，居然是她

76岁林子祥近况曝光，与小14岁娇妻恩爱27年

记者：曼联排除签伊萨克、塞斯科和杰克逊可能性，没钱再签新前锋

陈奕迅演唱会摔倒，网友争论：是意外还是安排？

媒体:日本的防卫白皮书真是全写反了完全胡说八道

逐际动力推15.8万元起全尺寸人形机器人LimXOli，全自研本体结构

白血病居儿童癌症之首，但并非不治之症

网友称因跛脚在入职当天被得力集团辞退得力CEO致歉

新舟60民用搜救机在庆阳市完成科研试飞任务

河北滦平因强降雨致山体滑坡8人失联已确认4人遇难

扛过＂10天5张病危通知书＂ 22岁重庆女孩＂嫁给了自己＂

刘强东＂10年1元年薪＂到期网友曾调侃章泽天离婚分5元

整治形式主义，中央出手了

英国计划推出新举措，多方面发力促进电动汽车销售

赣媒：赣超开赛六轮以来累计观赛人次突破46万，成江西夏日顶流

柯克枪击案嫌犯：家庭美满曾连获四年总统奖学金