解放双手！OSCAR让操作体系交互完成天然言语「自

作者：[db:作者] 日期：2025/02/04 08:32 浏览：

AIxiv专栏是呆板之心宣布学术、技巧内容的栏目。从前数年，呆板之心AIxiv专栏接受报道了2000多篇内容，笼罩寰球各年夜高校与企业的顶级试验室，无效增进了学术交换与传布。假如你有优良的任务想要分享，欢送投稿或许接洽报道。投稿邮箱：[email protected]；[email protected]本文作者王晓强，加拿年夜蒙特利尔年夜学（Université de Montréal）跟 Mila 人工智能研讨所博士生，师从刘邦教学。博士时期的重要研讨偏向为天然言语处置，重点存眷年夜言语模子的才能评价及其在智能体中的利用。现在已在天然言语处置范畴的顶级集会 ACL、EMNLP 等宣布多篇论文。在人工智能的巨大开展蓝图里，通用人工智能（AGI）可谓研讨者们朝思暮想的「圣杯」，其最终目的是打造出像人类一样领有普遍且机动智能的体系，可能懂得、进修并胜任多少乎全部义务。在迈向这个目的的征程中，实现人工智能与数字天下的高效交互至关主要，而桌面义务 UI 主动化更是此中的要害赛道。设想一下，将来咱们只要轻松说出指令，电脑就能主动实现种种庞杂操纵，繁琐的手动操纵成为汗青，任务效力年夜幅晋升，如许的场景是不是很令人等待？客岁，Anthropic 宣布的 Computer use 为 AI 在桌面操纵范畴带来了新冲破。它容许开辟者经由过程 API，让 Claude 像人类一样操纵盘算机，极年夜拓展了 AI 在桌面操纵范畴的利用场景。往年一月份，OpenAI 重磅推出的 Computer Using Agent（CUA）也备受注视，其赋能的 Operator 凭仗 GPT-4o 的视觉才能，可能「看懂」网站并与之交互，还可在 ChatGPT 界面主动履行多种惯例阅读器义务。与它们采取商用 API 差别，明天要给各人先容一个来自加拿年夜蒙特利尔年夜学跟 Mila 研讨所的研讨团队的开源处理计划 ——OSCAR（Operating System Control via state-Aware reasoning and Re-planning）。OSCAR 不只实现了桌面义务 UI 主动化，还在多个操纵体系情况（桌面 Windows、Ubuntu 跟智妙手机 Android）实现了泛化与验证。现在，该研讨已被 AI 范畴顶级集会 ICLR 任命。上面，就让咱们深刻懂得一下它的翻新之处。论文标题：OSCAR: Operating System Control via State-Aware Reasoning and Re-Planning论文链接：https://arxiv.org/abs/2410.18963操纵体系 UI 交互主动化面对的挑衅：静态自顺应困难基于多模态年夜型言语模子（MLLM）的智能体（Agent）在庞杂义务主动化范畴表示杰出，普遍利用于收集阅读、游戏、软件开辟等场景，但差别利用的察看跟举措空间差别极年夜，招致智能体通用性差，难以顺应庞杂任务流。别的，以往的 UI 交互智能体多在静态离线的情况中开辟，靠视觉问答跟预设举措门路操纵，缺少操纵体系及时反应，义务掉败时无奈静态自顺应。在事实利用中，及时反应跟自顺应调剂对顺应新的 UI 情况至关主要，比方「翻开某文件并打印」有多种操纵门路，可经由过程开端菜单搜寻，也能直接导航线径，但传统智能体难以应答这种多样性。详细构建通用 UI 交互智能面子临以下挑衅：同一把持接口困难：智能体需纯熟应用鼠标、键盘等尺度输入方法，精准懂得视觉信息并转化为指令，在差别利用中稳固高效操纵。UI 定位窘境：智能体要能解读屏幕信息，精准辨认各种元素，如网页搜寻时正确找到搜寻框并准确交互，对其懂得跟定位才能请求高。新 UI 摸索与重计划挑衅：智能体需像人类面临生疏软件一样，具有静态摸索跟调剂打算的才能，能处置软件瓦解等不测，根据反应优化战略。OSCAR 的奇特计划：机动状况机与静态重计划的奇妙联合为处理上述困难，研讨团队推出 OSCAR。它以代码为中心把持方法，与静态操纵体系情况自立交互，翻新点如下：状况机架构：OSCAR 采取状况机形式，经由过程 [Init]（初始化）、[Observe]（察看）、[Plan]（计划）、[Execute]（履行）、[Verify]（验证）等状况轮回，处置义务各环节。碰到成绩时应用及时反应从新计划，比传统方法效力更高、顺应性更强。OSCAR 状况机视觉跟语义双重 UI 定位：OSCAR 应用 Set-of-Mark（SoM）提醒技巧跟可拜访性（A11Y）树天生视觉提醒，精准定位 UI 元素；同时增加描写性标签停止语义定位，便于掌握 UI 规划，机动操纵元素。OSCAR 视觉跟语义双重 UI 定位义务驱动从新计划：受打算 - 处理提醒（plan-and-solve）启示，OSCAR 将用户指令剖析为子义务并逐渐天生举措。收到负面反应时，针对特定子义务从新计划，防止团体重计划，进步效力并避免过错传布。基于代码的举措：OSCAR 借助天生的语义定位信息，应用元素 ID 或坐标援用交互元素，经由过程 PyAutoGUI 库天生把持代码，准确把持操纵体系。OSCAR 试验验证：UI 懂得、定位跟静态导航才能的气力认证研讨职员在 GAIA、OSWorld、AndroidWorld 等多个实在天下任务流主动化基准测评数据会合对 OSCAR 停止了评价，这些基准涵盖了差别难度跟范例的义务，包含简略操纵、庞杂多步调义务以及跨多种利用的义务。1. 基准测评成就凸起：在 GAIA 基准测试中，OSCAR 在全部任务流庞杂水平级别上都表示最佳。尤其是在最庞杂的 Level 3 义务上，胜利率到达 13.5%，多少乎是之前开始进方式的两倍。在 OSWorld 跟 AndroidWorld 基准测评中，OSCAR 同样超出其余智能体，展示出强盛的顺应性。6a. GAIA 基准测评6b. OSWorld 基准测评6c. AndroidWorld 基准测评OSCAR 在基准测评 GAIA, OSWorld 跟 AndroidWorld 中获得最好程度2. 计划效力上风明显：在掉败案例中，OSCAR 在过错实现（FC）、到达步调限度（RSL）跟有效举措（IA）这些情形中的从新计划冗余度（RR）显明低于其余智能系统统结语：开启操纵体系交互新时期OSCAR 作为通用智能体，凭仗机动的状况机跟静态的从新计划才能，在桌面跟智妙手机操纵体系义务中展示出强盛的顺应性跟无效性。它为主动化任务流供给了高效通用的处理计划，无望成为晋升静态操纵体系情况出产力的无力东西，让操纵体系交互变得愈加便捷、高效、易拜访。并且，凭仗其开源特征，将来 OSCAR 还将在浩繁开辟者的独特尽力下一直退化，连续助力通用人工智能与数字天下实现完善交互。

新闻资讯

联系我们

解放双手！OSCAR让操作体系交互完成天然言语「自