Claude自动玩崩铁清日常,NUS新论文无缺测评AI电脑操控
发布日期:2024-12-22 05:42 点击次数:199
Claude操控电脑,究竟不错作念到什么进度?
新加坡国立大学团队在20多个场景下作念了全面测试,其中最引东谈主预防的是:AI不错自动玩手游清日常任务了!
照料中选用了米哈游《崩坏:星穹铁谈》,不错跟它说”帮我完成今天的模拟世界”,然后,Claude就会立即规律翻开游戏菜单、找到星穹里的”黄金花萼”、自动修复6次挑战次数:
致使还不错开动自动斗争、恭候斗争落拓后退出,这一套组合操作几乎游刃多余……
而况着重哦,这不仅是传统游戏外挂那样的机械操作,Claude还能智能明白游戏限定和见识,把柄界面上不同的任务进行颐养。
这下好了,东谈主类只可在一旁干横眉了。
除了更多测试场景外,论文还忽视了一个开箱即用的自动GUI框架。
有网友看到视频后评评释:以后我去上学的时候,就不错让Claude帮我玩逐日任务了。
还不错自动完成许多办公任务
Claude Computer Use的潜能还远远莫得被东谈主类发掘——
照料团队还测试了许多日常办公场景下它的性能:
1.网页搜索
它不错在Amazon和Apple官方网站上奏效完成下单购物的任务,选拔颜料建树、填写地址齐平稳拿抓。
2.责任过程
模子还奏效完成了在Apple Music添加歌曲、剪辑Excel数据、在App Store装配愚弄等自动任务。
诚然界面设想和跳转逻辑愈加复杂,它照旧能智能地明白雇务的最终见识,确切一个熟悉的好AI(欣忭)!
3..办公坐蓐力软件
此外,它还不错在Outook中转发邮件、颐养Word布局、修复PowerPoint配景修复和插入三角形骸式等等,这下真的不错大大增强坐蓐力了(AI不消论 -1)。
4.还不错玩其他游戏
除了《崩坏:星穹铁谈》,模子也不错自动玩《炉石据说》,包括创建和重定名牌组、使用英杰妙技等等。
Claude Computer Use API + 自动化GUI框架
你可能会意思,强如Claude Computer Use,是如何作念到自动完成任务的呢?
底下咱们就一齐来望望背后的框架设想——
具体来说,团队基于Claude Computer Use的API设想了一个自动化GUI框架,主要分为以下6个部分:
1.系统教唆
Claude Computer Use的系统教唆包括环境概括、可用函数和参数形容。用户不错通过编写 块来调用这些函数,举例蓄意机交互、Bash Shel敕令和文献剪辑用具。
2.景况不雅察
Claude Computer Use通过及时截图不雅察环境,不依赖元数据或HTML。每个本事步长事后,模子齐会保留历史截图,匡助生成下一步的看成。
3.推理范式
Claude Computer Use选择了一种推理-步履范式,通过不雅察环境来决定下一步的看成。这种范式不错让模子在高度动态的GUI环境中生成更可靠的看成。
4.用具使用
Claude Computer Use提供了三种用具:蓄意机用具、文本剪辑器用具和Bash用具,它们不错匡助模子与蓄意机进行交互,试验多样任务。
5.GUI看成空间
GUI看成空间内置了总共原始的鼠标和键盘看成,如鼠标移动、点击、按键组合、拖放和截图等。模子会把柄需要自行组合。
6.历史视觉潦倒文重视
模子在每个本事步长齐会保留历史截图,以扶直看成生成过程。具体公式如下:
性能测试
为了愈加日常地测试Claude Computer Use和GUI框架长入后的性能成果,团队还设想了详细的测试实验,包括
1.数据汇集:实验设想包括在Windows和macOS上通过ComputerUse Out-of-the-Box平台进行评估。评估任务粉饰了日常的愚弄界限,包括网页搜索、责任过程、办公坐蓐力软件和视频游戏等。
2.样本选拔:选拔了20个任务,涵盖12个软件或网站,分为以下三个界限:网页搜索、责任过程、办公坐蓐力和视频游戏。具体的任务不错稽查下表:
3.参数建树:系统分辦率修复为Windows的(1366,768)和macOS的(1344,756)。过程中还加入了东谈主类评审和评估用于监控和审查过程,确保任务的获胜完成。
诚然Claude Computer Use在之前的例子中进展齐颠倒横蛮,但当网页或软件的页面过于复杂时,模子也出现了一些失败案例:
1.细密网页操作失败:在Fox Sports订阅任务中失败,失实原因主要在于模子莫得正确导航到”Account”选项卡。
2.办公软件失败:在Word中更新简历模板、和在PPT中插入编号记号两个任务中失败,失实原因在于模子未能准确选拔和定位文本字段。
不外举座来说,Claude Computer Use一经很棒了,而况这功能也刚刚发布没多久,异日可期!
团队还公开了总共测试用例的具体信息,感意思意思的小伙伴不错点GitHub气象伙同稽查更多音书~
Claude淳厚,以后我的PPT和Steam就交付你了(bushi)
参考府上:
https://arxiv.org/pdf/2411.10323https://github.com/showlab/computer_use_ootb— 完 —
量子位 QbitAI · 头条号签约
温雅咱们,第一本事获知前沿科技动态