栏目分类
热点资讯
你的位置:科技前沿网 > 数字趋势 > Claude自动玩崩铁清日常,NUS新论文无缺测评AI电脑操控

数字趋势

Claude自动玩崩铁清日常,NUS新论文无缺测评AI电脑操控

发布日期:2024-12-22 05:42    点击次数:199

Claude自动玩崩铁清日常,NUS新论文无缺测评AI电脑操控

奇月 发自 凹非寺量子位 | 公众号 QbitAI

Claude操控电脑,究竟不错作念到什么进度?

新加坡国立大学团队在20多个场景下作念了全面测试,其中最引东谈主预防的是:AI不错自动玩手游清日常任务了!

照料中选用了米哈游《崩坏:星穹铁谈》,不错跟它说”帮我完成今天的模拟世界”,然后,Claude就会立即规律翻开游戏菜单、找到星穹里的”黄金花萼”、自动修复6次挑战次数:

致使还不错开动自动斗争、恭候斗争落拓后退出,这一套组合操作几乎游刃多余……

而况着重哦,这不仅是传统游戏外挂那样的机械操作,Claude还能智能明白游戏限定和见识,把柄界面上不同的任务进行颐养。

这下好了,东谈主类只可在一旁干横眉了。

除了更多测试场景外,论文还忽视了一个开箱即用的自动GUI框架。

有网友看到视频后评评释:以后我去上学的时候,就不错让Claude帮我玩逐日任务了。

还不错自动完成许多办公任务

Claude Computer Use的潜能还远远莫得被东谈主类发掘——

照料团队还测试了许多日常办公场景下它的性能:

1.网页搜索

它不错在Amazon和Apple官方网站上奏效完成下单购物的任务,选拔颜料建树、填写地址齐平稳拿抓。

2.责任过程

模子还奏效完成了在Apple Music添加歌曲、剪辑Excel数据、在App Store装配愚弄等自动任务。

诚然界面设想和跳转逻辑愈加复杂,它照旧能智能地明白雇务的最终见识,确切一个熟悉的好AI(欣忭)!

3..办公坐蓐力软件

此外,它还不错在Outook中转发邮件、颐养Word布局、修复PowerPoint配景修复和插入三角形骸式等等,这下真的不错大大增强坐蓐力了(AI不消论 -1)。

4.还不错玩其他游戏

除了《崩坏:星穹铁谈》,模子也不错自动玩《炉石据说》,包括创建和重定名牌组、使用英杰妙技等等。

Claude Computer Use API + 自动化GUI框架

你可能会意思,强如Claude Computer Use,是如何作念到自动完成任务的呢?

底下咱们就一齐来望望背后的框架设想——

具体来说,团队基于Claude Computer Use的API设想了一个自动化GUI框架,主要分为以下6个部分:

1.系统教唆

Claude Computer Use的系统教唆包括环境概括、可用函数和参数形容。用户不错通过编写 块来调用这些函数,举例蓄意机交互、Bash Shel敕令和文献剪辑用具。

2.景况不雅察

Claude Computer Use通过及时截图不雅察环境,不依赖元数据或HTML。每个本事步长事后,模子齐会保留历史截图,匡助生成下一步的看成。

3.推理范式

Claude Computer Use选择了一种推理-步履范式,通过不雅察环境来决定下一步的看成。这种范式不错让模子在高度动态的GUI环境中生成更可靠的看成。

4.用具使用

Claude Computer Use提供了三种用具:蓄意机用具、文本剪辑器用具和Bash用具,它们不错匡助模子与蓄意机进行交互,试验多样任务。

5.GUI看成空间

GUI看成空间内置了总共原始的鼠标和键盘看成,如鼠标移动、点击、按键组合、拖放和截图等。模子会把柄需要自行组合。

6.历史视觉潦倒文重视

模子在每个本事步长齐会保留历史截图,以扶直看成生成过程。具体公式如下:

性能测试

为了愈加日常地测试Claude Computer Use和GUI框架长入后的性能成果,团队还设想了详细的测试实验,包括

1.数据汇集:实验设想包括在Windows和macOS上通过ComputerUse Out-of-the-Box平台进行评估。评估任务粉饰了日常的愚弄界限,包括网页搜索、责任过程、办公坐蓐力软件和视频游戏等。

2.样本选拔:选拔了20个任务,涵盖12个软件或网站,分为以下三个界限:网页搜索、责任过程、办公坐蓐力和视频游戏。具体的任务不错稽查下表:

3.参数建树:系统分辦率修复为Windows的(1366,768)和macOS的(1344,756)。过程中还加入了东谈主类评审和评估用于监控和审查过程,确保任务的获胜完成。

诚然Claude Computer Use在之前的例子中进展齐颠倒横蛮,但当网页或软件的页面过于复杂时,模子也出现了一些失败案例:

1.细密网页操作失败:在Fox Sports订阅任务中失败,失实原因主要在于模子莫得正确导航到”Account”选项卡。

2.办公软件失败:在Word中更新简历模板、和在PPT中插入编号记号两个任务中失败,失实原因在于模子未能准确选拔和定位文本字段。

不外举座来说,Claude Computer Use一经很棒了,而况这功能也刚刚发布没多久,异日可期!

团队还公开了总共测试用例的具体信息,感意思意思的小伙伴不错点GitHub气象伙同稽查更多音书~

Claude淳厚,以后我的PPT和Steam就交付你了(bushi)

参考府上:

https://arxiv.org/pdf/2411.10323https://github.com/showlab/computer_use_ootb

— 完 —

量子位 QbitAI · 头条号签约

温雅咱们,第一本事获知前沿科技动态