大模型像人一样操控电脑了!Claude 3.5重磅升级,抢先OpenAI
- 编辑:admin - 点击数:819大模型像人一样操控电脑了!Claude 3.5重磅升级,抢先OpenAI
机器之心报道
机器之心编辑部
几个小时前,模型迎来了一波大更新。Anthropic推出了升级版的以及一款新模型。
其中,升级版的各项能力全面胜过之前版本,其中代码能力提升显著。的性能则与之前最大模型Claude3Opus的性能相当,同时在成本和速度上与上一代Haiku相近。
目前,「使用计算机」功能已经有了公开测试版,大家可以申请试用。申请表单:
该功能发布后,网友纷纷点赞,都表示迫不及待想要尝试这个功能;当然也有网友对依然使用原来的名称表达了深深地不解:「为什么这么大的更新却连模型版本号都不改一下?」
并且发布不过几个小时,就已经有开发者尝试了的这项新能力。网友MckayWrigley表示通过API使用这项新功能,设置时间不超过10分钟,而这项能力却能为AI开启无限可能,堪称gamechanger。
顺带一提,在Anthropic更新的同时,热门AI编程工具Cursor也已经成功接入Claude系列模型。根据许多网友分享的截图,接入Cursor的正是最新的20241022版本!
另外,对于官方博客中缺少的与OpenAIο1模型的性能对比,也已经有研究者抢先完成了。根据研究者AustinStarks的实验,最新版的性能表现优于OpenAIο1-mini。他自己也对这一结果深表震惊。
详细报告请访问:
让AI使用计算机有什么用?
为什么说这个功能很重要?我们知道,现代的大量工作都是通过计算机完成的。如果能让AI像人类一样直接与计算机软件交互,将解锁大量当前一代AI助手无法实现的应用。
过去几年,强AI已经实现了一个又一个里程碑,举个例子,现在的强AI已经有能力执行复杂的逻辑推理和理解图像内容。下一个前沿就是使用计算机,AI模型不必通过定制工具进行交互,而是能够遵照指示使用几乎任何软件。
Anthropic表示,他们之前在工具使用和多模态方面的工作为这些新的计算机使用技能奠定了基础。
操作计算机需要查看和解释图像的能力——这里的图像就是指计算机屏幕。它还需要推理能力,以了解以怎样的方式在什么时间执行特定的操作。整合这些能力后,Claude便可具备解读屏幕内容并使用软件工具执行任务的能力。
Anthropic表示,在训练Claude使用计算机方面,仅使用少量简单软件(比如一个计算器和一个文本编辑器)进行的训练就让Claude可以泛化这种能力。这一点让开发团队自己都深感惊讶。至于为何使用这样的简单软件,该团队表示:「出于安全原因,我们并不允许模型在训练时访问互联网。」
再结合Claude的其它能力,这种训练赋予了它非凡的能力,可以将用户的文本提示词转化为一系列逻辑步骤,然后在计算机上采取行动。开发团队观察到,如果遇阻,该模型甚至还能自我纠错并重试任务。
他们表示:「虽然我们在取得初步突破后很快就取得了后续进展,但达到这一目标的过程经历了大量反复试验。」该公司的一些研究者指出,让Claude具备使用计算机的能力接近他们刚开始从事该领域时所描绘的AI研究的「理想化」过程:不断迭代和反复回到绘图板,直到取得进展。
终于,研究获得了回报。目前,Claude可以说是当之无愧的SOTA模型,其使用计算机的方式与人类相同——即查看屏幕再采取行动。在OSWorld这项测试模型使用计算机的能力的评估基准上,Claude当前的准确度为14.9%,虽然远远不及人类水平(通常为70-75%),但却远高于在此基准上排名第二的AI模型(7.8%)。当给予更多的步骤来完成任务时,Claude得分为22.0%。
OSWorld基准上当前排名前十的模型
确保计算机使用安全
Anthropic通过评估计算机的使用是否会增加其《负责任扩展政策》中列出的前沿威胁(frontierthreats)的风险来证实这一点。更新后的,包括其新的计算机使用技能,仍处于AISafetyLevel2,也就是说,它不需要比Anthropic目前采取的安全措施更高标准的安全措施。
未来的模型可能会带来灾难性的风险,计算机的使用可能会加剧这些风险,因此需要AISafetyLevel3或4的保障措施。Anthropic认为现在引入计算机使用可能会更好,而模型仍然只需要AISafetyLevel2的保障。这意味着可以在风险过高之前开始解决任何安全问题。
因此,Anthropic的信任与安全团队对计算机使用模型进行了广泛的分析,以识别潜在的漏洞。他们发现的一个问题是「提示词注入」——一种网络攻击,会输入恶意指令到人工智能模型,导致其要么覆盖先前的指令,要么执行偏离用户原始意图的意外操作。由于Claude可以解读连接到互联网的计算机的屏幕截图,因此它可能会暴露于包含提示词注入攻击的内容。
默认情况下,Anthropic不会使用用户提交的数据(包括Claude收到的任何屏幕截图)来训练其生成式AI模型。
「计算机使用」的未来

计算机的使用是一种完全不同的人工智能开发方法。到目前为止,LLM开发人员已经制作了适合模型的工具,生成了自定义环境,人工智能可以使用专门设计的工具来完成各种任务。
现在,Anthropic的研究者可以让模型适应工具——Claude可以融入我们日常使用的计算机环境中。他们的目标是让Claude能够利用现有的计算机软件,并像人类一样简单地使用它们。
研究者构建了一个API,使Claude能够感知计算机界面并与之交互。该API使Claude能够将提示词翻译成计算机命令。开发人员可以使用它来自动执行重复性任务、进行测试和QA以及进行开放式研究。
研究者并没有制作专门的工具来帮助Claude完成个别任务,而是教它通用的计算机技能,让它能够使用为人类设计的各种标准工具和软件程序。
不过,Anthropic还有很多工作要做。尽管目前Claude处于技术的最前沿,但它使用计算机的速度仍然缓慢且经常出错。人们在计算机上常规进行的许多操作(如拖动、缩放等)Claude还无法完成。
研究者预期对计算机的使用将迅速改进,变得更快、更可靠,并更有助于用户完成他们想要完成的任务。对于那些软件开发经验较少的人来说,实施起来也将变得更加容易。并且在每一个阶段,研究人员都将与安全团队紧密合作,确保Claude的新功能更加安全。
Asana、Canva、Cognition、DoorDash、Replit和TheBrowserCompany已经开始探索「计算机使用」的各种可能性,执行那些需要几十个、有时甚至几百个步骤才能完成的任务。例如,Replit正在利用的计算机使用和UI导航能力,为其ReplitAgent产品开发一个关键功能,该功能可以在构建应用程序时评估这些应用程序。
升级版的现在对所有用户开放。从今天开始,开发者可以在AnthropicAPI、AmazonBedrock和GoogleCloud的VertexAI上使用「计算机使用」的测试版进行构建。新的将在本月晚些时候发布。
:行业领先的软件工程技能
更新版的在行业基准测试中显示出广泛的改进,特别是在智能体编码和工具使用任务上取得了显著的提升。在编码方面,其在SWE-benchVerified上的性能从33.4%提高到49.0%,得分高于所有公开可用的模型——包括像OpenAIo1-preview这样的推理模型和专为智能体编码设计的专门系统。它在TAU-bench上的表现也有所提升,这是一个智能体工具使用任务,在零售领域的得分从62.6%提高到了69.2%,在更具挑战性的航空领域则从36.0%提高到了46.0%。新的以与其前代相同的价格和速度提供了这些改进。
:SOTA技术与性价比和速度的结合
是Anthropic最快的模型的下一代。与Claude3Haiku的成本相同,速度相似,在每项技能上都有改进,并且在许多智能基准测试上甚至超过了Anthropic上一代最大的模型——Claude3Opus。在编码任务上尤其强大。例如,它在SWE-benchVerified上的得分为40.6%,超过了使用公开可用的SOTA模型的许多智能体——包括原始的和GPT-4o。
凭借低延迟、改进的指令遵循和更准确的工具使用,非常适合面向用户的产品、专门的sub-agent任务以及从大量数据(如购买历史、定价或库存记录)中生成个性化体验。
将于本月晚些时候通过Anthropic的第一方API、AmazonBedrock,和谷歌云的VertexAI提供——最初作为仅限文本的模型,随后将支持图像输入。