栏目分类
热点资讯
你的位置:科技前沿网 > 创新应用 > Google 夜深狙击 OpenAI:新 Agent 功能不错我方大开浏览器查贵寓了

创新应用

Google 夜深狙击 OpenAI:新 Agent 功能不错我方大开浏览器查贵寓了

发布日期:2025-01-06 15:45    点击次数:100

Google 夜深狙击 OpenAI:新 Agent 功能不错我方大开浏览器查贵寓了

甚而还不错及时在线教你打游戏了。

作家 | Li Yuan

2024 年走到年底,似乎 AI 大厂们集体又决定搞点事情了。

在 OpenAI 通告连发 12 天更新后,Google 礼聘 12 月 11 昼夜深(在 OpenAI 发布更新之前),发布新模子 Gemini 2.0。

在屡次发布被 OpenAI 精确狙击后,Google 整宿扳回一局,发布了 Gemini 2.0,直指 Agent 使用,一个 OpenAI 于今莫得明确公开布局的范畴——之前有音问称,OpenAI 将在来岁推出使用电脑的 Agent。

Agent 功能,也称为智能体功能,时常指的是 AI 能够感知环境、实践任务并在一定进度上独处作念出决策的本事,也即是能更自动化完成任务的功能。

张开剩余90%

这次 Google 似乎赌对了。OpenAI 凌晨两点的发布,主要通告了和 Apple Intelligence 的互助,一个多数被期待能与 Agent 本事强干系的互助。不外整宿最终的发布,主要仍然积攒于翰墨生成和视觉智能方面,并莫得 Agent 干系的内容。

而 Google,则一次性发布了四个 Agent 干系的功能:

Project Astra,能够在 Gemini 应用中平直调用 Google Lens 和舆图功能帮用户处置问题;

Project Mariner(海员状貌),Chrome 浏览器的实验性功能,不错通过 提醒词平直帮用户浏览网页作念任务;

Jules,不错镶嵌 GitHub 的编程 Agent,使用当然讲话描述问题,就能平直生成不错团结到 GitHub 状貌中的代码;

游戏 Agent,能够及时解读屏幕画面,平直在你打游戏的时候通过和你语音交流,给你 AI 叮属提醒。

诚然这次 Google 发布的功能仍然属于期货范围,然则仍然十分令东说念主怡悦。咱们似乎依然不错洞见 Agent 真确到来的时期,东说念主类糊口的一角了。

01

炸裂新 Agent 功能:我方查贵寓、写代码,教你玩游戏

Google 的新功能建造在新模子 Gemini 2.0 本事之上。

和大部分大模子礼聘的门道不一样,Google 最早就礼聘了使用原生多模态的的式样锤真金不怕火模子——OpenAI 到了 GPT-4o 模子才形成原生多模态的模子。

原生多模态模子,是在锤真金不怕火阶段,就将图像、翰墨、语音甚而视频等多种编码,调治输入给一个模子进行学习。

这么,模子不错在交融了一个「事物」后,愈加机动地运用进行不同模态的生成。

这次 Gemini 2.0,进一步升级了原生多模态本事。模子现时平直领有了原生的图像生成本事、音频输出本事和原生的用具应用本事。

原生的用具应用本事就和 Agent 的本事高度干系。Google 先容,除此除外,新体验还来自于多模态推理、长高下文交融、复杂指示投降和谋略、组合函数调用、土产货用具使用和裁汰延长等标的的改良。

看一下 Google 建议的新功能演示:

Project Mariner 是这个系列中,笔者看起来最惊喜的演示。

主要原因可能是因为联系于其他功能,Google 的 Chrome 浏览器是笔者每天皆要使用的用具,亦然对责任效果影响最高的用具。而 Google 的这项检修性功能,看起来也不需要对浏览器进行过多的独特成就——只需要用到蔓延尺度。

Google 很懂地选了一个坐蓐力场景,让 Chrome 大开一个表格(演示里里用的是 Google Docs,不知说念这与最终的班师识别是不是有干系性)。

表格里有几个公司的名字。演示者大开 Chrome 的这项检修功能,让 Chrome 我方记取这几个公司名字,去网上查找这些公司的邮箱。(相通的,查找使用的是 Google 搜索,不知说念是不是与临了的演示班师干系。)

浏览器我方大开了网页,我方点开每个公司的官网,在找到邮箱地址后,自动记取邮箱地址,关掉网页启动查找下一个公司的邮箱地址。

全程,用户不错在右边栏输入提醒词的位置,看到模子现时在若何想考,随时罢手自动操作。同期模子只会在前台运行,不会在用户看不到的标签页中运行。

诚然前台运行似乎对用户的时刻是一种耗尽,但同期也保证了安全性。在这个案例中,也确乎擢升了坐蓐效果——挨个查找邮箱确乎是一件相等莫得创造力的责任。

Jules,则让当然讲话写代码似乎更近了一步。

在演示中,用户输入了一段相等详备的编程问题的提醒词,包括在哪个文献中遭遇什么问题,但愿作念若何的修改。(Google 提到 Jules 不错平直镶嵌 GitHub 中。)

Jules 对问题进行分析,给出了一个三步的编程处置决议,当用户点击高兴后,模子启动自动编程,生成代码文献,这些代码不错一键被团结至用户原有的代码中。

游戏 Agent,则是看起来最理由的一个演示。

Google 成心提到,Gemini 2.0 不错交融 Android 手机的屏幕共享和用户的语音,平直作念到演示中的内容,不需要独特的后锤真金不怕火。

演示中,用户共享正在玩的手机屏,并用语音和 Agent 相通,游戏 Agent 平直给出了接下来的最好计谋。

Google 暗意现时正在和《部落冲破》、《海岛奇兵》等游戏作念互助,匡助 Agent 交融游戏法例。同期 Agent 也会我方及时上网查找,来交融游戏法例给出最好的计谋。

这个功能也不错说很炸裂了。关于纯计谋型游戏,这个外挂可有点太锐利了——跟着 AI 的进展,东说念主脑对计谋的交融只怕莫得目的和 AI 抗衡。或者说,随机独一最顶尖的大脑不错和 AI 相抗衡。

Gemini2.0 现时并莫得对整个用户怒放,Google 暗意现时正在将 2.0 怒放给开拓者以及受信任的测试东说念主员。这意味着以上的 Agent 功能,到用户真确能够使用,仍然有一段时刻。不外这次演示仍然令东说念主怡悦。

将来 Gemini 2.0 上线,Google 或者率也不会首发上述的 Agent 功能,而是将先将其融入 Gemini 和搜索功能。

Google 之前依然在探索将 AI 引入其搜索功能中。10 月,Google 也曾通告,其搜索中的 AI 详尽功能每月取得了 10 亿用户的使用。将来 Google 方针把 Gemini 2.0 的高等推理本事引入 AI 详尽,以轻佻更复杂的话题和多智商问题,包括高等数学方程式、多模态查询和编码。

此外,除了探索假造全国的智能体本事外,Google 还测度打算将 Gemini 2.0 的空间推理本事应用于机器东说念主范畴,尝试让 Agent 在实践全国中提供匡助。

02

Gemini Flash 成例更新

那么用户内容上能够立时使用的模子是什么?

谜底是 Gemini 2.0 Flash。

手脚 Google 大号模子蒸馏而来的小号模子,Gemini 2.0 Flash(对话优化版块)将成为 Google Gemini 中的默许使用模子。

Google 还推出了一项名为「深度盘问」的新功能,该功能运用高等推理和长高下文本事手脚盘问助手,不错探索复杂主题并编制证明,今天在 Gemini 高等版中可用。

Gemini 2.0 Flash 的本事较上一代有赫然擢升,止境于上一代模子的 Pro 版块的本事。

同期手脚 2.0 模子家眷的一员,Gemini 2.0 Flash 也援助援助图片、视频和音频等多模态输入,2.0 Flash 当今还不错援助多模态输出,举例不错平直生成图像与文本混杂的内容,以及原生生成可控的多讲话文本转语音 (TTS) 音频。它还不错原生调用 Google Search、代码实践以选取三方用户界说的函数等用具。

03

Project Astra:为 Google Glasses 准备的模子,领有无尽牵记?

Google 这次还重心先容了 Project Astra,为其推出了以下改良:

·更畅通的对话:Project Astra 当今不错在多种讲话和混杂讲话之间进行对话,况兼能够更好地交融不同口音和旷费单词。

·新用具的使用:借助 Gemini 2.0,Project Astra 不错使用 Google Search、Google Lens 和 Google Maps,从而在泛泛糊口中更好地说明助手作用。

·更强的牵记力:咱们增强了 Project Astra 的牵记本事,同期确保你不错掌控对话。当今,它最多不错记取长达 10 分钟的会话内容,况兼不错回忆起畴昔与它进行的更多对话,以便为您提供更好的个性化就业。

·更低的延长:借助新的流式处理技艺和原生音频交融本事,该智能体能够以近于东说念主类对话的延长来交融讲话。

Google Astra 是 Google 为了眼镜状貌所作念的前瞻状貌。

这次 Google 要紧更新之一,是牵记本事。在外网采访中,DeepMind 的 CEO Demis Hassabis 暗意,在 Gemini 1.5 时期,里面测试中,依然将其高下文窗口蔓延到了 1000 万个 token 以上。现时依然模子险些不错作念到无尽牵记。

然则代价即是速率。牵记越长,搜索干系牵记的老本越高,速率越低。不外 Demis Hassabis 以为,接下来止境短的时刻内,咱们将真确领有无尽长的高下文。

而这关于 Google 真确想作念的助手而言是极其热切的。Demis Hassabis 描摹未下全国:「你在电脑上使用这一助手,然后你走披缁门,戴上眼镜,或者使用手机,它一直皆在。它能够记取会话以及你想要作念什么,真确个性化。咱们东说念主类无法记取总共事情,而AIvu u会记取总共事情,来给你以灵感和新的谋略。」

04

Agent 时期已来?

从前年启动,就连接有东说念主指出 Agent 是 AI 发展的将来。

不外,在畴昔一年中,Agent 这个词的使用相对比拟千里寂,甚而有时候被掉包见解当成 AI 应用来使用。

然则在本年年末,咱们终于启动看到了相对可喜的进展。

领先是 Anthropic,推出电脑使用的 Agent 口头。

国内的智谱 AI,也推出了一个手机 Agent 替用户操作微信等 App 的的演示视频。

来岁的 OpenAI 与苹果互助的 Apple Intelligence,现时仍然不笃定全貌。许多东说念主期待它将让许多用户第一次在手机上体会到简便的 Agent 功能到底能若何匡助咱们擢升坐蓐力。

而当今咱们又看到 Google 推出的浏览器 Agent 和安卓手机上的 Agent 使用演示。

Agent 技艺依然面对诸多挑战。东说念主们会担忧误操作可能带来的安全隐患,会驰念秘籍,会驰念一系列风险。

但同期,关于等闲用户而言,Agent 才是最具「AI 感」的技艺。全自动的任务完成,像魔法一般,不需要任何技艺配景,平直就能擢升责任效果和使用体验。

Agent 本事的擢升,也为一个新的智能硬件真确干涉东说念主们糊口打下了基础——独一发出语音指示,眼镜能平直自动完成部分任务的时候,许多任务才会渐渐从手机飘零至新的智能硬件终局。

随机真实如 Google AI Studio 的居品阐扬东说念主 Logan Kilpatrick 今天早些时候所言:将来,是 Agent 的时期。

*头图着手:记起改

本文为极客公园原创著作,转载请筹议极客君微信 geekparkGO

极客一问

你最期待 AI 能全自动帮你作念什么?

发布于:北京市