谷歌大模子登场!掀Agent风暴,放AI芯片大招,半夜突袭OpenAI
发布日期:2025-01-08 15:05 点击次数:130
作家 | ZeR0 程茜裁剪 | 漠影
OpenAI的12天“圣诞大礼包”还没熄火,谷歌一忽儿“插队”放出年末大招!
智东西12月12日报说念,当天,谷歌重磅发布其迄今最广泛的AI大模子Gemini 2.0,新功能包括原生图像生成和音频输出的多模态输出,并支持原生调用谷歌搜索、舆图、Lens等器具。
其第一款新模子是Gemini 2.0 Flash的实验版块,速率是1.5 Pro的两倍。谷歌称,这款新模子专为AI Agent时间而联想,主打多模态+AI Agent。
基于Gemini 2.0 Flash,谷歌推出一大波AI Agent新品,包括本年5月震荡业界的通用AI助手原型Project Astra,还有约略动作实验性彭胀在谷歌浏览器中完成多要领复杂任务的Project Mariner,以及实验性AI编程Agent Jules、游戏Agent。
Gemini 2.0的发布,打响了迈向AI Agent新全国的要道一枪。
谷歌CEO桑达尔·皮查伊(Sundar Pichai)说:“如若说Gemini 1.0是对于组织和领略信息,那么Gemini 2.0是对于使其愈加有效。”这亦然其专注于AI Agent、多模态输出的原因所在。
Gemini和Gemini Advanced用户可在桌面端的模子下拉菜单中选拔聊天优化版Gemini 2.0来试用。开辟东说念主员可通过Google AI Studio和Vertex AI在Gemini API中启动使用此模子进行构建。
本周,谷歌启动在搜索的AI概览中测试Gemini 2.0。1月份,Gemini 2.0 Flash将全面上市,同期将推出更多模子尺寸。来岁岁首,谷歌会将Gemini 2.0彭胀到更多谷歌居品中。
Gemini 2.0背后的中枢硬件也负责揭晓——Trillium TPU。
谷歌文书其最强AI芯片Trillium TPU普遍可用,还详备先容了谷歌云AI超等推测机架构,包括可集成高出100,000颗Trillium芯片的Jupiter汇注。Trillium不仅在教养密集型诳言语模子、MoE模子上性能更强,而且AI教养和推感性价比更高。亚洲AI大模子独角兽AI21 Labs已使用Trillium来开辟话语模子。
此外,谷歌发布了一款名为Deep Research(深度策动)的全新AI器具。该器具擅长作念策动责任,异常于一位AI策动生,帮你只用几分钟就能完成正本需要数小时的策动。
用户输入问题后,它会创建一个多要领策动规划,在用户修改及批准后启动调用Gemini机器东说念主深入分析来自网上的联系信息,并证据其要道发现生成一份详备的笼统进展,比肩上信息开头结合。用户不错条件Gemini彭胀某些界限或诊疗进展,并将AI生成的策动导出到谷歌文档。
该器具面前仅向Gemini Advanced订阅者提供英文版,并将于来岁岁首在出动App中提供。
一、Gemini 2.0首款模子发布!多模态输出、原生调用器具、四大Agent谷歌的官方博客深刻,Gemini 2.0 Flash在要道基准测试中的速率是1.5 Pro的两倍。
除了支持图像、视频和音频等多模式输入外,Gemini 2.0 Flash当今还支持多模态输出,举例与文本羼杂的原生生成的图像和可垄断的文本转语音(TTS)多话语音频,还不错原生调用谷歌搜索、代码奉行以考取三方用户界说函数等器具。
为了匡助开辟东说念主员构建动态和交互式应用范例,在此基础上,谷歌还发布了具有及时音频、视频流输入以及使用多个组合器具的才调的Multimodal Live API。
在AI Agent方面,谷歌文书了对实验性功能的更新,包括通用AI Agent Project Astra、多要领任务AI Agent Project Mariner、AI编程Agent Jules、游戏Agent。
1、通用AI Agent Project Astra:记着10分钟视频,更强agent才调
还难忘谷歌本年5月展示的通用AI助手策动原型Project Astra吗?
这是一个全视、全听和全顾忌的实验性AI助手,展示了通用AI助手的异日功能。你通过安卓App或原型眼镜来记载看到的全国,AI助手不错及时处理文本、图像、视频、音频,分析它所看到的试验并回答正常的问题,还醒目多国话语。
由Gemini 2.0提供支持的Project Astra更新版块,不错完了Agent(代理)才调。其最新校正包括:
更好的顾忌:本年5月谷歌展示了早期版块只可记着45秒的视频,当今它依然能顾忌10分钟的视频了,不错记着用户与其进行的更多对话和个东说念主偏好,更具个性化。更好的对话: 能使用多种话语和羼杂话语进行交谈,况且约略更好地领略口音和不常见的单词。新器具用途:使用Gemini 2.0的内置Agent框架,通过文本、语音、图像和视频回答问题并奉行任务,在需要时调用谷歌搜索、Lens、舆图等应用。改善蔓延:借助新的流媒体功能和本机音频领略,Agent以与东说念主类对话交流的蔓延领略话语,使对话嗅觉更当然。谷歌正在扩大Project Astra的测试限度,将新的响应纳入更新中,包括优化其对多样口音及不常见单词的领略、减少蔓延、将其集成到一些谷歌居品(如搜索、Lens、舆图等)。
*后文有更详备的功能演示。
2、多要领任务AI Agent Project Mariner:最好责任赶走83.5%,为保证安全目下需东说念主类介入
Project Mariner是谷歌在Gemini 2.0模子基础上发布的一个实验性功能,其不错完成多要领的复杂任务。
动作策动原型,Project Mariner约略领略和推理浏览器屏幕上的信息,包括像素和文本、编程、图像和表单等汇注元素,然后通过实验性的谷歌彭胀范例使用这些信息完成任务。
谷歌官方博客深刻,证据WebVoyager基准进行评估,该基准测试Agent在端到端着实全国汇注任务上的性能,Project Mariner动作单一Agent诞生完了了83.5%的最好责任赶走。
在演示中,Project Mariner不错同期完成获取表单、找到公司官网、联系神态等多要领任务,Agent会自动奉行在谷歌搜索中查找电子邮件的过程,且这一过程顶用户不错随时点击暂停和罢手。同期,用户不错看到Agent每一走路动的推理要领和规划。
尽管目下Project Mariner奉行任务时较慢且并不老是准确,但从技巧上讲,这标明了在浏览器中导航依然成为可能。
目下,该代理在完成任务时需要东说念主类介入,如Project Mariner只可在浏览器的步履选项卡中键入、更始或点击,况且它会在用户奉行某些购买等明锐操作之前条件用户进行最终阐述。
3、AI编程Agent Jules:平直集成GitHub,弥远狡计是构建通用Agent
谷歌还在探索Agent Jules的更新。Jules是一种平直集成到GitHub责任经由中的实验性AI驱动的编程Agent。
Jules不错惩处问题、制定规划并奉行它,通盘过程皆在开辟东说念主员的辅导和监督下进行。在这一界限,谷歌的弥远狡计是构建在通盘界限(包括编程)皆有匡助的AI Agent。
4、游戏Agent:视频游戏导航,证据游戏动作推理、及时对话充任游戏交流
谷歌使用Gemini 2.0构建了游戏Agent,不错匡助用户在视频游戏的编造全国中导航。Agent不错仅证据屏幕上的动作来推理游戏,并在及时对话中提供下一步操作的建议。
目下,策动东说念主员在与Supercell等游戏开辟商联结,探索这些Agent从《部落冲破》等政策游戏到《Hay Day》等农业模拟器,在多样游戏中证明纪律和挑战的才调。
异日,谷歌还在查考不错通过将Gemini 2.0的空间推理功能应用于机器东说念主技巧来在物理全国中提供匡助的Agent。
三、通用AI助手原型升级!能存储10分钟视频,开启Agent时间谷歌发布了由Gemini 2.0提供支持的Project Astra更新版块的新演示视频。
测试者拿着安设了最新测试版Project Astra的Pixel手机,在伦敦隔壁遛弯并进行测试。比如收到包含公寓信息的电子邮件,你不错让AI助手告诉你门的密码,并记着它。洗穿着时,把穿着标签、机器图标拍给AI助手,它会告诉测试者正确的洗穿着神态。
测试者把保举列表拍给AI助手,它能搜索列表中的地方,给出相应的信息。
当测试者走在街说念上,扫过食品、雕镂或花草,AI助手皆能为讨论作出解答。
测试者还把一又友在读的书发给AI助手,让它保举允洽一又友喜好的礼物,并策动一又友可能感敬爱的点。
当偶遇一辆公交车,测试者问AI助手“那辆公交车能带我去唐东说念主街隔壁吗?”AI助手会修起说:“是的,24路公交车经过莱斯特广场,离唐东说念主街很近。”测试者不绝追问路上有什么路标,AI助手也作出流利地修起:“你可能遭遇的闻明地标是威斯敏斯特大教堂、大本钟和特拉法加广场。”
除了使用手机外,测试者也戴上原型眼镜来使用Project Astra,并提倡让它稽察天气预告、讨论阁下的公园是什么、查询能否骑自行车参加、这条路是否有超市等问题。
目下该AI助手仍有好多局限性,比如无法拜访个东说念主的电子邮件或像片,在嘈杂的环境中难以辨别多个声息,况且无法奉行诞生存时器等操作任务等。
Project Astra居品司理Bibo Xu说:“它正在会通咱们这个时间一些最广泛的信息检索系统。”
四、基于AI Agent,探索保护用户明锐信息、恪守用户指示政策在安全方面,谷歌在对多个实验原型进行策动的基础上,正通过迭代实施安全培训、与测试东说念主员和外部大家联结,进行正常的风险评估以及安全和保证评估。
谷歌与包袱与安全委员会 (RSC) 联结以识别和了解潜在风险。Gemini 2.0的推理功能使其AI辅助红队方法取得紧要跳跃,包括自便单地检测风险到自动生成评估和教养数据以放松风险的才调。由于Gemini 2.0的多模态功能增多了潜在输出的复杂性,其将不绝在图像和音频输入和输出方面评估和教养模子,以匡助进步安全性。通过Project Astra,谷歌正在探索针对用户有时中与代理分享明锐信息的潜在缓解措施,况且其依然内置了阴私放置功能,使用户不错搪塞删除会话。他们还在不绝策动以确保AI代理充任可靠的信息开头,况且不会代表您选择不测操作。通过Project Mariner,谷歌正在接力确保模子学会优先研讨用户指示,而不是第三方的指示注入尝试,以便它不错识别来自外部开头的潜在坏心指示并退缩滥用。这不错退缩用户通过电子邮件、文档或网站中荫藏的坏心指示等神态受到讹诈和汇注垂钓缺点。五、Gemini 2.0背后的硬件元勋:谷歌最强AI芯片Trillium TPU普遍可用全新Gemini 2.0由谷歌本年发布的Trillium TPU教养而成。Trillium是谷歌第六代TPU,亦然迄今性能最高的TPU。
其比较上一代芯片的优化包括:高出4倍的教养性能,高达3倍的推理隐晦量,能效进步67%,每颗芯片峰值推测性能进步4.7倍,HBM容量翻倍,单个Jupiter汇注有10万颗TPU,高至2.5倍的每好意思元教养性能、1.4倍的每好意思元推感性能。
当天,谷歌文书如今Trillium TPU面向谷歌云客户普遍可用。
Trillium TPU是谷歌云AI超等推测机的要道构成部分,其架构继承了性能优化的硬件、怒放的软件、最初的机器学习框架和生动的浪费级模子的集成系统。谷歌还对怒放软件层进行了增强,包括对XLA编译器和流行框架的优化,以在AI教养、调优和管事方面完了大规模的最初性价比。
此外,使用大皆主机DRAM(补充HBM)进行主机卸载等功能,提供了更高的赶走。
每个Jupiter汇注结构高出100,000颗Trillium芯片,具有13Pbps的对分带宽,约略将单个漫衍式教养任务彭胀到数十万个加快器。
以色列AI大模子独角兽AI21 Labs已使用Trillium来加快开辟下一代复杂话语模子。
1、彭胀AI教养责任负载
Trillium通过部署12个包含3072颗芯片的pod完了了99%的彭胀赶走,并在24个包含6144颗芯片的pod中展示了94%的彭胀赶走,以预教养gpt3-175b。
谷歌使用4片的Trillium-256芯片动作基准,使用1片的Trillium-256芯片动作基准,当彭胀到24个pod时,仍可得到高出90%的彭胀赶走。
在教养Llama-2-70B模子时,测试标明,Trillium以99%的彭胀赶走完了了从4片Trillium-256芯片pod到36片Trillium-256芯片pod的近线性彭胀。
2、教养密集型和MoE大模子
与前几代居品比较,Trillium TPU具有更好的彭胀赶走。下图表中,其测试展示了与同等规模的Cloud TPU v5p集群比较,Trillium在12 pod规模下的99%彭胀赶走(总峰值FLOPS)。
与上一代云TPU v5e比较,Trillium为密集诳言语模子(如Llama-2-70b和gpt3-175b)提供高达4倍的教养速率,为MoE模子提供了比上一代云TPU v5e快3.8倍的教养。
与Cloud TPU v5e比较,Trillium TPU提供了3倍的DRAM。在教养Llama-3.1-405B模子时,证据模子FLOPs诈欺率(MFU)测量,Trillium的主机卸载功能可将性能进步50%以上。
3、优化推感性能和网罗颐养
Trillium也为图像扩散模子和密集诳言语模子提供了最好的TPU推感性能。其测试标明,与Cloud TPU v5e比较,Stable Diffusion XL的相对推理隐晦量(每秒图像)进步了3倍以上,Llama2-70B的相对推理隐晦量(每秒token)进步了近2倍。
Trillium是谷歌在离线和管事器推理用例中性能最高的TPU。下图深刻,与Cloud TPU v5e比较,Stable Diffusion XL的离线推理相对隐晦量(每秒图像数)进步了3.1倍,管事器推理相对隐晦量进步了2.9倍。
除了更好的性能,Trillium还引入了一个新的汇注颐养功能。这个特质允许谷歌的颐养系统作念出智能的功课颐养方案,从而在一个汇注中有多个副本时进步推理责任负载的总体可用性和赶走。
它提供了一种顾问运行单主机或多主机推理责任负载的多个TPU片的方法,包括通过谷歌Kubernetes Engine(GKE)。将这些片分组到一个汇注中,不错很容易地诊疗副本的数目以称心需求。
4、进步镶嵌密集型模子性能
第三代数据流处理器SparseCore更擅长加快动态和数据依赖操作。引入第三代SparseCore的Trillium将镶嵌密集型模子的性能进步了2倍,将DLRM DCNv2的性能进步了5倍。
5、进步教养和推感性价比
Trillium还旨在优化每好意思元的性能。迄今为止,在教养密集诳言语模子(如Llama2-70b和Llama3.1-405b)中,Trillium的每好意思元性能比Cloud TPU v5e进步了2.1倍,比Cloud TPU v5p进步了2.5倍。
在Trillium上生成1000张图像的老本比离线推理的Cloud TPU v5e低27%,比在SDXL上进行管事器推理的Cloud TPU v5e低22%。
结语:大模子狂飙冲向Agent时间
通用东说念主工智能(AGI)热战在年末愈演愈烈。从亚马逊、OpenAI、Meta到谷歌,一系列重磅发布将大模子的竞争形态推向了新的高涨。
其中谷歌是少有的同期在大模子、云霄基础设施、端侧智能方面同期占据上风的头部大模子企业。
在汹涌澎拜的大模子竞赛中,执掌安卓操作系统的谷歌对端侧智能领略距离最近、领略最深。通过当天的一系列发布,谷歌进一步强化了Agent(代理)在智高手机、智能眼镜等端侧配置上的诱东说念主远景。在更广泛模子加抓下,Agent将约略编削常地为东说念主类代劳,帮东说念主类了解周围全国,提前进行多要领念念考,并在东说念主类的监督下选择步履。
但AI系统仍具有异常多的弗成控性。包括谷歌在内,大模子公司在将全国推向Agent时间的同期,必须死力于确保低风险,放置好安全的标的盘。
上一篇:我国发展工业互联网具有广袤出息
下一篇:没有了