马斯克用20万张GPU“砸出”地表最强AI？每经记者实测Grok 3：速率称王，数学亮眼，但逻辑念念考不敌DeepSeek R1

栏目分类

热点资讯

宁德期间两年前就买了好多卡！钉钉总裁叶军：企业的系数经由齐应

企业家如何拔除AI惊悸？匹克许志华：企业家没得选，要先拥抱

黄仁勋首度回报DeepSeek冲击！英伟达暴跌系投资者歪曲

企业微信接入DeepSeek！AI成企业数智化终末的拼图？

瞻望年底“春晚扭秧歌”机器东谈主跑速达10米每秒，致使“卓著

你的位置：科技前沿网 > 新兴技术 > 马斯克用20万张GPU“砸出”地表最强AI？每经记者实测Grok 3：速率称王，数学亮眼，但逻辑念念考不敌DeepSeek R1

新兴技术

马斯克用20万张GPU“砸出”地表最强AI？每经记者实测Grok 3：速率称王，数学亮眼，但逻辑念念考不敌DeepSeek R1

发布日期：2025-04-04 07:07 点击次数：70

马斯克用20万张GPU“砸出”地表最强AI？每经记者实测Grok 3：速率称王，数学亮眼，但逻辑念念考不敌DeepSeek R1

近日，东谈主工智能初创公司xAI发布了更新版Grok 3大模子，埃隆·马斯克称之为“地球上最机灵的东谈主工智能”。

凭证官方公开的测试为止，Grok 3在包括AIME（评估模子在一系列数学问题上的弘扬）和 GPQA（评估模子在博士级别的物理学、生物学和化学问题上的弘扬）等基准测试中，远超 GPT-4o、Gemini-2 Pro、DeepSeek V3、Claude 3.5 Sonnet 等大模子。

在大模子竞技场 Chatbot Arena（LMSYS）测试中，xAI工程师示意，早期版块的Grok 3赢得了第一的得益，达到了140分，超越了Gemini 2.0 Flash Thinking实验版块、ChatGPT-4o最新版块以及最近大火的DeepSeek R1等等。

联系词，有些用户在体验后却对Grok 3的技能产生了质疑，他们合计Grok 3的技能并莫得马斯克宣称的那么高大。OpenAI应用接头专揽Boris Power则对Grok团队在模子评估中的算作示意失望，指出其存在舞弊和诳骗的动机。Boris Power提到，o3-mini在各项评估中均优于Grok 3。

真相到底若何，马斯克显示了吗？《逐日经济记者》测试发现，Grok 3如实是宇宙顶级模子的水平，但并莫得和其他模子拉开太大差距。唯独拉开差距的是它极快的反映速率。

9.9和9.11谁大，Grok 3平缓拿下

Grok 3是由马斯克旗下的东谈主工智能公司xAI发布的最新一代AI模子。马斯克在发布会上称其为“地球上最机灵的东谈主工智能”，并示意Grok 3的技能比前代家具Grok 2杰出一个数目级，具备更强的推理、筹算和符合技能。

在新闻发布会上，马斯克宣称Grok 3在数学、科学和编程等基准测试中弘扬出色，超越了谷歌的Gemini、DeepSeek的V3模子、Anthropic的Claude和OpenAI的GPT-4o等竞争敌手。

Grok 3在发布后仅48小时内，xAI通知将其免费通达给扫数效户，直至工作器负载达到极限。当今用户每天不错体验十条“念念考时势”Grok3，及不限量免费普通Grok 3。

《逐日经济新闻》记者在Grok 3发布后也亲身进行了测试，望望Grok3真有马斯克宣传的那么是非吗？

最初，从最经典的基础问题开动：9.9和9.11谁大？

Grok 3

这个问题毫无难度，Grok 3平缓拿下。

逻辑念念考和笔墨领悟技能：Grok 3不如DeepSeek R1

马斯克发布会上显示的小数是，Grok 3“念念考模子”下的逻辑推理技能，他宣称，Grok 3 (Think) 学会了创新其束缚问题的计谋，通过回溯改革造作，简化门径，并讹诈其在预教师时期赢得的学问。就像东谈主类在束缚复杂问题时相同，Grok 3 (Think) 不错耗尽几秒钟到几分钟的时辰进行推理，泛泛会磋议多种设施，考据我方的束缚决策，并评估若何精准悠闲问题的条目。

每经记者用弱智吧的问题来考研一下它的逻辑是不是真是过关。

（编者注：“弱智吧”是百度贴吧的一个子论坛。在这个论坛中，用户频频发布包含双关语、多义词、因果畸形和洽音词等具有挑战性的内容，好多内容联想有逻辑陷坑，即使对东谈主类来说也颇具挑战。）

第一个问题：用水来兑水，得到的是浓水照旧稀水？