反超 deepseek?马斯克「钞能力」砸出来的 grok 3 终于上线了-757399.com澳门

757399.com澳门 >
反超 deepseek?马斯克「钞能力」砸出来的 grok 3 终于上线了
发布日期:2025-07-11 09:50:47
浏览次数:777

2 月 16 号,反超马斯克在 x 上发布了一条自家 grok 3 模型的克钞发布预告。

并配文“地球上最聪明的砸出k终 ai”要来了。

北京时间 2025 年 2 月 18 日中午,于上马斯克如约带领着 xai 的反超工程师和研究团队开启了 grok 3 的首发实况。

这次发布会主要分为三个部分,克钞介绍了 grok 3 在训练上比 grok 2 多投入了 10 倍的砸出k终计算资源,解锁了更强大的于上计算能力,展示了基于 grok 3 的反超 ai agent,展现了 xai 团队在自主智能体领域的克钞最新进展。

反超 deepseek?砸出k终马斯克「钞能力」砸出来的 grok 3 终于上线了

各项能力一骑绝尘

“我们非常高兴能够推出 grok3,我们认为,于上在很短的反超时间内,它的克钞功能比 grok2 强大一个数量级。这要归功于一支不可思议的砸出k终团队的辛勤工作,我很荣幸能与这样一支优秀的团队合作。”马斯克在发布会上说道。

马斯克还透露,grok 3 由 colossus 超级计算机训练完成,这台计算机是在短短八个月内建成的,搭载了 10 万颗英伟达 h100 gpu,提供了超过 2 亿 gpu 小时的计算资源——是 grok 2 的10倍。

据 xai 团队介绍,xai 最开始搭建这个 10 万 gpu 集群用了 122 天,后续拓展到 20 万  gpu 集群仅用了 92 天。显著的算力提升让 grok 3 能够更高效地处理庞大信息集,缩短训练时间。随即他们便晒出了一组和 chatgpt 的信息对比图,并表示虽然 grok 起步较晚,但在 mmlu 得分上以超快地速度追上了 chatgpt。

反超 deepseek?马斯克「钞能力」砸出来的 grok 3 终于上线了

并且 grok3 在 lmsys(大模型竞技场)中的排名也是一骑绝尘。

反超 deepseek?马斯克「钞能力」砸出来的 grok 3 终于上线了

其中 grok-3 和 grok-3 mini 在多方面性能上都超过或媲美 gemini、deepseek 和 chatgpt 等对手。

发布会列出的信息显示,grok-3 和 grok-3 mini 在数学、科学和编程的基准测试中,表现超越了所有主流模型,包括 gpt-4、claude 3.5 sonnet、deepseek-v3 和 gemini-2 pro等。

而 grok-3 reasoning beta 和 grok-3 mini reasoning 这两个版本,则凭借强大的推理能力,超越了像 deepseek-r1 和 openai o3 mini 等推理模型。

反超 deepseek?马斯克「钞能力」砸出来的 grok 3 终于上线了

此外,xai团队还现场演示了一个任务,要求grok-3在现场生成一段关于太空发射的3d动画代码。在大约两分钟的思考后,grok 3生成了可直接运行的python代码,成功展示了可以运行的3d动画。

除此之外团队还要求 gork-3 制作一款类似于俄罗斯方块和宝石迷阵的游戏。在grok-3 思考了数分钟后,给出了答案。

最后,xai 团队演示了一个全新的产物,基于 grok 3 的搜索引擎 —— deepsearch 。

它不仅能够搜索网页并查找现有资料,还能“推测客户的真实意图”并进行思考。通过交叉对比多个信息源,它能够确保“返回最准确的答案”。

grok 3 搅动 ai 大模型格局

实况结束后,不少网友纷纷发声。

ai 大牛卡帕西总结了一下自己的“先行版”使用体验:

首先 grok 3 的“思考”功能非常先进,能够出色地解决复杂问题,如创建《卡坦岛》风格的棋盘游戏网页。相比之下,其他顶级模型(如 deepseek-r1、gemini 2.0 flash thinking、claude)未能解决相同问题。除此之外,grok 3 也能尝试解决如黎曼假设等难题。

其次 grok 3还具备类似“深度研究”的搜索功能,能够提供高质量的研究问题答案。例如,它能够回答 apple 新品发布、palantir 股价上涨等问题。但在某些情况下,它会错误地产生幻觉(如错误的url或不准确的事实)。

最后在测试一些简单的“陷阱”问题时,grok 3 表现良好,能够正确回答一些逻辑谜题。但在幽默和道德问题方面,它仍然存在一些问题,如生成重复笑话和对复杂伦理问题过于敏感等。

但总的来说 grok 3 整体表现接近 openai 的 o1-pro 模型,并略优于 deepseek-r1 和 gemini 2.0 flash thinking。

反超 deepseek?马斯克「钞能力」砸出来的 grok 3 终于上线了

imarena.ai 官方更是在经过测试后发文称:

grok-3 是首个突破 1400 分的模型,在所有类别中排名第一,这是一个越来越难以实现的里程碑。

反超 deepseek?马斯克「钞能力」砸出来的 grok 3 终于上线了

更有网友直呼:grok 3 可能是现实世界中在物理层面处理得最好的基础大语言模型了!当然也有网友在测试之后,认为 grok 3 在编程方面并不是很擅长。

值得一提的是,grok 3 第一批获得访问权限的人将首先从 x 上的 premium 订阅者开始,而普通客户何时能用上,他们也并不清楚。

但基于网友们对 grok 3 褒贬不一的评价,雷峰网(公众号:雷峰网)不禁猜测,这被 “钞能力” 风风火火砸出来的的 “no.1” 在权限全面放开之后会不会口碑两极反转,亦或是依旧好评如潮,稳坐 ai 大模型王座?

时间还早,让子弹再飞一会。

参考链接:https://x.com/i/broadcasts/1gqgvjebljogb?t=sx_atsboxc07lfsr_aw8aq&s=09

雷峰网原创文章,未经授权禁止转载。详情见转载须知。

反超 deepseek?马斯克「钞能力」砸出来的 grok 3 终于上线了

上一篇:乌克兰声称已拘留两名中国公民 外交部回应
下一篇:新能源时代,国产3d视觉「冲击」保守的汽车行业
相关文章
网站地图