DeepSeek乱杀一通后 OpenAI们终于坐不住了
今年过年,年味浓不浓俺不好说,但 AI 味肯定是够够的了。小到年夜饭桌,大到热搜新闻,哪哪都是 DeepSeek ,就连世超家族群里平时不咋关注科技的亲戚,也在说中国的人工智能这次胜了老美一筹。这么说吧, DeepSeek 凭一己之力,拉高了全国对 AI 的认知程度。

DeepSeek乱杀一通后 OpenAI们终于坐不住了
至于 DeepSeek 到底有多厉害,想必这段时间哥几个也已经上手体验过了,说它是目前最懂中文互联网的 AI 模型,应该没人有意见吧?反正从身边人统计学来看,这段时间什么 Claude 、 ChatGPT 通通都不香了。不过大伙儿也先别急着开香槟,这次 DeepSeek 一冒头,对手们就从四面八方吻了上来。OpenAI 大年初四发 o3 推理模型,今天又免费开放了搜索功能,谷歌的 Gemini2.0 全量开放,还有阿里的 Qwen2.5-Max 也发力打榜 DeepSeek 。。。

DeepSeek乱杀一通后 OpenAI们终于坐不住了
要我说,这些科技公司还是得逼一把,不然你都不知道他们的实力到底有多少。
先说 OpenAI 的 o3 ,去年底的发布会就传出了消息,说今年 1 月份要上线。
但奥特曼估计也没想到,被 DeepSeek 狙了一手,现在这个发布的时间节点,多少就有点耐人寻味了。包括世超也觉着, o3-mini 的发布是为了反击 DeepSeek 。
当然回到正题啊,这次的 o3-mini ,号称是他们的推理系列中最具成本效益的模型,还尤其擅长科学、数学和编码,响应的速度也更快。
一句话总结, o3-mini 就像一个家庭条件一般,但智商很高的理科学霸。
就拿编程来说,除了 o3-mini ( low )打不过 o1 以外, o3-mini 三个档位的模型,基本乱杀前辈 o1 系列。

DeepSeek乱杀一通后 OpenAI们终于坐不住了
竞赛数学也不在话下, o3-mini ( high )的表现都要好过 o1 系列。

DeepSeek乱杀一通后 OpenAI们终于坐不住了
就连博士级别的题目, o3-mini 也能跟 o1 系列打得有来有回。

DeepSeek乱杀一通后 OpenAI们终于坐不住了
x 上有老哥用同一组 prompt 测试了 o3-mini 和 DeepSeek R1 ,得出的结论是 “ o3-mini ( 编程能力 )碾压 DeepSeek R1 ” 。

DeepSeek乱杀一通后 OpenAI们终于坐不住了
说实话,光看视频的话,确实是 o3-mini 的效果更逼真。

DeepSeek乱杀一通后 OpenAI们终于坐不住了
另外一位老哥也测试了一把 o3-mini 的物理理解能力( prompt :编写一个球在超立方体内弹跳的 Python 脚本 ),直接夸 o3-mini 可能是物理学得最好的模型。

DeepSeek乱杀一通后 OpenAI们终于坐不住了
反正看了一波大伙儿的测试,世超觉着 o3-mini 似乎更接近咱们一直在说的,能够理解物理世界、模拟物理规律的世界模型。
重点是, o3-mini 现在免费就能用上,可比之前的 o1 要大方的多了。
而且, o3-mini 只是 o3 系列的第一个版本,后面还会有满血版的 o3 出来。我的建议是让 DeepSeek 再整个大活,给奥特曼上点强度,到时候指不定还会有大升级。
这不,除了发布 o3-mini 外, OpenAI 又趁着咱们开工的这两天,免费开放了 ChatGPT 搜索。
现在你甚至都不需要注册,就能直接用。

DeepSeek乱杀一通后 OpenAI们终于坐不住了
过年那阵,微软也让所有的 Copilot 用户免费用上了 o1 推理模型,要不说还得谢谢 DeepSeek 呢。
另外一边,谷歌也有点坐不住了。
同样是去年 12 月发布 Gemini 2.0 ,但那会儿只有开发者和一部分测试者能用,一直咕咕咕也不见有动静。
结果被 DeepSeek 这么一激,一口气发了三个版本的 Gemini2.0 模型。

DeepSeek乱杀一通后 OpenAI们终于坐不住了
基准测试中,各方面性能也都优于前代模型。

DeepSeek乱杀一通后 OpenAI们终于坐不住了
但相比 DeepSeek 和 OpenAI 的热度,谷歌这边多少就显得有些无人在意了。
再来看国内的情况,阿里云算是第一个对 DeepSeek 发起 “ 进攻 ” 的公司。
根据阿里云官方的说法, Qwen2.5-Max 在多个基准测试中,超越 DeepSeek V3 、 o1-mini 等多个模型。

DeepSeek乱杀一通后 OpenAI们终于坐不住了
并且在 Chatbot Arena 的大模型盲测排行榜上, Qwen2.5-Max 冲到了第七的位置。

DeepSeek乱杀一通后 OpenAI们终于坐不住了
具体看模型的数学和编程能力,甚至还能拿第一。

DeepSeek乱杀一通后 OpenAI们终于坐不住了
所以 Qwen2.5-Max 在发布后,国内有不少媒体都出来捧了一波。

DeepSeek乱杀一通后 OpenAI们终于坐不住了
反正世超看下来,这次由 DeepSeek 掀起的新一轮 AI 军备竞赛,领头的这一批公司已经掏出了不少真家伙。不过说实在的, DeepSeek 这出后来者居上的戏码,的确给咱上了一课。指不定后边儿还会有更加出色的模型出现,毕竟有 DeepSeek R1 的珠玉在前,如果再不拿出点实力相当,或者足够炸场的东西来,那就没啥意思了。咱们坐着等就成,今年的模型大战肯定有的看了。
版权声明
本站部分文章来源于网络,如有侵权请联系删除!。
文章观点并不代表本站观点,请谨慎对待。
发表评论:
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。