差评君真的很好奇 Anthropic 的创始人达利奥到底经历了什么。这家公司怎么能这么有活。前两天,这家号称和 OpenAI 齐名的世界顶级 AI 公司,突然发了一份“讨贼檄文”。在报告里,它指责 DeepSeek、月之暗面和 MiniMax 这三家中国头部 AI 公司,说它们正在通过“蒸...
快科技2月24日消息,美国AI独角兽Anthropic发布声明,指控中国三家头部大模型企业DeepSeek、Moonshot AI(月之暗面Kimi)和MiniMax,对其Claude模型实施工业规模的蒸馏攻击,引发行业轩然大波。而马斯克的即时反击,更让这场纷争迅速升级。Anthropic指控DeepSeek...
快科技2月12日消息,据媒体报道,DeepSeek近日在网页端及APP端完成版本更新,正式将上下文窗口扩展至1M(百万) Token,迎来对话容量的显著跃升。相较于去年8月发布的DeepSeek V3.1所支持的128K上下文,新实装模型的上下文能力较两个月前更新的V3.2提升达八倍。网友实测显示,DeepS...
快科技1月13日消息,今日,DeepSeek发布新论文《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》(基于可扩展查找的条件记忆:大型语言模型稀疏性的新维度)。该论文为北京大学与...
坏消息,开源模型和闭源模型的差距越来越大了。好消息,DeepSeek 又出手了。12 月 1 日,DeepSeek 发布了两款新模型 —— DeepSeek V3.2 和 DeepSeek-V3.2-Speciale。DeepSeek的一次小更新:暴打OpenAI 追上Gemini前者和 GPT-5 能打的有...
快科技11月29日消息,年初DeepSeek R1发布之后引发了全球震撼,也让DeepSeek R1/V3等大模型在开源领域开创一片天,不过现在DeepSeek热度也下滑了,B端市场未来会被阿里的千问超越。大摩中国日前发布了一份报告,调研了企业CIO首席信息官今年下半年在B端市场的看法,报告尤其看好阿里...
在旧金山,正在运行着一个中国模型,“这可能是硅谷最大的‘不能说的秘密’。”与帕迪·科斯格雷夫(Paddy Cosgrave)刚见面,他就一面展示着他上一秒在DeepSeek上询问的问题一面解释,那些压根不做AI的公司,全在跑DeepSeek的本地化版本。“既然有它,谁还愿意掏钱去用OpenAI或Anthrop...
快科技8月25日消息,近日,深度求索宣布正式发布DeepSeek-V3.1。其中一个重大的进步和惊喜,就是支持了UE8M0 FP8。专为下一代国产芯片设计!DeepSeek采用UE8M0 FP8标准:华为积极适配 彻底和NVIDIA决裂了DeepSeek在其官宣发布DeepSeek-V3.1的文章中提到,UE...
快科技8月9日消息,近日,媒体相继披露了量化私募巨头幻方量化市场总监李橙与招商证券员工之间长达六年的利益输送细节,这一事件也揭开了去年11月“幻方量化员工因涉券商返佣被抓”传言背后的真相。要追溯这起利益输送案的源头,需从相关人员的履历和业务往来说起。据报道,李橙曾任职于招商证券,或是基于业务与人情关系,幻方量...
要问最近哪个模型最火,混合专家模型(MoE,Mixture of Experts)绝对是榜上提名的那一个。它的巧妙之处,就在于把不同的任务分配给擅长处理的专家网络,让整个系统性能得以提升。但你知道吗?正是这个关键的专家网络,也是严重影响系统推理性能的因素之一。因为在大量任务来临之际(尤其是超大规模时),MoE...