开云体育

开云体育官方DeepSeek效应初现:Grok-3补刀ChatGPTOpenAI已在ICU?

2025-03-05
浏览次数:
返回列表

  开云体育[永久网址:363050.com]成立于2022年在中国,是华人市场最大的线上娱乐服务供应商而且是亚洲最大的在线娱乐博彩公司之一。包括开云、开云棋牌、开云彩票、开云电竞、开云电子、全球各地赛事、动画直播、视频直播等服务。开云体育,开云体育官方,开云app下载,开云体育靠谱吗,开云官网,欢迎注册体验!DeepSeek和xAI相继用R1和Grok-3证明:预训练Scaling Law不是OpenAI的护城河。将来95%的算力将用在推理,而不是现在的训练和推理各50%。OpenAI前途不明,生死难料!

  真是「一根筋,两头堵」:无论Scaling Law有用没用,OpenAI的技术「窗户纸」被捅破了。

  这不得不怀疑OpenAI到底行不行?OpenAI的盈利模式有可持续性吗?xAI+DeepSeek又能带来什么?

  OpenAI是首个积极采用传统「Scaling Law」进行预训练的公司,享受了大约7个季度的主导地位。

  如今,DeepSeek、谷歌和xAI与OpenAI大致处于同一水平,其中xAI可能稍占优势。

  因此,OpenAI迫切需要推出GPT-5,作为未来「o5」推理模型的基础。

  而微软CEO纳德拉则明确表示,在模型能力上,OpenAI一度拥有独特的优势,而这一即将结束。

  谷歌和xAI都拥有独特且有价值的数据源,这些数据源使它们逐渐区别于DeepSeek、OpenAI和Anthropic。

  Gavin S. Baker认为:没有访问独特且有价值数据的顶级AI模型,是有史以来贬值最快的资产。

  微软似乎也认同这一观点:选择了不再给OpenAI投入1600亿美元进行预训练,并取消了传闻中的数据中心建设。

  最终,独有的数据可能是唯一能够带来差异化,并对预训练万亿甚至千万亿级别参数模型的投资回报的基础。

  经济学家Ethan Mollick,则认为AI的确进入了新时代,OpenAI时代落幕了。

  左图是训练Scaling Law,也就就是说模型规模越大,性能越强。训练更大的模型需要增加计算能力、数据和能源的使用量。

  通常,需要将计算能力增加10倍以获得性能的线性增长。计算能力以FLOPs(浮点运算)衡量,这是计算机执行的基本数学运算的数量,如加法或乘法。

  在需要时,第三代模型都将作为Reasoners运行,因为有两个优势:更大的训练规模,以及在解决问题时具有可扩展性。

  这两个Scaling Law正在极大地提升AI的数学能力,并且还在增加其他方面的能力。

  如果有一个大型、智能的AI模型,就可以用它来创建更小、更快、更便宜的模型,这些模型的智能程度虽然不如母模型,但仍然相当高。

  即使是小型模型,但加入了推理能力,它们会变得更加智能。这意味着AI的能力在提升,而成本却在下降。

  下图展示了这一趋势的迅速发展,y轴上表示AI的能力,x轴上表示成本的对数下降。

  GPT-4刚发布时,每百token大约需要50美元(大约相当于一个单词)。

  而现在使用比比原始GPT-4更强大的Gemini 1.5 Flash,每百万token的成本大约只有12美分,成本下降了99%+。

  GPQA是一系列非常难的多项选择题,旨在测试高级知识。拥有互联网访问权限的博士在其专业领域外的正确率为34%,在其专业领域内的正确率为81%。每百万token的成本是使用模型的成本(Gemini Flash Thinking的成本是估算的)。

  Gavin S. Baker认为微软之所以不给OpenAI提供1600亿美元的预训练资金,就是因为AI的预训练是前期成本,并不能带来利润。

  而在2023年,纳德拉一度公开表示无法想象没有AI的生活,要全力押注AI。

  更不要提,马斯克还在法院提起诉讼,竭力阻止奥特曼将OpenAI转为非营利公司。

  如果Scaling Law还有效,训练数据决定了未来大模型的投资回报,那么只有2到3家公司,会进行尖端模型的预训练。

  其余的AI计算只需要一些较小的数据中心,这些数据中心经过地理优化,从而实现了低延迟和/或高成本效益的推理。

  Gavin S. Baker认为:「经济高效的推理 = 更便宜、质量较低的电力」。

  现在,全世界有6-10家公司会预训练尖端模型,但到那时,一切将截然不同。

  因此,与2023-2024年整个市场的「以预训练为中心」相比,这种情况所需的计算量可能还要大。

  不再是预训练和推理各占50%的情况。 而可能变成预训练只占5%,推理占95%。 很多硬件将针对推理进行优化,而很少针对预训练优化。

  所有这些都没有考虑到设备上(on-device)推理和/或完全量化的影响。

  Gavin S. Baker希望它们很高,但一个拥有140智商的模型,在设备上运行并访问关于世界的独特数据,对于大多数用例来说可能已经足够。

  到2030年,推理成本(即运行AI模型的成本)预计将超过训练成本,因此OpenAI需要一个长期可持续的解决方案。

  如果Stargate项目未能提供与微软云服务相同的稳定性和效率,这可能会带来重大风险。

  即便是DeepSeek梁文峰公开表示,业内对DeepSeek-R1反应过度。他表示这只是一次一般的普通的创新,世界每天都有类似这样的创新。

  瞧,这个模型与o1大致相当。看,我们找到了一个新的训练方法,我们优化了很多算法!

  每个人都像「哦哇」一样开始尝试同样的方法,然后欢呼:这是AI进步的一周!

  DeepSeek的确在大模型训练上,取得了一些创新。但和其他从业人员一样研究同样的问题。

  在开源AI界,甚至出现了用最经济的方法,复刻DeepSeek-R1「顿悟时刻」的竞赛。

  在2004年,谷歌在上市招股书S-1文件中,向世界透露他们使用分布式算法,在计算机网络中将商品连接在一起,实现了最佳的性价比,从而构建了最大的超级计算机集群。

  为了跟上不断上升的交易量,一些大公司会从甲骨文购买越来越大的数据库服务器。

  后来,谷歌发表了MapReduce和BigTable论文,描述了用于管理和控制这个成本效益更高、功能更强大的超级计算机的算法。

  DeepSeek的发展轨迹,与2004年谷歌展示自己的能力并没有什么本质不同。

  竞争对手仍然需要调整并实际去做这件事,但DeepSeek推动了这一领域的发展。

  认为英伟达、OpenAI、Meta、微软、谷歌等公司已经完蛋了,这种想法也没什么理由。

  当然,DeepSeek是一个新的、强大的新兴公司,但AI领域不是每周都会出现这样的情况吗?

搜索