开云体育

开云体育官方DeepSeek登上Nature封面:不用人类教AI自己学会推理|光锥读论文

2025-09-22
浏览次数:
返回列表

  开云体育[永久网址:363050.com]成立于2022年在中国,是华人市场最大的线上娱乐服务供应商而且是亚洲最大的在线娱乐博彩公司之一。包括开云、开云棋牌、开云彩票、开云电竞、开云电子、全球各地赛事、动画直播、视频直播等服务。开云体育,开云体育官方,开云app下载,开云体育靠谱吗,开云官网,欢迎注册体验!

开云体育官方DeepSeek登上Nature封面:不用人类教AI自己学会推理|光锥读论文

  你是否曾好奇,人工智能是否能够像人类一样进行逻辑推理?比如解数学题、写代码,或者解决复杂的科学问题?最近,由深度求索(DeepSeek)团队发布的一项研究显示,大语言模型不仅能够推理,甚至还能自己学会如何推理——而这一切,竟然几乎不需要人类手把手教。

  这篇文章向我们展示了一种全新的训练AI的方式:不再依赖人类撰写大量的“推理步骤”示范,而是通过强化学习(Reinforcement Learning, RL),让模型在尝试和反馈中自主发展出推理能力。

  与此同时,Nature 发表 Editorial 文章称,DeepSeek R1 是首个通过权威学术期刊同行评审的大语言模型,并称此举“意义重大”。

  过去,要想让大语言模型(比如ChatGPT这类AI)“学会”推理,研究人员通常得为它准备大量的人类示范数据。例如,一步一步地展示如何解方程、如何写程序、如何做逻辑推断。这种方法被称为“思维链”(Chain-of-Thought, CoT) prompting。

  虽然有效,但这种方式存在明显瓶颈:严重依赖人工标注,成本高、难以规模化;模型只会模仿人类,难以超越人类的推理方式;人类的思维模式未必是最优的,可能限制AI发现更高效的推理路径。

  DeepSeek团队尝试了一条不同的路径:抛开人类示范,只通过强化学习训练模型。他们使用了一个名为GRPO(Group Relative Policy Optimization)的算法,模型只有在最终答案正确时才会获得“奖励”,而中间思考过程则完全自由。

  令人惊讶的是,在这种“只问结果、不管过程”的训练方式下,模型逐渐自发地发展出了复杂的推理策略,例如:

  自我反思:在推理中会停顿、检查错误,甚至出现“等一下,这里好像不对”这样的表达;

  动态调整策略:根据题目难度自主分配“思考时间”,简单题快速过,难题多想几步。

  研究过程中,团队训练了两个主要模型。DeepSeek-R1-Zero由纯强化学习训练而来,在数学、编程等硬推理任务上表现极强,但在语言流畅度和多任务泛化上存在不足;DeepSeek-R1则在R1-Zero基础上,融合了少量人类偏好数据,提升了语言一致性和整体实用性。

  在包括AIME数学竞赛、编程竞赛、MMLU综合评测等多个权威测试中,R1系列模型都显著超越了仅依靠人类示范训练的模型。

  这项研究的价值并不在于“做出了一个超级AI”,而在于它展示了一条更自主、更可扩展的AI能力发展路径。

  它说明,AI的推理能力可以通过计算和反馈自动涌现,而不总是依赖人类经验;训练出的模型不仅能用于自身,还能帮助小型模型提升推理能力;它为AI在数学、编程、科学等领域的应用提供了新的方法支持。

  尽管DeepSeek-R1在推理方面表现突出,但它依然存在一些局限性:在处理非中英文查询时可能出现语言混合;对提示词(prompt)比较敏感,不适合复杂指令控制;在软件工程等需要长周期验证的任务上提升有限。研究人员表示,这些方向将是下一阶段改进的重点。

  如果说过去的AI是在“模仿人类”,那么DeepSeek-R1则是在“自学成才”——这或许是通向更通用、更强大人工智能的重要一步。

  原标题:《DeepSeek登上Nature封面:不用人类教,AI自己学会推理|光锥读论文》

  本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。

搜索