开云体育

开云APP下载Deepseek论文首次公开浙大校友梁文锋论文登上《Nature》封面

2025-09-30
浏览次数:
返回列表

  开云体育[永久网址:363050.com]成立于2022年在中国,是华人市场最大的线上娱乐服务供应商而且是亚洲最大的在线娱乐博彩公司之一。包括开云、开云棋牌、开云彩票、开云电竞、开云电子、全球各地赛事、动画直播、视频直播等服务。开云体育,开云体育官方,开云app下载,开云体育靠谱吗,开云官网,欢迎注册体验!

开云APP下载Deepseek论文首次公开浙大校友梁文锋论文登上《Nature》封面

  2025 年 9 月 18 日,国际顶级期刊《自然》(Nature) 以封面文章形式发表了中国人工智能公司深度求索 (DeepSeek) 创始人梁文锋团队的研究成果《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》。作为论文的唯一通讯作者,梁文锋带领团队在大模型领域实现了里程碑式突破,这不仅标志着国产 AI 研究迈入世界舞台,也意味着大语言模型首次通过了完整的同行评审,填补了行业空白。这一研究成果引起全球科技界震动,被《自然》社论评价为 开启了大模型训练范式的革命。DeepSeek-R1 模型通过纯强化学习 (RL) 机制让模型自主生成复杂推理能力,无需依赖监督微调 (SFT) 或人工标注数据,在数学、代码和自然语言推理等复杂任务上达到国际领先水平。DeepSeek-R1 的核心突破在于,该模型无需依赖大量人工标注的思维链数据,而是借助强化学习机制,让模型在训练中自主形成推理能力。研究团队首先基于 DeepSeek-V3 Base 构建出 R1-Zero,通过只奖励最终预测正确性的方式,引导模型逐渐学会生成更长、更具逻辑性的回答。随后,团队在此基础上引入多阶段训练,结合监督微调和拒绝采样,最终打造出既具备强推理性能、又符合人类偏好的 DeepSeek-R1。值得注意的是,DeepSeek-R1-Zero 是首个完全通过强化学习训练的大型语言模型,无需依赖监督微调或人工标注数据。这一突破验证了仅通过奖励信号,模型也能发展出强大的推理能力,为大模型训练开辟了全新路径。论文公布的实测数据显示,DeepSeek-R1 在关键领域已达到国际领先水平:•在数学竞赛 AIME2024 中正确率达 79.8%,与 OpenAI 的 o1-1217 模型持平•在代码竞赛 Codeforces 中得分为 2029 分,接近人类专家水平•在公开基准测试中,其安全性表现超越 Claude-3.7-Sonnet、GPT-4o 等模型•在 MMLU (大规模多任务语言理解) 测试中得分 90.8%,接近 OpenAI o1-1217 的 91.8%同时,团队同步发布了轻量化模型 R1-Micro (参数规模仅 1.3B),为学术界提供了低成本研究工具。DeepSeek-R1 的这些突破性成果,不仅验证了纯强化学习训练方法的有效性,也标志着中国在大模型领域的研究已跻身世界前列。DeepSeek 团队开发了GRPO (Group Relative Policy Optimization) 算法,通过群组相对优势估计优化策略网络。这一创新方法避免了传统方法中 Critic 网络的高计算开销,大大提高了训练效率。与传统强化学习方法不同,GRPO 不依赖外部模型的推理轨迹作为训练信号,而是仅通过奖励最终答案正确性引导模型生成推理过程。这种方法更符合人类自然学习的过程—— 通过不断尝试和验证最终答案的正确性,逐步形成自己的推理策略。在训练过程中,模型使用估算值来对自己的尝试进行评分,而不是使用单独的算法,这种技术被称为组相对策略优化。这种创新方法使 DeepSeek-R1 能够自主探索和发现有效的推理策略,而不必遵循人类规定的思维模式。论文首次公开了 DeepSeek-R1 的训练成本与技术架构,这一细节引起了广泛关注:•总成本约 29.4 万美元 (约合人民币 209.5 万元),仅为国际同类模型的 5%-10%•模型基础数据包含数学、编程、STEM、逻辑、通用 5 大类,全部来自互联网公开资源•数据截止时间为 2024 年 7 月 (早于主流推理模型发布时间),从源头上排除了 有意蒸馏 的可能性为避免基准测试数据污染,团队在预训练阶段剔除了约 600 万条潜在污染样本,并通过独立第三方机构验证,确保训练数据与测试数据无重叠。这些严格的措施不仅保证了模型的公正性,也为学术界提供了可验证、可复现的研究范例。DeepSeek-R1 采用了创新的多阶段训练策略,巧妙结合了冷启动数据预训练和强化学习,确保模型输出既保持高准确性,又能完美符合用户预期。冷启动阶段:团队收集了数千个高质量冷启动数据,用于微调基础模型 (如 DeepSeek-V3-Base)。通过准确性奖励、格式奖励和语言一致性奖励等机制,优化模型输出的质量和可读性。强化学习导向训练:在冷启动的基础上,模型进入强化学习阶段,通过奖励机制和规则引导模型生成结构化思维链 (CoT),从而提升推理能力。这一阶段使用 GRPO 算法,通过群体相对优势估计优化策略网络,使模型能够自主探索有效的推理策略。全场景训练:最后,模型逐步加入通用场景和指令,进行全场景优化,提升模型在各种复杂任务上的性能。这种多阶段训练策略不仅解决了 R1-Zero 在可读性和语言混合方面的局限性,还显著提升了模型的推理能力,使其在数学、代码和自然语言推理等复杂任务上达到了国际领先水平。梁文锋于 1985 年出生于广东省湛江市吴川市覃巴镇,父母都是小学语文老师,家境并不富裕。2002 年,年仅 17 岁的他以吴川一中 高考状元 的成绩考入浙江大学电子信息工程专业,于 2006 年获得学士学位。在校期间,梁文锋对数学学科表现出极大天赋,初中时期就学完了高中数学。他在浙大学习期间,特别在 2008 年全球金融危机之际,带领团队探索了机器学习技术在全自动量化交易中的应用潜力,这一经历为他日后的职业生涯奠定了基础。2007 年,梁文锋考上浙江大学信息与通信工程专业研究生,在信通系项志宇教授的指导下进行机器视觉方面的研究。2010 年,他获得信息与通信工程硕士学位,硕士论文题目是《基于低成本 PTZ 摄像机的目标跟踪算法研究》。在攻读硕士学位期间,他发表了论文《一种鲁棒的 PTZ 摄像机目标跟踪算法》,展现了他在学术研究方面的才华。毕业后,梁文锋将目光转向了更广阔的金融市场。2013 年,他与浙大同学徐进共同创立了杭州雅克比投资管理有限公司。2015 年,他和浙大校友共同创立了幻方量化,幻方量化迅速崛起,成为中国量化私募 四巨头 之一。在量化投资领域取得成功后,梁文锋并未满足。2023 年 5 月,他宣布做通用人工智能 (AGI),同年 7 月,他正式创办杭州深度求索人工智能基础技术研究有限公司 (DeepSeek),专注于 AI 大模型的研究和开发。这一决定标志着他从金融领域正式转向 AI 大模型研究,开启了他职业生涯的新篇章。DeepSeek 以其创新的模型架构和高性价比迅速引发行业关注,被称为 AI 界的拼多多。其推出的 DeepSeek-V2 和 DeepSeek-V3 模型在性能上接近甚至超越国际顶尖模型,同时大幅降低了推理成本,推动了中国大模型行业的价格战。梁文锋是一个坚定的技术理想主义者。他曾明确表示:我们要做的是 AGI (通用人工智能),不是简单应用,也不是云服务。他批评 大部分中国公司习惯 follow,而不是创新,认为 OpenAI 不是神,不可能一直冲在前面,并犀利地指出,中国 AI 和美国真实的 gap 是原创和模仿的差距。在 DeepSeek-R1 取得成功后,梁文锋表示,中国 AI 不可能永远处在跟随的位置,我们经常说中国 AI 和美国有一两年差距,但真实的 gap 是原创和模仿之差。如果这个不改变,中国永远只能是追随者,所以有些探索也是逃不掉的。这种坚持创新、追求原创的理念,不仅是梁文锋个人的技术信仰,也是 DeepSeek 团队的核心价值观。正是这种精神,推动着他和他的团队在 AI 大模型领域不断探索,最终取得了登上《Nature》封面的突破性成果。DeepSeek-R1 的发表填补了行业空白,目前全球主流大模型均未经过独立同行评审,而这一过程通过 8 位国际专家的 5 个月严格审查,最终形成 64 页的审稿报告与作者回复,为 AI 研究建立了 可验证、可复现 的新标准。《自然》在社论中指出,DeepSeek-R1 的发表填补了行业空白,因为目前全球主流大模型均未经过独立同行评审。这一突破为 AI 研究建立了新的标准,有望推动整个行业更加注重透明度和可验证性。多位权威专家及机构从不同维度进行了解读。在学术价值层面,《自然》在社论中指出,DeepSeek-R1 的发表填补了行业空白,目前全球主流大模型均未经过独立同行评审。HuggingFace 机器学习工程师 LewisTunstall 表示:R1 的方法论正在被全球团队借鉴,其通过纯强化学习激发推理能力的路径,为解决数学、科学等复杂任务提供了全新范式。俄亥俄州立大学人工智能研究员 HuanSun 则补充道:论文通过严格的去污染措施证明了模型的真实性,这对学术界建立信任至关重要。R1 的开源代码已被引用超 300 次,成为 2025 年最具影响力的 AI 研究之一。DeepSeek-R1 的核心突破在于,该模型无需依赖大量人工标注的思维链数据,而是借助强化学习 (RL) 机制,让模型在训练中自主形成推理能力。以往的研究表明,大语言模型在涉及数学或逻辑推理的任务中,如果在生成最终答案前先生成推理过程,往往能取得更好的表现。现有的方法主要包括:通过提示工程 (例如在输入中添加 让我们一步一步思考 这样的字符串) 来引导模型生成推理,或者利用包含推理示例的训练数据进行监督微调。而 DeepSeek-R1 的主要贡献在于证明了仅依靠强化学习,就可以教会大语言模型进行推理,而无需依赖提示工程,也几乎不依赖人工数据 (如人工示范和奖励标注)。这项研究在语言模型的后训练方法上具有奠基性意义:它展示了无需人工干预,仅通过强化学习就能实现接近专家水平的推理能力。这一突破验证了仅通过奖励信号,模型也能发展出强大的推理能力。在 AIME2024 数学测试中,准确率从 15.6% 提升至 71.0%,使用多数投票机制后达到了 86.7%,接近 OpenAI o1-0912 的水平。DeepSeek-R1 采用 MIT 许可协议,完全开源,并提供了六个蒸馏版本 (1.5B 至 70B),适合不同规模的开发者使用。这种开放共享的态度,为全球 AI 研究社区提供了宝贵的资源。API 定价方面,DeepSeek-R1 也展现出了普惠的理念:每百万输入 tokens:1 元 (缓存命中)/4 元 (缓存未命中);输出 tokens:16 元。与 OpenAI o1 相比,API 调用成本显著降低,这使得更多研究机构和开发者能够负担得起高质量的 AI 模型服务。这种开源和低成本策略,为开发者提供了强大的工具,推动了 AI 技术的普及和发展。特别是团队同步发布了轻量化模型 R1-Micro (参数规模仅 1.3B),为学术界提供了低成本研究工具。HuanSun 教授表示,该模型在人工智能研究人员中 颇具影响力。到目前为止,2025 年几乎所有在大语言模型中进行强化学习的研究都可能以某种方式受到了 R1 的启发。DeepSeek-R1 的突破将推动大模型训练范式的变革。其 29.4 万美元的训练成本仅为 GPT-4o 的 1/20,这意味着中小型机构也能参与前沿模型研发,打破了 算力垄断 的行业现状。在产业应用方面,DeepSeek-R1 在代码生成、科学推理等领域的表现,已被用于生物医药、材料科学等领域的自动化研究,例如加速药物分子设计流程。Tunstall 表示,其他研究人员目前正尝试运用创建 R1 的方法来提升现有大语言模型 (LLM) 的推理能力,并将其扩展到数学和编码以外的领域。他补充道,R1 以这种方式 引发了一场革命。从更广泛的角度看,DeepSeek-R1 的成功不仅是技术上的突破,也为中国 AI 产业树立了新的标杆。它证明了中国的科研团队有能力在 AI 前沿领域做出原创性贡献,推动全球 AI 技术的进步。2002 年,17 岁的梁文锋以高考状元的身份考入浙江大学电子信息工程专业,开始了他在求是园的求学生涯。2010 年,他获得浙江大学信息与通信工程硕士学位,为他日后的职业生涯奠定了坚实的基础。在浙大求学期间,梁文锋展现出了对学术研究的浓厚兴趣和卓越才华。他在硕士研究生阶段,在项志宇教授的指导下进行机器视觉方面的研究,并发表了论文《一种鲁棒的 PTZ 摄像机目标跟踪算法》。这一研究经历不仅培养了他的科研能力,也为他日后在 AI 领域的探索奠定了基础。梁文锋曾在接受采访时表示,浙大的学术氛围和教育理念对他影响深远。求是精神 求是创新 的校训,强调追求真理、勇于创新的精神,与他后来在 AI 领域坚持原创、追求突破的理念高度契合。在浙江大学信息与通信工程系攻读硕士学位期间,梁文锋在项志宇教授的指导下进行机器视觉方面的研究。项志宇教授的指导和影响,对梁文锋的学术成长和科研方向产生了重要影响。项志宇教授是浙江大学信息与通信工程系的知名学者,在机器视觉、图像处理等领域有着深厚的学术造诣。他的严谨治学态度和对创新的鼓励,为梁文锋的科研之路提供了有力支持。值得一提的是,在梁文锋的《Nature》封面论文发表后,项志宇教授的个人主页上满满都是对团队的祝贺表扬,这体现了师生之间深厚的学术传承和情感联系。这种学术传承不仅是个人的成长,也是浙江大学学术精神的延续。毕业后,梁文锋与浙江大学保持着密切的联系。2025 年 1 月,他出席了浙江大学信息与通信工程系座谈会,分享了自己的创业经历和 AI 研究的最新进展。这种校友交流活动,不仅是梁文锋对母校培养的感恩回馈,也是他与新一代浙大学子分享经验、传递知识的重要方式。通过这些活动,他将自己在 AI 领域的前沿知识和创业经验传递给在校学生,激励更多浙大学子投身科技创新。梁文锋的成功也为浙江大学树立了优秀校友的典范。他的创业经历和学术成就,成为了浙大学子学习的榜样,展现了浙大学子在科技创新领域的担当和作为。尽管 DeepSeek-R1 取得了重大突破,但论文同时指出了当前模型的局限性。在多语言能力上,模型在处理非英语查询时存在语言混合问题,需进一步优化跨语言推理能力;在工具整合方面,尚未实现与搜索引擎、计算器等外部工具的深度结合,可能限制其在实时信息处理场景的应用。《自然》审稿人特别强调,需建立更透明的风险控制框架,避免模型被用于生成有害内容。这些挑战为 DeepSeek 团队指明了未来的研究方向,也为全球 AI 研究者提供了新的探索领域。展望未来,梁文锋和他的团队将继续在 AI 大模型领域探索创新。梁文锋认为,AGI 可能是 2 年、5 年或者 10 年,总之会在我们有生之年实现。至于路线图,即使在他们公司内部,也没有统一意见,但他们确实押注了三个方向:一是数学和代码,二是多模态,三是自然语言本身。从产业应用角度看,DeepSeek-R1 的开源和低成本策略,有望推动 AI 技术在更多领域的应用。特别是在数学与逻辑推理、代码生成与优化、科学研究与问答等领域,DeepSeek-R1 展现出了巨大的应用潜力。在商业化路径上,梁文锋表示,未来会有专门公司提供基础模型和基础服务,形成很长链条的专业分工,更多人在之上去满足整个社会多样化的需求。DeepSeek 希望形成一种生态,就是业界直接使用他们的技术和产出,团队只负责基础模型和前沿的创新,然后其它公司在 DeepSeek 的基础上构建 toB、toC 的业务。如果需要,DeepSeek 做应用也没障碍,但研究和技术创新永远是他们第一优先级。这种清晰的定位,有助于 DeepSeek 在激烈的市场竞争中保持专注,持续推动技术创新。梁文锋的成功,为中国 AI 产业的发展提供了宝贵的经验和启示。他认为,未来中国产业结构的调整,会更依赖硬核技术的创新。当很多人发现过去赚快钱很可能来自时代运气,就会更愿意俯身去做真正的创新。展望未来,梁文锋相信硬核创新会越来越多,现在还不容易被理解,是因为整个社会群体需要被事实教育。当这个社会让硬核创新的人功成名就,群体性想法就会改变,我们只是还需要一堆事实和一个过程。DeepSeek-R1 登上《Nature》封面的成功,正是这一过程中的重要一步。它不仅展示了中国 AI 研究的实力,也为全球 AI 发展贡献了中国智慧和中国方案。随着越来越多像梁文锋这样的创新者的涌现,中国 AI 产业有望在全球舞台上发挥更加重要的作用。

  注:上文内容部分来源网络。由于文章推送未能及时联系原作者,若涉及版权问题,请原作者留言联系我们。

  聚焦全球各个国家的主要科学组织,硬核解读,追踪重大科学突破,挖掘组织背后故事与趣闻。为科学家、科研机构及创新企业提供全链条科技申报与成果管理服务。感谢您的关注和支持,欢迎评论区留言、分享,相互交流。返回搜狐,查看更多

搜索