开云体育
DeepSeek揭秘:创新推理系统日赚超五十万利润率高达545%开云体育
3月1日,DeepSeek在知乎上发布了题为《DeepSeek-V3/R1推理系统概览》的文章,掀开了V3/R1推理系统的神秘面纱。文章深入探讨了其背后的各种技术亮点,以及深度学习领域的先锋布局。重点介绍了大规模跨节点专家并行(ExpertParallelism/EP),旨在实现更大的吞吐量和更低的延迟。
通过大规模的跨节点专家并行,DeepSeek能够显著提升批处理大小(batchsize),这在深度学习中是极其重要的超参数。简单来说,batchsize决定了模型在训练时每次处理的数据量。更大的batchsize意味着更高的GPU计算效率和更快的处理能力,这是DeepSeek所追求的目标之一。
在降低延迟的方面,专家分散存放在不同GPU上的方式,可以减少每个GPU的计算需求以及相应的内存访问次数,从而有效降低延迟。然而,这种复杂的系统架构也给DeepSeek带来了不少挑战,包括节点间的通信效率和负载均衡问题。为了攻克这些难题,DeepSeek团队采用了跨节点专家并行、双批次重叠策略及优化负载均衡等手段,最大化资源利用率。
特别值得注意的是,DeepSeek透露了其理论上的成本与利润数据。根据系统的运作,DeepSeek V3和R1的服务所需的全部节点使用了英伟达的H800 GPU,计算日常的运营成本为87072美元。同时,若所有的API调用按照DeepSeek R1的定价计算,单日理论收入可达562027美元,利润率惊人地达到545%。
不过,DeepSeek也诚实表示,实际运营中的收入可能并不如理论值那般乐观,毕竟V3的定价低于R1,并且晚上服务还有折扣。此外,DeepSeek还推出了错峰优惠活动,鼓励用户在特定时段内使用服务。
在过去的一周里,DeepSeek暖心地开源了多个软件库,其中DeepEP(用于MoE模型的训练和推理的ExpertParallelism通信基础)获得了用户的热烈反响,短短20分钟就收获了超过1000个Star。该框架的优化目标是高效的全到全通信,特别适用于低精度计算和现代高性能计算任务,为推理和训练提供了强大的支持。
随着技术的进步,DeepSeek不仅在推理领域开创新地步,更实现了前所未有的日收益模式,向着优化AI服务的方向不断迈进。返回搜狐,查看更多