梁文锋署名!DeepSeek再发论文

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!   近日,DeepSeek团队发布了新论文,以DeepSeek-V3为代表,深入解读DeepSee...

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

  近日,DeepSeek团队发布了新论文,以DeepSeek-V3为代表,深入解读DeepSeek在硬件架构和模型设计方面的关键创新,为实现具有成本效益的大规模训练和推理提供思路。其中,DeepSeek创始人兼CEO梁文锋是署名作者之一。

  DeepSeek在论文中提到,论文期望跨越硬件架构和模型设计,采用双重视角来探索其之间错综复杂的相互作用,以实现具有成本效益的大规模训练和推理。

  论文侧重探讨了三大方向:一是硬件驱动的模型设计,分析硬件功能如何影响DeepSeek-V3中的架构选择;二是硬件和模型之间的相互依赖关系,硬件功能如何塑造模型创新,以及大模型不断变化的需求如何推动对下一代硬件的需求;三是硬件开发的未来方向,探索未来硬件和模型架构的协同设计,力图打造可扩展、经济高效的AI系统。

梁文锋署名!DeepSeek再发论文

  揭秘DeepSeek模型设计原则

  DeepSeek模型设计原则有哪些?论文聚焦内存效率、成本控制、推理速度等方面开展内容。

  面对大量的内存资源需求,源头优化内存使用是关键策略。在内存效率方面,多头潜在注意力(MLA)则通过压缩键值(KV)缓存显著降低了内存消耗。FP8混合精度训练技术将内存消耗显著降低了一半。除了MLA之外,DeepSeek还提出了其他几种方法来减少KV缓存的大小,包括共享KV、量化压缩等。

  论文提到,“对于大模型推理,用户请求通常涉及多轮对话。KV缓存通过缓存先前处理的token的键和值向量来解决这一挑战,无需为后续token重新计算。”

  在成本控制方面,DeepSeek开发了DeepSeekMoE。混合专家(MoE)架构拥有两大优势。一是降低训练成本,通过选择性激活专家参数来降低计算成本。根据论文,DeepSeek-V3包含6710亿参数,但每token仅激活370亿参数,训练成本为250GFLOPS/Token。这表明,MoE模型在计算资源消耗量少一个数量级的情况下,实现了与密集模型相当甚至更优的性能。

  二是利于个人使用和本地部署。由于每个请求只激活了一个参数子集,其能够大大减少内存和计算需求。

梁文锋署名!DeepSeek再发论文

  在提高推理速度方面,DeepSeek通过引入高带宽纵向扩展网络、重叠计算和通信、多token预测框架等方法提高推理速度。

  其中,推理速度既包括系统级最大吞吐量,也包括单请求延迟。为了最大限度地提高吞吐量,DeepSeek-V3从一开始就被构建为利用双微批处理重叠,有意将通信延迟与计算重叠。

梁文锋署名!DeepSeek再发论文

  软硬件协同突破效率极限

  基于设计原则,DeepSeek细化了在低精度训练、互连优化、网络拓扑等方面的具体细节。

  据介绍,在低精度技术突破方面,DeepSeek通过采用FP8混合精度训练,将模型内存占用直接减少50%。DeepSeek还提出LogFMT对数空间量化方案,能在相同比特下实现更高精度。

  在互连优化方面,DeepSeek提出了硬件感知并行策略,摒弃传统张量并行(TP),转而采用流水线并行(PP)和专家并行(EP),开源DeepEP库提升EP效率。

  在网络拓扑方面,DeepSeek推出的两层多层胖树(MPFT)网络拓扑,通过8个独立平面实现故障隔离与负载均衡,相比传统三层拓扑大大降低成本。

  六大关键探索未来AI基础设施

  未来,下一代AI基础设施将如何升级?DeepSeek从硬件架构的角度提出六大方向,直面未来挑战并提出解决方案,涉及内存、互连、网络、计算等核心领域。

  一是鲁棒性挑战。聚焦通过更先进的错误检测与纠正机制,以此解决硬件故障和静默数据损坏等问题。

  二是CPU(中央处理器)瓶颈与互联限制。通过优化CPU与加速器之间的协同等,来满足突破传统接口的限制,实现高速、无瓶颈的节点内部通信。

  三是智能网络技术,重点关注封装内光互联、自适应路由、高效的容错协议、动态资源管理等方向,以此实现兼顾低延迟和智能感知能力需求的网络。

  四是内存语义通信与排序。DeepSeek主张硬件支持为内存语义通信提供内置顺序保证。这种一致性应在编程层(如通过获取/释放语义)和接收方硬件层强制执行,以此提升通信效率。

  五是网络计算融合。如何将计算和压缩能力下沉到网络中?论文称,在网络硬件中集成自动分组复制、硬件级归约功能,并支持LogFMT压缩,降低通信带宽需求。

  六是以内存为中心的架构创新。目前,模型规模的指数级增长已超过高带宽内存(HBM)技术的进步,这种差距造成内存瓶颈。论文推荐了DRAM(动态随机存取存储器)堆叠、晶圆级集成等前沿技术。

  “针对当前硬件在内存带宽、互连带宽和计算效率的瓶颈,团队提出未来硬件应重点发展精准低精度计算单元、Scale-Up/Scale-Out(纵向扩展/横向扩展)收敛架构及低延迟智能网络,并强调通过硬件原生支持通信压缩、内存语义排序和故障容错机制,提升系统鲁棒性。”论文称,这些成果为下一代AI系统的软硬件协同创新提供了实用蓝图,有望推动AI在复杂场景中的规模化应用。

本文来自作者[乙青柏]投稿,不代表发展号立场,如若转载,请注明出处:https://www.fastcode.vip/txbk/202509-31177.html

(49)

文章推荐

  • 跳一跳攻略跳一跳攻略作弊下载

    微信跳一跳怎么跳1000分_微信跳一跳攻略技巧微信跳一跳基础技巧:保持节奏:这款游戏主要考验了玩家对于手感的把控,所以在连续跳跃中保持节奏十分重要,也是可以连续跳到方块中心点的关键。停留加分区域会破坏节奏,所以如果为了冲击高分,可以选择放弃在井盖上停留,更易保持状态。下水道加5分。停留等到下水道冲

    2025年02月27日
    83
  • 极限祭坛任务极限祭坛boss怎么打

    dnf极限祭坛潜力试练打败黑猪布欧任务怎么完成1、在进行DNF极限祭坛潜力试练任务时,选择关卡难度非常重要。前两关你可以自由选择困难或简单模式,但这并不意味着你可以随意。到了第三关,尤其是面对布欧时,务必选择简单难度,否则任务将无法完成。如果不进行选择,默认情况下系统会自动将难度设定为困难。在进行

    2025年03月28日
    77
  • 关于库健网的信息

    充气娃娃生产过程大揭秘_保健图库频道_医网从传统文化的角度讲,充气娃娃这种东西是很阴邪不吉利的,没有生机,像尸体一样,甚至会带有某些邪气,而其本身就是用来淫邪的,万恶淫为首,长期接触后会很倒霉,运势衰败,带来灾难,还有,你想想,如果别人知道你在家里整天玩这东西,会怎么想,怎么看?你只会被鄙视,被耻

    2025年03月31日
    76
  • 磋商策略技巧天天摸麻将开挂有挂吗(详细开挂教程)(偷拍张家慧打麻将敲诈案再次开庭)

    澎湃新闻记者谢寅宗实习生陆静瑶1月27日,曾中止审理的重庆包工头易真武“偷拍张家慧打麻将”敲诈勒索一案再次开庭审理,历时5个多小时庭审后休庭。法庭表示,待合议庭休庭评议后,决定是进行第三次开庭还是择日宣判。中止审理的包工头“偷拍张家慧打麻将”敲诈案1月27日在重庆万州区法院开庭审理参加庭审的人

    2025年04月04日
    86
  • 美联储官员Kashkari:必须确保关税不会引发持续通胀

      明尼阿波利斯联储行长NeelKashkari表示,美联储有责任确保关税不会引发持续的通胀问题,这响应了美联储主席杰罗姆·鲍威尔最近的言论。  “我们现在只是不确定这是对通胀造成一次性影响还是长期影响,”Kashkari周二在华盛顿举行的美国商会活动上表示,“我们美联储的工作是确保这不会造成更

    2025年04月23日
    64
  • 加拿大总理卡尼将宣布大幅提高国防开支

      据报道,加拿大总理马克·卡尼将在周一讲话中公布一项新的安全和防务投资计划。  该计划将使加拿大在明年3月结束的2025-2026财年达到北约2%的军费开支目标,并在未来几年超越这一目标。  知情人士称,支出将包括提高加拿大武装部队成员的工资、购买新设备和新无人机,以及更多用于监测海底和北极的

    2025年06月09日
    57
  • 普利制药(300630)投资者索赔案已收到测算报告,部分案件已开庭

      2025年6月20日,上海久诚律师事务所许峰律师代理的普利制药(300630)投资者索赔案已收到海口市中级人民法院送达的部分案件的测算报告,目前正在等待法院的下一步安排,律师团队同步还在继续推进后续案件的立案工作,还在继续接受其他投资者的索赔委托。(许峰律师专栏)  许峰律师代理的部分普利制药

    2025年06月20日
    34
  • 欧洲央行的帕察利德斯称,尽管面临贸易困境,欧元区经济仍具韧性

      欧洲央行管理委员会成员克里斯托多洛斯・帕察利德斯表示,欧元区正经受住当前地缘政治挑战的考验。  这位塞浦路斯央行行长在周日发表的《政治报》采访中称:“尽管在国际上遭遇困境,欧元区经济似乎仍具韧性。然而,经济环境仍存在不确定性,这主要源于贸易紧张局势。”  7月30日公布的数据显示,这个

    2025年08月03日
    32
  • 海光信息现4笔大宗交易 均为折价成交

    海光信息9月25日大宗交易平台共发生4笔成交,合计成交量15.59万股,成交金额3926.19万元。成交价格均为251.84元,相对今日收盘价折价6.00%。从参与大宗交易营业部来看,机构专用席位共出现在4笔成交的买方或卖方营业部中,合计成交金额为3926.19万元,净买入3926.19万元。 

    2025年09月26日
    8
  • 视频|华商基金“金融生活嘉年华”走进商圈活动 北京公募基金高质量发展在行动!

    专题:北京公募基金高质量发展系列活动新时代、新基金、新价值

    2025年09月27日
    6

发表回复

本站作者后才能评论

评论列表(4条)

  • 乙青柏
    乙青柏 2025年09月28日

    我是发展号的签约作者“乙青柏”!

  • 乙青柏
    乙青柏 2025年09月28日

    希望本篇文章《梁文锋署名!DeepSeek再发论文》能对你有所帮助!

  • 乙青柏
    乙青柏 2025年09月28日

    本站[发展号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

  • 乙青柏
    乙青柏 2025年09月28日

    本文概览:  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!   近日,DeepSeek团队发布了新论文,以DeepSeek-V3为代表,深入解读DeepSee...

    联系我们

    邮件:发展号@sina.com

    工作时间:周一至周五,9:30-18:30,节假日休息

    关注我们