效率跃升1.71倍,字节再降MoE训练成本, 为何AI玩家接连开源最新技术?

  3月10日,字节跳动豆包大模型团队发布针对MoE架构的通信优化系统COMET,旨在通过细粒度计算-通信重叠技术优化大模型训练。COMET已应用于万卡级生产集群,累计节省数百...

  3月10日,字节跳动豆包大模型团队发布针对MoE架构的通信优化系统COMET,旨在通过细粒度计算-通信重叠技术优化大模型训练。COMET已应用于万卡级生产集群,累计节省数百万GPU小时资源。随着DeepSeek等公司开源热潮兴起,更多大模型玩家也纷纷跟进,以扩大市场份额、构建生态系统并提升品牌形象。

  每经记者 杨昕怡    每经实习编辑 余婷婷    

  训练大模型的成本之高一直是行业痛点,各路玩家都在思考如何用技术创新把成本“打”下来。

  3月10日,字节跳动豆包大模型团队发布了针对MoE(混合专家模型)架构的通信优化系统COMET,该方案通过细粒度计算-通信重叠技术,助力大模型训练优化。据豆包大模型团队介绍,COMET已实际应用于万卡级生产集群,累计节省了数百万GPU(图形处理器)小时资源。此外,COMET还可与豆包大模型团队此前发布的新一代稀疏模型架构UltraMem结合,实现协同优化。 

  “在万卡集群上做测试的这个经验,国内很少能有。”一位头部大模型算法工程师在接受《每日经济新闻》记者采访时表示,“目前很可能只有字节有这一经验,而且还分享出来了。虽然现在国内大部分公司都没有万卡,但随着行业往后发展,这一技术和先行经验是很重要的。”

  可以看到的是,自DeepSeek的开源模型R1在全球范围内“爆红”以来,国内更多大模型玩家以更高的频率进行着技术开源。对此,北京市社会科学院副研究员王鹏向《每日经济新闻》记者表示,大模型公司选择优秀技术开源,对于扩大市场份额、吸引合作伙伴构建生态、提升公司的品牌形象和知名度等方面均有帮助。

  MoE训练效率提升1.71倍,字节开源COMET技术

  3月1日,DeepSeek在知乎发布了“开源周”后的“彩蛋”,首次公布了模型降本增效的技术细节以及理论上高达545%的利润率。

  DeepSeek通过MoE架构的创新让激活参数比大幅下降,使得同等效果的大模型所需的算力明显下降。“671B的模型,在处理每个问题时,被调用激活的专家模型参数仅约37B,算力需求起码降低到原来的约二十分之一。”阿里云无影事业部总裁张献涛曾在接受《每日经济新闻》记者采访时表示。

  而豆包团队注意到,MoE架构的稀疏特性导致计算和通信间的依赖动态且复杂,其分布式训练仍面临着跨设备通信开销巨大的成本挑战。

  3月10日,豆包大模型团队发布了针对MoE模型的通信优化系统COMET。据介绍,COMET具体通过共享张量依赖解析机制,将共享张量沿Token维度或隐层维度切割,使通信与计算的最小单元对齐;同时通过动态负载分配算法,根据输入规模和硬件环境实时调整线程块分配,消除跨设备通信带来的等待延迟。

  一位豆包大模型的技术人员告诉《每日经济新闻》记者,COMET和DeepSeek的DualPipe(双向并行流水线技术)都用于降低MoE的通信开销,但方法不同。记者了解到,DualPipe通过创新的双向流水线并行技术,大幅提高模型的训练效率。

  豆包大模型团队称,COMET这一创新在大规模MoE模型上可达到单层1.96倍加速,端到端平均1.71倍效率提升。目前,COMET已实际应用于万卡级生产集群,助力MoE模型高效训练,并已累计节省了数百万GPU小时资源。

  “用100张卡测试的波动可能很少,因为(显卡)出问题的概率较小,但1万张卡的波动就会大很多。”一位头部大模型算法工程师向《每日经济新闻》记者表示,此次字节将这一成果开源,为整个行业提供了不可多得的万卡集群实验经验,“国内有1万张卡的企业也就几家。”此外,豆包大模型还表示,COMET还可与豆包大模型团队此前发布的新一代稀疏模型架构UltraMem结合,实现协同优化。

  《每日经济新闻》记者2月11日从豆包大模型团队了解到,团队已经提出了全新的稀疏模型架构UltraMem,该架构有效解决了MoE推理时高额的访存问题,推理速度较MoE架构提升2-6倍,推理成本最高可降低83%。

效率跃升1.71倍,字节再降MoE训练成本, 为何AI玩家接连开源最新技术?

  争夺“源神”,为何AI玩家接二连三开源最新技术?

  从在全球范围内引起热议的DeepSeek-R1到开源周的“大放送”,DeepSeek因持续开源核心技术被业内称为“源神”。基于DeepSeek的动作,国内大模型厂商纷纷跟进并加速了开源行动。

  2月18日,阶跃星辰首次开源其Step系列基座模型。该模型分别是目前全球范围内参数量最大的开源视频生成模型阶跃Step-Video-T2V,以及行业内首款产品级开源语音交互大模型阶跃Step-Audio。MiniMax也在1月15日发布并开源新一代01系列模型,包含基础语言大模型MiniMax-Text-01和视觉多模态大模型MiniMax-VL-01。

  除了头部的AI初创公司外,重投大模型的多家互联网巨头也在紧跟开源这股热潮,其中阿里一直是坚定的“开源派”。3月3日,开源社区Hugging Face最新榜单显示,开源仅6天的阿里万相大模型已反超DeepSeek-R1,登顶模型热榜、空间榜两大榜单,成为近期全球开源社区最受欢迎的大模型。3月6日凌晨,阿里再度抛出新的开源成果。阿里云通义千问官微宣布发布并开源最新的推理模型QwQ-32B。据介绍,这是一款拥有320亿参数的模型,其性能可与具备6710亿参数(其中370亿被激活)的DeepSeek-R1媲美。

  “开源优秀技术可以获得更多声量,也可以吸引更多企业、开发者进行二次开发,有助于生态构建。”一位豆包大模型的技术人员向《每日经济新闻》记者表示。

  同样,王鹏也认为,开源模式能促进技术发展、创新,既可帮助大模型公司扩大其在全球AI市场的影响力和份额,也可以吸引到更多参与者加入到生态系统的共建中,从而降低自身研发成本。

  不过,也有不同的声音,大模型公司选择开源模式究竟是为了名还是利?“如果开源的技术比闭源的更好用,免费的技术比收费的更好用,那么谁还用闭源和收费的?”工信部信息通信经济专家委员会委员盘和林在接受《每日经济新闻》记者采访时表示,“实际上是以DeepSeek为代表的开源应用,在性能上追平了竞争对手。这导致很多大模型选择了开源的路径来应对。开源对于企业来说,并不能创造利润,但能带来用户,互联网流量为王,利润次之。”

本文来自作者[书芹]投稿,不代表发展号立场,如若转载,请注明出处:https://www.fastcode.vip/ttxw/202509-4636.html

(92)

文章推荐

  • 可可上涨 市场关注西非的作物中期收获

      可可期货创下一周多来最大涨幅,市场关注西非主要种植国即将到来的作物中期收获。  纽约市场最活跃合约一度上涨3.7%,至每吨8,197美元。伦敦可可盘中一度上涨2.3%。  随着农民进入作物中期收获季节,交易员正在权衡西非的情况,预计头号种植国科特迪瓦的收成减少。通常在四月份开始的第二个和较小

    2025年04月01日
    71
  • 荷兰国际:欧佩克+供应增加料将扩大布伦特-迪拜原油价差

      荷兰国际集团分析师称,欧佩克+5月份供应增幅超过预期,可能会扩大布伦特-迪拜原油价差,并为市场带来更多中质含硫原油。  在今年的大部分时间里,布伦特-迪拜价差一直比平时窄,部分因欧佩克+决定不释放大量石油,以及美国对伊朗、委内瑞拉和俄罗斯等含硫原油生产国实施更严厉的制裁。价差扩大意味着迪拜基

    2025年04月04日
    78
  • 外盘头条:关税风波引发金价创新高 美国消费者信心持续下滑 通胀预期飙升 华尔街大行对前景充满迷茫

      全球财经媒体昨夜今晨共同关注的头条新闻主要有:  1、美国消费者信心持续下滑通胀预期飞升至数十年高点    2、通胀预期飙升和市场震荡加剧美联储困境,对紧急干预持谨慎态度    3、关税风波引发金价创历史新高,黄金成“最佳投资标的”    4、沃尔沃CEO称可能需要两年时间来扩大在美

    2025年04月12日
    67
  • 四川省疫情最新情况(四川昨日新增本土确诊病例259例 本土无症状感染者882例)

    来源:健康四川官微四川省新型冠状病毒肺炎疫情最新情况(12月6日发布)12月5日0—24时,全省新冠肺炎疫情最新情况如下:新增境外输入感染者26例(均在成都),其中确诊病例2例,无症状感染者24例。新增外省来(返)川感染者386例,其中确诊病例25例,无症状感染者361例。新增省内感染者74

    2025年04月17日
    71
  • 治荨麻疹的药治荨麻疹的药膏用什么药最好

    得了荨麻疹吃什么药最有效1、过敏性荨麻疹可以吃的药主要包括:息斯敏:一种常用的抗过敏药物,可以有效缓解荨麻疹引起的瘙痒和炎症。氯雷他定:同样具有抗过敏作用,适用于荨麻疹的治疗,有助于减轻症状。维生素C:作为辅助治疗药物,可以增强机体免疫力,有助于荨麻疹的恢复。碳酸钙:有助于缓解过敏症状,减轻荨麻疹

    2025年04月19日
    63
  • 洪湖市第三人民医院洪湖市第三人民医院电话

    5位抗疫英雄事迹1、以下是五位抗疫英雄的事迹:童朝晖身份:重症医学专家,中央指导组专家组成员。事迹:17年前参与抗击非典,17年后再次站到抗疫一线。每天巡诊两到三家医院的重症病房,奔赴多地指导重症患者救治。提出“关口前移”等重要诊疗建议,纳入新冠肺炎诊疗方案。50多天未进家门,与父母通过微信

    2025年04月23日
    76
  • 库迪咖啡宣布与卢旺达建立战略合作 打造中卢国际咖啡产业示范园

      新浪科技讯6月9日上午消息,库迪咖啡近日与卢旺达共和国农业部在卢旺达首都基加利签署战略合作备忘录。卢旺达农业部部长Dr.MarkCyubahiroBagabe、中国驻卢旺达大使馆商务参赞高志强、库迪咖啡国际业务总裁郑伟杰以及卢旺达农业发展委员会、农业出口发展局等主要机构的负责人出席签约仪

    2025年06月09日
    52
  • 美国要求对学生签证申请人的社交媒体活动进行审查

    专题:指数延续震荡态势机构称市场或将转向科技成长风格  美国国务院下令审查学生签证申请人的社交媒体活动,并要求他们公开个人资料。出于国家安全考虑,美国加大限制外国人进入美国校园的措施。  美国国务院指示领事官员审查网上账户,以观察是否有任何对美国怀有敌意的迹象。  申请学生和交流访问签证的外

    2025年06月19日
    47
  • 西双版纳景洪市旅游景点西双版纳景洪市旅游景点分布图

    景洪旅游攻略必去景点(景洪市旅游景点攻略)1、景洪旅游攻略必去景点:曼听公园位置:位于景洪市东南方,距城区约2公里。特色:西双版纳最古老的公园,拥有1300多年的历史,曾是傣王的御花园。园内林木蓊郁,风光明媚,是观赏游玩的理想园地。晚上还可在公园内观看特色民族歌舞表演,参加篝火晚会。西双版纳

    2025年07月27日
    16
  • 2025年7月中国多晶硅产量环比上涨11.22%

      2025年7月中国主流多晶硅企业多晶硅产量为10.51万吨,环比6月上涨11.22%,同比2024年7月下降27.39%。7月多晶硅环节受到宏观政策影响,价格大幅拉涨,部分企业提高稼动率。此外,由于丰水期电价因素影响,部分西南产区企业复产叠加新增产能释放,尽管部分企业有检修减产计划,但7

    2025年08月11日
    11

发表回复

本站作者后才能评论

评论列表(4条)

  • 书芹
    书芹 2025年09月28日

    我是发展号的签约作者“书芹”!

  • 书芹
    书芹 2025年09月28日

    希望本篇文章《效率跃升1.71倍,字节再降MoE训练成本, 为何AI玩家接连开源最新技术?》能对你有所帮助!

  • 书芹
    书芹 2025年09月28日

    本站[发展号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

  • 书芹
    书芹 2025年09月28日

    本文概览:  3月10日,字节跳动豆包大模型团队发布针对MoE架构的通信优化系统COMET,旨在通过细粒度计算-通信重叠技术优化大模型训练。COMET已应用于万卡级生产集群,累计节省数百...

    联系我们

    邮件:发展号@sina.com

    工作时间:周一至周五,9:30-18:30,节假日休息

    关注我们