鞠躬尽瘁网

老黄入局吃龙虾!英伟达发布最强开源Agent推理模型

来源:鞠躬尽瘁网-工人日报
2026-03-21 07:22:25
\u003cdiv class=\"rich_media_content\"\u003e\u003cp\u003e\u003cspan style=\"color: rgb(51, 51, 51)\"\u003e\u003cspan style=\"font-size: 14px\"\u003e\u003cspan style=\"background-color: rgb(248, 248, 248)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e克雷西 发自 凹非寺\u003cbr/\u003e量子位 | 公众号 QbitAI\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp style=\"background-color: rgb(255, 255, 255); line-height: 2; margin-bottom: 20px; margin-left: 16px; margin-right: 16px; margin-top: 20px; min-height: 1.5em; padding: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e英伟达正式杀进龙虾养殖场,带着“最强开源龙虾模型”走来了!\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp style=\"background-color: rgb(255, 255, 255); line-height: 2; margin-bottom: 20px; margin-left: 16px; margin-right: 16px; margin-top: 20px; min-height: 1.5em; padding: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e刚刚,英伟达发布并开源�B参数的\u003c!--VERTICAL_CARD_BEGIN_0--\u003eMoE模型\u003c!--VERTICAL_CARD_END_0--\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003cstrong\u003e\u003cspan style=\"color: rgb(0, 153, 127)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e\u003c!--VERTICAL_CARD_BEGIN_1--\u003eNemotron 3 Super\u003c!--VERTICAL_CARD_END_1--\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/strong\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp style=\"background-color: rgb(255, 255, 255); line-height: 2; margin-bottom: 20px; margin-left: 16px; margin-right: 16px; margin-top: 20px; min-height: 1.5em; padding: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e在评估OpenClaw智能体控制能力的\u003c!--VERTICAL_CARD_BEGIN_2--\u003ePinchBench\u003c!--VERTICAL_CARD_END_2--\u003e测试中,这个模型一举拿�.6%的高分,强势空降同类开源模型榜首。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003csection style=\"background-color: rgb(255, 255, 255); color: rgb(34, 34, 34); font-size: 16px; letter-spacing: 1px !important; line-height: 2 !important; margin: 20px 16px !important; max-width: 100%; min-height: 1.5em !important; outline: 0px; padding: 0px; text-wrap-mode: wrap; word-spacing: 1px !important\" data-exeditor-arbitrary-box=\"wrap\"\u003e\u003cp\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: transparent\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e\u003c!--IMG_0--\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003c/section\u003e\u003cp style=\"background-color: rgb(255, 255, 255); line-height: 2; margin-bottom: 20px; margin-left: 16px; margin-right: 16px; margin-top: 20px; min-height: 1.5em; padding: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e另外,在Artificial Intelligence Index中,Nemotron 3 Super也狂�分,直接甩开得�分的GPT-OSS。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp style=\"background-color: rgb(255, 255, 255); line-height: 2; margin-bottom: 20px; margin-left: 16px; margin-right: 16px; margin-top: 20px; min-height: 1.5em; padding: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e除了这个“龙虾搭档”,英伟达也开始在开源模型上全面发力了。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp style=\"background-color: rgb(255, 255, 255); line-height: 2; margin-bottom: 20px; margin-left: 16px; margin-right: 16px; margin-top: 20px; min-height: 1.5em; padding: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e最新财务文件曝光,英伟达已经悄悄备好了\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003cstrong\u003e\u003cspan style=\"color: rgb(0, 153, 127)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e260亿美元\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/strong\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e(约�亿人民币)巨资,将在未来五年内将这笔充足弹药全盘倾注于构建开源AI模型。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003ch2 style=\"line-height: 1.5; margin-bottom: 40px; margin-left: 0px; margin-right: 0px; margin-top: 40px\"\u003e\u003c!--HPOS_0--\u003e\u003cstrong\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 20px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e百万上下文,5倍吞吐量\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/strong\u003e\u003c/h2\u003e\u003cp style=\"background-color: rgb(255, 255, 255); line-height: 2; margin-bottom: 20px; margin-left: 16px; margin-right: 16px; margin-top: 20px; min-height: 1.5em; padding: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e作为主攻多智能体协同的模型,Nemotron 3 Super原生支持\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003cstrong\u003e\u003cspan style=\"color: rgb(0, 153, 127)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e100万token的上下文窗口\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/strong\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e,为智能体在应对复杂多步流程时提供了不可或缺的长期记忆空间。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c!--MID_AD_0--\u003e\u003c!--EOP_0--\u003e\u003c/p\u003e\u003c!--PARAGRAPH_0--\u003e\u003cp style=\"background-color: rgb(255, 255, 255); line-height: 2; margin-bottom: 20px; margin-left: 16px; margin-right: 16px; margin-top: 20px; min-height: 1.5em; padding: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e不仅文本处理容量庞大,它的运转效率也实现了大幅度跨越,\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003cstrong\u003e\u003cspan style=\"color: rgb(0, 153, 127)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e吞吐量直接提升至上一代Nemotron Super񊄭倍以上\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/strong\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp style=\"background-color: rgb(255, 255, 255); line-height: 2; margin-bottom: 20px; margin-left: 16px; margin-right: 16px; margin-top: 20px; min-height: 1.5em; padding: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e同时,在处理代码和工具调用等结构化生成任务时,Nemotron 3 Super\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003cstrong\u003e\u003cspan style=\"color: rgb(0, 153, 127)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e最高能实񈓣倍的实际推理提速\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/strong\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp style=\"background-color: rgb(255, 255, 255); line-height: 2; margin-bottom: 20px; margin-left: 16px; margin-right: 16px; margin-top: 20px; min-height: 1.5em; padding: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e𶞘k输入�k输出的特定运行设置下,它的推理吞吐量达到了GPT-OSS-120B񊄪.2倍。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003csection style=\"background-color: rgb(255, 255, 255); color: rgb(34, 34, 34); font-size: 16px; letter-spacing: 1px !important; line-height: 2 !important; margin: 20px 16px !important; max-width: 100%; min-height: 1.5em !important; outline: 0px; padding: 0px; text-align: center; text-wrap-mode: wrap; word-spacing: 1px !important\" data-exeditor-arbitrary-box=\"wrap\"\u003e\u003cp\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: transparent\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e\u003c!--IMG_1--\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003c/section\u003e\u003cp style=\"background-color: rgb(255, 255, 255); line-height: 2; margin-bottom: 20px; margin-left: 16px; margin-right: 16px; margin-top: 20px; min-height: 1.5em; padding: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e落地到具体的实操基准测试,这台新模型在代码攻坚上给出了直观的数据对比。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp style=\"background-color: rgb(255, 255, 255); line-height: 2; margin-bottom: 20px; margin-left: 16px; margin-right: 16px; margin-top: 20px; min-height: 1.5em; padding: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e在软件工程基准SWE-Bench中,它搭配OpenHands框架跑出�.47%的准确率,而对标的GPT-OSS成绩�.9%。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp style=\"background-color: rgb(255, 255, 255); line-height: 2; margin-bottom: 20px; margin-left: 16px; margin-right: 16px; margin-top: 20px; min-height: 1.5em; padding: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e面对考验底层控制能力的终端操作环境,模型的发挥依然扎实,在Terminal Bench的困难子集测试里,它�.78%的得分,略微超过了GPT-OSS�.00%。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c!--MID_AD_1--\u003e\u003c!--EOP_1--\u003e\u003c/p\u003e\u003c!--PARAGRAPH_1--\u003e\u003cp style=\"background-color: rgb(255, 255, 255); line-height: 2; margin-bottom: 20px; margin-left: 16px; margin-right: 16px; margin-top: 20px; min-height: 1.5em; padding: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e当然,模型的常识推理水准也经受住了考验。在MMLU-Pro测试中它拿下�.73分,相比GPT-OSS�.00分实现了进一步提升。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp style=\"background-color: rgb(255, 255, 255); line-height: 2; margin-bottom: 20px; margin-left: 16px; margin-right: 16px; margin-top: 20px; min-height: 1.5em; padding: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e在模拟真实世界运作的复杂业务场景里,它的落地能力同样得到了验证,在包含航空以及零售和电信三大领域的TauBench V2测试中,它交出�.15%的平均成绩。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003csection style=\"background-color: rgb(255, 255, 255); color: rgb(34, 34, 34); font-size: 16px; letter-spacing: 1px !important; line-height: 2 !important; margin: 20px 16px !important; max-width: 100%; min-height: 1.5em !important; outline: 0px; padding: 0px; text-align: center; text-wrap-mode: wrap; word-spacing: 1px !important\" data-exeditor-arbitrary-box=\"wrap\"\u003e\u003cp\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: transparent\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e\u003c!--IMG_2--\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003c/section\u003e\u003ch2 style=\"line-height: 1.5; margin-bottom: 40px; margin-left: 0px; margin-right: 0px; margin-top: 40px\"\u003e\u003c!--HPOS_1--\u003e\u003cstrong\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 20px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e面向Blackwell架构优化\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/strong\u003e\u003c/h2\u003e\u003cp style=\"background-color: rgb(255, 255, 255); line-height: 2; margin-bottom: 20px; margin-left: 16px; margin-right: 16px; margin-top: 20px; min-height: 1.5em; padding: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003eNemotron 3 Super能够在实测中表现出色,主要归功于其对模型架构的针对性优化。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp style=\"background-color: rgb(255, 255, 255); line-height: 2; margin-bottom: 20px; margin-left: 16px; margin-right: 16px; margin-top: 20px; min-height: 1.5em; padding: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e为了在处理百万级上下文时兼顾效率与精度,该模型采用了\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003cstrong\u003e\u003cspan style=\"color: rgb(0, 153, 127)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e混合\u003c!--VERTICAL_CARD_BEGIN_3--\u003eMamba-Transformer\u003c!--VERTICAL_CARD_END_3--\u003e架构\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/strong\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp style=\"background-color: rgb(255, 255, 255); line-height: 2; margin-bottom: 20px; margin-left: 16px; margin-right: 16px; margin-top: 20px; min-height: 1.5em; padding: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e这种设计交织使用了具备线性时间复杂度的Mamba-2层来处理长序列任务,并在关键深度插入了Transformer全局注意力层,以确保模型在处理海量信息时仍能实现精准的关联检索。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003csection style=\"background-color: rgb(255, 255, 255); color: rgb(34, 34, 34); font-size: 16px; letter-spacing: 1px !important; line-height: 2 !important; margin: 20px 16px !important; max-width: 100%; min-height: 1.5em !important; outline: 0px; padding: 0px; text-align: center; text-wrap-mode: wrap; word-spacing: 1px !important\" data-exeditor-arbitrary-box=\"wrap\"\u003e\u003cp\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: transparent\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e\u003c!--IMG_3--\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003c/section\u003e\u003cp style=\"background-color: rgb(255, 255, 255); line-height: 2; margin-bottom: 20px; margin-left: 16px; margin-right: 16px; margin-top: 20px; min-height: 1.5em; padding: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e在模型规模的扩展上,为了解决传统混合专家架构在通信和计算上的瓶颈,模型引入了\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003cstrong\u003e\u003cspan style=\"color: rgb(0, 153, 127)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e\u003c!--VERTICAL_CARD_BEGIN_4--\u003eLatent MoE\u003c!--VERTICAL_CARD_END_4--\u003e架构\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/strong\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp style=\"background-color: rgb(255, 255, 255); line-height: 2; margin-bottom: 20px; margin-left: 16px; margin-right: 16px; margin-top: 20px; min-height: 1.5em; padding: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e这项技术在进行路由决策前,先将token投影到一个压缩的低秩潜空间中进行降维处理。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp style=\"background-color: rgb(255, 255, 255); line-height: 2; margin-bottom: 20px; margin-left: 16px; margin-right: 16px; margin-top: 20px; min-height: 1.5em; padding: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e这种方式使得模型能够在维持同等推理成本的前提下,直接调用四倍数量的专家网络,从而实现了更精细的专业化分工。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003csection style=\"background-color: rgb(255, 255, 255); color: rgb(34, 34, 34); font-size: 16px; letter-spacing: 1px !important; line-height: 2 !important; margin: 20px 16px !important; max-width: 100%; min-height: 1.5em !important; outline: 0px; padding: 0px; text-align: center; text-wrap-mode: wrap; word-spacing: 1px !important\" data-exeditor-arbitrary-box=\"wrap\"\u003e\u003cp\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: transparent\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e\u003c!--IMG_4--\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003c/section\u003e\u003cp style=\"background-color: rgb(255, 255, 255); line-height: 2; margin-bottom: 20px; margin-left: 16px; margin-right: 16px; margin-top: 20px; min-height: 1.5em; padding: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e为了进一步提升生成速度,模型还原生应用了\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003cstrong\u003e\u003cspan style=\"color: rgb(0, 153, 127)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e\u003c!--VERTICAL_CARD_BEGIN_5--\u003e多token预测\u003c!--VERTICAL_CARD_END_5--\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/strong\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e技术。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp style=\"background-color: rgb(255, 255, 255); line-height: 2; margin-bottom: 20px; margin-left: 16px; margin-right: 16px; margin-top: 20px; min-height: 1.5em; padding: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e与逐个预测token的传统模式不同,Nemotron 3 Super通过共享权重设计,在单次前向传递中即可并行预测未来的多个token。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp style=\"background-color: rgb(255, 255, 255); line-height: 2; margin-bottom: 20px; margin-left: 16px; margin-right: 16px; margin-top: 20px; min-height: 1.5em; padding: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e这种机制不仅强化了模型对长程逻辑结构的理解,还为其带来了内置的投机解码能力,显著缩短了代码编写和工具调用等复杂任务的生成耗时。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp style=\"background-color: rgb(255, 255, 255); line-height: 2; margin-bottom: 20px; margin-left: 16px; margin-right: 16px; margin-top: 20px; min-height: 1.5em; padding: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e\u003c!--SECURE_LINK_BEGIN_0--\u003e英伟达\u003c!--SECURE_LINK_END_0--\u003e应用深度学习研究副总裁Bryan Catanzaro介绍,这正是模型响应速度快的原因之一。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003csection style=\"background-color: rgb(255, 255, 255); color: rgb(34, 34, 34); font-size: 16px; letter-spacing: 1px !important; line-height: 2 !important; margin: 20px 16px !important; max-width: 100%; min-height: 1.5em !important; outline: 0px; padding: 0px; text-align: center; text-wrap-mode: wrap; word-spacing: 1px !important\" data-exeditor-arbitrary-box=\"wrap\"\u003e\u003cp\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: transparent\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e\u003c!--IMG_5--\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003c/section\u003e\u003cp style=\"background-color: rgb(255, 255, 255); line-height: 2; margin-bottom: 20px; margin-left: 16px; margin-right: 16px; margin-top: 20px; min-height: 1.5em; padding: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e此外,模型还在硬件层面进行了深度适配,\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003cstrong\u003e\u003cspan style=\"color: rgb(0, 153, 127)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e采用了原生NVFP4格式进行预训练\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/strong\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp style=\"background-color: rgb(255, 255, 255); line-height: 2; margin-bottom: 20px; margin-left: 16px; margin-right: 16px; margin-top: 20px; min-height: 1.5em; padding: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e相比先训练再量化的常规路径,这种�万亿个token上进行的低精度预训练,让模型从起步阶段就完全适应了Blackwell架构的算力特性。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp style=\"background-color: rgb(255, 255, 255); line-height: 2; margin-bottom: 20px; margin-left: 16px; margin-right: 16px; margin-top: 20px; min-height: 1.5em; padding: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e最终,模型在B200芯片上跑出了比H100快四倍的推理速度,在极大降低内存需求的同时,依然维持了稳健的准确率表现。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003ch2 style=\"line-height: 1.5; margin-bottom: 40px; margin-left: 0px; margin-right: 0px; margin-top: 40px\"\u003e\u003c!--HPOS_2--\u003e\u003cstrong\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 20px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003eAgent能力针对性训练\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/strong\u003e\u003c/h2\u003e\u003cp style=\"background-color: rgb(255, 255, 255); line-height: 2; margin-bottom: 20px; margin-left: 16px; margin-right: 16px; margin-top: 20px; min-height: 1.5em; padding: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e为了让Nemotron 3 Super真正具备执行任务的智能体能力,英伟达在后训练阶段通过多层级的加固策略对其进行了全方位打磨。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp style=\"background-color: rgb(255, 255, 255); line-height: 2; margin-bottom: 20px; margin-left: 16px; margin-right: 16px; margin-top: 20px; min-height: 1.5em; padding: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e在SFT阶段,研发团队采用了两阶段训练工艺,第一阶段\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003cstrong\u003e\u003cspan style=\"color: rgb(0, 153, 127)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e通过标记级平均损失建立推理基础\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/strong\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e,第二阶段\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003cstrong\u003e\u003cspan style=\"color: rgb(0, 153, 127)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e切换为样本级平均损失\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/strong\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e,有效解决了长输入场景下的性能降级问题,确保模型在处理海量信息时依然能给出精准的短输出。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003csection style=\"background-color: rgb(255, 255, 255); color: rgb(34, 34, 34); font-size: 16px; letter-spacing: 1px !important; line-height: 2 !important; margin: 20px 16px !important; max-width: 100%; min-height: 1.5em !important; outline: 0px; padding: 0px; text-align: center; text-wrap-mode: wrap; word-spacing: 1px !important\" data-exeditor-arbitrary-box=\"wrap\"\u003e\u003cp\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: transparent\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e\u003c!--IMG_6--\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003c/section\u003e\u003cp style=\"background-color: rgb(255, 255, 255); line-height: 2; margin-bottom: 20px; margin-left: 16px; margin-right: 16px; margin-top: 20px; min-height: 1.5em; padding: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e针对实际应用中的智能体命令行交互,英伟达构建了一个\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003cstrong\u003e\u003cspan style=\"color: rgb(0, 153, 127)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e包𴦰万个初始查询的种子任务集\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/strong\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e,并利用模型作为裁判进行了精细过滤,最终沉淀𳏅.5万个核心合成任务。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp style=\"background-color: rgb(255, 255, 255); line-height: 2; margin-bottom: 20px; margin-left: 16px; margin-right: 16px; margin-top: 20px; min-height: 1.5em; padding: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e通过从高性能模型中蒸馏操作轨迹,Nemotron 3 Super成功将复杂的终端交互知识内化为自身的原生技能。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003csection style=\"background-color: rgb(255, 255, 255); color: rgb(34, 34, 34); font-size: 16px; letter-spacing: 1px !important; line-height: 2 !important; margin: 20px 16px !important; max-width: 100%; min-height: 1.5em !important; outline: 0px; padding: 0px; text-align: center; text-wrap-mode: wrap; word-spacing: 1px !important\" data-exeditor-arbitrary-box=\"wrap\"\u003e\u003cp\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: transparent\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e\u003c!--IMG_7--\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003c/section\u003e\u003cp style=\"background-color: rgb(255, 255, 255); line-height: 2; margin-bottom: 20px; margin-left: 16px; margin-right: 16px; margin-top: 20px; min-height: 1.5em; padding: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e进入强化学习阶段后,模型被投入到NeMo Gym平台�种真实环境配置中进行高强度“拉练”。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp style=\"background-color: rgb(255, 255, 255); line-height: 2; margin-bottom: 20px; margin-left: 16px; margin-right: 16px; margin-top: 20px; min-height: 1.5em; padding: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e这里的考核标准不再是简单的对话满意度,深入到了工具调用的准确性、功能代码的可执行性以及复杂计划的完整性等核心维度。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp style=\"background-color: rgb(255, 255, 255); line-height: 2; margin-bottom: 20px; margin-left: 16px; margin-right: 16px; margin-top: 20px; min-height: 1.5em; padding: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e针对门槛极高的软件工程任务,模型还经历了专门的SWE-RL阶段,在隔离的容器环境中通过不断的执行反馈来修正自身的逻辑漏洞。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp style=\"background-color: rgb(255, 255, 255); line-height: 2; margin-bottom: 20px; margin-left: 16px; margin-right: 16px; margin-top: 20px; min-height: 1.5em; padding: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e此外,为了在追求效率的同时避免模型在陌生领域出现偏差,英伟达还引入了\u003c!--VERTICAL_CARD_BEGIN_6--\u003ePivotRL\u003c!--VERTICAL_CARD_END_6--\u003e技术。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp style=\"background-color: rgb(255, 255, 255); line-height: 2; margin-bottom: 20px; margin-left: 16px; margin-right: 16px; margin-top: 20px; min-height: 1.5em; padding: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e这种方法在智能体编程和搜索等关键领域,通过重点强化专家轨迹中那些不确定性较高的决策点,提升了模型在多步工作流中的行为稳定性,有效遏制了长程任务中常见的推理漂移风险。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c!--MID_AD_2--\u003e\u003c!--EOP_2--\u003e\u003c/p\u003e\u003c!--PARAGRAPH_2--\u003e\u003ch2 style=\"line-height: 1.5; margin-bottom: 40px; margin-left: 0px; margin-right: 0px; margin-top: 40px\"\u003e\u003c!--HPOS_3--\u003e\u003cstrong\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 20px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e260亿美元投向开源模型\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/strong\u003e\u003c/h2\u003e\u003cp style=\"background-color: rgb(255, 255, 255); line-height: 2; margin-bottom: 20px; margin-left: 16px; margin-right: 16px; margin-top: 20px; min-height: 1.5em; padding: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e最新开源模型强势登场之际,英伟达更远大的开源计划也已曝光:在未来五年内全盘倾�亿美元巨资用于构建开源AI模型,并借此在自家的超级计算机级数据中心里搞一场极限拉练。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c!--MID_AD_3--\u003e\u003c!--EOP_3--\u003e\u003c/p\u003e\u003c!--PARAGRAPH_3--\u003e\u003cp style=\"background-color: rgb(255, 255, 255); line-height: 2; margin-bottom: 20px; margin-left: 16px; margin-right: 16px; margin-top: 20px; min-height: 1.5em; padding: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e这笔投入不仅是为模型研发准备的充足弹药,更是为了通过跑起这些自家优化的开源模型,对计算、存储和网络性能进行全方位的压力测试。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp style=\"background-color: rgb(255, 255, 255); line-height: 2; margin-bottom: 20px; margin-left: 16px; margin-right: 16px; margin-top: 20px; min-height: 1.5em; padding: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e随后,这些从实战中压榨出的宝贵数据,将被直接拿来反哺并规划未来的硬件架构路线图,真正实现由软件实操来定义硬件进化的技术路径。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp style=\"background-color: rgb(255, 255, 255); line-height: 2; margin-bottom: 20px; margin-left: 16px; margin-right: 16px; margin-top: 20px; min-height: 1.5em; padding: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e在资源输出端,英伟达这次也表现得毫无保留,对外全面开放了模型的全参数权重,以及训练、评估配方和详细的部署手册。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp style=\"background-color: rgb(255, 255, 255); line-height: 2; margin-bottom: 20px; margin-left: 16px; margin-right: 16px; margin-top: 20px; min-height: 1.5em; padding: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e这种慷慨的行为背后,也有着英伟达更高维度的谋划——通过亲手推动整个开源生态的强健发育,引导全球开发者将创新的根基更加牢固地绑定在自家的技术底座之中。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp style=\"background-color: rgb(255, 255, 255); line-height: 2; margin-bottom: 20px; margin-left: 16px; margin-right: 16px; margin-top: 20px; min-height: 1.5em; padding: 0px\"\u003e\u003cspan style=\"color: rgb(136, 136, 136)\"\u003e\u003cspan style=\"font-size: 14px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003eGitHub:\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003cspan style=\"color: rgb(136, 136, 136)\"\u003e\u003cspan style=\"font-size: 14px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003ehttps://github.com/NVIDIA-NeMo/Nemotron/tree/main/usage-cookbook/Nemotron-3-Super\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003cspan style=\"color: rgb(136, 136, 136)\"\u003e\u003cspan style=\"font-size: 14px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e技术报告:\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003cspan style=\"color: rgb(136, 136, 136)\"\u003e\u003cspan style=\"font-size: 14px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003ehttps://research.nvidia.com/labs/nemotron/files/NVIDIA-Nemotron-3-Super-Technical-Report.pdf\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003cspan style=\"color: rgb(136, 136, 136)\"\u003e\u003cspan style=\"font-size: 14px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e参考链接:\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003cspan style=\"color: rgb(136, 136, 136)\"\u003e\u003cspan style=\"font-size: 14px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e[1]https://developer.nvidia.com/blog/introducing-nemotron-3-super-an-open-hybrid-mamba-transformer-moe-for-agentic-reasoning/\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003cspan style=\"color: rgb(136, 136, 136)\"\u003e\u003cspan style=\"font-size: 14px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e[2]https://www.wired.com/story/nvidia-investing-26-billion-open-source-models/\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c!--MID_AD_4--\u003e\u003c!--EOP_4--\u003e\u003c/p\u003e\u003c!--PARAGRAPH_4--\u003e\u003cdiv powered-by=\"qqnews_ex-editor\"\u003e\u003c/div\u003e\u003cstyle\u003e.rich_media_content{--news-tabel-th-night-color: #444444;--news-font-day-color: #333;--news-font-night-color: #d9d9d9;--news-bottom-distance: 22px}.rich_media_content p:not([data-exeditor-arbitrary-box=image-box]){letter-spacing:.5px;line-height:30px;margin-bottom:var(--news-bottom-distance);word-wrap:break-word}.rich_media_content .qn-editor-copy p:not([data-exeditor-arbitrary-box=image-box]){letter-spacing:unset;line-height:unset;margin-bottom:unset;word-wrap:unset}.rich_media_content{color:var(--news-font-day-color);font-size:18px}@media(prefers-color-scheme:dark){body:not([data-weui-theme=light]):not([dark-mode-disable=true]) .rich_media_content p:not([data-exeditor-arbitrary-box=image-box]){letter-spacing:.5px;line-height:30px;margin-bottom:var(--news-bottom-distance);word-wrap:break-word}body:not([data-weui-theme=light]):not([dark-mode-disable=true]) .rich_media_content .qn-editor-copy p:not([data-exeditor-arbitrary-box=image-box]):not(.qn-editor-copy){letter-spacing:unset;line-height:unset;margin-bottom:unset;word-wrap:unset}body:not([data-weui-theme=light]):not([dark-mode-disable=true]) .rich_media_content{color:var(--news-font-night-color)}}.data_color_scheme_dark .rich_media_content p:not([data-exeditor-arbitrary-box=image-box]){letter-spacing:.5px;line-height:30px;margin-bottom:var(--news-bottom-distance);word-wrap:break-word}.data_color_scheme_dark .rich_media_content .qn-editor-copy p:not([data-exeditor-arbitrary-box=image-box]){letter-spacing:unset;line-height:unset;margin-bottom:unset;word-wrap:unset}.data_color_scheme_dark .rich_media_content{color:var(--news-font-night-color)}.data_color_scheme_dark .rich_media_content{font-size:18px}.rich_media_content p[data-exeditor-arbitrary-box=image-box]{margin-bottom:11px}.rich_media_content\u003ediv:not(.qnt-video),.rich_media_content\u003esection{margin-bottom:var(--news-bottom-distance)}.rich_media_content hr{margin-bottom:var(--news-bottom-distance)}.rich_media_content .link_list{margin:0;margin-top:20px;min-height:0!important}.rich_media_content blockquote{background:#f9f9f9;border-left:6px solid #ccc;margin:1.5em 10px;padding:.5em 10px}.rich_media_content blockquote p{margin-bottom:0!important}.data_color_scheme_dark .rich_media_content blockquote{background:#323232}@media(prefers-color-scheme:dark){body:not([data-weui-theme=light]):not([dark-mode-disable=true]) .rich_media_content blockquote{background:#323232}}.rich_media_content ol[data-ex-list]{--ol-start: 1;--ol-list-style-type: decimal;list-style-type:none;counter-reset:olCounter calc(var(--ol-start,1) - 1);position:relative}.rich_media_content ol[data-ex-list]\u003eli\u003e:first-child::before{content:counter(olCounter,var(--ol-list-style-type)) '. ';counter-increment:olCounter;font-variant-numeric:tabular-nums;display:inline-block}.rich_media_content ul[data-ex-list]{--ul-list-style-type: circle;list-style-type:none;position:relative}.rich_media_content ul[data-ex-list].nonUnicode-list-style-type\u003eli\u003e:first-child::before{content:var(--ul-list-style-type) ' ';font-variant-numeric:tabular-nums;display:inline-block;transform:scale(0.5)}.rich_media_content ul[data-ex-list].unicode-list-style-type\u003eli\u003e:first-child::before{content:var(--ul-list-style-type) ' ';font-variant-numeric:tabular-nums;display:inline-block;transform:scale(0.8)}.rich_media_content ol:not([data-ex-list]){padding-left:revert}.rich_media_content ul:not([data-ex-list]){padding-left:revert}.rich_media_content table{display:table;border-collapse:collapse;margin-bottom:var(--news-bottom-distance)}.rich_media_content table th,.rich_media_content table td{word-wrap:break-word;border:1px solid #ddd;white-space:nowrap;padding:2px 5px}.rich_media_content table th{font-weight:700;background-color:#f0f0f0;text-align:left}.rich_media_content table p{margin-bottom:0!important}.data_color_scheme_dark .rich_media_content table th{background:var(--news-tabel-th-night-color)}@media(prefers-color-scheme:dark){body:not([data-weui-theme=light]):not([dark-mode-disable=true]) .rich_media_content table th{background:var(--news-tabel-th-night-color)}}.rich_media_content .qqnews_image_desc,.rich_media_content p[type=om-image-desc]{line-height:20px!important;text-align:center!important;font-size:14px!important;color:#666!important}.rich_media_content div[data-exeditor-arbitrary-box=wrap]:not([data-exeditor-arbitrary-box-special-style]){max-width:100%}.rich_media_content .qqnews-content{--wmfont: 0;--wmcolor: transparent;font-size:var(--wmfont);color:var(--wmcolor);line-height:var(--wmfont)!important;margin-bottom:var(--wmfont)!important}.rich_media_content .qqnews_sign_emphasis{background:#f7f7f7}.rich_media_content .qqnews_sign_emphasis ol{word-wrap:break-word;border:none;color:#5c5c5c;line-height:28px;list-style:none;margin:14px 0 6px;padding:16px 15px 4px}.rich_media_content .qqnews_sign_emphasis p{margin-bottom:12px!important}.rich_media_content .qqnews_sign_emphasis ol\u003eli\u003ep{padding-left:30px}.rich_media_content .qqnews_sign_emphasis ol\u003eli{list-style:none}.rich_media_content .qqnews_sign_emphasis ol\u003eli\u003ep:first-child::before{margin-left:-30px;content:counter(olCounter,decimal) ''!important;counter-increment:olCounter!important;font-variant-numeric:tabular-nums!important;background:#37f;border-radius:2px;color:#fff;font-size:15px;font-style:normal;text-align:center;line-height:18px;width:18px;height:18px;margin-right:12px;position:relative;top:-1px}.data_color_scheme_dark .rich_media_content .qqnews_sign_emphasis{background:#262626}.data_color_scheme_dark .rich_media_content .qqnews_sign_emphasis ol\u003eli\u003ep{color:#a9a9a9}@media(prefers-color-scheme:dark){body:not([data-weui-theme=light]):not([dark-mode-disable=true]) .rich_media_content .qqnews_sign_emphasis{background:#262626}body:not([data-weui-theme=light]):not([dark-mode-disable=true]) .rich_media_content .qqnews_sign_emphasis ol\u003eli\u003ep{color:#a9a9a9}}.rich_media_content h1,.rich_media_content h2,.rich_media_content h3,.rich_media_content h4,.rich_media_content h5,.rich_media_content h6{margin-bottom:var(--news-bottom-distance);font-weight:700}.rich_media_content h1{font-size:20px}.rich_media_content h2,.rich_media_content h3{font-size:19px}.rich_media_content h4,.rich_media_content h5,.rich_media_content h6{font-size:18px}.rich_media_content li:empty{display:none}.rich_media_content ul,.rich_media_content ol{margin-bottom:var(--news-bottom-distance)}.rich_media_content div\u003ep:only-child{margin-bottom:0!important}.rich_media_content .cms-cke-widget-title-wrap p{margin-bottom:0!important}\u003c/style\u003e\u003c/div\u003e
责任编辑:鞠躬尽瘁网

媒体矩阵


  • 客户端

  • 微信号

  • 微博号

  • 抖音号

客户端

亿万职工的网上家园

马上体验

关于我们|版权声明| 违法和不良信息举报电话:010-84151598 | 网络敲诈和有偿删帖举报电话:010-84151598
Copyright © 2008-2024 by {当前域名}. all rights reserved

扫码关注

鞠躬尽瘁网微信


鞠躬尽瘁网微博


鞠躬尽瘁网抖音


工人日报
客户端
×
分享到微信朋友圈×
打开微信,点击底部的“发现”,
使用“扫一扫”即可将网页分享至朋友圈。