跳转至

2025-10-29 · AWS Project Rainier 投运(50 万颗 Trainium2)

一、事件背景

2025-10-29,AWS 正式启用「雷尼尔计划」(Project Rainier)——业内首个以 AI 模型训练/部署为核心架构而非云通用计算改造而来的超大规模 AI 基础设施集群。首批部署近 50 万颗 Trainium2,定位为 AWS 与 Anthropic 战略合作的训练主战场。AWS 同时披露年内目标扩至 100 万颗 Trainium2 规模,单体集群级资本开支约 $110 亿美元,物理选址主体在印第安纳州新建 AIDC 园区。

本事件的产业级意义在于: 1. AWS 自研 ASIC 大规模量产首次跨过"百万芯片"门槛——从内部尝试型负载转为对外标杆性算力供给; 2. Anthropic Claude 训练规模史无前例——截至 2026-04,Anthropic 累计已使用 100 万+ 颗 Trainium2 训练 Claude 系列模型,成为 ASIC 训练的"灯塔客户"; 3. 以太网+EFA Scale-out 架构对光模块的拉动效应集中显现——大规模 ASIC 集群验证了 800G/1.6T 光模块需求"随芯片规模线性放大"的产业规律。 [外资研报][内资研报][AWS 官方]

二、关键数字与基础设施细节

维度 数值 备注
投运时间 2025-10-29 AWS 官方启用日
首批部署 约 50 万颗 Trainium2 多源一致口径
年内目标 100 万颗 Trainium2 26 年中扩产节奏
单体集群投资 约 $110 亿美元 含数据中心+服务器+互联
已上线电力 1.1 GW Rainier 主体已通电容量
远期电力规划 4.6 GW Rainier 全期目标
印第安纳新增 2.4 GW AIDC 与 Rainier 协同布局
2026 IT 电力测算 780 MW / 80 万芯片 第三方口径,与上电容量有差异
Anthropic 累计用量 100 万+ Trainium2 (26-04) Claude 训练主载体
AWS 过去 12 个月新增电力 3.8 GW 全集团口径
Bedrock 推理渗透 >50% 推理 token 已由 Trainium 承载 AWS 官方披露

口径差异说明:芯片规模"50 万→100 万"为主流口径;亦有外资研报提及"上线即超 100 万颗",考虑披露时点差异,以多源一致的 50 万→100 万 为更稳健叙事。 [外资研报][内资研报]

三、Trainium 产品代际矩阵

代际 时间 工艺 浮点性能 HBM Scale-up Scale-out 经济性/规模
Trainium 1 2021 N7 FP16/BF16 191 TFLOPS 32GB / 0.8TB/s NeuronLink v2 EFAv2 学习型首代,规模化有限
Trainium 2 2024-12 → 2025-10 大规模放量 N5 BF16 667 TFLOPS / FP8 1299 TFLOPS 96GB / 2.9TB/s NeuronLink v3 EFAv3 (200–800Gb/s/芯片) 较主流 GPU 性价比+30%–40%;产能全额订满;季度收入环比+150%;年化"数十亿美元"业务
Trainium 3 2025-12 发布 / 2026 量产 N3P FP8 2.52 PFLOPS / FP4 2.517 PFLOPS(包级) 144GB / 4.9TB/s NeuronLink v4 (PCIe Gen6) EFAv4 (400Gb/s/芯片) Ultra Server: 144 颗/362 PFLOPS、706TB/s 带宽;训练/推理成本至多-50%;能效+40%;2026 年中产能接近售罄
Trainium 4 (路线图) 2027 交付目标 N2 FP4 性能目标 6× 288GB / 19.6TB/s 级 支持 NVLink Fusion 跨生态互联意图明显

[内资研报][外资研报]

四、产业级影响

4.1 AWS 自研 ASIC 大规模量产里程碑

  • 从"试点"跨越到"主战场":Trainium2 全额订满,季度收入环比+150%、年化"数十亿美元",标志着自研 ASIC 商业化拐点已过;
  • "投入即变现"模式跑通:Rainier 上线节奏与 Trainium2 售罄节奏共振——AWS 不再是"自给自足",而是借自研芯片改写 AI 算力供给曲线;
  • AWS Re:Invent 2025 同台亮相 Trainium3+Nova 2:在自研芯片+模型双线发力,重塑 IaaS+MaaS 的整合优势。

4.2 ASIC 集群对光模块需求的结构性影响(每 ASIC 配比上升)

  • Scale-up(机柜内)以铜缆为主:单台 Trn2-Ultra 服务器约 48 个连接器、约 1,536 根铜缆,对光器件拉动有限;
  • Scale-out(跨机柜/跨集群)依赖 EFA 以太网架构——这正是光模块需求的核心来源:
  • Trn2 单芯片 Scale-out 上限 200–800Gb/s;Trn3 提升至 400Gb/s;
  • 50 万颗芯片的 Scale-out 边缘带宽规模约 100–400 Tb/s(单向);
  • 等价 800G 端口数可达数十万级,叠加 Clos/Fat-Tree 多级复用,光模块需求与芯片规模呈线性相关
  • 对比参考:单机柜 DGX H100 互联带宽 4.8 Tbps,需 500+ 高速光模块;
  • CPO 切入 Scale-up 节奏:行业判断 800G→1.6T 在 2026 年加速量产,CPO 预计 2027 年前后切入 Scale-up,进一步带动有源耦合/先进封装设备需求增量。 [内资研报]

4.3 Anthropic Claude 训练规模 / Token 处理拉动

  • Anthropic 是 Rainier 的核心训练用户:截至 26-04 累计使用 100 万+ Trainium2 训练 Claude 系列;
  • Bedrock 推理侧 >50% token 已由 Trainium 承载——意味着每一次 Claude API 调用,都正在为光模块产业链贡献增量需求;
  • 训练 → 推理的算力闭环:Trainium2 训练完成 + Trainium 推理上量,AWS 在"训练-推理"两端均跑出自研 ASIC 的商业模型;
  • 能效经济学共振:AWS 披露 Trainium3 每 MW token 产出为 Trn2 的 5 倍——能效优化与光/电互联一体化形成"代币经济"飞轮。

4.4 与 Nvidia GPU 集群的关键对比

维度 Nvidia GPU (H100/B200/GB200) AWS Trainium 系列
顶级训练性能 仍领先(前沿大模型训练首选) 适合稳定/规模化负载
软件生态 CUDA 成熟壁垒最高 Neuron SDK 仍在追赶
Scale-up 互联 NVLink 900–1800 GB/s/通道(铜+硅光) NeuronLink v3/v4 + 铜缆
Scale-out 互联 InfiniBand / Ethernet EFAv3/v4 以太网(200–400 Gb/s/芯片)
性价比 基准 较 GPU 优势 30%–40%(Trn2);至多-50%(Trn3 宣称)
能效 基准 Trn3 较 Trn2 +40%(AWS 口径)
客户分布 几乎全行业 Anthropic 等少数头部+Bedrock 推理
主战场 前沿大模型预训练 大规模稳定训练 + 推理

结论性判断:2026 年加速明朗的格局是「GPU 主导前沿训练 + 自研 ASIC 扩大推理与高性价比训练」的双轨——而非简单替代。AWS 在客户侧平衡提供 Nvidia 与自研 Trainium,当成本优先时引导 Trainium 方案。 [外资研报][内资研报]

4.5 Trainium 4 路线图的产业含义(2027 视角)

  • 2027 交付目标:N2 工艺、HBM4 288GB、19.6 TB/s 带宽、FP4 性能 6×;
  • 跨生态信号:Trainium 4 路线图中明确"支持 NVLink Fusion"——与 Nvidia 互联生态出现意外的兼容意图,对 Scale-up 互联市场格局有深远影响;
  • CPO 切入窗口对齐:2027 年前后 CPO 在 Scale-up 落地的时点,与 Trn4 量产节奏吻合,封装测试设备/有源耦合工艺设备厂商估值切换窗口大概率出现在 2026 下半年至 2027 上半年。

五、对 A 股的传导

公司 业务定位 影响方向 关键观察点
中际旭创 800G/1.6T 光模块 直接受益 AWS 是其核心客户之一;EFA Scale-out 升级将拉动 800G→1.6T 切换节奏;TeraHop 平台承接海外订单
新易盛 800G/1.6T 光模块 直接受益 同样深度绑定北美云厂商资本开支;产能爬升节奏
光迅科技 光模块/无源器件 间接受益 海外份额相对较小,但受益于行业整体 800G/1.6T 高景气
华工科技 光器件/光模块 间接受益 通信子板块受益于云资本开支提升
源杰科技 DFB/EML 激光器芯片 上游受益 800G/1.6T 光模块用 EML 激光器需求放大;行业整体阶段性偏紧是主要风险/机遇变量
长光华芯 高功率激光器芯片 上游受益 高速率光芯片景气延续,2026 年关注国产 EML 良率突破
天孚通信 光器件/封装 直接受益 光器件 BOM 价值量在 1.6T/CPO 阶段进一步提升;CPO 落地节奏是关键观察点
罗博特科 光模块测试/封装设备 设备端受益 800G/1.6T 量产+CPO 引入新设备需求;2027 年 CPO 切入 Scale-up 是设备商弹性放大窗口

传导链条:AWS Rainier 投运 → EFA Scale-out 拉动 800G/1.6T → 光模块出货放量 → 中际旭创/新易盛订单 → 上游激光器芯片(源杰/长光华芯)+光器件(天孚)+封装设备(罗博特科)共振受益。

六、关键跟踪指标

  1. Trainium2 → Trainium3 切换节奏:2026 年中 Trainium3 产能售罄信号、Anthropic 是否切换至 Trn3;
  2. Rainier 电力上线进度:1.1 GW → 4.6 GW 的扩容节奏,对应芯片+光模块需求曲线;
  3. 800G → 1.6T 光模块切换比例:AWS 在 Trn3/EFAv4 阶段是否大规模导入 1.6T;
  4. CPO 商业化拐点:2027 年 CPO 在 Scale-up 落地节奏,封装/测试设备公司估值切换窗口;
  5. 激光器/光芯片供给:EML 等高端激光器供给紧张度——可能成为光模块出货的瓶颈变量;
  6. Anthropic 模型迭代节奏:Claude 后续大模型(如 Mythos 后续)训练对 Rainier 算力的占用比例,以及是否引入其他超大客户;
  7. Bedrock 推理 Trainium 渗透率:从 >50% 向更高水平演进,对推理侧光互联(特别是 OCS)需求的二阶拉动;
  8. GPU/ASIC 双轨格局:AWS 自研 ASIC vs Nvidia GB200/B200 的客户分配比例变化。

七、风险与口径校准

  • 数据口径差异:芯片规模、电力容量在不同披露时点存在差异,分析时需以同口径对比,避免在叠加多源数据时出现重复计算;
  • GPU 仍主导前沿训练:CUDA 生态与 NVLink 纵向带宽仍是 ASIC 短期内难以超越的护城河,"双轨"而非"替代"是更准确的格局判断;
  • 客户集中度风险:Trainium 直接外部超大客户仍以 Anthropic 等少数为主,AWS 需借 Trainium3 量产打开更多大客户;
  • 施工/配电/冷却风险:百万级芯片集群对液冷、配电、布线、施工进度均有高要求,存在工程延期不确定性;
  • 激光器/光芯片偏紧:2026 年高速率光芯片供给可能成为 800G/1.6T 出货节奏的瓶颈,影响 A 股传导的时间分布。 [内资研报][外资研报]

八、来源

  • [AWS 官方] AWS Re:Invent 2025 大会公开披露材料(2025-12)
  • [Anthropic 官方] Claude 训练基础设施声明(2025-Q4 至 2026-Q1 公开材料)
  • [CNBC] / [Datacenter Knowledge] Indiana 数据中心 $11B 投资及上线节奏报道
  • [外资研报] AI Research On the Ground in Indiana – Project Rainier and the Impact on AWS, Anthropic and Trainium Chip Adoption (2026-01-07)
  • [内资研报] 通信行业事件点评:AWS Re:Invent 2025 大会——强化 AI 全栈能力 (2025-12-03)
  • [内资研报] 通信行业专题:超节点架构兴起,Scale-up 开启网络互联第二增长曲线 (2025-11-14)
  • [内资研报] 电子行业:Trainium 4 与 Nova 2 同台亮相,AWS 在自研领域加速追赶 (2025-12-08)
  • [内资研报] 通信行业月报:北美云厂商资本开支强劲,CPO 商业化应用拐点临近 (2026-02-13)
  • [内资研报] 计算机行业海外重点公司 CY25Q3 季报总结 (2025-11-23)
  • [内资研报] 通信行业海外 AI 财报点评:亚马逊 AWS 收入增速亮眼,资本开支超预期 (2025-10-31)
  • [内资研报] 光模块设备行业深度:AI 发展带动光模块需求爆发 (2026-03-16)