全球首個完全由 AMD 硬體訓練的 AI 超級模型 ZAYA1 正式發布

2025-11-25 GGAMen游戏资讯 1

AMD 於11月24日宣布，與 IBM 和 AI 新創公司 Zyphra 合作，經過一年多的協作，成功訓練出全球首個完全基於 AMD 硬體訓練的大規模混合專家 (MoE) 基礎模型 ZAYA1。

根據 AMD 官方部落格文章，ZAYA1 是首個完全在 AMD 生態系統內建造的大型 MoE 模型。整個訓練過程在 IBM 雲端平台上進行，並由以下技術提供支援：

* AMD Instinct MI300X 加速器

* Pensando 網路技術

* 開源 ROCm 軟體平台

詳細的技術報告已發佈在 arXiv 上。

為了訓練 ZAYA1，三家公司共同建構了一個龐大且高度可靠的專用訓練集群，該集群包含：

* 128 個節點

* 每個節點配備 8 個 AMD Instinct MI300X GPU

* 共 1,024 個 MI300X GPU

* 透過 AMD Infinity Fabric 高速鏈路互連

該集群的實際訓練性能超過 750 PFLOPs（每秒 750 千萬億次浮點運算）。 Zyphra 還專門針對 AMD 平台開發了一個高度優化的訓練框架，以確保整個過程的穩定性和效率。

ZAYA1 使用一個包含高達 14 兆個 token 的龐大資料集進行預訓練，採用分階段的課程學習方法，逐步從非結構化的網頁文字過渡到與數學、程式設計和推理相關的高品質、資訊密集型資料。

基準測試結果表明，ZAYA1 的整體表現與業界領先的 Qwen3 系列模型不相上下，並超越了 SmolLM3 和 Phi4 等主流開源模型。值得注意的是，即使沒有針對特定任務進行指令調優，ZAYA1 的推理版本在複雜的數學和 STEM 推理任務上，其性能也已接近 Qwen3 的專用變體。

ZAYA1 的優異表現源自於兩項關鍵的架構創新：

1. CCA（壓縮卷積注意力機制）：一種將卷積整合到注意力模組中的新型注意力機制，顯著降低了計算和記憶體需求。

2. 改進了 MoE 線性路由器的路由結構，增強了模型的表達能力和專家專業化能力。

這些突破有效地解決了傳統 Transformer 架構固有的運算和記憶體瓶頸問題。

Zyphra 強調，ZAYA1 只是一個開始。今天發布的版本只是一個基礎模型預覽版。團隊計劃在未來推出完全經過訓練後（根據指導進行調整和調整）的版本，以及全面的績效評估和詳細的訓練見解。

2025-11-25 18:04:32