AMD 於11月24日宣布,與 IBM 和 AI 新創公司 Zyphra 合作,經過一年多的協作,成功訓練出全球首個完全基於 AMD 硬體訓練的大規模混合專家 (MoE) 基礎模型 ZAYA1。

根據 AMD 官方部落格文章,ZAYA1 是首個完全在 AMD 生態系統內建造的大型 MoE 模型。整個訓練過程在 IBM 雲端平台上進行,並由以下技術提供支援:
* AMD Instinct MI300X 加速器
* Pensando 網路技術
* 開源 ROCm 軟體平台
詳細的技術報告已發佈在 arXiv 上。

為了訓練 ZAYA1,三家公司共同建構了一個龐大且高度可靠的專用訓練集群,該集群包含:
* 128 個節點
* 每個節點配備 8 個 AMD Instinct MI300X GPU
* 共 1,024 個 MI300X GPU
* 透過 AMD Infinity Fabric 高速鏈路互連
該集群的實際訓練性能超過 750 PFLOPs(每秒 750 千萬億次浮點運算)。 Zyphra 還專門針對 AMD 平台開發了一個高度優化的訓練框架,以確保整個過程的穩定性和效率。
ZAYA1 使用一個包含高達 14 兆個 token 的龐大資料集進行預訓練,採用分階段的課程學習方法,逐步從非結構化的網頁文字過渡到與數學、程式設計和推理相關的高品質、資訊密集型資料。
基準測試結果表明,ZAYA1 的整體表現與業界領先的 Qwen3 系列模型不相上下,並超越了 SmolLM3 和 Phi4 等主流開源模型。值得注意的是,即使沒有針對特定任務進行指令調優,ZAYA1 的推理版本在複雜的數學和 STEM 推理任務上,其性能也已接近 Qwen3 的專用變體。
ZAYA1 的優異表現源自於兩項關鍵的架構創新:
1. CCA(壓縮卷積注意力機制):一種將卷積整合到注意力模組中的新型注意力機制,顯著降低了計算和記憶體需求。
2. 改進了 MoE 線性路由器的路由結構,增強了模型的表達能力和專家專業化能力。
這些突破有效地解決了傳統 Transformer 架構固有的運算和記憶體瓶頸問題。
Zyphra 強調,ZAYA1 只是一個開始。今天發布的版本只是一個基礎模型預覽版。團隊計劃在未來推出完全經過訓練後(根據指導進行調整和調整)的版本,以及全面的績效評估和詳細的訓練見解。