欢迎光临GGAMen




全球首個完全由 AMD 硬體訓練的 AI 超級模型 ZAYA1 正式發布

2025-11-25 GGAMen游戏资讯 1

AMD 於11月24日宣布,與 IBM 和 AI 新創公司 Zyphra 合作,經過一年多的協作,成功訓練出全球首個完全基於 AMD 硬體訓練的大規模混合專家 (MoE) 基礎模型 ZAYA1。

image

根據 AMD 官方部落格文章,ZAYA1 是首個完全在 AMD 生態系統內建造的大型 MoE 模型。整個訓練過程在 IBM 雲端平台上進行,並由以下技術提供支援:


* AMD Instinct MI300X 加速器


* Pensando 網路技術


* 開源 ROCm 軟體平台


詳細的技術報告已發佈在 arXiv 上。

image

為了訓練 ZAYA1,三家公司共同建構了一個龐大且高度可靠的專用訓練集群,該集群包含:


* 128 個節點


* 每個節點配備 8 個 AMD Instinct MI300X GPU


* 共 1,024 個 MI300X GPU


* 透過 AMD Infinity Fabric 高速鏈路互連


該集群的實際訓練性能超過 750 PFLOPs(每秒 750 千萬億次浮點運算)。 Zyphra 還專門針對 AMD 平台開發了一個高度優化的訓練框架,以確保整個過程的穩定性和效率。


ZAYA1 使用一個包含高達 14 兆個 token 的龐大資料集進行預訓練,採用分階段的課程學習方法,逐步從非結構化的網頁文字過渡到與數學、程式設計和推理相關的高品質、資訊密集型資料。


基準測試結果表明,ZAYA1 的整體表現與業界領先的 Qwen3 系列模型不相上下,並超越了 SmolLM3 和 Phi4 等主流開源模型。值得注意的是,即使沒有針對特定任務進行指令調優,ZAYA1 的推理版本在複雜的數學和 STEM 推理任務上,其性能也已接近 Qwen3 的專用變體。


ZAYA1 的優異表現源自於兩項關鍵的架構創新:


1. CCA(壓縮卷積注意力機制):一種將卷積整合到注意力模組中的新型注意力機制,顯著降低了計算和記憶體需求。


2. 改進了 MoE 線性路由器的路由結構,增強了模型的表達能力和專家專業化能力。


這些突破有效地解決了傳統 Transformer 架構固有的運算和記憶體瓶頸問題。


Zyphra 強調,ZAYA1 只是一個開始。今天發布的版本只是一個基礎模型預覽版。團隊計劃在未來推出完全經過訓練後(根據指導進行調整和調整)的版本,以及全面的績效評估和詳細的訓練見解。


2025-11-25 18:04:32

标签:   游戏头条 资讯头条 ggamen科技资讯 ggamen科技 ggamen科技资讯头条 科技资讯头条 ggamen游戏财经 新闻网 科技新闻网 科技新闻 ggamen ggamen游戏新闻网 科技新闻 科技新闻网 新闻网 ggamen游戏财经 ggamen科技资讯头条 ggamen科技 ggamen科技资讯 资讯头条 ggamen ggamen游戏新闻网 科技新闻网 新闻网 ggamen游戏财经 科技资讯头条 ggamen科技 ggamen科技资讯 资讯头条 游戏头条
0