一级A片线上/亚洲无人区电影完整版小视频/妻孝(改编版+续)/欧美涩涩

   中國金融網 加入收藏    設為首頁
首頁
國內資訊社會財經科技教育時尚娛樂房產家居汽車母嬰健康商業區塊鏈生活企業傳媒區域經濟旅游體育
您現在的位置:首頁 > 商業 > 正文
谷歌最強AI超算碾壓英偉達A100,TPUv4性能提升10倍,細節首次公
2023-04-07 08:17      來源:IT之家      編輯:宋元明清      閱讀量:18713   

微軟為 ChatGPT 打造專用超算,砸下幾億美元,用了上萬張 A100。現在,谷歌首次公布了自家 AI 超算的細節 —— 性能相較上代 v3 提升 10 倍,比 A100 強 1.7 倍。此外,據說能和 H100 對打的芯片已經在研發了。

雖然谷歌早在 2020 年,就在自家的數據中心上部署了當時最強的 AI 芯片 ——TPU v4。

但直到今年的 4 月 4 日,谷歌才首次公布了這臺 AI 超算的技術細節。

相比于 TPU v3,TPU v4 的性能要高出 2.1 倍,而在整合 4096 個芯片之后,超算的性能更是提升了 10 倍。

另外,谷歌還聲稱,自家芯片要比英偉達 A100 更快、更節能。

與 A100 對打,速度快 1.7 倍

論文中,谷歌表示,對于規模相當的系統,TPU v4 可以提供比英偉達 A100 強 1.7 倍的性能,同時在能效上也能提高 1.9 倍。

另外,谷歌超算速度還要比 Graphcore IPU Bow 快約 4.3 倍至 4.5 倍。

谷歌展示了 TPU v4 的封裝,以及 4 個安裝在電路板上的封裝。

與 TPU v3 一樣,每個 TPU v4 包含兩個 TensorCore。每個 TC 包含四個 128x128 矩陣乘法單元(MXU),一個具有 128 個通道(每個通道 16 個 ALU),以及 16 MiB 向量存儲器(VMEM)的向量處理單元(VPU)。

兩個 TC 共享一個 128 MiB 的公共存儲器。

值得注意的是,A100 芯片與谷歌第四代 TPU 同時上市,那么其具體性能對比如何?

谷歌分別展示了在 5 個 MLPerf 基準測試中每個 DSA 的最快性能。其中包括 BERT、ResNET、DLRM、RetinaNet、MaskRCNN。

其中,Graphcore IPU 在 BERT 和 ResNET 提交了結果。

如下展示了兩個系統在 ResNet 和 BERT 的結果,點之間的虛線是基于芯片數量的插值。

TPU v4 和 A100 的 MLPerf 結果都擴展到比 IPU 更大的系統。

對于相似規模的系統,TPU v4 在 BERT 上比 A100 快 1.15 倍,比 IPU 快大約 4.3 倍。對于 ResNet,TPU v4 分別快 1.67 倍和大約 4.5 倍。

對于在 MLPerf 基準測試上的功耗使用情況,A100 平均上使用了 1.3 倍至 1.9 倍的功率。

峰值每秒浮點運算次數是否能預測實際性能?許多機器學習領域的人認為峰值每秒浮點運算次數是一個很好的性能代理指標,但實際上并非如此。

例如,盡管在峰值每秒浮點運算次數上僅具有 1.10 倍的優勢,TPU v4 在兩個 MLPerf 基準測試上比 IPU Bow 在相同規模的系統上快 4.3 倍至 4.5 倍。

另一個例子是,A100 的峰值每秒浮點運算次數是 TPU v4 的 1.13 倍,但對于相同數量的芯片,TPU v4 卻快 1.15 倍至 1.67 倍。

如下如圖使用 Roofline 模型展示了峰值 FLOPS / 秒與內存帶寬之間的關系。

那么,問題來了,谷歌為什么不和英偉達最新的 H100 比較?

谷歌表示,由于 H100 是在谷歌芯片推出后使用更新技術制造的,所以沒有將其第四代產品與英偉達當前的旗艦 H100 芯片進行比較。

不過谷歌暗示,它正在研發一款與 Nvidia H100 競爭的新 TPU,但沒有提供詳細信息。谷歌研究員 Jouppi 在接受路透社采訪時表示,谷歌擁有「未來芯片的生產線」。

TPU vs GPU

在 ChatGPT 和 Bard「決一死戰」的同時,兩個龐然大物也在幕后努力運行,以保持它們的運行 —— 英偉達 CUDA 支持的 GPU和谷歌定制的 TPU(張量處理單元)。

換句話說,這已經不再是關于 ChatGPT 與 Bard 的對抗,而是 TPU 與 GPU 之間的對決,以及它們如何有效地進行矩陣乘法。

由于在硬件架構方面的出色設計,英偉達的 GPU 非常適合矩陣乘法任務 —— 能有效地在多個 CUDA 核心之間實現并行處理。

因此從 2012 年開始,在 GPU 上訓練模型便成為了深度學習領域的共識,至今都未曾改變。

而隨著 NVIDIA DGX 的推出,英偉達能夠為幾乎所有的 AI 任務提供一站式硬件和軟件解決方案,這是競爭對手由于缺乏知識產權而無法提供的。

相比之下,谷歌則在 2016 年推出了第一代張量處理單元,其中不僅包含了專門為張量計算優化的定制 ASIC(專用集成電路),并且還針對自家的 TensorFlow 框架進行了優化。而這也讓 TPU 在矩陣乘法之外的其他 AI 計算任務中具有優勢,甚至還可以加速微調和推理任務。

此外,谷歌 DeepMind 的研究人員還找到了一種能夠創造出更好矩陣乘法算法的方法 ——AlphaTensor。

然而,即便谷歌通過自研的技術和新興的 AI 計算優化方法取得了良好的成果,但微軟與英偉達長久以來的深度合作,則通過利用各自在行業上的積累,同時擴大了雙方的競爭優勢。

第四代 TPU

時間回到 21 年的谷歌 I / O 大會上,劈柴首次公布了谷歌最新一代 AI 芯片 TPU v4。

「這是我們在谷歌上部署的最快的系統,對我們來說是一個具有歷史意義的里程碑。」

這次的改進已經成為構建 AI 超算的公司之間競爭的關鍵點,因為像谷歌的 Bard、或 OpenAI 的 ChatGPT 類似的大型語言模型已經在參數規模上實現爆炸式增長。

這意味著它們遠遠大于單個芯片所能存儲的容量,對算力需求是一個巨大的「黑洞」。

因此這些大模型必須分布在數千個芯片上,然后這些芯片必須協同工作數周,甚至更長時間來訓練模型。

目前,谷歌迄今為止公開披露的最大的語言模型 PaLM,有 5400 億參數,便是在 50 天內將其分割到兩臺 4000 芯片的超級計算機上進行訓練的。

谷歌表示,自家的超級計算機能夠輕松地重新配置芯片之間的連接,能夠避免問題,并進行性能調優。

谷歌研究員 Norm Jouppi 和谷歌杰出工程師 David Patterson 在關于該系統的博客文章中寫道,

「電路交換使得繞過失效組件變得容易。這種靈活性甚至允許我們改變超算互連的拓撲結構,以加速機器學習模型的性能。」

盡管谷歌現在才發布有關其超級計算機的詳細信息,但自 2020 年以來,該超級計算機已在位于俄克拉荷馬州梅斯縣的數據中心內上線。

谷歌表示,Midjourney 使用該系統訓練了其模型,最新版的 V5 讓所有人見識到圖像生成的驚艷。

最近,劈柴在接受紐約時報采訪稱,Bard 將從 LaMDA 轉到 PaLM 上。

現在有了 TPU v4 超算的加持,Bard 只會變得更強。

參考資料:

鄭重聲明:此文內容為本網站轉載企業宣傳資訊,目的在于傳播更多信息,與本站立場無關。僅供讀者參考,并請自行核實相關內容。

 
上一篇: 華為首款雙向衛星通信折疊屏手機MateX3開售:僅重239g、IPX8防
下一篇:最后一頁
 
     欄目排行
  1. 華為首款雙向衛星通信折疊屏手機MateX
  2. 3月末我國外匯儲備規模增至31839億美
  3. 主要農產品碳排放強度呈下降趨勢
  4. EA重塑《FIFA》品牌,宣布游戲《EA
  5. 國泰君安:石油減產對美國通脹回落路徑影響
  6. 朱曉彤擔任特斯拉汽車業務高級副總裁
  7. 美克家居:重體驗、強服務、全屋整裝業務強
  8. 廣汽集團3月汽車產量260442輛,新能
  9. 這就是信心|兩個“V”看宏觀經濟持續顯效
  10. Win1021H2將于6月13日停止支持
     欄目推薦
二手房“帶押過戶”啟動滿月 成功嘗鮮者寥寥無幾二手房“帶押過戶”啟動滿月 成功嘗鮮者寥寥無幾
2022年營收78.61億,湯臣倍健迎來VDS行業新2022年營收78.61億,湯臣倍健迎來VDS行業新周期
大興國際氫能示范區兼顧產業發展和配套服務打造員工理想大興國際氫能示范區兼顧產業發展和配套服務打造員工理想生活藍本
迪麗熱巴穿軍綠色也好美!和吳磊同框絲毫沒有年齡迪麗熱巴穿軍綠色也好美!和吳磊同框絲毫沒有年齡
綠色塞罕壩 不朽的奇跡綠色塞罕壩 不朽的奇跡