當前位置: 首頁 > 能源互聯網 > 產經信息

算力與能源正在成為世界的硬通貨,看超級計算機安騰如何突圍

IT專家網發(fā)布時間:2024-06-17 11:03:37

  特斯拉創(chuàng)始人馬斯克公開表態(tài)稱未來兩年人工智能行業(yè)將由“缺硅”變?yōu)?ldquo;缺電”。據媒體報道,OpenAI的ChatGPT每天消耗超過50萬千瓦時的電力,用于處理約2億個用戶請求,相當于美國家庭每天用電量的1.7萬多倍。除了這類生成式AI耗能外,還有同樣涉及到海量數據、特別是涉及到大規(guī)模并行計算的業(yè)務也正在成為“電能吞金獸”。全球前十名的超級計算機每小時耗電量高達2萬度,堪比一座小型城鎮(zhèn)的能源消耗??梢?,隨著技術革新步伐加快,全球算力競爭將對能源消耗提出更為嚴峻的考驗,算力與能源將成為未來世界的核心硬通貨。

  以超級計算機為例,其作為解決復雜問題和大規(guī)模計算任務的利器,其能耗問題日益凸顯,成為制約其長遠發(fā)展的關鍵瓶頸。一味追求極致算力而忽視能源效率,不僅削弱了超算的實際價值,也使其發(fā)展陷入困境。正如美國加州大學計算機工程博士劉少山所指出,超級計算機是一個精密復雜的系統工程,任何短板都可能導致算力受限。

  目前,各國在競逐超算領導地位的同時,也在積極尋求在節(jié)能前提下提升性能的技術路徑。

  美國能源部于2013年和2018年先后啟動“百億億次超級計算機”項目,明確要求E級機的功耗上限為20兆瓦,強調需要在不增加能源消耗的基礎上提升性能,這表明如果單純依賴擴大系統規(guī)模提升性能,那么E級機的技術選擇將面臨嚴格約束。2022年,麻省理工學院林肯實驗室超級計算中心(LLSC)的研究人員進一步指出,超算系統的電源效率有巨大提升空間,如通過簡單硬件調整如限制單個GPU功率,即可將AI模型訓練的能源成本降低20%,僅帶來適度的計算時間增長。

  面對如何構建“既快又省”的超級計算機這一課題,大名鼎鼎的專用超級計算機安騰提供了一種新的解題思路。

  安騰系列超級計算機由D. E. Shaw研究所研發(fā),在能耗控制方面表現極為出色。

  以第二代安騰超級計算機(Anton2)為例,其在一個單個機架內提供約2 TFLOPS(每秒萬億次浮點運算)的計算能力,能耗僅為25千瓦,與一輛中型電動汽車的充電功率相當,這一表現在當時同類設備中居于高位。

  為什么超算安騰可以做到算得快還省電呢?

  原因在于,有別于全面采用CPU、GPU等通用芯片架構的傳統超算,安騰采用的是以ASIC專用芯片為主的專用超算的架構。專用超算在應用場景上受到嚴格的限制,只能處理某個特定領域的算法,例如安騰就是一臺完全聚焦在生物計算領域最常用的分子動力學模擬計算的專用計算機,并且開發(fā)成本極其昂貴,但是以此為代價,換來的是在該特定領域的極強的加速性能和極低的能耗。

  為降低全面計算資源損耗,超算安騰的軟硬件采取了全面定制設計,核心組件為大量專用芯片(ASIC),并通過獨特的高速三維環(huán)形網絡實現互連。據稱,在硬件上,整個超算安騰的ASIC芯片由288個核心瓦片和24個邊緣瓦片構成,整體提供了5.6 Tbps的片外帶寬。由于較大的Serdes物理PHYs在芯片的兩個邊緣都與這些瓦片相連,瓦片直接相鄰,從而減少了未使用的芯片面積,簡化了物理設計。

  同時,超算安騰的芯片保留了低電阻率的頂部金屬層(TM0、TM1等)用于電源分配,從而確保其電源分配網絡是完全連續(xù)的。為了改善瞬時電流尖峰,安騰將去耦電容、而不是備用單元裝入所有可用空間,以良率來換取電源管理。并且,該芯片使用全局時鐘網,以最小的偏移實現高時鐘速度,這樣的網狀結構節(jié)省了功耗,網絡只占芯片TDP(熱設計功耗)的5%。

  此外,超算安騰的芯片可以分區(qū)域、分精度計算不同任務,突破了制約分子模擬速度的瓶頸,這樣可以在處理小任務時分配較少的節(jié)點用于運算,從而避免多節(jié)點時的能源浪費問題。

  在通信層面,超算安騰各個節(jié)點之間通訊采用特殊設計的高速三維環(huán)形網絡相互連接,形成了超高速低延遲網絡。超算安騰共具有 512 個計算節(jié)點,它們在空間上的排布使得相當于將被模擬的系統分為 8 × 8 × 8 的盒子,每個盒子只負責 1/512 的原子,每個節(jié)點和盒子一一對應,并且只需要和鄰近的 6 個節(jié)點通信。這些庫中通信基于類 MPI 的「共享內存式并行」,把需要共享的數據放到公共空間各自讀取;而這里每個節(jié)點之間都有點對點的專用信道,不存在訪問資源的沖突問題。對于分子動力學而言,主要的通信內容是處在盒子邊界的原子的位置,只有進行準確的通信,我們才能夠準確計算這些原子與其他原子之間的作用力。由于低時延(約 50 ns)、高帶寬的一對一信道的建設,大大減少了計算節(jié)點間通信需要的時間。這樣,超算安騰可在512個節(jié)點并行處理下,能夠對達100萬個原子的大體系,每天進行10-100微秒量級的分子動力學模擬。相較于其他每天只能模擬幾納秒到幾十納秒不等的通用架構超算系統,512節(jié)點的超算安騰完成分子模擬的速度幾乎快了100-10000倍。

  2020年3月27日,D. E. Shaw研究所公布了新冠病毒3CL蛋白酶的長達100微秒的MD模擬動畫及數據,3CL蛋白酶被認為在病毒增殖和組裝中發(fā)揮了重要作用,并且是新冠藥物開發(fā)的熱門靶點之一。超算安騰完成的3CL蛋白酶MD模擬結果,為科學家和制藥學家透徹理解新冠病毒增殖與組裝的機理,從而開發(fā)針對性的3CL蛋白酶抑制劑提供了極其寶貴的研究基礎。隨后的兩年里,D. E. Shaw研究所更是陸續(xù)圍繞新冠病毒公布了超過1000微秒的MD模擬結果,對新冠病毒的病理研究和藥物研發(fā)起到了非常重大的作用。

  在計算效率和能耗方面,哪怕是現如今全世界最強的通用超算中心的算效,針對復雜程度達到百萬體系的蛋白質給出100微秒的模擬結果,幾乎需要花費數年時間才能算完,期間耗費的電量將達到兆瓦級別,換算成電費將達到數億元。作為對比,超算安騰則只需要十幾天就可以算完,并且至多也只需要幾萬元的電費,幾乎是前者的千萬分之一,這就是采用的專用超算架構、經過一系列軟硬件功能特化的超算安騰在自己擅長的分子動力學領域能夠實現的計算效率和能耗的絕對優(yōu)勢。

  我們可以看到,超算安騰憑借其對分子動力學模擬的專注,以及自主研發(fā)的軟硬件設計,實現了相較于通用計算機高達百倍的計算能效提升,并在此過程中顯著降低了能耗。這一成果無疑為國內企業(yè)在面對未來計算需求與能源挑戰(zhàn)時提供了深刻啟示:在特定的高價值應用場景大力發(fā)展專用超算路線,有望在大幅提高計算性能的同時有效降低能耗,實現綠色、可持續(xù)的科技創(chuàng)新。


評論

用戶名:   匿名發(fā)表  
密碼:  
驗證碼:
最新評論0