
撰文 | 李里里
編輯 | 李信馬
題圖 | IC Photo
“算力”相關產業近期持續火爆,智算中心的建設,也正在遍地開花。
據《全球計算力指數評估報告》顯示,全球算力排名美國和中國分列前兩位,同處于領跑者的位置,而在代表先進產業的 AI 算力上,中國以 AI 服務器指出規模同比增長 44.% 的增幅超過美國,位列全球第一。
據中國信息通信研究院測算,截至2021年底,中國算力核心產業規模超過1.5萬億元,關聯產業規模超過8萬億元。其中,云計算市場規模超過3000億元,互聯網數據中心(服務器)市場規模超過1500億元,AI 核心產業規模超過4000億元。
智算中心,簡單來說就是專門服務于人工智能的數據計算中心,能夠為人工智能計算提供所需的專用算力。隨著智能推薦、自動駕駛、智能制造等領域發展迅速,超大規模人工智能(AI)模型對算力的需求不斷提高,智算中心的建設也紛紛被提上日程。
7月30日,在中國首屆算力大會上,工業和信息化部副部長張云明表示:“算力已經成為繼熱力、電力之后新的關鍵生產力。”據不完全統計,從2021年1月1日到2022年2月15日,全國共有至少26個城市在推動或剛剛完成當地智算中心的建設,其中投入使用的有8個,包括南京、合肥等地的智算中心。除了這些投入使用的,全國至少還有18個城市簽約、開工、招標、計劃建設智算中心項目,包括深圳、長沙的項目都已經開工建設。
8月30日,阿里云宣布正式啟動張北超級智算中心,其建設規模為12 EFLOPS(每秒1200億億次浮點運算)AI算力,可以為AI大模型訓練、自動駕駛、空間地理等人工智能探索應用提供強大的智能算力服務。智算中心用來滿足AI計算需求,張北超級智算中心投入使用后,其算力規模超過了谷歌的9 EFLOPS和特斯拉的1.8 EFLOPS,成為全球最大的智算中心。
阿里云同步宣布了將啟動另一座位于烏蘭察布的智算中心,建設規模為3 EFLOPS(每秒300億億次浮點運算)AI算力。2020年,中國工程院院士、浪潮集團執行總裁王恩東就曾提出,智算中心正在成為經濟社會運行的重要基礎設施,而如今,這一預測已然成為現實。
為什么要發展智算中心?
在8月30日的發布會上,阿里云智能全球銷售總裁蔡英華談到了近年來的兩個觀察:第一,是數字化轉型帶來了大量的數據,有機構預測2025年中國的數據量將達到48.6ZB,這驅動著我國算力基礎設施升級;第二,除了算力供給的總量在提升,算力供給的結構也在發生變化,十三五期間,我國算力總規模增長近5倍,其中通用算力增長接近3倍,但智能算力的增長接近百倍,智能算力在融合算力中的占比達到了40%,未來可能會更多。
據中國信通院數據統計,2016年至2021年,我國數字經濟規模從22.6萬億元增至45.5萬億元,增長1.01倍,總量穩居世界第二,占GDP的比重39.8%。2021年全年,我國數據產量達到6.6ZB(1ZB約等于1萬億GB),占全球數據總產量(67ZB)的9.9%,僅次于美國而位列全球第二;且近三年來,數據產量保持每年30%左右的增速。
根據IDC、清華大學和浪潮信息聯合發布的《2021-2022全球計算力指數評估報告》,國家的算力指數每提高1個百分點,數字經濟和GDP將分別增長3.3‰和1.8‰。國家工業信息安全發展研究中心此前發布的《新一代人工智能算力基礎設施發展研究報告》認為,現階段人工智能已經成為世界各國競爭角逐的焦點。智算中心作為人工智能產業發展的重要底層基礎設施形態,每單位功耗所能產生的計算的能力、智能的能力,遠遠高于傳統的算力中心,也因此被推向發展新高地。
目前我國的智算中心基本采用了高標準建設,算力高的像張北超級智算中心,少的也有100P,比如哈爾濱和鄭州的智算中心(1P相當于每秒運算能力為一千萬億次,100P大約相當于5萬臺高性能電腦的算力)。
“我們看到AI,或者說以數據為核心的AI場景智能化應用的使用趨勢在增加。”阿里云智能副總裁、行業解決方案銷售部總經理霍嘉表示,智算中心的價值,本質上來自于人工智能豐富的應用場景。智能計算和通用計算的區別,在于通用計算主要面向傳統的計算處理任務,或者離線大數據的計算,而智能計算可以滿足許多領域對人工智能、機器學習、深度學習的新需求,比如科研、 自動駕駛、生物制藥、智能制造、數字孿生、空間治理等一系列的場景,“可能很多時候大家沒有意識到在使用智能化的服務,其實打開高德導航的時候,背后全部是數據智能化應用,比如隨時提醒你改變一條道路。”
相比傳統數據中心,智算中心能滿足更具針對性的需求,以及更大的計算體量和更快的計算速度。從硬件上來看,傳統數據中心多采用通用計算的CPU,而智算中心中更多的是GPU等進行人工智能訓練的芯片;軟件上,智算中心會部署不同的人工智能框架,用于分配計算任務提高效率,并且提供了人工智能應用開發工具。
比如張北超級智算中心由飛天智算平臺支撐建設,據阿里云表示,其算力效率的核心指標“千卡并行計算效率”由傳統架構的40%提升至90%,算力資源利用率提高到3倍以上,AI訓練效率提升了11倍,推理效率提升了6倍。蔡英華表示,智算不僅在于規模大,沒有體系化的核心技術能力,堆硬件是堆不出算力的,更無法帶來實際的產業價值。
在阿里巴巴內部,飛天智算平臺支撐了達摩院前沿AI和電商智能技術的發展,并服務了小鵬汽車、深勢科技、上汽集團、中國氣象局、南方電網等機構和企業。其中,達摩院大模型M6僅使用512張GPU,在10天內就完成了10萬億參數模型訓練,阿里巴巴拍立淘訓練速度提升了200倍,10億張圖片全量訓練時間從2.5個月縮短到8小時;小鵬汽車在烏蘭察布建設智算中心“扶搖”,算力規模達600PFLOPS,是國內最大的自動駕駛智算中心,將自動駕駛模型訓練提速近170倍;深勢科技將集群性能優化提升超過100%,讓分子動力學仿真模擬訓練效率提升了5倍。
今年8月初,浪潮信息總裁彭震曾表示:“根據全球服務器出貨量估算,從2020年到2025年全球算力規模將提高30倍,用于深度學習的人工智能算力規模每隔三四個月就翻一番。數字化、智慧化時代對于算力的需求幾乎是無窮盡的。”
這也意味著,智算中心的紛紛落地還在前期階段,未來仍有增長空間。
要高效,也要綠色
不過,智算中心的建設并沒有那么容易。
智能計算不同于通用型計算,需要海量數據對AI模式進行訓練,算力被損耗在數據遷移、同步等環節,千卡以上規模的算力輸出最低往往僅有40%左右。傳統智算中心達到一定規模之后,增加算力資源反而會降低算力輸出的能力。這導致了智能算力成本高昂,制約了產業發展。
在張北和烏蘭察布的兩座超級智算中心,阿里云通過體系化的核心技術自研,改變了智能計算的損耗難題。據了解,基于阿里云磐久基礎設施的融合算力和大數據AI一體化平臺整體解決方案,可以實現“一云多芯”,以最高10倍IO優化和5倍通信性能優化,實現90%的千卡并行計算效率。其中在通信技術上,阿里云自研了Solar-RDMA網絡,實現端對端最低2微秒延遲,并配合了自研的無阻塞通信技術。此外在AI開發層,大數據+AI一體化平臺在模型訓練環節,提供分布式訓練框架,可以將訓練效率提升了11倍以上。一站式的通用推理優化工具可將推理效率提升6倍以上。
計算效率之外,另一個重要的問題是能耗,由于在數字化的過程中,算力會使用巨量的電力,如何在雙碳背景下降低能耗,近期被反復提及。在9月13日的《零碳制造論壇》上,國家信息中心信息化和產業發展部主任單志廣表示:“其實,數字技術本身并不是完全綠色化的,現在ICT的碳排放占比為2.3%左右,雖然碳排放總量不高,但增速非???,據相關機構數據表明,其速度超過60%,到2040年總量會達到14%,超過現在排第三的建筑業。此外,2021年我國數據中心的整個用電量也達到了2160多億度,比2020年增加了44%,整個數據中心占了整個數字產業30%多的碳排放。所以降碳的需求也是非常大的。”
據工信部發布的《新型數據中心發展三年行動計劃(2021-2023年)》等政策,算力設施的建設方針和能耗管理逐漸趨于嚴格,如2023年新建大型及以上數據中心電能利用率(PUE)將被要求降到1.3以下。
阿里云大計算產品研發負責人曹政也對此表示:“在建設智數中心時,首先從IDC角度,你要有非常綠色的能耗,能降低成本,保證綠色發展。”據了解,通過自然風冷、液冷等綠色技術的應用,阿里云讓智算中心的能耗持續降低,PUE最低可達1.09。
“我們在液冷領域應該已經有了六七年的研發,現在液冷我們與其他家不太一樣的是,可以根據不同類型的服務器架構做自適應,現在我們單芯片功耗越來越高了,AI的加速芯片密度和熱量達到一定程度沒法擴展,這種情況下,不上液冷是不可能持續的,這是很現實的技術的要求。” 曹政表示。
智算中心在張北和烏蘭察布的落地,也與兩地得天獨厚的氣候與地質離不開關系。不過,阿里云智能副總裁、行業解決方案銷售部總經理霍嘉透露:“我們今天的數據中心建設,不是只在北方,在上海也已經啟動了華東智算中心的建設,隨著產業的發展,會有更多的智算中心,不單在中國,可能是在全球的很多地方都會有。其實現在也有一些客戶在跟我們溝通一些海外,幫他們做智算中心的一些事情。
當前發展數字經濟是國家戰略,政策支持力度不斷加大,“東數西算”全面鋪開,云計算、數據中心等基建投資不斷加碼。據IDC預測,2025年中國AI算力市場規模將達到701.8億元,占整體服務器市場近三成。彭震曾表示,智算中心的建設會圍繞開放標準、集約高效、普適普惠三個原則,未來發展主要有三個趨勢:更加開放多元的架構與標準體系;通過算力、算法的基建化和一體化,讓服務更加的高效;建立智算生態,讓智算中心更好用。
工信部副部長張云明也表示,下一步工信部將要加速推進高端芯片、核心算法等算力關鍵核心技術的研發突破,攻克關鍵技術,支持企業、科研機構開展聯合攻關,增強算力產業鏈、供應鏈自主可控能力,并在綠色低碳發展等方面發力