<em id="5xgjh"></em>
    <nav id="5xgjh"><code id="5xgjh"></code></nav>
  1. <sub id="5xgjh"><address id="5xgjh"></address></sub>
    <form id="5xgjh"></form>
    <sub id="5xgjh"><address id="5xgjh"></address></sub>
      <sub id="5xgjh"></sub>
    1. <nav id="5xgjh"></nav>

        首頁 > 商業資訊 > 正文
        分享到:

        騰訊發布超強算力集群 國內首發搭載英偉達H100

        時間:2023-04-14 23:19:28 來源: 評論:0 點擊:0
          4 月 14 日消息:國內大模型訓練面臨的算力困局有望得到紓緩。面向大模型訓練,4月14日,騰訊云正式發布新一代HCC(High-Performance Computing Cluster)高性能計算集群。

          該集群采用騰訊云星星海自研服務器,國內首發搭載英偉達最新代次H800 GPU,服務器之間采用業界最高的3.2T超高互聯帶寬,為大模型訓練、自動駕駛、科學計算等提供高性能、高帶寬和低延遲的集群算力。

          ▍開啟云上大模型訓練模式

          當下,大模型訓練如火如荼,且參數量級已進入萬億時代,單體服務器算力有限,隨著算力需求的增長,因此需要將大量服務器通過高性能網絡相連,打造大規模算力集群。

          集群的算力要求,意味著用于采購硬件的資金投入是指數級增長,這給不少企業帶來了巨大的現金流壓力。自己采購GPU,面臨著成本和供應鏈問題,且峰谷問題較為明顯。

          例如,本地的物理CPU/GPU資源配比是固定綁定在一起的,擴展性比較差。有時CPU跑滿、GPU空閑(或相反)。造成效率低下和資源浪費。在云上,這些資源可以池化隨取隨用,按需按量取用。

          面對業務架構多樣、用量無法準確預估、模型及環境部署難度大等問題,騰訊認為,云上算力能幫助企業完成隨機突發的算力需求。

          ▍先進芯片≠先進算力

          目前大熱的人工智能大模型,其訓練需要海量數據和強大的算力來支撐訓練和推理過程,其中數據主要由服務器和光模塊存儲、運輸,算力支撐則依賴各類芯片。

          算力需求陡增,業界普遍認為,高性能芯片的短缺是限制國內大模型行業發展的重要因素。

          但在騰訊看來,用上了先進芯片并不代表就擁有了先進算力,原因在于高性能計算存在“木桶效應”,一旦計算、存儲、網絡任一環節出現瓶頸,就會導致運算速度嚴重下降。

          以算力對網絡的要求為例:目前,GPU并行是大模型訓練的必備技術,不同于傳統并行以加快計算速度為目的,大模型的并行計算往往還要考慮怎樣將龐大的參數有機地分布到多張GPU卡中,并保持不同GPU卡之間有效的通信,整體配合完成大模型的訓練部署。

          即使是目前業界已有的GPU分布式訓練方案,也嚴重受制于服務器之間的通信、拓撲、模型并行、流水并行等底層問題。如果只有分布式訓練框架,甚至都無法正常啟動訓練過程。這也是為什么當時GPT-3已經發布一年,卻只有少數企業可以復現GPT-3.

          換句話而言,先進算力的背后,是先進芯片、先進網絡、先進存儲等一系列的支撐,缺一不可。

          ▍首發搭載英偉達H800

          騰訊新一代HCC集群搭載了英偉達最新代的H800芯片,這是H800在國內首發。不過,騰訊暫未透露采購了多少H800.

          H800是英偉達新代次處理器,基于Hopper架構,對跑深度推薦系統、大型AI語言模型、基因組學、復雜數字孿生等任務的效率提升顯著。

          英偉達芯片參數對比

          網絡層面,騰訊自研的星脈網絡,為新一代集群帶來了3.2T的超高通信帶寬。實測結果顯示,搭載同樣的GPU卡,3.2T星脈網絡相較前代網絡,能讓集群整體算力提升20%,使得超大算力集群仍然能保持優秀的通信開銷比和吞吐性能。并提供單集群高達十萬卡級別的組網規模,支持更大規模的大模型訓練及推理。

          存儲層面,騰訊云自研的文件存儲、對象存儲架構,具備TB級吞吐能力和千萬級IOPS,充分滿足大模型訓練的大數據量存儲要求。

          在自研芯片方面,騰訊已經量產了用于AI推理加速的紫霄芯片,并已在語音轉寫、OCR等業務場景使用,用于視頻轉碼的滄海芯片,已經在云游戲、直點播等場景中規模落地。

        美女精品一区二区