6 月25日,由中國通信標準化協會TC628 標準推進委員會主辦,WG3 智算運維工作組和黑龍江移動承辦的萬卡集群智能運維首期沙龍在中國移動哈爾濱智算中心成功舉辦。此次沙龍嘉賓來自于信通院、黑龍江省通信管理局、寧波銀行、螞蟻集團、華為、科大訊飛、南瑞瑞騰、中科海光等20余家單位,涵蓋通信、金融、能源、制造、互聯網等行業。
本次沙龍以“萬卡賦智,重塑運維”為題,以“主題演講+圓桌會議”為載體,邀請專家分別從先進經驗分享、行業痛點聚焦、產學研深度融合三方面,分享智能計算基礎設施運維邁向智能化的探索與實踐經驗,共同探討智算運維的發展趨勢與挑戰。
萬卡集群先進經驗共享,協同構建高效運維體系
黑龍江移動從深入解讀集團公司“五個一” 卓越智算運維體系,推出 "12821" 智算運維方法論,介紹集省專協同流程轉變、機房現場標準化管理、主動運維能力提升和跨層跨域的定界處置方法論等工作探索,為超大規模智算集群運維提供了可復制的 “樣板間” 先進經驗。

螞蟻集團分享了萬卡集群模型訓練異常分類、支撐手段等先進經驗,主要針對模型訓練、節點異常、調度異常等多場景的時間、空間診斷思路實踐總結。
信通院介紹近幾年IT運維領域的標準研究工作及成果,解讀了《智算運維能力成熟度模型》系列標準,并指出未來將加快構建智算運維領域的標準生態,全力為行業的智算運維能力建設提供支持,助力產業行穩至遠。
產學研深度融合 激活智算新質生產力
首期沙龍,通過 “理論研討 + 實地參觀”相結合的形式圓滿舉辦,為政產學研各界搭建了深度交流平臺,也為行業間業務發展提供合作交流機會。與會嘉賓圍繞 “從訓練到推理:智算運維服務的新變化與挑戰”“從基座到生態:智算運維如何加速 AI 應用生態發展” 等議題展開圓桌討論,達成多項共識。

本次沙龍的成功舉辦,標志著我國智算運維領域邁入標準化、協同化發展新階段,中國移動(哈爾濱)智算中心在智算運維領域的卓越能力和經驗分享的突出貢獻得到社會各界認可。隨著各方合作的深入,智算集群的高效運維將為人工智能大模型訓練/推理、行業智能化轉型提供更堅實的算力支撐,助力我國在全球智算競爭中占據領先地位。