91九色露脸,国产吹潮视频在线观看,国产人成午夜免视频网站

有卡不等于有算力？模型參數(shù)擴張帶動對AI infra訴求多芯異構成趨勢|行業(yè)動態(tài)

原創(chuàng)

2024-09-10 09:31 星期二

財聯(lián)社記者付靜

①模型參數(shù)擴張帶動對AI infra訴求，AI算力規(guī)模上升，性能卻未必快速線性增長；
②具備硬件資源，配套軟件能力仍缺乏，疊加沒有實際終端客戶或應用場景等，造成智算中心閑置；
③多芯異構是智算的一大趨勢，需要通過“多芯兼容”滿足更多國產化訴求，同時緩解卡的供給風險。

財聯(lián)社9月10日訊（記者付靜）“我們如何高效地構建一個智算中心，是不是有卡就足夠了？答案是完全不夠的?！苯?，財聯(lián)社記者在騰訊（00700.HK）全球數(shù)字生態(tài)大會上聽到了這一對話。

財聯(lián)社記者觀察到，AI算力需求巨幅增長，云計算廠商、通信運營商、芯片廠商乃至眾多跨界玩家均瞄準了智算的蛋糕，不過，算力規(guī)模上升，性能卻未必快速線性增長，同時一些新的技術和功能挑戰(zhàn)出現(xiàn)。當下，“大集群不等于大算力”的觀點正引發(fā)業(yè)內諸多討論。

騰訊云副總裁沙開波在接受財聯(lián)社記者采訪時談到了AI智算領域的新趨勢：大模型參數(shù)規(guī)模持續(xù)增加，需要有更多、更大的算力集群滿足訓練訴求，對整個AI infra性能的要求更高；AI的場景越來越廣泛，會出現(xiàn)更多對AI infra或云基礎設施的訴求。

由此，騰訊云正式發(fā)布AI infra品牌“騰訊云智算”。財聯(lián)社記者了解到，隨著集群規(guī)模增長，大模型廠商基于GPU集群做訓練，要做到單卡吞吐不下降、算力閑置不降低等，軟件層面可以做一定優(yōu)化。

“很多行業(yè)本身對數(shù)據(jù)安全合規(guī)有很強的訴求，包括用于訓練推理的數(shù)據(jù)可能只有在本地數(shù)據(jù)中心里才能使用，這個就要求我們很多的能力，很多產品要能夠在它的環(huán)境里面私有化部署。”沙開波同時告訴財聯(lián)社記者。

不過沙開波亦明確表示，算力能發(fā)揮出多少，上限取決于硬件或芯片本身的性能，不是通過軟件可以避免的，軟件可以優(yōu)化的方向是幫助發(fā)揮硬件的更多性能。

他分析，即便具備硬件資源，配套軟件能力仍缺乏，疊加沒有實際的終端客戶或應用場景等原因，就造成了業(yè)內目前出現(xiàn)的智算需求持續(xù)增長，智算中心卻閑置的現(xiàn)象。

此前財聯(lián)社記者從業(yè)內人士方面獲悉，只有用戶愿意來使用算力，才有人愿意來運營，智算中心投資建設方才能收回成本，形成可持續(xù)發(fā)展的閉環(huán)。

與此同時記者注意到，多芯異構是另一大趨勢。

據(jù)悉，騰訊云智算集結了國內外前沿芯片，今年騰訊全球數(shù)字生態(tài)大會上，英特爾、英偉達、AMD在內的大廠紛紛以合作伙伴身份亮相，騰訊云智算還宣布和國產算力企業(yè)燧原科技在內的多方共建產業(yè)高效能云智算中心。沙開波告訴財聯(lián)社記者，需要通過“多芯兼容”滿足更多的國產化訴求，同時緩解卡的供給風險。

會議期間，財聯(lián)社記者通過英特爾技術人士獲悉，公司正與騰訊云在AI領域深入合作。“騰訊云現(xiàn)在的計算實例的一些主力產品如S5、S6、C6、S8、M8都是用至強處理器。”據(jù)了解，當前大部分廠商訓練、推理所使用的是第四代、第五代英特爾至強，今年6月第六代至強能效核發(fā)布，下半年將發(fā)布的第六代性能核可用于6B、7B、13B的模型推理。

同時，騰訊云方面表示，“各大芯片廠商不斷地加大在GPU上的投入和布局，越來越多的智算中心里，不同型號、不同廠商的卡放在一起異構組網(wǎng)的情況越來越普遍，需要網(wǎng)絡的解決方案解決好異構組網(wǎng)場景，更好地發(fā)揮出算力的效率?！彬v訊云將推出搭載至強6處理器的新一代云實例，基于星星海自研服務器及網(wǎng)絡架構的升級，在社交媒體、游戲、數(shù)據(jù)庫、短視頻等應用場景進行性能提升。

據(jù)悉，騰訊云智算整合了騰訊云高性能計算HCC、高性能網(wǎng)絡IHN星脈、高性能云存儲、加速框架、容器、向量數(shù)據(jù)庫、智算套件等騰訊云產品。穩(wěn)定性和性能方面，騰訊云集群千卡單日故障數(shù)刷新到0.16，1分鐘完成萬卡checkpoint寫入，千卡集群的通信時間縮短到6%。

財聯(lián)社記者了解到，目前騰訊云智算已服務了月之暗面、智譜AI在內的90%以上國內頭部大模型企業(yè)。例如，基于騰訊云高性能計算集群HCC、高性能網(wǎng)絡IHN星脈及安全解決方案，智譜AI模型訓練集群效提升3.23倍，內容審核準確率提升17%，5分鐘GPU服務器故障可自動恢復。

此外，記者從元象科技方面了解到，其最新版本MoE模型用數(shù)百億級別預算量達到了數(shù)千億級別的模型效果?！拔覀児性粕嫌袀€大模型客戶，用了騰訊云智算的大模型訓練集群解決方案之后，一年的千卡成本可以下降2000萬這樣的量級。”沙開波還告訴記者。

閱73.71W

我要評論

反饋意見