2025-09-08 20:29:11
算力“軍備競(jìng)賽”激戰(zhàn)正酣,特斯拉等巨頭出現(xiàn)堆砌GPU的趨勢(shì),國(guó)內(nèi)兩萬(wàn)/三萬(wàn)卡集群已現(xiàn),但3年內(nèi)單集群難以達(dá)到30萬(wàn)卡。業(yè)內(nèi)人士表示,萬(wàn)卡集群成本高、系統(tǒng)穩(wěn)定與網(wǎng)絡(luò)互聯(lián)挑戰(zhàn)大,算力利用率不高。業(yè)內(nèi)正探索在計(jì)算、網(wǎng)絡(luò)等方面優(yōu)化,探索超節(jié)點(diǎn)與低精度計(jì)算,并通過(guò)液冷與綠電直連降低能耗。業(yè)內(nèi)人士表示,單靠堆卡難解算力焦慮,需提高單芯片能力。
每經(jīng)記者|張蕊 每經(jīng)編輯|陳旭
算力的“軍備競(jìng)賽”正日趨白熱化。
特斯拉、微軟等巨頭正把GPU(圖形處理器)堆成山,其中馬斯克旗下的人工智能公司xAI據(jù)稱已經(jīng)搭建起20萬(wàn)卡集群。
不久前,OpenAI聯(lián)合創(chuàng)始人、首席執(zhí)行官奧特曼在推特上預(yù)告,公司到年底前將上線超過(guò)100萬(wàn)張GPU,更直言希望在這個(gè)數(shù)量規(guī)模上再擴(kuò)容100倍。隨后,馬斯克揚(yáng)言,5年內(nèi)xAI要部署到5000萬(wàn)張H100 GPU的等效算力。
對(duì)此,有業(yè)內(nèi)人士對(duì)《每日經(jīng)濟(jì)新聞》記者(以下簡(jiǎn)稱每經(jīng)記者)表示,目前國(guó)內(nèi)已出現(xiàn)兩萬(wàn)/三萬(wàn)卡的國(guó)產(chǎn)智算集群,未來(lái)幾年,模型訓(xùn)練對(duì)萬(wàn)卡到十萬(wàn)卡級(jí)別仍有需求,但當(dāng)前的大模型訓(xùn)練還不需要單個(gè)智算集群達(dá)到數(shù)十/百萬(wàn)卡規(guī)模。該業(yè)內(nèi)人士斷言“3年內(nèi)單集群不太可能到30萬(wàn)卡”。
一邊是美國(guó)企業(yè)號(hào)稱年底前要上線100萬(wàn)卡集群,一邊是國(guó)內(nèi)20萬(wàn)卡、30萬(wàn)卡集群尚無(wú)用武之地,這背后是何原因?“無(wú)限堆卡”這條路會(huì)否一直走下去?十萬(wàn)卡、百萬(wàn)卡乃至更大規(guī)模的算力集群是否真的需要?
圍繞這一系列焦點(diǎn)問(wèn)題,每經(jīng)記者深入采訪了多位頭部企業(yè)的老總和業(yè)內(nèi)專家,試圖理出一個(gè)清晰的脈絡(luò)。
所謂萬(wàn)卡集群,就是由超過(guò)1萬(wàn)張加速卡[如GPU、TPU(張量處理器)或?qū)S肁I芯片]組成的高性能計(jì)算系統(tǒng)。
2025中國(guó)算力大會(huì)上展出的加速卡 每經(jīng)記者 張蕊 攝
摩爾線程AI Infra總監(jiān)陳志對(duì)每經(jīng)記者表示,算力是實(shí)實(shí)在在的,萬(wàn)卡解決的是訓(xùn)練本身的問(wèn)題——訓(xùn)練大模型需要巨量的算力,單卡解決不了。
博大數(shù)據(jù)CEO張永健對(duì)每經(jīng)記者表示,Scaling Law(規(guī)模定律)的驅(qū)動(dòng)是追求萬(wàn)卡甚至十萬(wàn)卡集群最核心的技術(shù)原因。在AI領(lǐng)域,尤其是大語(yǔ)言模型,已經(jīng)反復(fù)驗(yàn)證了一個(gè)規(guī)律:模型的性能與模型參數(shù)量、訓(xùn)練數(shù)據(jù)量以及投?的計(jì)算量三個(gè)因素成正比。要訓(xùn)練出更強(qiáng)大、具備涌現(xiàn)能力的千億甚至萬(wàn)億參數(shù)模型,就必須投入海量的計(jì)算資源。
他舉例說(shuō),從GPT-3到GPT-4的性能飛躍,背后是計(jì)算量的指數(shù)級(jí)增長(zhǎng)。而萬(wàn)卡集群正是實(shí)現(xiàn)這種計(jì)算量級(jí)投入的物理載體。
多位受訪者坦言,大模型領(lǐng)域的競(jìng)爭(zhēng)如同“軍備競(jìng)賽”。誰(shuí)能更快地訓(xùn)練出更優(yōu)的模型,誰(shuí)就能搶占市場(chǎng)先機(jī),定義技術(shù)標(biāo)準(zhǔn),構(gòu)建生態(tài)壁壘。
張永健說(shuō),?個(gè)原本需要6個(gè)月的訓(xùn)練任務(wù),如果通過(guò)萬(wàn)卡集群能縮短到1個(gè)月甚至更短時(shí)間,這種迭代速度帶來(lái)的優(yōu)勢(shì)是顛覆性的。
中國(guó)電信研究院戰(zhàn)略發(fā)展研究所所長(zhǎng)饒少陽(yáng)對(duì)每經(jīng)記者表示,現(xiàn)在大模型更多從“預(yù)訓(xùn)練”轉(zhuǎn)向“后訓(xùn)練”,并大量采用強(qiáng)化學(xué)習(xí)、思維鏈等方式,帶動(dòng)算力需求倍速增長(zhǎng)。另外,除了模型訓(xùn)練外還有大量推理需求,比如我們平時(shí)用豆包、DeepSeek等,這同樣需要消耗大量算力。隨著模型推理需求爆發(fā)、智能體規(guī)模落地,未來(lái)推理將成為智算需求增長(zhǎng)的主力,訓(xùn)練算力也將同步增長(zhǎng)。
據(jù)張永健介紹,目前需要萬(wàn)卡集群服務(wù)的用戶主要集中在頭部互聯(lián)網(wǎng)與云計(jì)算公司、?融科技巨頭、自動(dòng)駕駛企業(yè)以及生物制藥與生命科學(xué)研究機(jī)構(gòu)等幾個(gè)領(lǐng)域。
他舉例說(shuō),類似生物制藥和生命科學(xué)領(lǐng)域進(jìn)行蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)、藥物分子篩選等研究,這些復(fù)雜的科學(xué)計(jì)算任務(wù)借助大算力能顯著加速研發(fā)進(jìn)程。
饒少陽(yáng)表示,目前國(guó)內(nèi)已出現(xiàn)兩萬(wàn)/三萬(wàn)卡的國(guó)產(chǎn)智算集群,國(guó)外的30萬(wàn)、50萬(wàn)甚至100萬(wàn)卡更多是宣傳口徑。萬(wàn)卡級(jí)以上規(guī)模智算集群主要用于大規(guī)模模型訓(xùn)練,而當(dāng)前的大模型訓(xùn)練還不需要單個(gè)智算集群達(dá)到數(shù)十/百萬(wàn)卡規(guī)模?!耙?yàn)楦緵](méi)有那么多數(shù)據(jù),模型參數(shù)也不太可能突然增長(zhǎng)。”他表示,但在未來(lái)幾年,大模型訓(xùn)練對(duì)萬(wàn)卡到十萬(wàn)卡級(jí)別仍有需求,3年以內(nèi)單集群不太可能到30萬(wàn)卡的規(guī)模。
陳志也認(rèn)為,萬(wàn)億參數(shù)級(jí)別的模型基本需要大幾千卡甚至萬(wàn)卡。國(guó)外頭部公司已做到10萬(wàn)卡、20萬(wàn)卡規(guī)模,國(guó)內(nèi)還沒(méi)到這個(gè)水平,但今年也可能出現(xiàn)10萬(wàn)卡集群,這是趨勢(shì)。因?yàn)槟P偷陌l(fā)布要搶時(shí)間,卡越多訓(xùn)練的時(shí)間就越短。
工作人員檢查在算力中心檢查設(shè)備 圖片來(lái)源:新華社
盡管基于不同的軟硬件水平,各家智算中心成本不同,但據(jù)業(yè)內(nèi)粗略計(jì)算,構(gòu)建和運(yùn)營(yíng)一個(gè)萬(wàn)卡級(jí)別的智算中心成本驚人——至少在20億元以上。
“其中硬件采購(gòu)成本占比最大,通常高達(dá)60%~80%,而GPU服務(wù)器本身占據(jù)了絕大部分?!睆堄澜≌f(shuō),以1萬(wàn)張主流訓(xùn)練GPU為例,僅硬件采購(gòu)成本就可能超過(guò)10億元。
如此大規(guī)模的投入,是否就能“絲滑”解決算力焦慮?對(duì)此,多位受訪者均表示,將集群規(guī)模從幾百幾千卡擴(kuò)展到萬(wàn)卡級(jí)別,絕非簡(jiǎn)單堆砌硬件。這是?個(gè)復(fù)雜的系統(tǒng)工程,會(huì)遇到?系列非線性挑戰(zhàn)。
張永健認(rèn)為,最大的技術(shù)難點(diǎn)是“系統(tǒng)級(jí)的穩(wěn)定性和性能一致性”。在萬(wàn)卡集群中,成千上萬(wàn)個(gè)組件[GPU、CPU(中央處理器)、網(wǎng)卡、內(nèi)存、線纜]中任何?個(gè)出現(xiàn)問(wèn)題,都可能引發(fā)連鎖反應(yīng)。確保整個(gè)系統(tǒng)作為?個(gè)“超級(jí)計(jì)算機(jī)”?效穩(wěn)定運(yùn)?,是最艱巨的挑戰(zhàn)。
用浪潮數(shù)據(jù)董事長(zhǎng)張東的話說(shuō),不管是萬(wàn)卡還是十萬(wàn)卡,關(guān)鍵是能不能真的把這些卡當(dāng)成一個(gè)系統(tǒng)跑起來(lái)。
而眼下關(guān)鍵的掣肘因素就是網(wǎng)絡(luò)互聯(lián)能力——從幾百?gòu)埧〝U(kuò)展到萬(wàn)卡,節(jié)點(diǎn)之間需要實(shí)現(xiàn)網(wǎng)狀、高速、低延遲互聯(lián),既包括卡之間的互聯(lián),也包括機(jī)器之間的互聯(lián)。
萬(wàn)卡間的互聯(lián)技術(shù)是一個(gè)很大的挑戰(zhàn)。張東向每經(jīng)記者解釋,目前英偉達(dá)專供中國(guó)的芯片主要就是限制了其互聯(lián)能力。就像人類工作時(shí)需多人協(xié)作,芯片工作時(shí)也需要進(jìn)行數(shù)據(jù)交互,一張芯片處理完的數(shù)據(jù)要傳遞給另一張芯片進(jìn)行處理?!氨緛?lái)咱倆面對(duì)面,我寫完一張紙就拿一張給你,現(xiàn)在一下變得隔了100米,還加了一個(gè)很慢的傳送帶,我寫完了放傳送帶上,隔兩分鐘你才能收到,這樣效率自然就下降了?!?/p>
張永健說(shuō),在萬(wàn)卡規(guī)模下,構(gòu)建一個(gè)無(wú)阻塞、高帶寬、低延遲的網(wǎng)絡(luò)架構(gòu),其設(shè)計(jì)、部署和運(yùn)維的復(fù)雜度呈指數(shù)級(jí)增長(zhǎng)。任何一個(gè)交換機(jī)、光模塊或線纜出現(xiàn)微小抖動(dòng),都可能導(dǎo)致大規(guī)模的通信風(fēng)暴,從而拖垮整個(gè)訓(xùn)練任務(wù)。
不僅如此,“到了一定規(guī)模以后,機(jī)器的故障率就會(huì)很高,1萬(wàn)卡的機(jī)器能連續(xù)跑1個(gè)小時(shí),1張卡都不出問(wèn)題,是很難的?!睆垨|說(shuō)。
有研究指出,一個(gè)十萬(wàn)卡集群,其故障間隔可能縮短到每半小時(shí)一次。英偉達(dá)創(chuàng)始人黃仁勛也曾提到,10萬(wàn)張GPU的平均?故障時(shí)間將縮短至分鐘級(jí)。
在張東看來(lái),一方面是芯片本身的能力有限,另一方面,隨著卡的數(shù)量不斷增加,軟件的線性比(即軟件能否完美利用更多硬件資源的比率,越接近1越好)會(huì)下降,這意味著到某個(gè)點(diǎn)以后若再增加卡,性能并不會(huì)上升,還有可能下降。
而?次動(dòng)輒耗時(shí)數(shù)周甚至數(shù)月的訓(xùn)練任務(wù),如果中途頻繁失敗且無(wú)法快速恢復(fù),那么再高的理論算力也毫無(wú)意義,用戶獲得的有效算力將大打折扣。
除了穩(wěn)定性,萬(wàn)卡集群還面臨存儲(chǔ)性能瓶頸、軟件棧復(fù)雜性等方面的挑戰(zhàn)。
饒少陽(yáng)坦言,受限于GPU內(nèi)存訪問(wèn)性能、網(wǎng)絡(luò)傳輸效率、算法優(yōu)化程度、故障恢復(fù)能力等因素,想把萬(wàn)卡集群的性能全部發(fā)揮到極致是一件極其復(fù)雜的事情。因此,目前萬(wàn)卡集群的算力利用率并不高,行業(yè)領(lǐng)先者的利用率可達(dá)50%以上。
張永健還提到,?個(gè)萬(wàn)卡集群的峰值功耗?達(dá)數(shù)?兆瓦(1兆瓦=1000千瓦,1小時(shí)1兆瓦即1000度電),這對(duì)數(shù)據(jù)中?的供配電和冷卻系統(tǒng)考驗(yàn)巨?。
多位受訪者表示,一個(gè)萬(wàn)卡集群的智算中心與傳統(tǒng)數(shù)據(jù)中心相比,能耗成倍增長(zhǎng),甚至達(dá)到十倍級(jí)。
近年來(lái)我國(guó)在用數(shù)據(jù)中心機(jī)架規(guī)模
截至2024年末,我國(guó)在用數(shù)據(jù)中心機(jī)架規(guī)模已達(dá)到900萬(wàn)架
盡管用萬(wàn)卡集群訓(xùn)練模型面臨不少挑戰(zhàn),但記者在采訪中了解到,目前業(yè)內(nèi)正積極探索在計(jì)算、網(wǎng)絡(luò)、存儲(chǔ)、能耗等方面進(jìn)行優(yōu)化。
8月23日,在2025中國(guó)算力大會(huì)現(xiàn)場(chǎng),來(lái)自運(yùn)營(yíng)商、互聯(lián)網(wǎng)企業(yè)、芯片廠商、服務(wù)器制造商及科研院所等領(lǐng)域的數(shù)十家國(guó)內(nèi)產(chǎn)學(xué)研用核心單位,共同宣布開啟智算開放互聯(lián)OISA(全向智感互聯(lián)架構(gòu))生態(tài)共建。
聯(lián)想中國(guó)區(qū)基礎(chǔ)設(shè)施業(yè)務(wù)群服務(wù)器事業(yè)部總經(jīng)理周韜對(duì)每經(jīng)記者表示,OISA其實(shí)就是卡間互聯(lián)的一套技術(shù)。
在大會(huì)算力成果展示區(qū)的中國(guó)移動(dòng)展位,記者看到了帶有OISA標(biāo)識(shí)的“國(guó)芯國(guó)連”超節(jié)點(diǎn)AI算力集群的機(jī)柜。山西移動(dòng)政企能力運(yùn)營(yíng)總監(jiān)呂樂(lè)向每經(jīng)記者介紹,以往一個(gè)機(jī)柜最多放三四臺(tái)服務(wù)器,而這個(gè)超節(jié)點(diǎn)機(jī)柜能放16臺(tái)服務(wù)器,每臺(tái)服務(wù)器里有兩顆CPU、四張國(guó)產(chǎn)GPU,一共64張GPU卡(AI國(guó)產(chǎn)芯片)。
展示中的超節(jié)點(diǎn)AI算力集群機(jī)柜 每經(jīng)記者 張蕊 攝
他進(jìn)一步介紹,以前兩張卡部署在不同的服務(wù)器里,大家認(rèn)為1+1=2,但上下相隔盡管只有幾厘米,轉(zhuǎn)發(fā)產(chǎn)生的時(shí)延往往也會(huì)使整個(gè)計(jì)算效率損失20%以上?!巴ㄟ^(guò)OISA協(xié)議把兩張GPU芯片級(jí)直連后,通信延遲降低產(chǎn)生的效果才大于2,實(shí)際計(jì)算效率是單卡的240%。”
問(wèn)及不同廠家的GPU是否可以混插,呂樂(lè)表示,過(guò)去不行,不過(guò)現(xiàn)在通過(guò)統(tǒng)一OISA協(xié)議,可以把不同廠家的接口、PCle(高速串行總線標(biāo)準(zhǔn))、CXL(高速互聯(lián)協(xié)議)底層協(xié)議全部打通,包括昆侖芯、摩爾線程等的芯片都可以集成到同一機(jī)柜里,實(shí)現(xiàn)高密度、異構(gòu)部署。
饒少陽(yáng)表示,所謂超節(jié)點(diǎn)就是通過(guò)高速互聯(lián)技術(shù),把幾十張甚至幾百?gòu)埧ㄟB接起來(lái)集成在一個(gè)大機(jī)柜里,比如華為昇騰384超節(jié)點(diǎn)就是把384張卡通過(guò)高速互聯(lián)“拼成”一臺(tái)超級(jí)服務(wù)器,整體性能可對(duì)標(biāo)甚至超越GB200NVL72系統(tǒng)(英偉達(dá)的多節(jié)點(diǎn)液冷機(jī)架級(jí)擴(kuò)展系統(tǒng))。
呂樂(lè)表示,超節(jié)點(diǎn)是萬(wàn)卡集群的基礎(chǔ)。如果在一個(gè)機(jī)柜里都沒(méi)法做到高效互聯(lián),就談不上把1萬(wàn)張卡連成一個(gè)整體。傳統(tǒng)分散部署時(shí),1萬(wàn)張卡加起來(lái)只能發(fā)揮60%~70%的算力,而現(xiàn)在通過(guò)超節(jié)點(diǎn)內(nèi)高效互聯(lián)+超節(jié)點(diǎn)間高速網(wǎng)絡(luò),計(jì)算綜合效率有望大幅提升。
除了超節(jié)點(diǎn)技術(shù),業(yè)內(nèi)正在通過(guò)低精度計(jì)算來(lái)優(yōu)化計(jì)算過(guò)程。其中,F(xiàn)P8(8位浮點(diǎn)數(shù))技術(shù)逐漸嶄露頭角。
陳志提到,最早訓(xùn)練是FP32(32位浮點(diǎn)數(shù)),慢慢轉(zhuǎn)向混合精度訓(xùn)練FP32+FP16(16位浮點(diǎn)數(shù)),再到FP8,數(shù)據(jù)位寬逐漸變小,因此可實(shí)現(xiàn)更高的計(jì)算效率和更低的內(nèi)存占用,進(jìn)而降低算力成本。
打個(gè)比方,F(xiàn)P32、FP16和FP8就分別類似于游標(biāo)卡尺、普通直尺和粗略的刻度尺,三者精度由高到低,內(nèi)存占用從大到小,計(jì)算速度從慢到快,在保證模型性能和效果的前提下,選擇盡可能低的精度,并結(jié)合軟硬協(xié)同、算法優(yōu)化等技術(shù)創(chuàng)新,可以換取速度、節(jié)能和成本上的巨大優(yōu)勢(shì)。
在陳志看來(lái),現(xiàn)在大模型對(duì)精度容忍度更高,F(xiàn)P8有很大機(jī)會(huì)。除了用低精度方法提升總算力,還要提升算力的整體利用率。利用率=單卡能力×萬(wàn)卡能力×節(jié)點(diǎn)能力×集群能力×集群穩(wěn)定性?!八羞@些都在一個(gè)工廠里進(jìn)行優(yōu)化,也就是我們提的AI工廠概念,整體優(yōu)化后,假如最后達(dá)到60%的利用率,而別人只有30%,那就相當(dāng)于多了一倍的卡,或者達(dá)到同樣的訓(xùn)練時(shí)間只用一半卡?!?/p>
張永健告訴記者,一個(gè)萬(wàn)卡集群的成本中,電力與運(yùn)維成本?約占20%。其中,電力成本(包括IT設(shè)備用電和冷卻系統(tǒng)用電)是持續(xù)性的巨大開銷。一個(gè)10萬(wàn)卡的集群,年耗電量可達(dá)1.59太瓦時(shí)(等于10億千瓦時(shí)即10億度電),電費(fèi)超過(guò)1億美元。在運(yùn)營(yíng)成本中,冷卻系統(tǒng)的能耗是數(shù)據(jù)中?最大的支出之一,有時(shí)能占到總運(yùn)營(yíng)成本的50%。
華為數(shù)據(jù)中心能源副總裁張帆告訴每經(jīng)記者,集群規(guī)模大了之后,功率密度變大,單個(gè)芯片散熱量很大,超過(guò)一定程度風(fēng)就帶不走熱量,就需要有液冷方式。
周韜告訴記者,目前液冷主要有兩種方式,冷板式液冷只能冷卻GPU或CPU,浸沒(méi)式液冷可以把整個(gè)機(jī)器所有部件都浸沒(méi),散熱效率比前者提高30%~40%。
國(guó)內(nèi)企業(yè)展示的相變浸沒(méi)式液冷技術(shù)設(shè)備 每經(jīng)記者 張蕊 攝
“目前冷板式液冷其實(shí)可以滿足散熱需求,成本也更低,在維護(hù)、生產(chǎn)工藝、后續(xù)運(yùn)維方面都更簡(jiǎn)單?!敝茼w說(shuō),但浸沒(méi)式效率更高,未來(lái)GPU功耗再提升時(shí),冷板可能也不夠,就像以前風(fēng)冷夠用,后來(lái)功耗增大就不行了。當(dāng)前,浸沒(méi)式是更具前瞻性的技術(shù)。
在聯(lián)想展位,記者看到一臺(tái)相變浸沒(méi)式液冷概念機(jī)。聯(lián)想中國(guó)基礎(chǔ)設(shè)施業(yè)務(wù)群市場(chǎng)部總監(jiān)級(jí)技術(shù)顧問(wèn)李鑫告訴記者,當(dāng)冷卻液達(dá)到60攝氏度時(shí)就會(huì)變?yōu)闅怏w將熱量帶走,系統(tǒng)PUE(電能利用效率)低至1.035。
博大數(shù)據(jù)是國(guó)內(nèi)最早大規(guī)模部署單相浸沒(méi)式液冷和冷板式液冷的廠商之一。張永健說(shuō),公司采用液冷的智算中?PUE可以控制在1.15以下,部分甚至可以達(dá)到1.04,遠(yuǎn)優(yōu)于傳統(tǒng)風(fēng)冷數(shù)據(jù)中?1.4~1.5的水平。
有觀點(diǎn)認(rèn)為,存算一體的芯片有望能從根本上緩解大規(guī)模集群的能耗和散熱問(wèn)題。張永健說(shuō),由于當(dāng)前數(shù)據(jù)需要在存儲(chǔ)單元和計(jì)算單元之間頻繁搬運(yùn),耗時(shí)耗能。存算?體通過(guò)在存儲(chǔ)器內(nèi)部完成計(jì)算,可極大減少數(shù)據(jù)搬運(yùn),理論上能帶來(lái)幾個(gè)數(shù)量級(jí)的能效提升。對(duì)于萬(wàn)卡集群這種數(shù)據(jù)搬運(yùn)極為密集的場(chǎng)景來(lái)說(shuō),吸引力巨大。
但多位受訪者都認(rèn)為,其商業(yè)化落地還十分遙遠(yuǎn)。張永健說(shuō),從技術(shù)成熟度來(lái)說(shuō),它對(duì)新型存儲(chǔ)介質(zhì)、電路設(shè)計(jì)、制造工藝都提出了極高要求,目前仍處于實(shí)驗(yàn)室和早期原型階段。與此同時(shí),現(xiàn)有軟件生態(tài)無(wú)法直接復(fù)用,應(yīng)用場(chǎng)景上存算?體能否高效處理通用的大模型訓(xùn)練任務(wù),仍是一個(gè)未知數(shù)。
在能源供應(yīng)方面,目前算力電力協(xié)同已經(jīng)成為多部門政策關(guān)注的焦點(diǎn)。目前業(yè)內(nèi)通過(guò)源-網(wǎng)-荷-儲(chǔ)多元互動(dòng)形成了綠電直連、源網(wǎng)荷儲(chǔ)一體化、算力負(fù)載轉(zhuǎn)移、儲(chǔ)能技術(shù)、綠電綠證交易、虛擬電廠、算力賦能電力六大協(xié)同模式,實(shí)現(xiàn)綠電就地消納。
中國(guó)信通院云大所數(shù)據(jù)中心部副主任王月認(rèn)為,算力中心綠電直連有望成為業(yè)內(nèi)近期發(fā)展的重點(diǎn)。
所謂綠電直連就是指光伏、風(fēng)電等綠色電源項(xiàng)目,通過(guò)專線直接輸送給特定用戶,不再?gòu)?qiáng)制要求全額上網(wǎng)或僅通過(guò)電網(wǎng)企業(yè)統(tǒng)購(gòu)統(tǒng)銷。
秦云基礎(chǔ)園區(qū)事業(yè)部總經(jīng)理許俊對(duì)每經(jīng)記者表示,其智算中心的單機(jī)柜功耗可以做到42千瓦,使用全風(fēng)冷(風(fēng)冷的散熱極限是單機(jī)柜60千瓦)散熱。由于采用了綠電直連,PUE這一指標(biāo)可以說(shuō)已經(jīng)失效了,比如利用氟泵空調(diào)做一些余熱回收給辦公室供暖,“PUE可以為負(fù)”。
綜上,萬(wàn)卡集群甚至十萬(wàn)卡集群是否真能解決算力焦慮?絕大多數(shù)受訪者認(rèn)為,單靠堆卡并不能完全解決。
張永健認(rèn)為,算力焦慮的本質(zhì)是人類對(duì)AI能力的無(wú)盡追求與物理世界資源限制之間的矛盾。今天可能覺得萬(wàn)卡很龐?,但明天為了訓(xùn)練更復(fù)雜的模型,又或許會(huì)需要百萬(wàn)卡集群。需求總是在被滿足的同時(shí),又被激發(fā)到新高度。
問(wèn)及下一代算力基礎(chǔ)設(shè)施的突破方向,張東、周韜、北大人工智能研究院研究員孫仲等多位受訪者認(rèn)為,首先還是應(yīng)該從硬件去突破。換句話說(shuō),在AI算力競(jìng)賽遠(yuǎn)未結(jié)束的情況下,還是要提高單芯片的能力。
孫仲對(duì)每經(jīng)記者表示,做大模型必須靠堆卡只是現(xiàn)狀,不是理論上的必然。如果未來(lái)有新芯片架構(gòu),效率比GPU高幾個(gè)數(shù)量級(jí),那時(shí)就不用萬(wàn)卡了,可能百卡甚至更少的計(jì)算卡就夠了。
張永健認(rèn)為,未來(lái)的超算中?將不再是單一的GPU集群,?是CPU、GPU以及各種專用加速器、存算一體芯?甚至是光子計(jì)算芯片等多種計(jì)算單元深度融合的異構(gòu)系統(tǒng)。挑戰(zhàn)在于如何通過(guò)統(tǒng)一的軟件接口,將不同的任務(wù)無(wú)縫調(diào)度到最適合它的硬件上。
而在互聯(lián)技術(shù)方面,他認(rèn)為,隨著帶寬需求的急劇增加,光互聯(lián)將從數(shù)據(jù)中?內(nèi)部的交換機(jī)互聯(lián)進(jìn)?步下沉到芯片與芯片之間。這將徹底消除電信號(hào)傳輸?shù)钠款i,實(shí)現(xiàn)更低延遲、更高帶寬的連接,為構(gòu)建更大規(guī)模的計(jì)算集群掃清障礙。
多位受訪者同樣強(qiáng)調(diào)了軟件能力的重要性。
張永健認(rèn)為,當(dāng)大家都能買到或建起萬(wàn)卡集群時(shí),如何比對(duì)手用得更好更省更高效,就成了決勝關(guān)鍵。未來(lái)競(jìng)爭(zhēng)的焦點(diǎn)將集中在:更高效的AI框架和編譯器;更智能的調(diào)度算法;更先進(jìn)的模型壓縮與量化技術(shù);數(shù)據(jù)處理與I/O(輸入/輸出)優(yōu)化。
呂樂(lè)認(rèn)為,未來(lái)不是簡(jiǎn)單堆20萬(wàn)、30萬(wàn)張卡,而是把全國(guó)30多個(gè)省份的算力、存力、運(yùn)力統(tǒng)一調(diào)度起來(lái),就像高鐵調(diào)度一樣,哪里任務(wù)多就擴(kuò)哪里,哪里有空余就調(diào)劑過(guò)去,實(shí)現(xiàn)算力“像水電一樣”彈性流通。
張永健還提到,軟硬件協(xié)同設(shè)計(jì)非常重要,未來(lái)AI芯?和系統(tǒng)在設(shè)計(jì)之初,就會(huì)與上層的AI算法和框架進(jìn)行協(xié)同設(shè)計(jì)。硬件為特定算法優(yōu)化,算法也充分利用硬件的特性,實(shí)現(xiàn)1+1>2的效果。
此外,探索更高效的訓(xùn)練?法,如自監(jiān)督學(xué)習(xí)、遷移學(xué)習(xí)、稀疏化訓(xùn)練等,減少對(duì)海量標(biāo)注數(shù)據(jù)的依賴和對(duì)蠻力計(jì)算的投?,可以從源頭上降低算力需求。
封面圖片來(lái)源:每經(jīng)記者張蕊攝
如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟(jì)新聞APP