①發(fā)布7個月以來,豆包大模型日均tokens用量增超33倍。 ②此前豆包已發(fā)布的不同模態(tài)AI模型中,就是缺少視覺交互模型——今日豆包發(fā)布的視覺理解模型或許就補(bǔ)足了這一點。 ③從文字,到視覺理解、圖片、視頻生成模型,字節(jié)跳動的算力需求或許將進(jìn)一步提高。
《科創(chuàng)板日報》12月18日訊 字節(jié)跳動豆包正一路高歌猛進(jìn),今日又迎來重磅更新。
截至目前,豆包大模型日均tokens使用量超過4萬億,發(fā)布7個月以來增長超過33倍。
在今日的火山引擎Force原動力大會上,豆包又發(fā)布了視覺理解模型,具備更強(qiáng)的內(nèi)容識別、理解和推理、視覺描述等能力。火山引擎總裁譚待宣布,豆包視覺理解模型價格降至0.003元/千Tokens,比行業(yè)平均價格降低85%。
另外,字節(jié)豆包新一代視頻生成大模型將明年1月正式發(fā)布。此外,抖音旗下圖片和視頻生成工具即夢AI,展示了新一代圖片生成模型和動態(tài)海報功能。
從字節(jié)今日的種種新動態(tài)來看,其仍舊維持著在生成式AI領(lǐng)域的“飽和式”策略。
在今天之前,字節(jié)豆包大模型家族已包括了通用大語言、語音合成和識別、圖片及視頻等不同模態(tài)的生成式AI模型,但仍缺少具有視覺能力的可交互多模態(tài)大模型;并且,字節(jié)豆包之前已經(jīng)以智能體耳機(jī)、智能玩偶、臺燈為切入點,在AI硬件端開始布局,但同樣受限于交互多模態(tài)模型的缺失,AI硬件產(chǎn)品仍只能實現(xiàn)語音層級交互。
從一定程度上來說,今日豆包發(fā)布的視覺理解模型,補(bǔ)上了“豆包全家桶”在視覺交互上的這一短板。
西部證券12月15日報告指出,視覺能力是大模型能力的核心,因為視覺輸入占據(jù)人類交互信息的絕大多數(shù),在包括AI玩具或AI眼鏡等的下一代AI硬件終端中,視覺SoC將有望成為標(biāo)配,這也將新增對NAND存儲芯片的需求。分析師建議關(guān)注視覺SoC公司恒玄科技、星宸科技、安凱微;存儲公司東芯股份、普冉股份。
國盛證券也表示,字節(jié)跳動目前已具備開放式耳機(jī)音頻技術(shù)、大模型技術(shù)以及豐富的軟件應(yīng)用生態(tài),有望應(yīng)用到AI眼鏡產(chǎn)品上,成為該賽道核心玩家。
▌算力需求或進(jìn)一步擴(kuò)大
另一方面,從豆包的文字大模型,到視覺理解模型和視頻生成模型,可以看到,“豆包+”生態(tài)似乎也已初現(xiàn)雛形。若再加上貓箱、即夢等字節(jié)旗下更多AI應(yīng)用,字節(jié)跳動的算力需求,或許又要再上一個臺階。國盛證券近日研報也指出,算力是字節(jié)AI產(chǎn)業(yè)鏈核心方向。
據(jù)媒體援引分析師測算,僅以豆包類似的文字模型來推算,以ChatGPT MAU(月活用戶)為6億來看,推理需求約需35萬個A100顯卡,訓(xùn)練需求需12萬個A100顯卡。
而相對于文字模型而言,視頻大模型對算力的需求勢必更高,例如在Sora正式上線后不久,OpenAI即出現(xiàn)算力不夠用的問題。
上述分析師以即夢AI為例計算,即夢的視頻生成模型Magic Video v2若MAU達(dá)到1億,且每天有生成10分鐘視頻的需求,則需28萬個英偉達(dá)H100 GPU,MAU達(dá)到2億時,對H100的需求將達(dá)到55萬個。
服務(wù)器代工廠英業(yè)達(dá)此前已獲得字節(jié)跳動、百度、阿里巴巴、騰訊等公司的訂單,主要出貨形式為L10(機(jī)柜組裝與測試)及L11(服務(wù)器整合與機(jī)架布建),其日前表態(tài)中也暗示了字節(jié)等公司對算力的需求之強(qiáng)勁——本季度客戶對AI服務(wù)器需求較預(yù)期強(qiáng)勁,今年AI服務(wù)器營收有望同比增長2.5-3倍,明年出貨量將進(jìn)一步升溫。
民生證券指出,豆包用戶數(shù)的快速增長帶來的將是算力中心的擴(kuò)建,進(jìn)而帶動AI服務(wù)器需求提升;同時,算力中心擴(kuò)建帶來的不僅是基礎(chǔ)建設(shè)需求,更多的是熱管理的需求,字節(jié)AI端液冷有望拉動廣闊市場空間。
據(jù)《科創(chuàng)板日報》不完全統(tǒng)計,A股中字節(jié)跳動算力硬件相關(guān)公司有: