本期《元宇宙之約》對(duì)話新壹科技CEO雷濤,他表示,大模型只是解決基礎(chǔ)能力,真正到每一個(gè)領(lǐng)域應(yīng)用還是需要去做自己的數(shù)據(jù)訓(xùn)練;基礎(chǔ)模型需要真正去理解用戶,因?yàn)橛脩舻膯?wèn)題是千差萬(wàn)別,答案也會(huì)千差萬(wàn)別。
財(cái)聯(lián)社4月6日訊(記者 徐賜豪) 隨著ChatGPT聊天機(jī)器人的大熱,人工智能行業(yè)開(kāi)啟了半年之久的技術(shù)“狂飆”。
但是ChatGPT引起的科技倫理、網(wǎng)絡(luò)安全、知識(shí)產(chǎn)權(quán)等系列問(wèn)題同樣需要關(guān)注。本期《元宇宙之約》對(duì)話了新壹科技CEO雷濤。作為一下科技孵化的公司,新壹科技最近推出了自己的智能AI內(nèi)容生成平臺(tái)“一幀秒創(chuàng)”。
在雷濤看來(lái),大模型只是解決基礎(chǔ)能力,真正到每一個(gè)領(lǐng)域應(yīng)用還是需要去做自己的數(shù)據(jù)訓(xùn)練;基礎(chǔ)模型需要真正去理解用戶,因?yàn)橛脩舻膯?wèn)題是千差萬(wàn)別,答案也會(huì)千差萬(wàn)別。
至于AIGC與元宇宙之間的關(guān)系,雷濤表示,AIGC有助于元宇宙快速構(gòu)建基礎(chǔ)設(shè)施。
推出AI視頻生成平臺(tái)“一幀秒創(chuàng)”
簡(jiǎn)單介紹一下公司在AIGC方面的布局。
雷濤:新壹科技是由一下科技孵化的,在元宇宙VR及人工智能領(lǐng)域探索的實(shí)體。新壹科技的主要產(chǎn)品及業(yè)務(wù)涵蓋了中短視頻平臺(tái)、VR數(shù)字孿生技術(shù)應(yīng)用與直播平臺(tái)運(yùn)營(yíng)等。在2021年年底的時(shí)候,我們考慮做一個(gè)新的視頻平臺(tái)應(yīng)用。當(dāng)時(shí)PGC、UGC視頻平臺(tái)已經(jīng)形成激烈競(jìng)爭(zhēng),同時(shí)創(chuàng)作者向視頻平臺(tái)轉(zhuǎn)移;但大量創(chuàng)作者沒(méi)有視頻制作的能力,我們當(dāng)時(shí)就做了一個(gè)文字直接轉(zhuǎn)換成視頻的產(chǎn)品——一幀秒創(chuàng)。
據(jù)說(shuō)一幀秒創(chuàng)擁有幾十億條視頻素材?
雷濤:一幀秒創(chuàng)是基于秒創(chuàng)AIGC引擎的智能AI內(nèi)容生成平臺(tái),以文字生成視頻為核心功能,為創(chuàng)作者和機(jī)構(gòu)提供多模態(tài)生成服務(wù),包括文字?jǐn)U寫、文字轉(zhuǎn)語(yǔ)音、文生圖、圖文轉(zhuǎn)視頻等系列創(chuàng)作服務(wù);通過(guò)對(duì)文案、素材、AI語(yǔ)音、字幕等要素進(jìn)行智能分析解構(gòu),助力創(chuàng)作者快速成片,實(shí)現(xiàn)零門檻產(chǎn)出視頻。
AIGC需要有豐富的數(shù)據(jù)和強(qiáng)大的算法,目前新壹科技在這方面的儲(chǔ)備怎樣?
雷濤:新壹科技也有涉獵大模型,當(dāng)然我們的研發(fā)能力還不足以去完成一個(gè)全新的大模型開(kāi)發(fā),而是基于目前開(kāi)源的大模型(比如GPT、清華的GLM)去做自己的垂直化訓(xùn)練,形成自己的大模型產(chǎn)品去為用戶服務(wù)。
在AIGC應(yīng)用方面,一幀秒創(chuàng)產(chǎn)品的核心功能是圖文轉(zhuǎn)視頻,用戶只需要輸入一個(gè)標(biāo)題,然后通過(guò)AI把這個(gè)視頻完成。其產(chǎn)品邏輯在于通過(guò)文案去匹配素材,把素材拼接在一起形成視頻,但前提是需要有足夠多的素材量。
我們是一下科技孵化的企業(yè),一下科技?xì)v史上擁有幾十億條視頻為一幀秒創(chuàng)提供素材。我們對(duì)這些視頻進(jìn)行了深度的結(jié)構(gòu)化,給它打上豐富的標(biāo)簽,供用戶檢索、匹配等,通過(guò)這樣的方式來(lái)形成一個(gè)比較好的AIGC視頻體驗(yàn)。
AI視頻生成需要解決兩個(gè)問(wèn)題
GPT模型生成視頻是否比生成文本要難?
雷濤:GPT本身只有文本能力,但可以基于它的文本能力去拓展它的應(yīng)用。要實(shí)現(xiàn)生成視頻輸出的話,主要解決兩個(gè)問(wèn)題:一是GPT對(duì)鏡頭語(yǔ)音的理解,二是視頻數(shù)據(jù)的處理和理解。
AIGC或者人工智能給視頻行業(yè)帶來(lái)怎樣的影響?
雷濤:其實(shí)我們本身的業(yè)務(wù)跟視頻相關(guān),之前也用了GPT系列模型。在我看來(lái)GPT模型可以為視頻行業(yè)解決以下幾個(gè)問(wèn)題:一、視頻腳本的撰寫,文本撰寫本身是GPT的一個(gè)基礎(chǔ)能力;二、視頻字幕的提取、翻譯,這是基于GPT本身的一個(gè)應(yīng)用;三、剛剛發(fā)布的GPT-4是多模態(tài)模型,這個(gè)多模態(tài)可理解、分析視頻內(nèi)容,同時(shí)做視頻的推薦和搜索;四、GPT既然能理解視頻應(yīng)用,也能用于視頻內(nèi)容的AI審查、過(guò)濾。
一些視頻平臺(tái)上電影解說(shuō)、科普類、財(cái)經(jīng)類快速成稿都大量運(yùn)用人工智能來(lái)生成。這個(gè)最重要的影響就是提高視頻的制作效率,讓單個(gè)用戶具備一些工作室才具備的視頻制作能力,降低了視頻制作的門檻。
人工智能生成的視頻會(huì)不會(huì)有版權(quán)問(wèn)題?
雷濤:我們只是去匹配結(jié)果,盡量為客戶匹配一些版權(quán)可以用的素材;如果用戶需要將這些素材運(yùn)用到商業(yè)領(lǐng)域的話,確實(shí)需要解決版權(quán)的問(wèn)題。
模型需要真正理解用戶的問(wèn)題
據(jù)了解,ChatGPT背后的大型語(yǔ)言模型的訓(xùn)練集最近數(shù)據(jù)截止于2021年底,所以任何關(guān)于2022年里發(fā)生的事件,它無(wú)法給出準(zhǔn)確的答案,如何看待這個(gè)事情?
雷濤:ChatGPT你可以把它理解成OpenAI的一個(gè)產(chǎn)品Demo,它是向你展示能力,所以就算它的數(shù)據(jù)訓(xùn)練有時(shí)間線,但這不影響它的展示能力。數(shù)據(jù)不是核心問(wèn)題,能力才是。模型只是提供解決基礎(chǔ)能力,真正到每一個(gè)領(lǐng)域的應(yīng)用還是需要去做自己的數(shù)據(jù)訓(xùn)練?;A(chǔ)模型真正要解決是怎么去理解用戶的問(wèn)題,因?yàn)橛脩舻膯?wèn)題千差萬(wàn)別,答案也會(huì)千差萬(wàn)別。
在你看來(lái)GPT模型目前還存在哪些問(wèn)題?
雷濤:首先GPT是一個(gè)大語(yǔ)言模型,訓(xùn)練數(shù)據(jù)特別大,這意味著你如果去做一個(gè)類似的大模型,需要耗費(fèi)大量的這種數(shù)據(jù)標(biāo)注、算力、能源以及存儲(chǔ)的成本,這種高成本的事情容易造成技術(shù)霸權(quán),這是大模型天然存在的一個(gè)問(wèn)題。
第二,訓(xùn)練完成以后,基于它的大量數(shù)據(jù)倫理方面的問(wèn)題也越來(lái)越凸顯。
第三,現(xiàn)在GPT-4的知識(shí)范圍覆蓋很大,很多問(wèn)題回答可以說(shuō)井井有條,但也有一本正經(jīng)的“胡說(shuō)八道”現(xiàn)象。這就考驗(yàn)它的邏輯思維能力,對(duì)用戶有沒(méi)有產(chǎn)生誤導(dǎo)性。
這些問(wèn)題將導(dǎo)致怎樣的后果?
雷濤:存在一種可能,如果大家都傾向于去做模型的話,可能會(huì)產(chǎn)生類似軍備競(jìng)賽,把大量的存儲(chǔ)、算力、能源等成本都消費(fèi)在上面。邏輯推理的誤導(dǎo)性,可能讓用戶對(duì)很多新聞的真實(shí)性存疑,無(wú)法區(qū)分哪些是真的信息,哪些是假的信息。
AIGC有助于元宇宙基礎(chǔ)設(shè)施構(gòu)建
如何看待目前元宇宙行業(yè)的發(fā)展?
雷濤:整體元宇宙行業(yè)發(fā)展可能不如預(yù)期:一是VR終端銷售疲軟,META的Quest和字節(jié)的Pico4出貨量都不及預(yù)期;二是與元宇宙相關(guān)的NFT概念有極大的投機(jī)性;此外,元宇宙行業(yè)尚未出現(xiàn)殺手級(jí)應(yīng)用,不管是手機(jī)端、還是VR設(shè)備端都沒(méi)有出現(xiàn)這樣的產(chǎn)品。
從廣義上來(lái),AIGC也是元宇宙的一部分,也許未來(lái)下一次技術(shù)浪潮來(lái)臨的時(shí)候,元宇宙又會(huì)煥發(fā)新機(jī),但目前來(lái)講還是偏概念階段。
AIGC的發(fā)展能給元宇宙能帶來(lái)什么?
雷濤:AIGC這個(gè)概念從去年開(kāi)始逐漸火起來(lái),我們看到AIGC可以生成文本、圖片、視頻、代碼、游戲等。
元宇宙需要大量的內(nèi)容生產(chǎn)。如果是靠傳統(tǒng)的PGC或者UGC方式,要么生產(chǎn)成本過(guò)高,要么就是生產(chǎn)質(zhì)量偏低。AIGC這種方式有助于元宇宙快速構(gòu)建基礎(chǔ)設(shè)施,包括文字、語(yǔ)音、視頻等多媒體內(nèi)容。
此外,元宇宙可以通過(guò)AI來(lái)生成代碼或者AI來(lái)生成里面的人物,這個(gè)也是AIGC未來(lái)可能達(dá)到的一個(gè)方向。