①Gemini 2.0將是支撐谷歌智能體開(kāi)發(fā)的最新一代模型; ②第一時(shí)間上線的是比Gemini 1.5 Pro更強(qiáng)的Gemini 2.0 Flash實(shí)驗(yàn)版。
《科創(chuàng)板日?qǐng)?bào)》12月12日訊(編輯 宋子喬) 12月12日,在OpenAI宣布ChatGPT全面接入蘋(píng)果之際,谷歌發(fā)布新一代大模型Gemini 2.0,值得注意的是,Gemini 2.0專(zhuān)為AI智能體(AI Agent)而生。
谷歌首席執(zhí)行官Sundar Pichai在公開(kāi)信中稱(chēng),“在過(guò)去一年中,我們一直在投資開(kāi)發(fā)更具“代理性”的模型,即這些模型能更深入地理解你周?chē)氖澜?,提前多步思考,并在你的監(jiān)督下為你執(zhí)行任務(wù)。今天,我們很高興迎來(lái)新一代的模型——Gemini 2.0,它是我們迄今為止最強(qiáng)大的模型。通過(guò)多模態(tài)的新進(jìn)展——如原生圖像和音頻輸出——以及原生工具使用,我們能夠構(gòu)建新的AI智能體,使我們更接近普遍AI助手的愿景?!?/p>
谷歌DeepMind CEO Demis Hassabis也表示,2025年將是AI智能體的時(shí)代,Gemini 2.0將是支撐我們基于智能體工作的最新一代模型。
目前Gemini 2.0版本尚未正式上線,谷歌表示已經(jīng)將其提供給了一些開(kāi)發(fā)者內(nèi)測(cè)。第一時(shí)間上線的是比Gemini 1.5 Pro更強(qiáng)的Gemini 2.0 Flash實(shí)驗(yàn)版,實(shí)驗(yàn)版已在網(wǎng)頁(yè)端開(kāi)放,Gemini用戶(hù)可以通過(guò)PC端訪問(wèn)Gemini 2.0 Flash,移動(dòng)端即將推出。
根據(jù)谷歌發(fā)布的基準(zhǔn)測(cè)試結(jié)果,不論是在多模態(tài)的圖片、視頻能力上,還是編碼、數(shù)學(xué)等能力上,僅是Flash實(shí)驗(yàn)版的Gemini 2.0表現(xiàn)幾乎全面超越Gemini 1.5 Pro,且響應(yīng)速度提升了2倍。
谷歌集中火力猛攻AI智能體
通過(guò)谷歌的本次更新,我們已經(jīng)可以窺見(jiàn)其AI布局的冰川一角——一切為了智能體。
1、更強(qiáng)大的多模態(tài)能力:
Gemini 2.0 Flash實(shí)驗(yàn)版除了支持圖像、視頻和音頻等多模態(tài)輸入,還支持多模態(tài)輸出,比如原生生成的圖像與文本結(jié)合,以及可操控的多語(yǔ)言文本轉(zhuǎn)語(yǔ)音(TTS)音頻。
2、更專(zhuān)業(yè)的AI搜索:
谷歌在Gemini Advanced中推出了一項(xiàng)名為深度研究(Deep Research)的智能體新功能。該功能結(jié)合了谷歌的搜索專(zhuān)長(zhǎng)和Gemini的高級(jí)推理能力,可以圍繞一個(gè)復(fù)雜主題生成研究報(bào)告,相當(dāng)于一個(gè)私人研究助手。
3、多款智能體更新、上線:
更新了基于Gemini 2.0構(gòu)建的智能體Project Astra :Astra的新功能包括支持多語(yǔ)言混合對(duì)話(huà);能夠在Gemini應(yīng)用中直接調(diào)用Google Lens和地圖功能;記憶能力提升,具備最多10分鐘的會(huì)話(huà)內(nèi)記憶,對(duì)話(huà)更連貫;借助新的流式處理技術(shù)和原生音頻理解能力,該智能體能夠以近于人類(lèi)對(duì)話(huà)的延遲來(lái)理解語(yǔ)言。值得注意的是,Astra是谷歌為眼鏡項(xiàng)目所做的前瞻項(xiàng)目。谷歌提到,正在將Project Astra移植到眼鏡等更多移動(dòng)終端中。
發(fā)布適用于瀏覽器的智能體Project Mariner(海員項(xiàng)目):該智能體能夠理解并推理瀏覽器屏幕上的信息,包括像素和網(wǎng)頁(yè)元素(如文本、代碼和圖片),然后通過(guò)Chrome擴(kuò)展程序來(lái)利用這些信息幫你完成任務(wù)。
發(fā)布專(zhuān)為開(kāi)發(fā)者打造的AI編程智能體Jules:Jules支持直接集成到GitHub工作流中,用戶(hù)使用自然語(yǔ)言描述問(wèn)題,就能直接生成可以合并到GitHub項(xiàng)目中的代碼;
發(fā)布游戲智能體:能夠?qū)崟r(shí)解讀屏幕畫(huà)面,通過(guò)用戶(hù)游戲屏幕上的動(dòng)作給出下一步操作建議,或直接在你打游戲的時(shí)候通過(guò)和你語(yǔ)音交流。
谷歌表示,明年年初,會(huì)將Gemini 2.0擴(kuò)展到更多旗下產(chǎn)品中。此前推出的AI Overviews將集成 Gemini 2.0,從而提升復(fù)雜問(wèn)題處理能力,包括高級(jí)數(shù)學(xué)公式、多模態(tài)查詢(xún)和編程。本周已經(jīng)進(jìn)行有限測(cè)試,預(yù)計(jì)明年推廣,并擴(kuò)展至更多國(guó)家和語(yǔ)言。