快穿之爱爱做不停H,中字人妻内射喷潮第二页

阿里深夜炸場！通義千問發(fā)布新一代端到端旗艦?zāi)Ｐ蚎wen2.5-Omni

2025-03-27 03:34 星期四

通義千問Qwen

北京時間周四凌晨，阿里巴巴發(fā)布通義千問系列的最新旗艦?zāi)Ｐ蚎wen2.5-Omni。這款端到端多模態(tài)模型專為廣泛的多模態(tài)感知設(shè)計，能夠處理文本、圖像、音頻和視頻等多種輸入，同時能夠通過生成文本和合成語音提供實(shí)時流式響應(yīng)。

財聯(lián)社3月27日訊，北京時間周四凌晨，阿里巴巴發(fā)布通義千問系列的最新旗艦?zāi)Ｐ蚎wen2.5-Omni。這款端到端多模態(tài)模型專為廣泛的多模態(tài)感知設(shè)計，能夠處理文本、圖像、音頻和視頻等多種輸入，同時能夠通過生成文本和合成語音提供實(shí)時流式響應(yīng)。

據(jù)“通義千問Qwen”官方微信號介紹，這款模型的主要特點(diǎn)如下：

全能創(chuàng)新架構(gòu)：Qwen團(tuán)隊(duì)提出了一種全新的Thinker-Talker架構(gòu)，這是一種端到端的多模態(tài)模型，旨在支持文本/圖像/音頻/視頻的跨模態(tài)理解，同時以流式方式生成文本和自然語音響應(yīng)。Qwen提出了一種新的位置編碼技術(shù)，稱為TMRoPE（Time-aligned Multimodal RoPE），通過時間軸對齊實(shí)現(xiàn)視頻與音頻輸入的精準(zhǔn)同步。

實(shí)時音視頻交互：架構(gòu)旨在支持完全實(shí)時交互，支持分塊輸入和即時輸出。

自然流暢的語音生成：在語音生成的自然性和穩(wěn)定性方面超越了許多現(xiàn)有的流式和非流式替代方案。

全模態(tài)性能優(yōu)勢：在同等規(guī)模的單模態(tài)模型進(jìn)行基準(zhǔn)測試時，表現(xiàn)出卓越的性能。Qwen2.5-Omni在音頻能力上優(yōu)于類似大小的Qwen2-Audio，并與Qwen2.5-VL-7B保持同等水平。

卓越的端到端語音指令跟隨能力：Qwen2.5-Omni在端到端語音指令跟隨方面表現(xiàn)出與文本輸入處理相媲美的效果，在MMLU通用知識理解和GSM8K數(shù)學(xué)推理等基準(zhǔn)測試中表現(xiàn)優(yōu)異。

模型性能方面，Qwen2.5-Omni在包括圖像，音頻，音視頻等各種模態(tài)下的表現(xiàn)都優(yōu)于類似大小的單模態(tài)模型以及封閉源模型，例如Qwen2.5-VL-7B、Qwen2-Audio和Gemini-1.5-pro。

在多模態(tài)任務(wù)OmniBench，Qwen2.5-Omni達(dá)到了SOTA的表現(xiàn)。此外，在單模態(tài)任務(wù)中，Qwen2.5-Omni在多個領(lǐng)域中表現(xiàn)優(yōu)異，包括語音識別（Common Voice）、翻譯（CoVoST2）、音頻理解（MMAU）、圖像推理（MMMU、MMStar）、視頻理解（MVBench）以及語音生成（Seed-tts-eval和主觀自然聽感）。