OpenAI發布新模型GPT-4o,平均響應時(shí)間爲320毫秒,“幾乎接近人類交談”
作(zuò)者:小(xiǎo)編
更新時(shí)間:2024-05-15
點擊數:
【環球時(shí)報(bào)特約記者 謝(xiè)昭 環球時(shí)報(bào)記者 劉揚】美(měi)國人工(gōng)智能(néng)公司OpenAI于14日淩晨正式推出新一代人工(gōng)智能(néng)(AI)模型GPT-4o,美(měi)國有線電視(shì)新聞網(CNN)注意到(dào),它的最突出特點是在與人的交互方面更爲自(zì)然。
根據OpenAI發布的新聞稿,GPT-4o的“o”代表“omni”,即“全能(néng)”之意。它可以在最快(kuài)232毫秒的時(shí)間内響應音(yīn)頻輸入,平均響應時(shí)間爲320毫秒,幾乎接近人類在交談中的響應時(shí)間。
在發布會(huì)的演示環節,GPT-4o展示了(le)它與衆不同的互動能(néng)力。它能(néng)用(yòng)一種非常自(zì)然的語調與人交流。在根據工(gōng)作(zuò)人員要求講故事(shì)時(shí),工(gōng)作(zuò)人員可以随時(shí)插話(huà)打斷并提出新要求,GPT-4o能(néng)幾乎毫無停頓地接上(shàng)話(huà)題并按照要求變化音(yīn)色、語調、情感等。GPT-4o可以檢測用(yòng)戶的情緒,并以類似人類或機器人的語調與用(yòng)戶交談。OpenAI表示,此前的AI語音(yīn)模式由不同的獨立模型組成,分别負責将音(yīn)頻轉換爲文(wén)本,接收文(wén)本并輸出文(wén)本,再将文(wén)本轉換回音(yīn)頻。在這(zhè)些(xiē)環節中會(huì)丢失大(dà)量信息,因此無法識别音(yīn)調、多個說話(huà)者或背景噪音(yīn),也(yě)無法輸出表達情感的語音(yīn)。而GPT-4o支持文(wén)本、音(yīn)頻和(hé)圖像的任意組合輸入,并能(néng)夠生成文(wén)本、音(yīn)頻和(hé)圖像的任意組合輸出,這(zhè)意味着它能(néng)夠結合視(shì)頻和(hé)音(yīn)頻感受對(duì)話(huà)者的情緒,并給出充滿人類情感的反饋。在對(duì)話(huà)中發現(xiàn)工(gōng)作(zuò)人員的深呼吸時(shí),GPT-4o鼓勵說“冷靜下(xià)來(lái)”。CNN稱,GPT-4o的語音(yīn)令人想起美(měi)國科幻電影《她(tā)》中的AI。GPT-4o還展示了(le)解讀代碼、分析圖表等各種能(néng)力。
不過,GPT-4o在演示過程中也(yě)出現(xiàn)一些(xiē)失誤。英國廣播公司(BBC)稱,這(zhè)表明(míng)生成式AI的“幻覺”問題仍未得到(dào)解決,距離解決聊天機器人不可靠的問題還有很(hěn)長的路要走。
清華大(dà)學新聞學院新媒體研究中心主任、跨學科知(zhī)名學者沈陽教授14日對(duì)《環球時(shí)報(bào)》記者表示,GPT-4o把多模态融合能(néng)力發揮得比較好(hǎo),無論是識别還是語音(yīn)的精細化改造方面。此前的各種大(dà)模型的語音(yīn)做得也(yě)不錯,但(dàn)多少還能(néng)聽出一點AI的聲音(yīn),現(xiàn)在經過進一步升級,GPT-4o具有很(hěn)強的情感感染力,讓人很(hěn)難分辨出來(lái)了(le)。
沈陽表示,此前GPT主要還是模拟意識,如今有向模拟生命轉化的趨勢,可以把GPT-4o看(kàn)作(zuò)是向“靈魂伴侶”方向發展。由于大(dà)模型對(duì)語音(yīn)助手的加持,它會(huì)變成日常高(gāo)頻交流的“朋友”,如果這(zhè)種趨勢持續下(xià)去,顯然人們大(dà)量的使用(yòng)時(shí)間将會(huì)消耗在跟語音(yīn)助手的聊天當中,因爲我們面對(duì)的将是一個權威全知(zhī)的AI助手。這(zhè)可能(néng)會(huì)導緻人與人的關系在一定程度上(shàng)解耦。也(yě)就是說人類朋友的數量可能(néng)随着跟AI聊天的時(shí)間增加而減少,這(zhè)可能(néng)會(huì)帶來(lái)一個非常重大(dà)的社會(huì)影響。此外(wài),GPT-4o提升了(le)視(shì)覺與語音(yīn)能(néng)力,跟硬件的結合也(yě)會(huì)比較好(hǎo)。所以未來(lái)它可以更加廣泛地應用(yòng)到(dào)汽車、智能(néng)硬件等設備之中。
轉載自(zì)環球網
轉載自(zì)環球網