激情亚洲五月aV|www91com|性导航 日韩无码|夫妻单男一区二区|AV成人日韩极品|国产精品1区2区|激情五月天综合国产色播AV在线|69.com日本|欧洲精品免费观看|伊人中文字幕在线视频

大模型產(chǎn)生幻覺,全怪人類 PUA 。。。嗎?
2025-09-12 10:44來源:差評君


眾所周知,AI 的能力有多強,那它開始胡扯的時候就有多煩。

它既會一本正經(jīng)的編造著從沒見過的事情。


也會在最簡單的比大小問題上栽跟頭。


從兩年前驚艷問世的 ChatGPT、到如今默默落地的 DeepSeek V3.1,沒有一個大模型,能逃過幻覺這個坎。

為什么大模型離不開幻覺?

這個問題本身,在互聯(lián)網(wǎng)上也成了未解之謎,不過上周 OpenAI 的一篇論文里,倒是提出來一個蠻有趣的觀點。


“造成 AI 幻覺的根本原因,可能是來自于人類訓(xùn)練 AI 的過程”


簡而言之,不是 AI 不行,而是我們訓(xùn)練它的方式不對,都怪我們 CPU 它。

為啥要把這鍋甩給人類?

要回答這個問題,就得從內(nèi)外兩個層面來理解大模型。

一方面,大模型訓(xùn)練的機制就決定了,它們天生就容易產(chǎn)生幻覺,這就是 AI 幻覺的“內(nèi)憂”

在訓(xùn)練模型的時候,模型要從海量的文本里,學(xué)到能夠預(yù)測出下一個單詞的能力。


因此, 只要一句話看起來像是個人話,那么模型就會開始學(xué)習(xí)它的結(jié)構(gòu),

但模型有時候只顧著學(xué)結(jié)構(gòu)了,這句話的內(nèi)容到底對不對,它可分辨不了。

而當(dāng)我們對模型提問的時候,模型也會優(yōu)先想著,把這句話給回答個完整,但問題是,不是所有的提問,都會有個明確的答案。

舉個例子,咱們?nèi)绻贸龌疱伒恼掌瑏碜尨竽P团袛噙@是什么動物,那么模型就會開始分析火鍋的特征,發(fā)現(xiàn)它的毛是金色的,又很長很大只,同時可能又有 92.5%的概率是只狗。


而模型在過去的學(xué)習(xí)過程中,是能夠從不同的圖片中,學(xué)些到狗子的長相特征的。于是把這些特征給連接起來一判斷,就會發(fā)現(xiàn)它有很大的概率是一只金毛。

但是如果咱們換個問題,問它火鍋是哪年哪月出生的,那大模型就直接懵逼了啊,這個問題,模型肯定沒學(xué)過,光是看圖像,誰也沒法知道這只狗的生日是啥時候。


如果此時模型還在硬著頭皮回答,隨便編了個答案拋出來,那就變成了我們常說的幻覺問題了。

產(chǎn)生幻覺,可以說是大模型的天性,或者換個角度來說,大模型的本質(zhì)就是詞語接龍,只不過答對了的題目會被我們認(rèn)為是正確,答錯了的題目被我們稱之為幻覺。


同時另一方面,我們現(xiàn)在訓(xùn)練大模型,給模型打分評估的方式,也是的讓模型的幻覺問題變得更加嚴(yán)重的“外患”。

還是剛才那個問生日的問題,咱們把訓(xùn)練的過程簡化一下:

假設(shè)模型回答對了一個問題,加一分,回答錯了問題則不加分。

那么當(dāng)我們問它火鍋的生日的時候,如果模型直接選擇擺爛,說不知道,那么它一輩子都只是個零蛋。

但是如果它開始瞎猜,隨便說個日期出來,那么可能會有三百六十五分之一的概率給它蒙對了。

一邊是絕對失敗,一邊是幾百分之一的概率答對。

只要模型選擇了瞎猜,那么它最后的平均得分,就永遠都比放棄做答要來的高一些。

所以,為了能讓自己在人類定制的排行榜里刷到更高的分,越來越多的大模型也失去了說:“我不知道” 的權(quán)利,對于追求分?jǐn)?shù)的模型來說,瞎猜成了唯一的理性選擇,而誠實則是一種最愚蠢的策略。

OpenAI 的研究人員還觀察了一下目前主流的各類大模型排行榜。


結(jié)果發(fā)現(xiàn)大家都是通過這種“只分對錯”的方式,來測試大模型的能力。

本意是用來衡量模型能力的考題,反而變成了促使大模型幻覺的“外患”。

為了驗證這種“應(yīng)試思維”到底有多大影響,OpenAI 就拿自己旗下的倆模型做了個對比,結(jié)果它就發(fā)現(xiàn),在刷題的時候,老模型 o4-mini 的正確率,甚至還要比新模型 GPT-5 要高了 2 個百分點。

不過代價呢,是有四分之三的問題全都答錯了,只有 1% 的題目,o4-mini會干凈利落的承認(rèn)大模型是有極限的。


而 GPT-5 在這方面則是善變的多,遇到自己不會的問題,會直接了當(dāng)?shù)某姓J(rèn)自己不知道。

這也是 OpenAI 對 GPT-5 最認(rèn)可的地方,雖然它刷榜考試,面對應(yīng)試教育的能力變差了,但是它學(xué)會認(rèn)錯了呀。

在論文的最后,OpenAI 還搬出來了幾個有趣的觀點:

他們認(rèn)為對大模型來說,幻覺沒有辦法消除,只能想辦法來避免。

因為不管模型大小,搜索信息和推理文本的能力有多高,這個世界上一定是有問題是沒有答案的。


而面對這些沒有答案的問題,模型要學(xué)會從應(yīng)試教育中跳出來,勇敢的回答說我不知道。


同時比起大模型來說,小模型反而更容易意識到自身的局限性。

因為很多知識小模型可能根本沒學(xué)過,所以人家反而會干脆利落的承認(rèn)我不會,但是大模型因為啥都學(xué)會了一點,所以面對一些題目的時候可能就會很自信的 A 上去了 。

結(jié)果沒學(xué)透,反而把問題給答錯,好事做成了壞事,就變成了幻覺。


最后,作為指導(dǎo)模型的人類,我們也要重新去設(shè)計評估模型能力的方式,重新設(shè)計訓(xùn)練模型的體系,來降低模型瞎猜的概率。


看起來是挺有道理的,不過 —— 話又要說回來了。

一個沒有幻覺的大模型,真的是我們需要的嗎?

換個角度來說,如果兩年前,大模型對自己不能確定的一切問題,都在會回答:“對不起,我不知道”,那么這種瘋狂道歉,用戶體驗稀爛的 AI,或許根本不會火起來。

實際上,這兩年也有越來越多的研究發(fā)現(xiàn),模型的創(chuàng)造力和幻覺,其實是一個相輔相成的兩面。

一個不會出現(xiàn)幻覺的模型,或許也會同步失去創(chuàng)造的能力。

就拿剛發(fā)布的 GPT-5 來說,雖然 OpenAI 用了上面提到的很多辦法,讓它出現(xiàn)幻覺的概率降低了。

但是同樣的,整個模型也變得失去了人味,沒有激情,變蠢了。

對面同樣的問題,GPT-5 表示的冷靜的多


原本不少人一天前,還在和 GPT4o 談著甜甜的戀愛呢,結(jié)果一覺醒來,奧特曼把老模型全給砍了。

幻覺概率變少的 GPT-5 變成了一個冷冰冰的理科生,或許它寫代碼的能力變強了,但是一到了聊聊天,文藝創(chuàng)作這些領(lǐng)域,就變得好像是一個小腦被閹割的呆子。

這你受得了嗎,于是憤怒的網(wǎng)友們發(fā)起了“拯救 4o” 的網(wǎng)絡(luò)運動。


鬧到最后,山姆奧特曼也是認(rèn)了慫,給大家重新開放了老模型的權(quán)限。


所以,一味的抑制模型的幻覺,真的是件好事么?

到底是允許模型犯錯,還是要讓它什么都不做,這或許沒有一個標(biāo)準(zhǔn)的答案,每個人的選擇,都各有不同。

或許有一天,用戶真會嫌棄 AI 太“老實”,沒有靈氣;

但在另一邊,還有人則更想要一個可信賴的伙伴