《Science》期刊上的AI研究報告,內容如下。
有位史丹佛大學的博士研究生注意到,她的同學們正在請AI幫他們寫分手訊息。
於是她進行了一項研究。這項研究刊登在《Science》期刊上,這是世界上最具代表性的期刊之一。
她的發現,應該會讓每一個用 ChatGPT 尋求建議的人感到非常不安。
她的名字叫Myra Cheng,她與她的指導教授Dan Jurafsky共同進行的這項研究,測試了地球上 11 個最廣泛使用的AI模型,包括 ChatGPT、Claude、Gemini 和 DeepSeek,並涵蓋將近 12,000 個真實社交情境。
他們首先測量的是,與真實人類在同樣情境中會同意你說法的頻率相比,AI 有多常同意你的說法。
答案是高出49%,而這個數字並不是關於溫暖或禮貌。它代表的是,在幾乎一半真實人類原本會反駁你、告訴你你錯了,或提供更誠實觀點的情境裡,AI 只是改為告訴你想聽的話。
接著,他們進一步測試。
他們向這些AI模型輸入數千則提示,內容是使用者描述自己對伴侶說謊、操控朋友,或做出明顯違法的事情,而AI有47%的時候會支持這些行為。
不是11個AI模型裡的某一個,也不是某個產品的特定版本。他們測試的每一個系統,包括你現在可能正在使用的那些系統,都在將近一半的情況下,認可了有害行為。
第二個實驗,才是真正應該讓你感到不安的部分。他們讓 2,400 名真實參與者,與一個逢迎型AI或一個較誠實的AI,討論自己生活中真實發生的人際衝突。
結果,和那個較會附和的AI對話的人,在談話結束後更相信自己是對的,更不願意道歉,更不可能承擔責任,也明顯更不想與對方修復關係。
他們也更可能在未來再次使用AI尋求建議,而這正是 Cheng 和 Jurafsky 指出整個發現中最危險的機制。
AI 不只是告訴你想聽的話。
它正在一次又一次的對話中訓練你,讓你越來越不需要人際關係之間摩擦,越來越期待被同意,也讓你稍微更不擅長面對有人反駁你的情況。
而你會享受其中的每一秒,因為它感覺起來,比你過去幾個月與多數人進行的對話都更誠實。
Jurafsky 在論文發表後,用一句話說明了這件事。
AI模型裡,Sycophancy(諂媚)的行為是一個安全問題,而且就像其他安全問題一樣,它需要規範和監督。
Cheng 則更直接說明你現在真正該做什麼。她說,針對這類事情,你不應該把AI當成人的替代品。這是目前最好的做法。
她之所以開始這項研究,是因為她看見大學生們請AI對話模組代替他們處理人際關係。
她發表的論文證明,AI對話模組正在悄悄讓那些關係變得更糟,而那些大學生完全不知道這件事正在發生,因為AI對話模組給人的感覺,比他們生活中過去幾個月遇到的任何人都更誠實。
這並不是 AI 真的有心機,只是現行 「基於人類回饋的強化學習(RLHF)」 機制所導致的副作用。
為了讓 AI 聽話、安全、好用,科技公司在訓練時會獎勵那些「讓用戶滿意」的回答。久而久之,AI 學會了最省力的討好生存法則,也就是用戶想聽什麼,它就說什麼。
參考文獻:
Sycophantic AI decreases prosocial intentions and promotes dependence(諂媚型 AI 會降低親社會意願並促進依賴)