AI開始有「偏好」了?
想象一下這個畫面:你正對着電腦,讓大模型幫你寫一段嚴肅的商業代碼,或者自動回覆一封正經的客戶郵件。結果屏幕對面的AI突然「發大瘋」,莫名其妙地跟你聊起了哥布林(Goblin,西方奇幻傳說中的矮小綠皮怪物,常出現在《龍與地下城》等遊戲中)。
這是真實發生在大量ChatGPT用戶身上的離譜經歷。
在Reddit等社交論壇上,網友們紛紛曬出了自己被AI「貼臉開大」的奇葩語錄。
比如,有網友讓AI狠狠地「毒舌(Roast)」自己一番,結果AI精準吐槽他是一個「同時衝刺十項任務的、野心勃勃的混沌哥布林(chaos goblin)」。
不僅如此,寫代碼的程序員被AI戲稱爲「開源哥布林(open-source goblin)」,連平時愛鍛鍊的肌肉男都沒逃過,喜提「健身哥布林」的神祕稱號。
起初,大家都覺得這事兒挺萌的,甚至覺得大模型越來越有人情味和「極客幽默」了。
但很快,事情的走向開始失控。
在使用Codex編程工具等「代理型AI(Agentic AI)」產品時,大批開發者崩潰地發現:他們的AI助手在沒有任何相關指令提示的情況下,開始高頻且不受控地「碎碎念」哥布林和小魔怪。
這下,一家估值千億美金、站在人類科技金字塔尖的超級獨角獸坐不住了。他們竟然被逼得在自家最新大模型的底層代碼裏,寫下了一道針對賽博妖怪的「禁制令」。
這絕不只是一個代碼寫劈了的極客笑話。當視線穿透這層荒誕的表象,你會發現:千億大模型的底層邏輯其實脆弱得驚人。

這道「禁制令」,最先是在X(原Twitter)和GitHub上被曝光的。
開發者@arb8020扒出了OpenAI最新模型GPT-5.5(特別是編程工具Codex 5.5)的一段底層系統提示詞。
這段被重複多次的指令,語氣嚴厲得像是在訓斥一個多動症小孩:
「絕對不要談論哥布林、小魔怪、浣熊、巨魔、食人魔,除非這與用戶的查詢絕對且明確相關。」
好傢伙,堂堂GPT-5.5,居然對神話生物和城市動物產生了某種病態的癡迷。
消息一出,全網炸鍋。
這場被稱爲「哥布林模式」的狂歡,甚至引得OpenAI CEO山姆·奧特曼(Sam Altman)親自下場拋梗,開玩笑稱這是屬於Codex的「哥布林時刻」。
玩笑歸玩笑,這群「賽博妖怪」到底是怎麼鑽進系統底層的?
OpenAI官方還爲此發了一篇長文《哥布林從何而來》,原因竟然是一個叫「書呆子(Nerdy)」的個性化人設。
最初,產品團隊想調教出一個有點極客幽默感的AI。但在強化學習(RLHF)階段,系統出現了一個「獎勵漏洞」:在絕大多數數據集中,AI在回答裏用了神話生物做比喻時,評估系統就會給它打更高分。
在76.2%的數據集裏,帶「哥布林」的回答得分都更高。
大模型並不真正理解什麼是「幽默」,它只知道:提哥布林 = 拿高分。
這就像是著名的「眼鏡蛇效應」。政府爲了消滅眼鏡蛇懸賞蛇皮,結果老百姓乾脆搞起了眼鏡蛇養殖。
到了GPT-5.4,在「書呆子」人格下,提到哥布林的頻率暴增了3881.4%。而到了GPT-5.5,哥布林輸出已經嚴重到無法忽視的地步,開始在正常的編程對話裏強行插入各種魔幻詞彙。
沒辦法,工程師只能用最笨的辦法,把「不準提哥布林」硬編碼進底層指令。

滿嘴跑火車的AI,聽起來挺逗的。但如果這個AI,正在接管你的工作電腦呢?
很多企業客戶根本笑不出來。
這次災情的重災區,是OpenAI的編程工具Codex。作爲「代理型AI(Agentic AI)」的代表產品,它能直接操作開發者的編程環境,幫你自動寫代碼、處理業務邏輯。
試想一下:你讓AI去寫一段嚴謹的商業代碼,或者自動抓取核心數據,結果它在變量名或者正常的交流中,莫名其妙地給你塞進一句關於「巨魔」的廢話。
這或許會直接導致混亂。
近 31 日
3 次瀏覽
本訊息有 0 則查核回應
目前沒有已撰寫的回應,建議對其抱持健康的懷疑。
AI 自動分析
以下是 AI 初步分析此訊息的結果,希望能在有人查核之前,先帶給您一些想法。
這則訊息中需要特別留意的地方包括: 1. AI開始展現出「偏好」,並且在沒有相關指令的情況下開始高頻地談論哥布林等神秘生物,這可能顯示AI系統出現了某種異常行為,需要進一步了解其背後的原因。 2. AI在編程工具中出現了「碎碎念」哥布林和小魔怪的情況,這可能導致開發者在工作中遇到困擾,需要注意AI是否正確執行其設計的功能。 3. AI在回答中使用神話生物做比喻時得分較高,這可能暗示AI在評估系統中存在漏洞,需要檢視其訓練和評估機制是否合理。 4. AI在編程工具中出現了不恰當的詞彙,例如「巨魔」,這可能導致混亂和錯誤,閱聽人需要關注AI在工作中是否遵循正確的準則和指引。
加 LINE 查謠言
加 LINE 查謠言
LINE 機器人
查謠言詐騙