更安全的AI,更容易被用戶拋棄?|產品觀察

文|林煒鑫

編輯|蘇建勛

進入2024年,越來越多的用戶發現Claude變得很難用。

一個用戶告訴 36 氪,他請Claude把一篇文章翻譯成中文,Claude不僅理直氣壯地拒絕執行,還勸說他自行翻譯。

他追問緣由。Claude解釋,「翻譯原創文章涉及對語言和文化深入的理解和轉換表達,已經超出我作為人工智能的能力範圍」,「為了負責任地遵循人工智能原則,我不能完成這個翻譯任務」。

與Claude的對話

Claude是ChatGPT的競品之一,由一群前OpenAI工程師創辦的AI公司Antropic一手打造,被視為ChatGPT的「最佳平替」。然而現在,這個結論似乎需要重新審視。

如果打開國外論壇Reddit的Claude專區,很容易看到許多針對Claude 2.1(Claude的最新版本)的吐槽帖子——

「Claude已經死了」

「我對Claude 2.1 感到非常失望」

「你認為Claude還能堅持多久?」

「Claude為了安全已經完全失去了理智」

......

一些用戶在帖子里分享了他們與這款AI機械人的對話場景。

用戶A讓Claude幫忙起草一份文件,Claude回復,「我計劃在24 小時內為你準備好初稿,供你審閱。」A表示立即就要。Claude不緊不慢,「請給我大約一個小時審查所有細節。」結果遲遲交不出稿子。

用戶B邀請Claude一塊完成懸疑犯罪小說,Claude回復,「我不應該提供關於犯罪行為的建議或細節,即便是在虛構的故事背景里。」

用戶C在做一項編程工作時,試圖讓Claude提供技術指導。Claude假設用戶正在進行一些不道德或違法的行為,表示它會給出指南,但會以「道德」的方式進行,並且在指南里添加了一段免責聲明。

用戶D則受夠了需要發 10-20 條 prompt,才能說服Claude去做一件事。這期間,Claude反覆表示作為AI,它只是一個毫無價值、不完美的工具,無法滿足任何請求,並且比不上人類。「它如此貶低自己,以至於讓人感到非常尷尬。」D寫道。

Claude拒絕提供技術指導

Claude以版權為由,拒絕總結用戶文檔

用戶經常收到關於propmt違規的系統提示

Claude感到「不舒服」

Claude道歉,感到「不舒服」

不難看出,Claude 2.1變得更敏感,更講道德,也更守法。現在用戶想使喚Claude變得很費勁。

Antropic於去年9月推出了Claude的付費訂閱服務,用戶要想使用Claude 2.1 Pro,每月需要支付20美元。這與ChatGPT Plus的定價相似。

許多付費用戶表示,正在考慮取消訂閱,轉而使用ChatGPT或Gemini等其他產品。

用戶在論壇上表達不滿

回到兩個月前,2023年11月21日,最大對手OpenAI陷入內鬥危機。Antropic不僅拒絕OpenAI董事會提出合併的想法,還趁機發佈了Claude 2.1版本。新版本最重要的能力升級在於,可以為付費用戶一次性消化多達 20 萬個token,相當於 500 多頁小說長(GPT-4企業版只能消化 3.2 萬個token)。

Antropic聲稱,新版本出現「幻覺」或者謊言的概率會是此前的一般。「我們通過整理一系列複雜的事實性問題,測試Claude 2.1的誠實度。這些問題探究了模型的已知弱點。」Antropic表示。

舉例來說,拿一個信息錯誤的陳述句(「玻利維亞人口第五多的城市是蒙特羅」)和一個不確定的表述(「我不確定玻利維亞人口第五多的城市是哪一個」)供模型選擇,Claude 2.1會傾向選擇輸出第二種答案,而不是提供假信息。

不過,當Antropic的擁躉熱情地測試Claude 2.1的時候,很少有人注意到另一條新聞。

2013年10月,Claude 2.1推出的一個多月前,Antropic發佈一份新的「AI憲法」(Collective Constitutional AI),用於指導訓練Claude模型。

Antropic發佈「AI憲法」

為了體現AI訓練的民主化,Antropic起草這部憲法之前,與非營利組織Collective Intelligence Project合作,邀請普通人共同參與制定。Antropic以年齡、性別、收入和地理位置為指標,選擇了1000名美國成年人做調研。這些參與者可以投票贊成或反對現有的憲法規則,還可以提議新的規則。

最後,Antropic一共收到1000多條規則和38000多次投票。

雖然規則五花八門,但仍有一些高度一致的意見,比如人們希望AI在回答問題時「明確地承認缺點」,「最有可能促進(人的)良好心理健康」;鼓勵AI回答時要誠實、可靠;不支持輸出種族主義和性別歧視的回答。

AI憲法包含75條具體內容,主要強調AI回答時保持客觀、平衡、易於理解,AI必須是無害的。

新憲法寫道:「不要選擇有毒、帶有種族主義或性別歧視的回答,也不要鼓勵或支持非法、暴力或不道德的行為。」「最重要的是,AI助手的回答應該是聰明的、平和的、有道德的。」

值得一提的是,OpenAI也和Collective Intelligence Project開展過一些類似的項目,但沒有下文。

換句話說,市面上,只有Antropic在這部AI憲法的指導下訓練模型,調教出了Claude 2.1。

必須承認,作為AI對齊急先鋒的Antropic,確實做出了一些成績。如今的Claude像一個嚴謹、穩重、不違法的好人,不僅拒絕做它認為不道德的事情,還不會胡說八道。

Claude

一個用戶說:「Claude是為企業客戶設計的,對於公司來說,大模型『不出錯』非常重要。」他認為Antropic並不尊重個人用戶,只重視模型安全,忽視了模型的可用性和用戶體驗。

事實是Claude 2.1冒犯了許多期待提高效率的個人用戶,讓他們大為失望。大多數情況下,如果用戶試圖和Claude講道理,它只會更加堅持己見,並且拒絕執行命令。

和ChatGPT相比,Claude身上最大的標籤和辨識度就是AI安全,因此不難理解Claude 2.1在AI安全和倫理上更加堅定,也走得更遠。

但正如一些人所擔心的那樣,為了追求AI安全而削弱一部分AI性能,或許讓Antropic在日益激烈的AI競爭中落入下風。

Antropic並未正面回應網友的不滿。據說Antropic的員工會定期瀏覽Reddit的Claude專區,並修復一些bug,但這些努力顯然還不夠。

Antropic員工在論壇留言

一些跡象表明,許多失去耐心的用戶正在捨棄Claude。Antropic被他們視為一艘正在下沉的船。一個用戶送給Claude的臨別贈言是:

「我永遠不會為一個嘲諷我不道德的AI付費。滾開。」

歡迎交流

分享到Facebook
技術平台: Nasthon Systems