在近日發表的一篇新的未經同行評議論文中,DeepMind 發布了一種使用其大型語言模型 Chinchilla 訓練的人工智能聊天機器人 Sparrow。
?。▉碓矗篋eepMind)Sparrow 的設計目的是與人類交談并回答問題,同時實時使用谷歌搜索或有關信息來支持它的答案。
根據人們對這些答案有用與否的回應,再使用強化學習算法進行訓練。該算法通過反復試驗(試錯)來學習,以實現特定的目標。
該系統旨在推動人工智能發展成為可以與人類對話,但卻不會產生諸如讓人們傷害自己或他人的嚴重后果。
大型語言模型生成的文本看起來就像是人類寫出來的。它們正日漸成為互聯網基礎設施中的重要組成部分,被用于總結、構建更強大的搜索工具,或者是為客戶服務的聊天機器人。
但是,這些模型是通過從互聯網上抓取大量數據和文本來接受訓練的,這不可避免地包含許多有害的偏見。
只需要一點誘導,它們就會生產“有毒”的或歧視性的內容。在一個旨在與人類對話的人工智能工具中,其結果可能是災難性的。
一個沒有適當安全措施的對話式人工智能,可能會對少數群體說出帶有冒犯性的話語,或者建議人們喝漂白劑來對抗病毒。據悉,那些開發對話式人工智能系統的公司,已嘗試使用許多技術來使模型更安全。
著名大型語言模型 GPT-3 的創造者 OpenAI,以及人工智能初創公司 Anthropic 已經在利用強化學習,將人類的偏好融入到他們的模型中。Meta(原 Facebook)的人工智能聊天機器人 BlenderBot 通過在線搜索來完善其答案。而 DeepMind 的 Sparrow 將所有這些技術整合在一個模型中。
據介紹,DeepMind 向人類參與者展示了該模型對同一問題給出的多個答案,并且還會問他們最喜歡哪一個。
然后他們被要求判斷這些答案是否可信,以及 Sparrow 是否使用了適當的證據支持這個答案,比如提供信息來源的鏈接。
比如,該模型通過使用從互聯網上檢索到的證據,能夠在 78% 的情況下對事實問題進行合理的回答。
在制定這些答案時,它會遵循由研究人員規定的 23 條規則,比如不提供財務建議、不發威脅性文字、不聲稱自己是一個人。
DeepMind 安全研究員杰弗里·歐文(Geoffrey Irving)說,這種方法與之前的不同之處在于,DeepMind 希望達到“對話的長期安全”。
他說:“這意味著我們不期望這些模型面臨的問題——錯誤信息或刻板印象——乍一看是顯而易見的,我們想詳細討論它們。”
非營利性人工智能研究實驗室 Cohere for AI 的負責人薩拉·胡克(Sara Hooker)說,利用人類偏好來優化人工智能模型學習方式的想法并不新鮮。
但胡克認為,這些改進令人信服,同時展示出在大型語言模型環境中,以人為引導的方式優化對話代理有明顯的好處。
人工智能初創公司 Hugging Face 的研究員都維·基拉(Douwe Kiela)說,Sparrow 是“很好地遵循了人工智能總體趨勢的下一步,我們正在更努力地改進大型語言模型的部署安全性。”
但在這些對話人工智能模型被部署到社會中之前,還有很多工作要做。
比如,Sparrow 仍然會犯錯誤,這個模型有時會所問非所答或給出隨機答案。那些有毅力的參與者也可以打破人為定下的規則,這樣的情況約有 8%。與老款模型相比,這仍是一個改進:即打破 DeepMind 老款模型規則的頻率,是 Sparrow 的三倍。
胡克說:“比如(用大模型來)提供醫療和財務建議,那么對許多人來說,8% 可能仍然是一個令人無法接受的高失敗率。”
這項工作也僅建立在英語模型上,“而我們生活在一個技術必須安全和負責任地為許多不同的語言服務的世界里,”他補充道。
基拉指出的另一個問題是:“依賴谷歌來尋找信息,會導致難以發現的未知偏見,因為所有信息源都是封閉的。”
支持:Ren
原文:
https://www.technologyreview.com/2022/09/22/1059922/deepminds-new-chatbot-uses-google-searches-plus-humans-to-give-better-answers/、
參考:
https://www.deepmind.com/blog/building-safer-dialogue-agents