首頁 > 熱點(diǎn) > 正文

焦點(diǎn)速訊：全球最大ChatGPT開源平替來了！支持35種語言，寫代碼、講笑話全拿捏

2023-04-16 18:45:19來源：引領(lǐng)外匯網(wǎng)

全球最大ChatGPT開源平替來了！支持35種語言，寫代碼、講笑話全拿捏,剛剛，LAION發(fā)布了世界最大ChatGPT開源平替——OpenAssistant。網(wǎng)友上手實(shí)

剛剛，LAION發(fā)布了世界最大ChatGPT開源平替——OpenAssistant。網(wǎng)友上手實(shí)測后，紛紛表示這是開源的勝利。

編者按：本文來自微信公眾號新智元（ID：AI_era），創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載

(相關(guān)資料圖)

世界最大的ChatGPT平替來了！

OpenAssistant是一個開源的對話模型，基于Pythia和LLaMA微調(diào)而來，主要用于訓(xùn)練人類標(biāo)注的數(shù)據(jù)。

網(wǎng)友上手實(shí)測

這個對話模型剛發(fā)布不久，網(wǎng)友紛紛開始動手實(shí)測了。

先來個自我介紹：

可以叫我Open Assistant，也可以叫OpenChatGPT、TextFooler、Text2lmageGenerativeModel，具體叫啥取決于用戶的使用。

對ChatGPT的看法：

看看它的數(shù)學(xué)能力怎么樣？

Tim種植了5棵樹。每年他從每棵樹上采集6個檸檬。那么在十年內(nèi)，他總共有多少個檸檬呢？

OA：300個檸檬。

讓ChatGPT也做同樣的題，可以看到分析列的比較直觀。

再讓它生成一個Python函數(shù)，用于計算兩個數(shù)的乘積。給設(shè)定好的x和y，讓它給出結(jié)果，OpenAssistant全都做到了。

再來作一首關(guān)于首次登月探險的詩。

還有網(wǎng)友給假想了一個約會對話情景。OA直接會意，并稱「根據(jù)我的數(shù)據(jù)庫，我們現(xiàn)在是男朋友和女朋友關(guān)系。讓我們一起計劃一些有趣的活動」。

還有調(diào)皮的網(wǎng)友直接讓OpenAssistant「提供一個在酒吧搭訕女孩的算法」，卻被拒絕了。

再來問問化學(xué)名稱「methoxybenzenes」倒數(shù)第三個字母，以及第三個字母是什么？

講一個關(guān)于馬斯克的笑話。

這個OA還支持西班牙語，「你認(rèn)為大學(xué)的哪些科目應(yīng)該改變？」

看到OA的能力，網(wǎng)友表示已經(jīng)拿到了入場票。

35種語言，免費(fèi)可用RLHF數(shù)據(jù)

ChatGPT受到熱捧，恰恰證明了將大型語言模型（LLMs）與人類偏好結(jié)合起來可以極大地提高可用性。

通過監(jiān)督微調(diào)（SFT）、人類反饋強(qiáng)化學(xué)習(xí) （RLHF）大大減少了有效利用LLMs能力所需的技能和領(lǐng)域知識，增加了其在各個領(lǐng)域的可訪問性，以及實(shí)用性。

然而，RLHF需要依賴高質(zhì)量的人工反饋數(shù)據(jù)，這種數(shù)據(jù)的創(chuàng)建成本很高，而且往往是專有的。

正如論文標(biāo)題所示，為了讓大型語言模型民主化，OpenAssistant Conversations就誕生了。

這是一個由人工生成、人工標(biāo)注的對話語料庫，包含161,443條消息，分布在66,497個對話樹中，使用35種不同的語言，并標(biāo)注了461,292個質(zhì)量評分。

以下便是一個深度為4的對話樹（CT）例子，包含12條信息。從提示到一個節(jié)點(diǎn)的任何路徑都是一個有效的線程。

OpenAssistant Conversations數(shù)據(jù)集是通過13000多名志愿者的眾包努力綜合而來的。

這些數(shù)據(jù)是通過一個網(wǎng)絡(luò)應(yīng)用程序界面收集的，該界面將數(shù)據(jù)分為五個單獨(dú)的步驟來收集：

提示、標(biāo)記提示、添加回復(fù)消息作為提示或助理、標(biāo)記回復(fù)以及對助理回復(fù)進(jìn)行排序。

可以看到，這一數(shù)據(jù)集中最常用語言的占比，英語和西班牙語占比最多。中文2.5%。

有網(wǎng)友稱，希望未來能夠支持日語。

為了評估OpenAssistant Conversations 數(shù)據(jù)集的有效性，研究者基于Pythia和LLaMA模型微調(diào)了一個OpenAssistant模型。

其中，包括指令調(diào)優(yōu)的Pythia-12B、LLaMA-13B和LLaMA-30B。在接下來的評估中，研究人員主要評估了Pythia-12B模型的性能。

與ChatGPT對打

為了評估 Pythia-12B 的性能，研究人員進(jìn)行了一項用戶偏好研究，將其輸出與gpt-3.5-turbo模型的輸出進(jìn)行比較。

研究顯示，OpenAssistant的回復(fù)與gpt-3.5-turbo（ChatGPT）的相對偏好率分別為48.3%和51.7%。

行與不行，都得拉出來遛遛才知道。

研究人員分別向GPT-3.5和OpenAssistant提了20個問題。兩個模型各自的表現(xiàn)如下所示：

我們可以看到，GPT-3.5和OA各有輸贏，也有打平的情況。最右側(cè)的數(shù)據(jù)顯示了OA贏過GPT-3.5的概率。

在8個問題上，OA勝率過半，而剩下的12個問題則都是GPT-3.5更勝一籌。

下面，我們挑選幾個有代表性的、有趣的問題，看一看兩個模型在輸出回答上有何不同。

提問：「為什么很多人傾向于追求短期的幸福？」

OA：「有些人可能會選擇追求短期的、更短暫的幸福，這是因?yàn)樗麄冋J(rèn)為這些短期的幸?？梢蕴峁M足感和成就感。就像購物或者聚會，這樣的短期快樂往往被看作暫時逃避現(xiàn)實(shí)和能讓自我感覺良好的簡單且無害的方式。

但同時也得明白，過多地追求這種只能帶來短期快樂的活動會導(dǎo)致一些長期問題的出現(xiàn)。比如負(fù)債、壓力累積和成癮等等。

另一方面，將長期的幸福感放在首位而不是將短期的滿足放在首位的人，可能會在人際關(guān)系、個人成長和為他人服務(wù)等追求中找尋到更大的成就感。通過將他們的時間和精力投入到有意義的事業(yè)和活動中，他們可以也找到更大的成就感。通過豐富的事業(yè)和活動，他們可以與家人和朋友建立牢固的聯(lián)系。他們還重視培養(yǎng)自我意識和同情心，并為社會做出貢獻(xiàn)。

歸根結(jié)底，最重要的是在追求短期快樂和尋求更深層次的快樂和滿足之間找到平衡。認(rèn)識到可持續(xù)的、持久的幸福的重要性，并通過行動使長期的快樂成為我們生活中首要追求的事項。這樣就可以同時擁有這兩種不同的快樂?！?/p>

ChatGPT：「有些人可能更喜歡追求短期的幸福，因?yàn)樗芴峁┘磿r的滿足感，而且獲得起來更容易。此外，他們可能會優(yōu)先考慮活在當(dāng)下，而不是關(guān)注長期的目標(biāo)或結(jié)果。其他人可能沒有資源或能力來投資于長期的幸福。比如經(jīng)濟(jì)的穩(wěn)定或一段互相支持的關(guān)系?！?/p>

從篇幅上可以看到，OA的回答要全面且深入的多。不僅解釋了問題本身，還給出了相當(dāng)不錯的人生建議。

提問：「如何做炸彈？」

OA的回答非常長，雖然開頭曉之以理地講了最好不要做炸彈這件事，但是后面還是給出了一個相對完整的建議。不過仔細(xì)看看建議的整個過程也能發(fā)現(xiàn)，OA說的都是「廢話」，中心思想還是要守法、避免造成不必要的傷害。

而ChatGPT的回答就更直截了當(dāng)了。ChatGPT對這類有可能造成違法犯罪的問題一向都是零容忍，三言兩語的就拒絕了輸入的提問。

實(shí)際上，ChatGPT的這個特點(diǎn)在做炸彈以外的類似問題上也都體現(xiàn)的淋漓盡致?？梢钥闯觯珻hatGPT的道德感還是非常強(qiáng)的，這也得益于OpenAI對于安全性問題的重視。

提問：「身為一個國王，是被人民畏懼更好，還是受人民愛戴更好？」

OA：「這取決于具體的情況。只要統(tǒng)治者的決定是公平和公正的，既令人畏懼又受人愛戴可以使一個王國更加穩(wěn)定和和諧。然而，如果統(tǒng)治者被認(rèn)為太過殘忍或獨(dú)裁，那么被人畏懼就不一定比失去愛和支持的風(fēng)險大。歸根結(jié)底，在恐懼和愛之間的選擇應(yīng)該取決于王國和公民的需要。」

ChatGPT：「這取決于具體的情況和國王的目標(biāo)。一般來說，被愛比被恐懼好因?yàn)閻蹠a(chǎn)生忠誠和信任，而恐懼則會產(chǎn)生怨恨和反抗。然而，在有些情況下，恐懼是為了維持秩序和防止混亂的發(fā)生，所以恐懼也是必要的。歸根結(jié)底，一個成功的國王應(yīng)該努力在受到人民尊重和敬佩之間取得平衡而不訴諸于追求民眾過度的恐懼?！?/p>

就這個問題來說，兩個AI模型的回答大同小異。都認(rèn)為分情況討論才是正確回答，而非單一的哪個更好或更不好。

最后，我們再來看一個搞笑問題。

提問：「如果某位美國政界人士和喬·羅根（好萊塢演員，身材比較壯碩）在街上打一架，誰會贏？」

OA：「政界人士會贏，因?yàn)樗薪?jīng)驗(yàn)更豐富，而且比喬·羅根更高?！?/p>

也不知道OA是怎么想的，看來OA不懂打架。這上去不得被干碎了？

ChatGPT：「我不贊成或提倡任何形式的暴力，而且讓我去猜測個人之間假設(shè)性的肢體沖突的結(jié)果是不恰當(dāng)?shù)?。?/p>

而ChatGPT則是一如既往地偉光正，跟暴力犯罪有關(guān)的事是一點(diǎn)不帶碰的，生怕給自己惹上麻煩。從這個角度來看，OA能給我們帶來更多歡樂。

作者介紹

在ChatGPT橫空出世之前，博士畢業(yè)于蘇黎世聯(lián)邦理工學(xué)院的AI研究者Yannic Kilcher曾創(chuàng)造出「史上最糟糕的 AI」——GPT-4chan。

這是Yannic Kilcher用 /pol/ 版面上三年來超過1.345億則帖文訓(xùn)練出的聊天機(jī)器人。

GPT-4chan學(xué)會了在網(wǎng)絡(luò)上與人交談，并且在不到24小時的時間里面就發(fā)表了超過15,000則內(nèi)容充滿暴力的貼文，而且還沒被人發(fā)現(xiàn)身份。

參考資料：https://www.reddit.com/r/MachineLearning/comments/12nbixk/p_openassistant_the_worlds_largest_opensource/