首頁(yè) > 熱點(diǎn) > 正文

【全球熱聞】挖掘GPT的隱藏實(shí)力就靠它了

2023-05-09 16:44:47來(lái)源：引領(lǐng)外匯網(wǎng)

挖掘GPT的隱藏實(shí)力就靠它了,GPT-4回答的準(zhǔn)確率從68%提高到85%。

GPT-4回答的準(zhǔn)確率從68%提高到85%。

編者按：本文來(lái)自微信公眾號(hào)“量子位”（ID:QbitAI），作者：克雷西，創(chuàng)業(yè)邦經(jīng)授權(quán)發(fā)布。

【資料圖】

GPT-4回答的準(zhǔn)確率從68%提高到85%。

這個(gè)GitHub新項(xiàng)目，能讓ChatGPT完成復(fù)雜任務(wù)，GPT3.5和GPT-4都支持。

它通過(guò)將問(wèn)題拆解，并調(diào)用外部資源，提高了GPT的工作能力。

在它的調(diào)教下，GPT-4回答的準(zhǔn)確率從68%提高到了85%。

這個(gè)項(xiàng)目名叫SmartGPT，這個(gè)名字很直白地告訴了我們它的作用。

無(wú)論是直觀感受還是量化數(shù)據(jù)，GPT在它的加持之下回答正確率都有提高。

我們不妨看看幾個(gè)經(jīng)典的問(wèn)題。

這是一個(gè)來(lái)自O(shè)penAI Playground的經(jīng)典問(wèn)題。

只見(jiàn)GPT一頓操作猛如虎，又是推理又是列方程……

然而最后給出的答案是30個(gè)小時(shí)。

而經(jīng)過(guò)SmartGPT調(diào)教之后，不僅得到了正確答案，還指出了此前的思路為什么會(huì)出錯(cuò)。

再來(lái)舉個(gè)例子

，同樣是來(lái)自于OpenAI Playground的問(wèn)題。

GPT的答案嘛……麻煩不說(shuō)，能不能解釋下第五步的2升是怎么剩下的？

經(jīng)過(guò)調(diào)教之后嘛……雖然不理解為什么不直接用6升的，但也有很大進(jìn)步了。

我們也用倒拔垂楊柳的問(wèn)題進(jìn)行了測(cè)試，提供了諸葛亮、孫悟空和林黛玉三個(gè)選項(xiàng)。

第一輪，GPT-4給出的答案是……孫悟空。

經(jīng)過(guò)調(diào)教之后，GPT-4終于發(fā)現(xiàn)了三個(gè)選項(xiàng)都是錯(cuò)誤的。

同時(shí)還指出了孫悟空雖然沒(méi)有倒拔垂楊柳但是有相似的情節(jié)。

（《西游記》第二十五回中，孫悟空在五莊觀因憤怒將人參果樹(shù)拔倒）

需要說(shuō)明的是，由于沒(méi)有GPT-4的API，測(cè)試是按照開(kāi)發(fā)者介紹的方法手工完成的。

當(dāng)然了，個(gè)例并不能說(shuō)明它的表現(xiàn)，還是要用數(shù)據(jù)集測(cè)試一下。

開(kāi)發(fā)者使用了MMLU數(shù)據(jù)集分別對(duì)調(diào)教前后的GPT-4進(jìn)行了測(cè)試。

結(jié)果顯示，未經(jīng)調(diào)教的版本只答對(duì)了68%，而調(diào)教后的版本答對(duì)了85%。

順便提一句，真人專(zhuān)家在測(cè)試中的平均成績(jī)是89.8%。

數(shù)學(xué)方面，同樣使用MMLU數(shù)據(jù)集進(jìn)行測(cè)試，開(kāi)發(fā)者從中選擇了15個(gè)大學(xué)難度的數(shù)學(xué)問(wèn)題。

雖然準(zhǔn)確率只有60%，但也是及格了，而且比原版GPT的40%已經(jīng)好了太多。

化整為零，逐步解決

開(kāi)發(fā)者將SmartGPT中的環(huán)節(jié)形象地比作了職場(chǎng)中的角色：

“甲方”：SmartGPT用戶?！敖?jīng)理”：和“甲方”對(duì)接，把任務(wù)拆分成高級(jí)子任務(wù)并逐一匯報(bào)給“老板”?！袄习濉保褐贫ㄓ?jì)劃，將高級(jí)子任務(wù)再次拆分，并分發(fā)給“員工”。“員工”：接收任務(wù)，編寫(xiě)偽代碼，交給“小黃人”執(zhí)行?！靶↑S人”：將偽代碼優(yōu)化成LUA腳本并運(yùn)行。

作為“甲方”的用戶，需要做的只是像使用普通GPT一樣輸入自己的問(wèn)題，而不必給出額外指令。

SmartGPT會(huì)幫助用戶把問(wèn)題拆分，然后按照步驟提交給GPT。

此前有人發(fā)現(xiàn)，在輸入給GPT的指令中加入“l(fā)et’s think step by step”可以提高回復(fù)的準(zhǔn)確率。

同時(shí)，GPT-4具有回溯能力，能夠發(fā)現(xiàn)并指出自己此前回答中的錯(cuò)誤。

以上兩個(gè)特性為SmartGPT的工作提供了重要支撐。

△ SmartGPT工作流程圖

在用戶輸入完指令后，SmartGPT對(duì)其進(jìn)行處理拆分，包括添加“l(fā)et’s think step by step”類(lèi)似的表述。

然后它會(huì)將處理好的指令傳至GPT的API，并重復(fù)多次獲取不同的答案。

接著，SmartGPT會(huì)向API發(fā)送要求其回溯答案并選擇最優(yōu)解的指令。

最后，將GPT自己選擇的最佳答案展示給用戶。

上述步驟受到了三篇學(xué)術(shù)論文的啟發(fā)（圖中白框）。

這三篇論文的內(nèi)容分別關(guān)于“鏈?zhǔn)教崾痉绞健?、“?dòng)態(tài)記憶及讓LLM自我回溯”和“用對(duì)話提高LLM完成度”。

和其他工具相比，SmartGPT好在哪

AutoGPT等工具同樣可以用來(lái)優(yōu)化GPT，SmartGPT比它們好在哪里呢？

由于其工作原理是將任務(wù)進(jìn)行拆分，會(huì)形成邏輯鏈條，因此SmartGPT擁有更強(qiáng)大的推理能力。

實(shí)用性方面，SmartGPT由獨(dú)立的子模塊組成，使用者可以對(duì)它們進(jìn)行任意排列、組合和刪改。

此外，無(wú)論對(duì)于用戶還是開(kāi)發(fā)人員，SmartGPT的配置過(guò)程都更為簡(jiǎn)單。

不過(guò)開(kāi)發(fā)者也坦言，這個(gè)項(xiàng)目剛推出不久，因此穩(wěn)定性有待考證，在內(nèi)存優(yōu)化方面還有所欠缺，消耗的環(huán)境資源也更多。

在項(xiàng)目推出之后，有網(wǎng)友表示我們低估了GPT的潛力，甚至包括OpenAI自己。

那么，你期待GPT未來(lái)的表現(xiàn)嗎？

SmartGPT目前暫無(wú)開(kāi)箱可用版本，需要自行在Linux環(huán)境搭建，動(dòng)手能力強(qiáng)的讀者可根據(jù)下面的項(xiàng)目頁(yè)面中的指示體驗(yàn)：

項(xiàng)目地址：https://github.com/Cormanz/smartgpt

項(xiàng)目涉及到的論文：[1]. https://arxiv.org/abs/2305.02897[2]. https://arxiv.org/abs/2303.11366[3]. https://arxiv.org/abs/2303.17071

參考鏈接：

[1]. https://www.youtube.com/watch?v=wVzuvf9D9BU

[2]. https://www.reddit.com/r/singularity/comments/13axo1r/gpt_4_is_smarter_than_you_think_introducing/

本文（含圖片）為合作媒體授權(quán)創(chuàng)業(yè)邦轉(zhuǎn)載，不代表創(chuàng)業(yè)邦立場(chǎng)，轉(zhuǎn)載請(qǐng)聯(lián)系原作者。如有任何疑問(wèn)，請(qǐng)聯(lián)系editor@cyzone.cn。

關(guān)鍵詞：

責(zé)任編輯：hnmd004

【全球熱聞】挖掘GPT的隱藏實(shí)力就靠它了2023-05-09
人們常說(shuō)的撒拉嘿是什么意思？韓語(yǔ)的日常用2023-05-09
電表怎么讀數(shù)？電表讀數(shù)方法2023-05-09
庫(kù)里斯是什么梗？抖音庫(kù)里絲是什么意思？2023-05-09
銀行貸款還不起能否辦理停息掛賬？信用卡逾2023-05-09
太行山在中國(guó)什么位置？云臺(tái)山相關(guān)資料介紹2023-05-09
巨蟹女在感情上也是充滿了波折久而久之想2023-05-09
深圳大運(yùn)會(huì)是哪一年？世界公認(rèn)的球王都有誰(shuí)2023-05-09
湖南省長(zhǎng)沙市醫(yī)保發(fā)票丟失如何保險(xiǎn)？醫(yī)院門(mén)2023-05-09
管理費(fèi)用指的是什么? 管理費(fèi)2023-05-09
免職和撤職有什么區(qū)別？免除職務(wù)后怎么安排2023-05-09
阿奎羅年薪多少？2023歐洲杯在哪個(gè)國(guó)家舉辦2023-05-09
信用卡逾期還不上怎么辦？信用卡減免政策是2023-05-09
谷歌將對(duì)現(xiàn)有的搜索引擎進(jìn)行優(yōu)化升級(jí) 你知2023-05-09
商河特產(chǎn)有哪些商河什么特產(chǎn)出名？2023-05-09
商河特產(chǎn)有哪些商河位于哪里？2023-05-09
輔助性T細(xì)胞是一種T細(xì)胞？主要組織相容性復(fù)2023-05-09
紙的來(lái)源歷史介紹蔡倫為什么是現(xiàn)代造紙術(shù)2023-05-09
有信用卡為什么征信空白？五年前的逾期還會(huì)2023-05-09
那些踐踏過(guò)天蝎女自尊心的人會(huì)被她們釘在心2023-05-09
網(wǎng)絡(luò)營(yíng)銷(xiāo)是學(xué)什么的?網(wǎng)絡(luò)營(yíng)銷(xiāo)專(zhuān)業(yè)畢業(yè)生的2023-05-09
隔夜酒駕車(chē)屬不屬于酒駕行為？隔夜酒駕的處2023-05-09
孫子是第幾順位繼承人？繼承人第三順位具2023-05-09
魯大師尊享版推出電腦防盜助手：支持定位 2023-05-09
趨勢(shì)線的基本概念是什么？股票短線操作的意2023-05-09
信用卡逾期還款后需要銷(xiāo)卡嗎？信用卡逾期還2023-05-09
關(guān)于勞動(dòng)仲裁和訴訟的區(qū)別有哪些勞動(dòng)爭(zhēng)議2023-05-09
紅籌股表示什么含義的內(nèi)容? 紅籌2023-05-09
淘金幣是干什么用的？淘金幣可以抵錢(qián)嗎？2023-05-09
騰訊持股的公司有哪些？騰訊老板叫什么名字2023-05-09

精彩推薦

男生學(xué)文科就業(yè)率最高專(zhuān)業(yè)?2023文科生最吃香的專(zhuān)業(yè)有哪些?

回南天是什么意思？回南天引起原因是什么？
信用卡逾期怎么協(xié)商延期還款？信用卡逾...
為什么不建議玩可轉(zhuǎn)債?為什么越來(lái)越多的...
根據(jù)供受者關(guān)系分類(lèi)是？根據(jù)有無(wú)細(xì)胞體...
收到掛失止付通知的付款人應(yīng)暫停支付嗎...
網(wǎng)貸逾期可以協(xié)商延期嗎？網(wǎng)貸申請(qǐng)延期...

閱讀排行

股票提現(xiàn)多長(zhǎng)時(shí)間能到賬？股票的...
蝸居結(jié)局是什么？蝸居結(jié)局小貝最...
網(wǎng)貸歸零指的是什么?網(wǎng)貸平臺(tái)清...
現(xiàn)金支票的有效期是多久？現(xiàn)金支...
玉的手鐲怎么挑選？玉石手鐲的鑒...
共勉是什么意思什么時(shí)候用？共勉...
航運(yùn)指數(shù)是什么？航運(yùn)運(yùn)價(jià)指數(shù)怎...
打卡古都文化地標(biāo) 新華社聚焦西...
西安高新區(qū)50項(xiàng)事項(xiàng)實(shí)現(xiàn)全程網(wǎng)辦...
【全球新要聞】塑造城市格調(diào) 西...

銀行短期貸款利率是多少？銀行短期貸款最短時(shí)間是多久？
上一篇2023-05-09 15:52:53

黑人大群体交免费视频,国精产品一区二区三区糖心,孩交videos精品乱子,欧美奶涨边摸边做爰视频

【全球熱聞】挖掘GPT的隱藏實(shí)力就靠它了

精彩推薦

男生學(xué)文科就業(yè)率最高專(zhuān)業(yè)?2023文科生最吃香的專(zhuān)業(yè)有哪些?

閱讀排行

推薦閱讀