黑人大群体交免费视频,国精产品一区二区三区糖心,孩交videos精品乱子,欧美奶涨边摸边做爰视频

首頁 > 購物 > 正文

百度被網(wǎng)暴,AI大模型“套皮”海外知名項目,百度首次回復(fù):假的 當(dāng)前熱文

2023-03-24 11:57:47來源:36kr

中文數(shù)據(jù)天生缺陷?

圖片來源:無界AI畫繪畫工作生成

3月16日,百度創(chuàng)始人李彥宏做了大語言模型“文心一言”的發(fā)布會。


(資料圖)

結(jié)果,觀眾只記住了白襯衫和白腰帶,并且紛紛表示好奇,李彥宏保養(yǎng)的不錯。然后感慨,Robin Li與其分享百度雄心勃勃的語言大模型,不如講一講如何保養(yǎng),搞不好還能帶個貨,股價也許就上去了。

雖然,網(wǎng)絡(luò)上鍵盤俠吐槽很多,但還是有很多媒體寫到:《中國百度硬剛chatGPT,國產(chǎn)之光》。沒辦法,AI這個領(lǐng)域,好像只有百度能打,起碼,大部分公眾的認(rèn)知是這樣。

如果說16日發(fā)布會后公眾的態(tài)度是希望百度扛起對線chatGPT的大旗。這兩天,畫風(fēng)變了,吐槽排山倒海而來,可以說是怒其不爭了。

首先是一批圖片,顯示文心一言理解能力很差。

另外,還有一批圖片,更是把文心一言給狠狠錘了一把。大意是說,文心一言更懂英文,不懂中文。直言百度作假,文心一言是套殼了chatGPT,水貨。那么,真的是這樣子嗎?

01 百度文心一言被爆錘,國產(chǎn)都不行?

微博賬號“劉大可先生”錘百度的文字被傳播得很廣,光點贊就有2.2萬。

他是這么說的:百度這個所謂的人工智能,其實就把中文句子機翻成英語單詞,拿去用國外剛剛開源的人工智能“Stable Diffusion”生成了圖畫,再返回給你,說是自己畫的。

他給出的理由有很多,這里僅舉一個例子。

上圖,“劉大可先生”的要求是畫“云中的平面”,結(jié)果文心一言畫了個飛機,“劉大可先生”說,這是因為“云中的平面”機翻之后是“plane in cloud”,所以文心一言背后的英語的人工智能當(dāng)然會畫個飛機。下面這張圖在社交網(wǎng)絡(luò)傳播非常廣,揭示的“真相”與上文是一樣的。

自從chatGPT誕生后,以及包括一系列AI畫圖軟件,像Stable-Diffusion、Midjourney、DALLE等誕生以來,我們其實看到了很多的應(yīng)用,底層都是這些開源的模型。但是通過“漢化”,可以給中國的用戶帶來很好的體驗。

百度的文心一言是不是也這樣?這個“判斷”可能是武斷的。

2月20日晚間,復(fù)旦大學(xué)邱錫鵬教授團隊發(fā)布國內(nèi)首個類ChatGPT模型MOSS,但是很快就被吐槽,它的中文水平不如英文。

3月30日,阿里達摩院低調(diào)地在魔搭社區(qū)(ModelScope)放出了“文本生成視頻大模型”。結(jié)果,這個大模型也是更懂英文,有體驗者寫到,他輸入提示詞:A panda eating bamboo on a rock。77秒后,大模型給出了一個2秒的熊貓吃竹子視頻。如果換成中文:一只大熊貓坐在巖石上吃竹子。出來的結(jié)果就是一只類似于貓咪的小動物。離題萬里。

02 中文數(shù)據(jù)天生缺陷?

為什么會這樣呢?在微博賬號“劉大可先生”爆錘百度的微博文字下面,第一個留言的名叫“歐陽少慳",他說,文心一言出現(xiàn)這種情況的因為在于,目前開源的圖文數(shù)據(jù)大部分是英文的,可以參考LAION這個開源數(shù)據(jù)庫,所以目前的diffusion model基本都是英文驅(qū)動,這也導(dǎo)致了“劉大可先生”說的怪異現(xiàn)象。

“當(dāng)然,我們期待同等規(guī)模的中文開源數(shù)據(jù)庫的出現(xiàn)。stable diffusion是一種網(wǎng)絡(luò)結(jié)構(gòu),開發(fā)者完全可以使用LAION數(shù)據(jù)集和sd結(jié)構(gòu)訓(xùn)練一個自己的網(wǎng)絡(luò),不需要套皮?!彼f。

23日中午,百度官方公眾號發(fā)了一則聲明,寫到:“文心一言完全是百度自研的大語言模型,文生圖能力來自文心跨模態(tài)大模型ERNIE-ViLG。在大模型訓(xùn)練中,我們使用的是全球互聯(lián)網(wǎng)公開數(shù)據(jù),符合行業(yè)慣例。大家也會從接下來文生圖能力的快速調(diào)優(yōu)迭代,看到百度的自研實力?!?/p>

有從業(yè)者稱,這基本等于承認(rèn)使用了LAION。LAION,這是目前最為知名的大規(guī)模圖文多模態(tài)數(shù)據(jù)集。作為一個非營利性組織,LAION提供數(shù)據(jù)集、工具和模型來解放機器學(xué)習(xí)研究。官網(wǎng)寫到:我們通過這樣做,鼓勵開放的公共教育,并通過重用現(xiàn)有數(shù)據(jù)集和模型來更環(huán)保地使用資源。

從這個角度理解,說文心一言“套皮”或許還是比較武斷的。到底是不是“套皮”,或者百度的語言大模型在技術(shù)上有沒有參考海外項目?我們還要等待更多的來自行業(yè)的披露信息。

但是,這個事情從側(cè)面肯定能說明一個問題,雖然,我們一直強調(diào)中國有海量的數(shù)據(jù),但企業(yè)的實踐卻表明:不好用。

復(fù)旦MOSS大模型被質(zhì)疑中文水平不如英文時,MOSS研究團隊就坦承,“MOSS的英文回答水平比中文高,因為它的模型基座學(xué)習(xí)了3000多億個英文單詞,中文詞語只學(xué)了約300億個?!?/p>

而澎湃新聞采訪了粵港澳大灣區(qū)數(shù)字經(jīng)濟研究院(IDEA)認(rèn)知計算與自然語言中心文本生成算法團隊負(fù)責(zé)人王昊,他說:“數(shù)據(jù)質(zhì)量的差別是主要瓶頸之一。相較于英文數(shù)據(jù),中文數(shù)據(jù)的開源程度較低,導(dǎo)致中文數(shù)據(jù)集的規(guī)模相對較小。此外,英文作為科研主流語言,在學(xué)術(shù)界和工業(yè)界中得到廣泛應(yīng)用,積累了大量高質(zhì)量的語料數(shù)據(jù),這為英文自然語言處理的研究提供了極大的優(yōu)勢?!?/p>

有一個數(shù)據(jù)很現(xiàn)實:雖然簡體中文互聯(lián)網(wǎng)用戶和英文互聯(lián)網(wǎng)用戶規(guī)模相當(dāng),但在全球排名前1000萬個網(wǎng)站中,英文內(nèi)容占比60.4%,中文內(nèi)容占比僅為1.4%。

這會是中國企業(yè)探索大語言模型的問題和瓶頸嗎?可能也不是。或是觀念,尤其是意識形態(tài)的阻礙更大。

中關(guān)村新場景MA Club發(fā)起人檀林在一次分享中質(zhì)問:“做一個中國的大語言模型,自己給自己砌一道墻,和全球分開。就像做一個純中文的操作系統(tǒng)一樣,能有多大的意義?大家都知道,簡體中文的數(shù)據(jù)質(zhì)量很差,語料庫的知識含量和價值已經(jīng)比海外的幾個大語言模型要低得多了,所以如果現(xiàn)在還非要給自己一個束縛的話,我覺得這種態(tài)度在開局就輸了?!?/p>

中國企業(yè)要想在大語言模型的賽道分一杯羹,蹚出一條路,使用英文數(shù)據(jù)是不得已,沒辦法。當(dāng)然,我們顯然更期待中文數(shù)據(jù)領(lǐng)域能有更好的發(fā)展。

關(guān)鍵詞:

責(zé)任編輯:hnmd004