首頁 > 熱點 > 正文

天天訊息：高中教師養(yǎng)出40億美元超級獨角獸，Stable Diffusion背后數(shù)據(jù)集創(chuàng)建者，還發(fā)布ChatGPT最大平替

2023-04-30 16:43:43來源：引領外匯網(wǎng)

高中教師養(yǎng)出40億美元超級獨角獸，StableDiffusion背后數(shù)據(jù)集創(chuàng)建者，還發(fā)布ChatGPT最大平替,還沒收過一分錢

還沒收過一分錢

(相關(guān)資料圖)

編者按：本文來自微信公眾號量子位（ID：QbitAI），作者：楊凈，創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載

他本是一位普普通通的高中教師，卻活生生養(yǎng)出一個估值40億美元獨角獸。

而且方法也是非常的獨特——

打造了世界最大的免費開源數(shù)據(jù)集，卻從未從中收取過一分錢，也婉拒了各類工作的邀請。

他叫舒曼，在德國漢堡市的高中教物理和計算機科學。

兩年前他創(chuàng)立了LAION（相當于CLIP圖文數(shù)據(jù)集），如今被用于各種生成模型，包括谷歌Imagen、Parti，以及驚艷全球的Stable Diffusion。

就連Stable Diffuision背后公司Stability AI的創(chuàng)始人曾親自來送錢時，他都表現(xiàn)出嗤之以鼻的樣子，認定“這個人一定是瘋了”。

或許他怎么也沒想到，只不過兩年前靈機一動，就帶來了生成式AI的劇變。

受DALL-E啟發(fā)

2021年新年之際，OpenAI重磅推出DALL-E，GPT-3首次成功實現(xiàn)跨界：

一時間風光無兩，吳恩達在內(nèi)的科技大佬們都激動了，網(wǎng)友們都稱其為甲方克星。

但在德國漢堡市郊區(qū)的一間房屋內(nèi)，這位高中教師舒曼（Christoph Schuhmann）卻產(chǎn)生了對數(shù)據(jù)私有化的擔憂：

當時，OpenAI發(fā)表了背后關(guān)鍵模型CLIP的論文。論文中顯示，CLIP在4億個圖像-文本對上進行了預訓練，在沒有精細調(diào)整的情況下，最終在各種多模態(tài)基準中實現(xiàn)高性能。

由此可見數(shù)據(jù)集對于CLIP的重要性，但OpenAI并沒有進行公開，它只開源了CLIP的代碼和模型權(quán)重。

（看來從那時候就已經(jīng)變得Close了）

于是乎，舒曼就開始在Discord網(wǎng)羅了一群同為AI愛好者的朋友，嘗試復制OpenAI同等水平的「文本-圖像對」數(shù)據(jù)集。

沒想到這一搞就搞了大半年，直到2021年8月他們首次發(fā)布了LAION-400M數(shù)據(jù)集，里面包含了4.13億圖像-文本對。

回顧整個創(chuàng)建過程，舒曼對彭博社這樣形容：

他們用一個非盈利組織Common Crawl在2014年到2021年期間，抓取的隨機HTML代碼來定位網(wǎng)絡上的圖像，并將這些圖像與描述性文本聯(lián)系起來，最后還得根據(jù)一定規(guī)則來過濾掉不適合的樣本。

比如，刪除了所有文本長度少于五個字符；圖像小于5KB的的樣本；關(guān)鍵字帶有NSFW的……幾周之內(nèi)，他們就擁有了300萬對圖文對。

數(shù)據(jù)集發(fā)布之后就收到了各種反響，被用于諸多論文和實驗。其中最具代表性的，就是Google Brain去年（2022）發(fā)布的Imagen——文本生成圖像的擴散模型。

與此同時，更多機構(gòu)開始關(guān)注到這個非盈利組織并給予資金支持。2021年他們就收到了HuggingFace的一次性捐贈。

但印象最深的一次，還要屬一個對沖基金經(jīng)理來到Discord聊天室。

當時他二話不說直接送錢，大概意思是：我給你們支付算力費用，沒有任何附加條件。

舒曼團隊對這個行為嗤之以鼻，甚至覺得他是個瘋子：

后來，這個所謂的“瘋子”創(chuàng)辦了Stability AI，使用LAION數(shù)據(jù)集推出了Stable Diffusion，引領了生成式AI的浪潮，順便還拐走了LAION組織的兩個研究人員。

如今Stability AI正在尋求40億美元（折合276億元）估值，這主要歸功于LAION提供的數(shù)據(jù)。

據(jù)彭博社消息，舒曼卻并沒有從LAION中獲利，原因很簡單：不感興趣，希望保持這份工作的獨立性。

因此他還婉拒了各類工作邀請，依舊選擇在德國漢堡當一名普普通通的高中老師。

本人：數(shù)據(jù)集不應該被監(jiān)控

即便如此，隨著LAION知名度打響，他還是避免不了地卷入到各種紛擾之中。

目前，LAION已經(jīng)發(fā)布了10項數(shù)據(jù)集，最具代表性的就是去年3月發(fā)布的LAION-5B，由58.5億個圖像文本組成，是當前最大的免費開源數(shù)據(jù)集。

作為LAION-400M的繼任者，它收到了來自HuggingFace、Stability AI以及Doodlebot資助。

結(jié)果一發(fā)布就遭到了不小的爭議，網(wǎng)友們紛紛質(zhì)疑其數(shù)據(jù)未經(jīng)整理，導致充斥大量的非法內(nèi)容，對此LAION工程師Romain Beaumont回應：

早在Imagen發(fā)布時，也專門針對LAION-400M做出警示：因為依賴于這種未經(jīng)整理的網(wǎng)絡數(shù)據(jù)，集成了大模型的社會偏見和限制，因此不適合公開使用。

據(jù)彭博社消息，為了打造LAION，舒曼團隊從亞馬遜網(wǎng)絡服務、Shopify等公司獲取視覺數(shù)據(jù)，還有包括YouTube縮略圖、各類新聞網(wǎng)站上的內(nèi)容。

對此舒曼表示，任何在網(wǎng)上免費提供的東西都是公平競爭，歐盟也沒有人工智能法規(guī)。

更何況，也沒有人知道OpenAI實際上用什么樣的數(shù)據(jù)集訓練AI的。

目前，LAION被迫卷入兩場訴訟之中，一起是Stability AI與Midjourney等集體訴訟，被指使用藝術(shù)家的版權(quán)圖片來訓練他們的模型；

另一起是Getty Images起訴Stability AI，稱其1200萬張照片被LAION取走，并用來訓練Stable Diffusion。

而舒曼將LAION比作大信息技術(shù)海嘯之上一艘“小型研究船”，采取海下的樣本向世界展示。

其實早在構(gòu)建數(shù)據(jù)庫時，他們就在運行一個自動化過濾工具，不過舒曼感興趣的不是清理，而是從這些資產(chǎn)中學習。

現(xiàn)在更多關(guān)于監(jiān)管的建議在推動，各個科技大廠也在采取相應的措施，比如英偉達就開源了護欄工具，來防止大模型來胡說八道。

但在舒曼看來，數(shù)據(jù)集不應該被監(jiān)控。這也正是當時創(chuàng)建LAION時候的初心。

他還警告，如果我們試圖放慢速度、過度監(jiān)管，就會有很大的危險，最終只有少數(shù)大公司能負擔得起所有的正式要求。

前段時間，在LAION與全球志愿者的合力之下，他們完成了ChatGPT最大開源平替OpenAssistant的發(fā)布。

60萬余條訓練數(shù)據(jù)全部由人工生成，涵蓋了廣泛的話題和語言風格，一時間引發(fā)眾人關(guān)注，HuggingFace也直接拿來用來構(gòu)建它自己的聊天軟件HuggingChat。

拿著德國鐵飯碗

不可否認的是，他已經(jīng)在用開源數(shù)據(jù)集，加劇了生成式AI的浪潮。

但在舒曼的個人網(wǎng)站上，看到的只是一位兩個孩子的父親，在德國當著終身制公務員，游走于中學校之間講授物理和計算機科學。

舒曼擁有維也納大學計算機科學與物理學學位。在學習這兩個專業(yè)之前，他還學了心理學。（大概完成了50%的學士學位然后就轉(zhuǎn)專業(yè)了）。

除此之外，他還在學習表演，制作了一部關(guān)于孩子學習的紀錄片「Schools of Trust」。

參考鏈接：

[1]https://laion.ai/blog/laion-400-open-dataset/

[2]https://www.bloomberg.com/news/features/2023-04-24/a-high-school-teacher-s-free-image-database-powers-ai-unicorns

[3]http://christoph-schuhmann.de/

[4]https://www.infoq.com/news/2022/05/laion-5b-image-text-dataset/

[5]https://laion.ai/projects/

關(guān)鍵詞：

責任編輯：hnmd004

天天訊息：高中教師養(yǎng)出40億美元超級獨角獸2023-04-30
五城新店攜拳頭新品隆重登場，林氏睡眠再創(chuàng)2023-04-30
視焦點訊！貴港市公安局開展對被侵害民輔警2023-04-30
當前速訊：蹦極、飛拉達、非遺……“五一”2023-04-30
世界看點：342.5萬人次！這個“五一”，長2023-04-30
馬薩伊爾怎么打_馬薩伊爾2023-04-30
天天簡訊:【奈落學會】來自深淵：遺物名相2023-04-30
宋詞中的大宋環(huán)球觀速訊2023-04-30
珞瑜路509號洪山區(qū)財政局二樓2023-04-30
日加氫能力可達500kg！甘肅省首座加氫站在2023-04-30
【世界聚看點】特斯拉Model S和Model X在2023-04-30
北京兩大機場“五一”假期首日航班架次和旅2023-04-30
暴雪CEO呼吁更多公司合并以便與騰訊競爭：2023-04-30
破產(chǎn)費用的范圍有哪些內(nèi)容-快資訊2023-04-30
世界訊息：王映海督導檢查全市假日安全生產(chǎn)2023-04-30
貴州大學的宿舍怎么樣條件16人間全球消息2023-04-30
快訊｜今天，煙臺德潤快速路首段瀝青路面試2023-04-30
時長12小時！長春市農(nóng)安縣全縣計劃停水，請2023-04-30
「戰(zhàn)山為王」56《你是我的私有寶貝》霸攻/2023-04-30
當年輕人出游盯上順風車：一下午涌進3500單2023-04-30
港珠澳大橋車輛通行創(chuàng)單日新高-焦點熱文2023-04-30
遼寧單體容量最大的陸上風電項目實現(xiàn)全容量2023-04-30
“五一”小長假鹽田區(qū)購物攻略來了：超千萬2023-04-30
怎么設置指紋解鎖微信怎么設置指紋解鎖2023-04-30
快看：中國4月官方制造業(yè)PMI 49.2 較上月2023-04-30
前沿熱點：京直播推薦｜跟著勞模上班去！全2023-04-30
國家網(wǎng)信辦：百度、新浪微博、豆瓣等履行主2023-04-30
【快播報】等差數(shù)列的定義和通項公式_等差2023-04-30
南丫島視頻_南丫夢幻島_天天信息2023-04-30
當前時訊：巴西能源部長會見中國能建國際董2023-04-30

精彩推薦

閱讀排行

銅川：數(shù)字銅川建設“開花結(jié)果”...
資產(chǎn)負債率超100% 13股拉響紅色警報
建設銀行江蘇省分行與江蘇省文化...
政銀企聯(lián)動促汽車消費郵儲銀行...
快遞業(yè)企穩(wěn)回升印證市場回暖一...
內(nèi)蒙古一季度金融數(shù)據(jù)“出爐” ...
4月27日國內(nèi)黃金期貨漲0.37% 世界通訊
4月27日國內(nèi)原油期貨跌5.26%
黃金理財產(chǎn)品靠譜嗎？普通人怎么...
余額寶提現(xiàn)多久到賬？余額寶普通...

世界新動態(tài)：米哈游的新游戲，只記住了「老婆們」
上一篇2023-04-30 12:34:59

黑人大群体交免费视频,国精产品一区二区三区糖心,孩交videos精品乱子,欧美奶涨边摸边做爰视频

天天訊息：高中教師養(yǎng)出40億美元超級獨角獸，Stable Diffusion背后數(shù)據(jù)集創(chuàng)建者，還發(fā)布ChatGPT最大平替

精彩推薦

股票與基金哪個更適合投資？一只股票被太多基金持有會怎樣？

閱讀排行

推薦閱讀

天天訊息：高中教師養(yǎng)出40億美元超級獨角獸，Stable Diffusion背后數(shù)據(jù)集創(chuàng)建者，還發(fā)布ChatGPT最大平替

股票與基金哪個更適合投資？一只股票被太多基金持有會怎樣？