GPT-4是8x2200億參數(shù)的混合模型?這個小道消息今天傳瘋了 環(huán)球熱聞
時間:2023-06-24 01:05:23
機器之心報道
編輯:吳昕
(資料圖)
George Hotz:除了蘋果之外,大部分公司保密的原因都不是在隱藏什么黑科技,而是在隱藏一些?「不那么酷」的東西。
「GPT-4 的參數(shù)量高達(dá) 100 萬億?!瓜嘈藕芏嗳诉€記得這個年初刷屏的「重磅」消息和一張被病毒式傳播的圖表。
不過很快,OpenAI 的 CEO Sam Altman 就出來辟謠,證實這是一條假消息,并表示,「關(guān)于 GPT-4 的謠言都很荒謬。我甚至不知道這從何而起?!?/p>
實際上,許多人相信并傳播這樣的謠言是因為近年來 AI 社區(qū)不斷在增加 AI 模型的參數(shù)規(guī)模。谷歌在 2021 年 1 月發(fā)布的 Switch Transformer 就把 AI 大模型參數(shù)量拉高到了 1.6 萬億。在此之后,很多機構(gòu)也陸續(xù)推出了自己的萬億參數(shù)大模型。據(jù)此,人們有充分的理由相信,GPT-4 將是一個萬億參數(shù)的巨量模型,100 萬億參數(shù)也不是不可能。
雖然 Sam Altman 的辟謠幫我們?nèi)サ袅艘粋€錯誤答案,但他背后的 OpenAI 團(tuán)隊一直對 GPT-4 的真實參數(shù)量守口如瓶,就連 GPT-4 的官方技術(shù)報告也沒透露任何信息。
直到最近,這個謎團(tuán)疑似被「天才黑客」喬治?霍茲(George Hotz)捅破了。
喬治?霍茲因 17 歲破解 iPhone、21 歲攻陷索尼 PS3 而聞名,目前是一家研發(fā)自動駕駛輔助系統(tǒng)的公司(comma.ai)的老板。
最近,他接受了一家名為 Latent Space 的 AI 技術(shù)播客的采訪。在采訪中,他談到了 GPT-4,稱 GPT-4 其實是一個混合模型。具體來說,它采用了由 8 個專家模型組成的集成系統(tǒng),每個專家模型都有 2200 億個參數(shù)(比 GPT-3 的 1750 億參數(shù)量略多一些),并且這些模型經(jīng)過了針對不同數(shù)據(jù)和任務(wù)分布的訓(xùn)練。
在這段播客播出之后,PyTorch 創(chuàng)建者 Soumith Chintala 表示自己似乎聽過同樣的「傳聞」,很多人可能也聽過,但只有 George Hotz 在公開場合將其說了出來。
「混合模型是你在無計可施的時候才會考慮的選項,」George Hotz 調(diào)侃說,「混合模型的出現(xiàn)是因為無法讓模型的參數(shù)規(guī)模超過 2200 億。他們希望模型變得更好,但如果僅僅是訓(xùn)練時間更長,效果已經(jīng)遞減。因此,他們采用了八個專家模型來提高性能?!怪劣谶@個混合模型是以什么形式工作的,George Hotz 并沒有詳細(xì)說明。
為什么 OpenAI 對此諱莫如深呢?George Hotz 認(rèn)為,除了蘋果之外,大部分公司保密的原因都不是在隱藏什么黑科技,而是在隱藏一些「不那么酷」的東西,不想讓別人知道「只要花 8 倍的錢你也能得到這個模型」。
對于未來的趨勢,他認(rèn)為,人們會訓(xùn)練規(guī)模較小的模型,并通過長時間的微調(diào)和發(fā)現(xiàn)各種技巧來提升性能。他提到,與過去相比,訓(xùn)練效果已經(jīng)明顯提升,盡管計算資源沒有變化,這表明訓(xùn)練方法的改進(jìn)起到了很大作用。
目前,George Hotz 關(guān)于 GPT-4 的「爆料」已經(jīng)在推特上得到了廣泛傳播。
有人從中得到了靈感,聲稱要訓(xùn)練一個 LLaMA 集合來對抗 GPT-4。
還有人說,如果真的像 George Hotz 說的那樣,GPT-4 是一個由 8 個 2200 億參數(shù)的專家模型組合的混合模型,那很難想象背后的推理成本有多高。
需要指出的是,由于 George Hotz 并未提及消息來源,我們目前無法判斷以上論斷是否正確。有更多線索的讀者歡迎在評論區(qū)留言。
相關(guān)稿件
GPT-4是8x2200億參數(shù)的混合模型?這個小道消息今天傳瘋了 環(huán)球熱聞
焦點報道:《功勛》《大決戰(zhàn)》《我們這十年》獲得白玉蘭評委會大獎
鶴壁市鶴山區(qū)2023年夏季文旅促消費暨“夏日微涼、端午安康”系列活動啟動-環(huán)球報資訊
民俗文化共傳承 新鄉(xiāng)市衛(wèi)濱區(qū)舉辦“我們的節(jié)日·端午”新時代文明實踐志愿服務(wù)活動_獨家
當(dāng)前通訊!雙動力系統(tǒng)加持,新“問界M5”增程版曝光 外觀有調(diào)整,或Q3亮相
第28屆白玉蘭:雷佳音憑《人世間》得影帝,吳越爆冷獲影后_當(dāng)前時訊
國華(00370)發(fā)盈警 預(yù)期年度公司擁有人應(yīng)占虧損將不少于3億港元
全球今頭條!阿富汗地震一周年丨重建艱難 美國單邊制裁加劇民眾痛苦
溫州房價五連跌,溫州樓市的神話結(jié)束了,溫州樓市半年分析
廣西玉林一男子搶劫金店被特警帶走?老板辟謠:系員工與男友產(chǎn)生感情糾紛
譽燊豐控股(02132)發(fā)年度業(yè)績 股東應(yīng)占溢利3279.1萬港元 同比減少20.47%|天天速看料
當(dāng)前頭條:資訊推薦:不顧醫(yī)生勸阻,每天2包煙,頓頓8兩白酒的演員李琦,如今變成這樣
起亞中國首款純電車EV6 28日開啟盲訂 8月正式上市_世界速看料
韓國現(xiàn)代汽車將出售兩家中國工廠 因中國市場銷售低迷
【世界速看料】青島即墨旅投公司發(fā)行2023年度第二期5億元超短期融資券
教育頻道
當(dāng)前頭條:資訊推薦:不顧醫(yī)生勸阻,每天2包煙,頓頓8兩白酒的演員李琦,如今變成這樣
世茂集團(tuán):預(yù)期內(nèi)部監(jiān)控檢討將于2023年7月完成_全球時訊
23年樂透出爐:湯普森兄弟創(chuàng)6紀(jì)錄 亨德森僅探花苦笑 白魔輸麻了 天天觀速訊
哈蘭德沒希望了,法國足球總編刻意強調(diào),梅西金球獎已無懸念 環(huán)球聚看點
【環(huán)球新要聞】印度也能進(jìn)日本4個U17亞洲杯,日本8-4印度,下半場雙方進(jìn)9球
2023粵港澳車展:911 GT3 RS實車首次公眾亮相 世界實時


