GPT-4是8x2200億參數(shù)的混合模型?這個(gè)小道消息今天傳瘋了
時(shí)間:2023-06-23 10:38:08
機(jī)器之心報(bào)道
編輯:吳昕
George Hotz:除了蘋果之外,大部分公司保密的原因都不是在隱藏什么黑科技,而是在隱藏一些?「不那么酷」的東西。
「GPT-4 的參數(shù)量高達(dá) 100 萬億?!瓜嘈藕芏嗳诉€記得這個(gè)年初刷屏的「重磅」消息和一張被病毒式傳播的圖表。
(資料圖)
不過很快,OpenAI 的 CEO Sam Altman 就出來辟謠,證實(shí)這是一條假消息,并表示,「關(guān)于 GPT-4 的謠言都很荒謬。我甚至不知道這從何而起?!?/p>
實(shí)際上,許多人相信并傳播這樣的謠言是因?yàn)榻陙?AI 社區(qū)不斷在增加 AI 模型的參數(shù)規(guī)模。谷歌在 2021 年 1 月發(fā)布的 Switch Transformer 就把 AI 大模型參數(shù)量拉高到了 1.6 萬億。在此之后,很多機(jī)構(gòu)也陸續(xù)推出了自己的萬億參數(shù)大模型。據(jù)此,人們有充分的理由相信,GPT-4 將是一個(gè)萬億參數(shù)的巨量模型,100 萬億參數(shù)也不是不可能。
雖然 Sam Altman 的辟謠幫我們?nèi)サ袅艘粋€(gè)錯(cuò)誤答案,但他背后的 OpenAI 團(tuán)隊(duì)一直對(duì) GPT-4 的真實(shí)參數(shù)量守口如瓶,就連 GPT-4 的官方技術(shù)報(bào)告也沒透露任何信息。
直到最近,這個(gè)謎團(tuán)疑似被「天才黑客」喬治?霍茲(George Hotz)捅破了。
喬治?霍茲因 17 歲破解 iPhone、21 歲攻陷索尼 PS3 而聞名,目前是一家研發(fā)自動(dòng)駕駛輔助系統(tǒng)的公司(comma.ai)的老板。
最近,他接受了一家名為 Latent Space 的 AI 技術(shù)播客的采訪。在采訪中,他談到了 GPT-4,稱 GPT-4 其實(shí)是一個(gè)混合模型。具體來說,它采用了由 8 個(gè)專家模型組成的集成系統(tǒng),每個(gè)專家模型都有 2200 億個(gè)參數(shù)(比 GPT-3 的 1750 億參數(shù)量略多一些),并且這些模型經(jīng)過了針對(duì)不同數(shù)據(jù)和任務(wù)分布的訓(xùn)練。
在這段播客播出之后,PyTorch 創(chuàng)建者 Soumith Chintala 表示自己似乎聽過同樣的「?jìng)髀劇?,很多人可能也聽過,但只有 George Hotz 在公開場(chǎng)合將其說了出來。
「混合模型是你在無計(jì)可施的時(shí)候才會(huì)考慮的選項(xiàng),」George Hotz 調(diào)侃說,「混合模型的出現(xiàn)是因?yàn)闊o法讓模型的參數(shù)規(guī)模超過 2200 億。他們希望模型變得更好,但如果僅僅是訓(xùn)練時(shí)間更長(zhǎng),效果已經(jīng)遞減。因此,他們采用了八個(gè)專家模型來提高性能?!怪劣谶@個(gè)混合模型是以什么形式工作的,George Hotz 并沒有詳細(xì)說明。
為什么 OpenAI 對(duì)此諱莫如深呢?George Hotz 認(rèn)為,除了蘋果之外,大部分公司保密的原因都不是在隱藏什么黑科技,而是在隱藏一些「不那么酷」的東西,不想讓別人知道「只要花 8 倍的錢你也能得到這個(gè)模型」。
對(duì)于未來的趨勢(shì),他認(rèn)為,人們會(huì)訓(xùn)練規(guī)模較小的模型,并通過長(zhǎng)時(shí)間的微調(diào)和發(fā)現(xiàn)各種技巧來提升性能。他提到,與過去相比,訓(xùn)練效果已經(jīng)明顯提升,盡管計(jì)算資源沒有變化,這表明訓(xùn)練方法的改進(jìn)起到了很大作用。
目前,George Hotz 關(guān)于 GPT-4 的「爆料」已經(jīng)在推特上得到了廣泛傳播。
有人從中得到了靈感,聲稱要訓(xùn)練一個(gè) LLaMA 集合來對(duì)抗 GPT-4。
還有人說,如果真的像 George Hotz 說的那樣,GPT-4 是一個(gè)由 8 個(gè) 2200 億參數(shù)的專家模型組合的混合模型,那很難想象背后的推理成本有多高。
需要指出的是,由于 George Hotz 并未提及消息來源,我們目前無法判斷以上論斷是否正確。有更多線索的讀者歡迎在評(píng)論區(qū)留言。
相關(guān)稿件
GPT-4是8x2200億參數(shù)的混合模型?這個(gè)小道消息今天傳瘋了
當(dāng)前關(guān)注:生肖運(yùn)勢(shì):這個(gè)生肖最能干、最勤奮、但卻最保守!
當(dāng)前熱訊:內(nèi)蒙古興安盟積極融入長(zhǎng)春經(jīng)濟(jì)圈
環(huán)球看熱訊:對(duì)浪漫有免疫細(xì)胞的星座女有哪些呢?
通訊連接器小巨人翻倍上漲!海外機(jī)構(gòu)調(diào)研股跑贏大盤,多股獲外資加倉(cāng)(附股)
阿東任第一書記!新一屆團(tuán)中央領(lǐng)導(dǎo)班子出爐:共3位“80后”,兩位是女性
每日期貨市場(chǎng)要聞速遞(6月23日)|世界快播報(bào)
端午假期首日寧夏A級(jí)景區(qū)接待游客24.61萬人次
全球今頭條!浙江這個(gè)古鎮(zhèn),一年接待1000萬游客,門票堪比故宮仍供不應(yīng)求
當(dāng)前頭條:端午假期首日粵港澳大灣區(qū)車展人氣旺,記者實(shí)地探訪→
美轟炸機(jī)降落瑞典空軍基地 網(wǎng)友:回家去!
頭條焦點(diǎn):南京:今年新建商品房已累計(jì)成交超450萬平方米,購(gòu)房需求持續(xù)釋放
每日快看:特斯拉市值一夜大漲441億美元、與美國(guó)各大車企紛紛接入其充電標(biāo)準(zhǔn)有關(guān)
就是不停產(chǎn)!這些家轎月銷個(gè)位數(shù),買它們的都是勇士-天天看點(diǎn)
LME調(diào)整部分商品保證金標(biāo)準(zhǔn)
塵埃落定!馬刺用狀元簽選中超級(jí)新星維克托-文班亞馬 百事通
報(bào)道:保供給保增收保穩(wěn)定 農(nóng)業(yè)農(nóng)村部部署夏季水產(chǎn)養(yǎng)殖生產(chǎn)工作
日喀則旅游新地標(biāo),全國(guó)海拔最高的西藏珠峰文化旅游創(chuàng)意產(chǎn)業(yè)園|全球訊息 環(huán)球熱門
韓國(guó)現(xiàn)代汽車將出售兩家中國(guó)工廠 因中國(guó)市場(chǎng)銷售低迷_全球熱資訊
全球觀察:燒烤店爆炸報(bào)警人:更換閥門時(shí)爆炸 基本信息講解
報(bào)道:泰安2個(gè)集群、3家企業(yè)入選2023年度省“雁陣形”集群庫(kù)和領(lǐng)軍企業(yè)庫(kù)
教育頻道
GPT-4是8x2200億參數(shù)的混合模型?這個(gè)小道消息今天傳瘋了
財(cái)報(bào)無法提供明確投資指引,投資者可聚焦防御性成長(zhǎng)型企業(yè)
【天天速看料】標(biāo)準(zhǔn)單人床尺寸規(guī)格(標(biāo)準(zhǔn)雙人床尺寸規(guī)格)
全球今頭條!浙江這個(gè)古鎮(zhèn),一年接待1000萬游客,門票堪比故宮仍供不應(yīng)求
2023年選秀之夜可能發(fā)生的4隊(duì)交易,牽涉到湖人、勇士、快船奇才-天天看點(diǎn)
天天日?qǐng)?bào)丨攜號(hào)轉(zhuǎn)網(wǎng)移動(dòng)轉(zhuǎn)電信后套餐_攜號(hào)轉(zhuǎn)網(wǎng)移動(dòng)轉(zhuǎn)電信
創(chuàng)建重慶中醫(yī)藥學(xué)院直屬附屬醫(yī)院!區(qū)中醫(yī)院迎專家組評(píng)審


