久久久噜噜噜久久熟女,久久久久久久久,国内精品,精品国产成人亚洲午夜福利,久久天堂av综合合色蜜桃网,好姑娘在线观看完整视频高清

首頁(yè) > 教育頻道

GPT-4是8x2200億參數(shù)的混合模型?這個(gè)小道消息今天傳瘋了

來源:機(jī)器之心Pro 時(shí)間:2023-06-23 10:38:08

機(jī)器之心報(bào)道

編輯:吳昕

George Hotz:除了蘋果之外,大部分公司保密的原因都不是在隱藏什么黑科技,而是在隱藏一些?「不那么酷」的東西。

「GPT-4 的參數(shù)量高達(dá) 100 萬億?!瓜嘈藕芏嗳诉€記得這個(gè)年初刷屏的「重磅」消息和一張被病毒式傳播的圖表。


(資料圖)

不過很快,OpenAI 的 CEO Sam Altman 就出來辟謠,證實(shí)這是一條假消息,并表示,「關(guān)于 GPT-4 的謠言都很荒謬。我甚至不知道這從何而起?!?/p>

實(shí)際上,許多人相信并傳播這樣的謠言是因?yàn)榻陙?AI 社區(qū)不斷在增加 AI 模型的參數(shù)規(guī)模。谷歌在 2021 年 1 月發(fā)布的 Switch Transformer 就把 AI 大模型參數(shù)量拉高到了 1.6 萬億。在此之后,很多機(jī)構(gòu)也陸續(xù)推出了自己的萬億參數(shù)大模型。據(jù)此,人們有充分的理由相信,GPT-4 將是一個(gè)萬億參數(shù)的巨量模型,100 萬億參數(shù)也不是不可能。

雖然 Sam Altman 的辟謠幫我們?nèi)サ袅艘粋€(gè)錯(cuò)誤答案,但他背后的 OpenAI 團(tuán)隊(duì)一直對(duì) GPT-4 的真實(shí)參數(shù)量守口如瓶,就連 GPT-4 的官方技術(shù)報(bào)告也沒透露任何信息。

直到最近,這個(gè)謎團(tuán)疑似被「天才黑客」喬治?霍茲(George Hotz)捅破了。

喬治?霍茲因 17 歲破解 iPhone、21 歲攻陷索尼 PS3 而聞名,目前是一家研發(fā)自動(dòng)駕駛輔助系統(tǒng)的公司(comma.ai)的老板。

最近,他接受了一家名為 Latent Space 的 AI 技術(shù)播客的采訪。在采訪中,他談到了 GPT-4,稱 GPT-4 其實(shí)是一個(gè)混合模型。具體來說,它采用了由 8 個(gè)專家模型組成的集成系統(tǒng),每個(gè)專家模型都有 2200 億個(gè)參數(shù)(比 GPT-3 的 1750 億參數(shù)量略多一些),并且這些模型經(jīng)過了針對(duì)不同數(shù)據(jù)和任務(wù)分布的訓(xùn)練。

在這段播客播出之后,PyTorch 創(chuàng)建者 Soumith Chintala 表示自己似乎聽過同樣的「?jìng)髀劇?,很多人可能也聽過,但只有 George Hotz 在公開場(chǎng)合將其說了出來。

「混合模型是你在無計(jì)可施的時(shí)候才會(huì)考慮的選項(xiàng),」George Hotz 調(diào)侃說,「混合模型的出現(xiàn)是因?yàn)闊o法讓模型的參數(shù)規(guī)模超過 2200 億。他們希望模型變得更好,但如果僅僅是訓(xùn)練時(shí)間更長(zhǎng),效果已經(jīng)遞減。因此,他們采用了八個(gè)專家模型來提高性能?!怪劣谶@個(gè)混合模型是以什么形式工作的,George Hotz 并沒有詳細(xì)說明。

為什么 OpenAI 對(duì)此諱莫如深呢?George Hotz 認(rèn)為,除了蘋果之外,大部分公司保密的原因都不是在隱藏什么黑科技,而是在隱藏一些「不那么酷」的東西,不想讓別人知道「只要花 8 倍的錢你也能得到這個(gè)模型」。

對(duì)于未來的趨勢(shì),他認(rèn)為,人們會(huì)訓(xùn)練規(guī)模較小的模型,并通過長(zhǎng)時(shí)間的微調(diào)和發(fā)現(xiàn)各種技巧來提升性能。他提到,與過去相比,訓(xùn)練效果已經(jīng)明顯提升,盡管計(jì)算資源沒有變化,這表明訓(xùn)練方法的改進(jìn)起到了很大作用。

目前,George Hotz 關(guān)于 GPT-4 的「爆料」已經(jīng)在推特上得到了廣泛傳播。

有人從中得到了靈感,聲稱要訓(xùn)練一個(gè) LLaMA 集合來對(duì)抗 GPT-4。

還有人說,如果真的像 George Hotz 說的那樣,GPT-4 是一個(gè)由 8 個(gè) 2200 億參數(shù)的專家模型組合的混合模型,那很難想象背后的推理成本有多高。

需要指出的是,由于 George Hotz 并未提及消息來源,我們目前無法判斷以上論斷是否正確。有更多線索的讀者歡迎在評(píng)論區(qū)留言。

相關(guān)稿件

GPT-4是8x2200億參數(shù)的混合模型?這個(gè)小道消息今天傳瘋了

“野蠻放生”何以屢禁不絕?

當(dāng)前關(guān)注:生肖運(yùn)勢(shì):這個(gè)生肖最能干、最勤奮、但卻最保守!

當(dāng)前熱訊:內(nèi)蒙古興安盟積極融入長(zhǎng)春經(jīng)濟(jì)圈

環(huán)球看熱訊:對(duì)浪漫有免疫細(xì)胞的星座女有哪些呢?

通訊連接器小巨人翻倍上漲!海外機(jī)構(gòu)調(diào)研股跑贏大盤,多股獲外資加倉(cāng)(附股)

阿東任第一書記!新一屆團(tuán)中央領(lǐng)導(dǎo)班子出爐:共3位“80后”,兩位是女性

看熱訊:這粽子是犯了天條嗎?被綁成這樣

甜咸南北兩相宜 端午消費(fèi)更多元

最新動(dòng)作!多國(guó)央行宣布:加息!

每日期貨市場(chǎng)要聞速遞(6月23日)|世界快播報(bào)

端午假期首日寧夏A級(jí)景區(qū)接待游客24.61萬人次

全球今頭條!浙江這個(gè)古鎮(zhèn),一年接待1000萬游客,門票堪比故宮仍供不應(yīng)求

當(dāng)前頭條:端午假期首日粵港澳大灣區(qū)車展人氣旺,記者實(shí)地探訪→

美轟炸機(jī)降落瑞典空軍基地 網(wǎng)友:回家去!

頭條焦點(diǎn):南京:今年新建商品房已累計(jì)成交超450萬平方米,購(gòu)房需求持續(xù)釋放

一條龍舟,穿越千年|世界熱推薦

每日快看:特斯拉市值一夜大漲441億美元、與美國(guó)各大車企紛紛接入其充電標(biāo)準(zhǔn)有關(guān)

就是不停產(chǎn)!這些家轎月銷個(gè)位數(shù),買它們的都是勇士-天天看點(diǎn)

黑桃木_關(guān)于黑桃木的介紹

LME調(diào)整部分商品保證金標(biāo)準(zhǔn)

塵埃落定!馬刺用狀元簽選中超級(jí)新星維克托-文班亞馬 百事通

報(bào)道:保供給保增收保穩(wěn)定 農(nóng)業(yè)農(nóng)村部部署夏季水產(chǎn)養(yǎng)殖生產(chǎn)工作

日喀則旅游新地標(biāo),全國(guó)海拔最高的西藏珠峰文化旅游創(chuàng)意產(chǎn)業(yè)園|全球訊息 環(huán)球熱門

全球快報(bào):任重身高不止181_任重身高

韓國(guó)現(xiàn)代汽車將出售兩家中國(guó)工廠 因中國(guó)市場(chǎng)銷售低迷_全球熱資訊

全球觀察:燒烤店爆炸報(bào)警人:更換閥門時(shí)爆炸 基本信息講解

各部門積極保障端午假期平安有序出行-每日速讀

報(bào)道:泰安2個(gè)集群、3家企業(yè)入選2023年度省“雁陣形”集群庫(kù)和領(lǐng)軍企業(yè)庫(kù)

三高有軍訓(xùn)嗎?_泰山顏悅藍(lán)色價(jià)格多少錢一盒