CREATOR制造、使用工具,實現(xiàn)LLM「自我進(jìn)化」_環(huán)球觀焦點
時間:2023-06-23 00:25:18
機(jī)器之心專欄
(資料圖片僅供參考)
近日,來自清華大學(xué)以及 UIUC 的研究人員聯(lián)合發(fā)布了關(guān)于大模型工具創(chuàng)造的研究框架。其旨在讓大模型自己進(jìn)行工具創(chuàng)造,以此剝離模型的抽象與具象思維能力,以降低任務(wù)推理成本,取得更好的效果。研究進(jìn)一步探索了模型在工具創(chuàng)造方面的潛在應(yīng)用價值,在當(dāng)下對大模型能力的探索上更進(jìn)了一步。
自古以來,工具的使用被視為區(qū)分人與其他物種的一大區(qū)別,也被視為是智能的一種根本體現(xiàn)。而當(dāng)下,人工智能已不再局限于對工具的簡單使用,它們已然能夠根據(jù)問題創(chuàng)造性地建立自己的工具來尋求解決方案。在思維上,這代表著當(dāng)下大模型已經(jīng)能夠掌握更高層次的抽象思維認(rèn)知,并將其與具象思維劃分,共同解決問題;而在能力上,工具創(chuàng)造的出現(xiàn)也意味著模型已經(jīng)能夠從 “學(xué)習(xí)” 中蛻變,去運(yùn)用已知 “創(chuàng)造” 未來的無限可能。
論文鏈接:/pdf/
研究背景
近年來,大規(guī)模語言模型(Large Language Models)取得了顯著的研究進(jìn)展,包括 GPT-3、Codex、PaLM、LLaMA、ChatGPT 和最近發(fā)布的 GPT-4 等。這些模型在上下文學(xué)習(xí)(In-Context Learning)、代碼生成(Code Generation)和各種其他自然語言處理任務(wù)方面表現(xiàn)出色,將模型的潛力進(jìn)一步推向了通用人工智能。
盡管大模型在這些取得了巨大的成功,其當(dāng)下仍然存在很多短板,包括無法識別或回答最新的實時信息、很難在大規(guī)模的數(shù)據(jù)計算上達(dá)到高準(zhǔn)確性,在題干邏輯復(fù)雜時推理能力不穩(wěn)定等等。針對這些短板,研究者開始致力于向當(dāng)前模型架構(gòu)中引入對外部資源的利用能力,例如引入計算器,問答系統(tǒng),維基百科等等外部知識源,來增強(qiáng)模型能力。這一系列研究奠定了模型工具學(xué)習(xí)(Tool Learning)能力的基礎(chǔ)。
然而,當(dāng)下研究中利用的外部工具數(shù)量仍然有限,而在潛在的新任務(wù)類型幾乎是無盡的。因此,在面對新的問題類型時,很難找到現(xiàn)有的適合解決問題的工具。此外,即使提供了有效的可利用的工具,模型需要在工具包文檔中進(jìn)行海量搜索、匹配并針對問題進(jìn)行針對性地規(guī)劃。這將給模型帶來很大的認(rèn)知負(fù)擔(dān),并需要較高的學(xué)習(xí)成本。
因此,研究團(tuán)隊提出了全新的一種研究范式:工具創(chuàng)造(Tool Creation)。其不再是簡單利用大模型使用工具的能力,而是加入了全新的工具創(chuàng)造模塊,讓模型針對所面對的問題進(jìn)行工具創(chuàng)造并尋求解決方案。
利用大模型創(chuàng)造工具能夠提高工具的普適性、可復(fù)用性和多樣性,超越給定 API 的限制。工具創(chuàng)造模塊的設(shè)計還可以減輕大模型的認(rèn)知負(fù)擔(dān),并解耦其進(jìn)行抽象推理(創(chuàng)建可推廣的具有普適性的工具)和具象推理(根據(jù)工具實現(xiàn)細(xì)節(jié)和工具使用文檔進(jìn)行決策)的能力。同時,該框架下模型以代碼作為工具創(chuàng)造的媒介,這使得模型對于錯誤更加敏感,并能根據(jù)工具創(chuàng)造與使用中的問題進(jìn)行回溯與修正。
工具創(chuàng)造范式相比工具使用更加靈活并對不同場景有更強(qiáng)的適應(yīng)能力
CREATOR 研究框架
大模型進(jìn)行工具創(chuàng)造來解決問題的框架 CREATOR 主要分為了以下四個階段:
創(chuàng)造(Creation):運(yùn)用大模型對于問題的抽象推理能力,通過代碼有針對性性地創(chuàng)造所需工具以及其使用說明。
決策(Decision):運(yùn)用大模型對于問題的具象推理能力,決策如何調(diào)用工具來解決當(dāng)前問題。
執(zhí)行(Execution):根據(jù)創(chuàng)造的工具以及決策內(nèi)容,進(jìn)行決策的執(zhí)行,并捕獲執(zhí)行過程中的輸出信息。
修正(Rectification):運(yùn)用大模型對于錯因推理以及自我修復(fù)的能力,對執(zhí)行階段捕捉到的問題進(jìn)行修復(fù)。
大模型進(jìn)行工具創(chuàng)造與決策的流程框架
大模型首先將根據(jù)問題創(chuàng)造所需要的工具以及其相關(guān)使用說明;此后,問題內(nèi)容以及工具信息將同時再次返回給大模型,用以決策針對本問題的解決方案,以及如何使用這些工具。此后,模型將根據(jù)執(zhí)行情況對工具及決策做出調(diào)整,以更好地適應(yīng)問題并尋求解答。
整個工具創(chuàng)造框架靈活運(yùn)用了大模型的不同思維能力:提取問題關(guān)鍵信息的抽象思維推理,根據(jù)任務(wù)實施方案決策的具象思維推理,以及根據(jù)問題尋求解決方案的自我修復(fù)推理。這些能力的解耦幫助大模型避免了在普通推理鏈(Chain-of-Thought, CoT)中的思維混亂而導(dǎo)致的失敗現(xiàn)象,有效提升了大模型對于任務(wù)的適應(yīng)能力及表現(xiàn)。
CREATOR 實驗評測
作者將 CREATOR 框架與當(dāng)前的普通推理鏈方法(CoT),程序推理鏈方法(Program-of-Thought, PoT)以及沒有創(chuàng)造的簡單工具使用(Tool Use)進(jìn)行了比對。同時,為了驗證框架中剝離抽象推理與具象推理的有效性,作者還額外引入了整體工具創(chuàng)造(Tool Create - whole)作為基線,該方法將 CREATOR 框架中的創(chuàng)造階段與決策階段合二為一,不再進(jìn)行推理能力上的解耦。
Creation Challenge 數(shù)據(jù)集問題,標(biāo)準(zhǔn)工具及決策示例
從實驗結(jié)果看來,CREATOR 框架的推理結(jié)果要明顯好于所有基線,尤其相對于標(biāo)準(zhǔn)的推理方法以及程序推理方法,均達(dá)到了更好的效果。同時實驗也證明了對抽象與具象推理能力進(jìn)行解耦也可以有效幫助模型提高準(zhǔn)確率。在 Creation Challenge 測試集上,作者還額外驗證了在有創(chuàng)造什么樣的工具的提示(hint)的情況下,模型將會對問題有著更強(qiáng)的解決能力。因此,提示與思維解耦這兩點也成為了工具創(chuàng)造中的重要影響因素。
不同方法針對任務(wù)難度的準(zhǔn)確率統(tǒng)計
除此之外,作者還驗證了不同方法對于任務(wù)難度的變化曲線,以及修正階段參與輪次與大模型效果提升之間的聯(lián)系。結(jié)果表明,CREATOR 框架面對有難度的問題能夠保持更好的魯棒性,以及修正階段的參與能夠讓不僅是 CREATOR 框架,甚至是 PoT 推理方法都能得到大幅度提升,證實了在實驗中引入修正階段的合理性與有效性。
工具創(chuàng)造的其他優(yōu)勢
在主實驗之外,文章作者也著重探討了工具創(chuàng)造的其他優(yōu)勢以及當(dāng)下大模型工具創(chuàng)造能力的不同展現(xiàn)形式。既然是創(chuàng)造工具,那么作為工具的一大優(yōu)勢必定是其可復(fù)用性。作者也順此思路進(jìn)一步展示了工具的復(fù)用對于任務(wù)效果的提升。
作者設(shè)計了 300 條問題并三個一組分為了 100 組。其中每一組的三個問題雖然場景不同,但都涉及相同的核心知識(Core Knowledge),即同類問題。作者驗證了將對于一個問題創(chuàng)造的工具用于一組問題中的所有場景,是否都能夠有效解決并提升準(zhǔn)確率。
實驗統(tǒng)計表明將模型創(chuàng)造的正確可用的工具遷移到其他同類問題場景,能夠有效提升問題解決的正確率。這即表明大模型創(chuàng)造的工具具有良好的可復(fù)用性,對于同類問題也有著良好的普適性。
除此之外,作者還展示了大模型進(jìn)行工具創(chuàng)造的三個維度:對已有工具進(jìn)行封裝以實現(xiàn)不同目的,將不同工具進(jìn)行組合實現(xiàn)目標(biāo)功能,以及進(jìn)行層次化的工具創(chuàng)建。這三個維度由低到高展示了當(dāng)下大模型工具創(chuàng)造的能力,而這些能力也幫助大模型能夠更高效地適應(yīng)不同場景。
大模型進(jìn)行工具創(chuàng)造的三個維度
總結(jié)
CREATOR 框架通過工具創(chuàng)造實現(xiàn)了大模型抽象與具象思維能力的解耦,是繼工具學(xué)習(xí)之后,對模型能力邊際探索的又一大突破。相信未來的更多研究將會以此為基礎(chǔ),繼續(xù)在工具的使用與創(chuàng)造上不斷證明與增強(qiáng)模型潛力,為我們帶來更多驚喜。
文章主要作者
錢成,清華大學(xué)大三年級本科生,THUNLP 實驗室成員,導(dǎo)師劉知遠(yuǎn)。目前研究方向包括大模型預(yù)訓(xùn)練,大模型高效微調(diào),以及工具學(xué)習(xí)等領(lǐng)域。曾獲清華大學(xué)計算機(jī)綜合優(yōu)秀獎學(xué)金,并以共同一作身份在 EMNLP,ACL 等國際會議中發(fā)表論文。
個人主頁:/
?THE END
轉(zhuǎn)載請聯(lián)系本公眾號獲得授權(quán)
投稿或?qū)で髨蟮溃篶ontent@
相關(guān)稿件
CREATOR制造、使用工具,實現(xiàn)LLM「自我進(jìn)化」_環(huán)球觀焦點
世界微速訊:“端午節(jié)”假期陜西大部天氣晴好 關(guān)中有高溫天氣
【全球聚看點】豬飼料的生產(chǎn)(豬飼料生產(chǎn)加工設(shè)備)
中央氣象臺發(fā)布高溫預(yù)警,預(yù)計新一輪干熱氣團(tuán)再次發(fā)展
2023汛前黃河調(diào)水調(diào)沙 智慧小浪底開閘
環(huán)球快資訊:端午小長假首日,湖南再發(fā)暴雨地質(zhì)山洪預(yù)警
三盤苦戰(zhàn)過關(guān)!小將商竣程險勝前世界第7,躋身八強(qiáng)排名創(chuàng)新高 新資訊
【文明單位創(chuàng)建】市文旅局赴五峰學(xué)習(xí)文明旅游示范單位創(chuàng)建經(jīng)驗_全球時快訊
天天播報:RAC1:巴薩向京多安保證,如果無法注冊他將獲得賠償
三盤鏖戰(zhàn)159分鐘!小花王曦雨惜敗出局,草地賽季連續(xù)遭遇一輪游-焦點精選
全球快消息!淘寶直播用戶規(guī)模、直播間數(shù)量、GMV全面強(qiáng)勁增長
航天動力:公司實際控制人為中國航天科技集團(tuán)有限公司,控股股東為航天六院,公司是央企控股上市公司 每日快訊
武漢借勢長三角:“中部第一城”是時候帶動區(qū)域起飛了|全球熱訊
又有新動作!樂山電力年內(nèi)已與10家供電公司達(dá)成儲能項目、智慧能源運(yùn)營等合作意向_速訊
英國獸醫(yī)服務(wù)提供商CVS集團(tuán)新設(shè)副首席執(zhí)行官 焦點觀察
環(huán)球新資訊:[荊楚網(wǎng)]加快推進(jìn)老舊小區(qū)改造,潛江市今年重點推進(jìn)五大片區(qū)
世界熱點!地獄學(xué)院 從輝煌到?jīng)]落 到底經(jīng)歷了什么?
愛仕達(dá)高壓鍋配件哪里有賣_愛仕達(dá)高壓鍋配件|天天新要聞
世界頭條:“異鄉(xiāng)人”品嘗“家鄉(xiāng)味” 流動黨員端午節(jié)收到“驚喜”
(經(jīng)濟(jì))挪威央行加息50個基點以抑制通脹
2023唐山工業(yè)職業(yè)技術(shù)學(xué)院招生專業(yè)有哪些 唐山工業(yè)職業(yè)技術(shù)學(xué)院優(yōu)勢專業(yè)有哪些
山西財貿(mào)職業(yè)技術(shù)學(xué)院怎么樣 山西財貿(mào)職業(yè)技術(shù)學(xué)院地址是什么_環(huán)球熱點
教育頻道
三盤鏖戰(zhàn)159分鐘!小花王曦雨惜敗出局,草地賽季連續(xù)遭遇一輪游-焦點精選
山西財貿(mào)職業(yè)技術(shù)學(xué)院怎么樣 山西財貿(mào)職業(yè)技術(shù)學(xué)院地址是什么_環(huán)球熱點
視訊!兩千多年前的“瑯琊閣”藏不住了!這些軍事家都曾在“中華第一古軍校 ”求學(xué)
熱門看點:深港國際腫瘤學(xué)術(shù)會議暨深港腫瘤醫(yī)療協(xié)作創(chuàng)新與發(fā)展研討會在香港召開
今頭條!扎克伯格、拉里埃里森、比爾蓋茨、黃仁勛4位富豪因AI暴賺10000億!全球TOP10富豪個人財富暴增近2.9萬億!
世界快資訊:與英特爾敲定百億歐元補(bǔ)貼后,德國政府?dāng)M重點扶持半導(dǎo)體、能源等戰(zhàn)略項目


