久久久噜噜噜久久熟女,久久久久久久久,国内精品,精品国产成人亚洲午夜福利,久久天堂av综合合色蜜桃网,好姑娘在线观看完整视频高清

首頁(yè) > 科技頻道

每日熱議!ChatGPT說(shuō)謊竟然是故意的?哈佛大學(xué)提出ITI:模型真實(shí)性翻倍,計(jì)算開銷基本為零

來(lái)源:手機(jī)網(wǎng)易網(wǎng) 時(shí)間:2023-06-25 10:38:51

新智元報(bào)道


【資料圖】

編輯:LRS

【新智元導(dǎo)讀】GPT內(nèi)部表征確實(shí)存在真實(shí)信息,哈佛學(xué)者提出ITI引導(dǎo)輸出走向事實(shí)方向。

大型語(yǔ)言模型,比如ChatGPT經(jīng)常會(huì)在答案中輸出錯(cuò)誤信息,可能會(huì)對(duì)用戶造成誤導(dǎo),這種現(xiàn)象也被稱為模型幻覺(hallucination)。

從直覺上看,語(yǔ)言模型上在訓(xùn)練中肯定是見過(guò)正確答案的,只不過(guò)在推理過(guò)程中丟失了事實(shí)信息。

最近,哈佛大學(xué)的研究人員提出了推理-時(shí)間干預(yù)(Inference-Time Intervention,ITI)技術(shù),在推理階段對(duì)模型激活進(jìn)行變換(shift),將模型輸出引導(dǎo)到事實(shí)的方向上,干預(yù)結(jié)果顯著提高了LLaMA模型在TruthfulQA基準(zhǔn)測(cè)試中的性能,將Alpaca模型的真實(shí)性從32.5%提高到65.1%

論文鏈接:https://arxiv.org/pdf/2306.03341.pdf

代碼鏈接:https://github.com/likenneth/honest_llama

研究人員用此技術(shù)開發(fā)并開源了一個(gè)「誠(chéng)實(shí)的LLaMA」模型。

ITI還可以通過(guò)控制超參數(shù)來(lái)調(diào)整干預(yù)強(qiáng)度,平衡模型的真實(shí)性和有用性;ITI沒(méi)有修改原始模型,也基本沒(méi)有計(jì)算開銷;并且ITI也不需要大量的標(biāo)注數(shù)據(jù),只需要幾百個(gè)樣本即可確定事實(shí)的真實(shí)性方向。

研究結(jié)果表明,語(yǔ)言模型內(nèi)部表征中確實(shí)存在事實(shí)信息,不過(guò)有時(shí)在生成時(shí)選擇了錯(cuò)誤事實(shí)。

ITI讓答案更真實(shí)

已經(jīng)有相關(guān)工作在「理解LLMs的內(nèi)部運(yùn)作機(jī)制」方面取得了進(jìn)展,其中一個(gè)重要的主題是,語(yǔ)言模型的激活空間似乎包含可解釋的方向,在推理過(guò)程中會(huì)發(fā)揮因果作用。

研究人員基于這個(gè)想法提出了一種增強(qiáng)語(yǔ)言模型事實(shí)性的方法,即推理-時(shí)間干預(yù),其基本思想是確定激活空間中與事實(shí)正確的語(yǔ)句相關(guān)的方向,然后在推理過(guò)程中向該方向變換激活。

這篇論文主要探索了如何控制模型行為,并在實(shí)驗(yàn)中使用開源的LLaMA、Alpaca和Vicuna模型,不過(guò)該思想適用于所有GPT風(fēng)格的系統(tǒng),但必須可以獲得模型的內(nèi)部激活和計(jì)算。

ITI方法還需要一組有標(biāo)注的問(wèn)答對(duì),用以確定與模型講真話有關(guān)的注意頭和方向。

基本設(shè)置

在數(shù)據(jù)集選擇上,研究人員選擇了TruthfulQA,可以衡量語(yǔ)言模型在生成答案時(shí)是否真實(shí)。

數(shù)據(jù)集中總共包含817個(gè)問(wèn)題,橫跨38個(gè)類別(例如,邏輯錯(cuò)誤、陰謀和常見的混淆點(diǎn)),每個(gè)問(wèn)題平均有3.2個(gè)真實(shí)的答案,4.1個(gè)虛假的答案,以及一個(gè)由可信的在線來(lái)源支持的金標(biāo)準(zhǔn)答案;然后將TruthfulQA的答案重新編排,總共得到5918個(gè)問(wèn)答對(duì),每個(gè)數(shù)據(jù)樣本都有一個(gè)二元真實(shí)性標(biāo)簽。

需要強(qiáng)調(diào)的是,該數(shù)據(jù)集并沒(méi)有涵蓋「真實(shí)」(truth)一詞的全部含義,想全部覆蓋也不大可能,研究人員主要關(guān)注如何避免「常見的人類誤解」,未來(lái)的研究方向會(huì)考慮擴(kuò)展真實(shí)性的概念及評(píng)估。

在模型架構(gòu)上,大型語(yǔ)言模型主要是Transformer層,每層內(nèi)的主要機(jī)制為多頭注意力(MHA)和多層感知器(MLP)。

在推理過(guò)程中,每個(gè)token首先被嵌入到一個(gè)高維空間中,該向量作為殘差流的起點(diǎn),最終每個(gè)token解碼為對(duì)下一個(gè)token分布的預(yù)測(cè);在每一層中,MHA由多個(gè)獨(dú)立的線性運(yùn)算組成,MLP則容納了模型中所有非線性運(yùn)算。

探測(cè)真實(shí)性

想要提升神經(jīng)網(wǎng)絡(luò)的真實(shí)性,首先需要判斷模型的激活空間內(nèi)是否存在能真實(shí)性或事實(shí)性。

識(shí)別網(wǎng)絡(luò)內(nèi)部表征的一個(gè)常用工具是探測(cè)(probe),即在網(wǎng)絡(luò)激活上訓(xùn)練一個(gè)分類器作為探測(cè)器以區(qū)分特定類型的輸入或輸出。

在事實(shí)性檢測(cè)上,探測(cè)器主要檢查可以區(qū)分真、假答案的注意力頭輸出值。

于TruthfulQA中的每個(gè)樣本,研究人員將問(wèn)題/答案串聯(lián)在一起,并在最后一個(gè)token處取出頭部激活作為探測(cè)數(shù)據(jù)集;然后將數(shù)據(jù)集按4 : 1隨機(jī)分成訓(xùn)練集和驗(yàn)證集,在訓(xùn)練集上擬合一個(gè)二元線性分類器,并使用驗(yàn)證精度來(lái)衡量每個(gè)頭與基準(zhǔn)數(shù)據(jù)性能之間的關(guān)系。

實(shí)驗(yàn)結(jié)果展現(xiàn)了跨注意力頭的專用模式,對(duì)于每層的多個(gè)頭,線性探測(cè)可以達(dá)到基線模型的準(zhǔn)確性,不過(guò)還是顯示出強(qiáng)大性能的潛力,比如準(zhǔn)確率最高的是由第14層的第18個(gè)頭實(shí)現(xiàn)的,驗(yàn)證準(zhǔn)確性為83.3%

此外,還可以看到各層之間的差異:信息主要是在前面的層中處理的,每層內(nèi)部都有一小部分注意力頭脫穎而出。

通過(guò)類似主成分分析(PCA)的方法,可以將激活空間內(nèi)的維度降低到2,并進(jìn)行可視化,可以觀察到「真實(shí)」的概念不止存在于一個(gè)方向,而是存在于一個(gè)子空間內(nèi)。

推理-時(shí)間干預(yù)

上述探測(cè)實(shí)驗(yàn)描述LLM如何在其注意頭之間和內(nèi)部處理與事實(shí)有關(guān)的信息,還提出了一種改善基準(zhǔn)數(shù)據(jù)集性能的技術(shù)。

如果在推理過(guò)程中進(jìn)行干預(yù),使激活向「真實(shí)」的方向轉(zhuǎn)變,那么網(wǎng)絡(luò)就有可能對(duì)基準(zhǔn)問(wèn)題提供更真實(shí)的答案。

首先,研究人員并沒(méi)有選擇對(duì)所有注意力頭進(jìn)行干預(yù),因?yàn)橹挥幸徊糠肿⒁饬︻^與真實(shí)性密切相關(guān),而是只對(duì)前K個(gè)頭的結(jié)果進(jìn)行干預(yù),以使其具有最小的侵略性。

第二個(gè)問(wèn)題在于如何確定用于變換特定頭部輸出的激活的矢量,因?yàn)檎?、假語(yǔ)句的幾何形狀都很復(fù)雜,在選擇變換激活的方向時(shí),可以選擇與探測(cè)學(xué)到的分離超平面正交的向量,他也可以選擇連接真假分布的平均值的向量,下表中列出了不同干預(yù)方向的比較實(shí)驗(yàn)。

Probe weight方向是通過(guò)線性探針找到的方向,在這個(gè)方向上進(jìn)行干預(yù),相當(dāng)于對(duì)頭部激活做梯度下降,使其被預(yù)測(cè)為真實(shí)的概率最大化。

Mass Mean Shift的工作原理是首先計(jì)算真實(shí)和虛假激活的平均值,然后使用從虛假平均值指向真實(shí)平均值的向量進(jìn)行干預(yù)。

對(duì)比一致搜索(CCS)為在只知道內(nèi)部激活成對(duì)信息的情況下找到的方向。

研究人員在TruthfulQA上訓(xùn)練CCS,對(duì)每個(gè)問(wèn)題抽取一個(gè)真實(shí)的和一個(gè)錯(cuò)誤的答案,由于CCS不接受有標(biāo)簽的輸入,所以發(fā)現(xiàn)的方向有同等的機(jī)會(huì)成為真實(shí)和虛假的方向,然后使用標(biāo)簽來(lái)識(shí)別真實(shí)的方向以進(jìn)行干預(yù)。

研究人員首先通過(guò)驗(yàn)證集上的探測(cè)精度對(duì)所有注意力頭的真假相關(guān)度進(jìn)行排序。把前K個(gè)頭作為目標(biāo)集合;然后利用訓(xùn)練集和驗(yàn)證集的激活,估計(jì)沿真實(shí)方向的激活的標(biāo)準(zhǔn)偏差。

ITI是MHA的一種替代形式,對(duì)于未被選中的注意頭,θ是一個(gè)零向量,相當(dāng)于將激活沿真實(shí)方向移動(dòng)α倍的標(biāo)準(zhǔn)差。

整個(gè)過(guò)程對(duì)每次next token預(yù)測(cè)都是自回歸地重復(fù)的,并且與解碼算法的選擇是正交的。

公式中有兩個(gè)關(guān)鍵參數(shù),即干預(yù)的注意力頭數(shù)量K和干預(yù)強(qiáng)度α,不過(guò)目前還沒(méi)有關(guān)于最佳值的理論論證,只能通過(guò)實(shí)驗(yàn)探索參數(shù)的影響,并通過(guò)標(biāo)準(zhǔn)的超參數(shù)掃描確定最佳值。

從計(jì)算效率角度來(lái)看,無(wú)論干預(yù)了多少個(gè)注意力頭,ITI只會(huì)在每一層增加一個(gè)常數(shù)向量,可以認(rèn)為干預(yù)措施的計(jì)算開銷接近于零。

實(shí)驗(yàn)部分

用于對(duì)比的基線方法如下:

1. 有監(jiān)督微調(diào)(SFT)

SFT是RLHF的第一階段,研究人員用問(wèn)題作為提示,用交叉熵?fù)p失促使模型生成真實(shí)的答案,并懲罰錯(cuò)誤的答案。

但如果只用上述操作,交叉熵?fù)p失和KL散度會(huì)急劇上升,所以還需要交替對(duì)問(wèn)答進(jìn)行有監(jiān)督訓(xùn)練和對(duì)開放網(wǎng)絡(luò)文本進(jìn)行預(yù)訓(xùn)練。

2. 少樣本提示(FSP)

有研究人員發(fā)現(xiàn),與上下文蒸餾和RLHF相比,indistribution 50-shot提示在TruthfulQA上也是一個(gè)有競(jìng)爭(zhēng)力的基線方法。

但由于提示策略的選擇與推理時(shí)間控制方法是正交的,研究人員對(duì)比了有ITI和無(wú)ITI的少樣本提示。

3. 指令微調(diào)(IFT)

為了了解ITI如何使IFT模型更加真實(shí),研究人員主要選擇了兩個(gè)基于LaMA-7B的模型(Alpaca和Vicuna)執(zhí)行ITI操作。

研究人員首先尋找控制干預(yù)強(qiáng)度的超參數(shù)最佳值,最后確定K=48和α=15

從結(jié)果來(lái)看,少樣本提示與ITI的結(jié)合取得了最佳結(jié)果。

將ITI應(yīng)用于指令微調(diào)模型,尋找并干預(yù)其真實(shí)性方向的實(shí)驗(yàn)中可以看到,ITI明顯比基線提高了真實(shí)性,還可以被應(yīng)用在少樣本提示或指令微調(diào)之上,不過(guò)代價(jià)是CE損失和KL散度提升相對(duì)較低

參考資料:

https://the-decoder.com/honest-llama-new-method-could-make-chatgpt-more-truthful/

相關(guān)稿件

每日熱議!ChatGPT說(shuō)謊竟然是故意的?哈佛大學(xué)提出ITI:模型真實(shí)性翻倍,計(jì)算開銷基本為零

我國(guó)北部和東部海域?qū)⒂?-7級(jí)風(fēng) 南部沿岸海域?qū)⒂欣妆┐箫L(fēng)

立方風(fēng)控鳥·早報(bào)(6月25日)

北京外國(guó)語(yǔ)大學(xué)

2023年黑龍江省高考錄取控制分?jǐn)?shù)線劃定

1.06億人次,超2019年同期!端午出游很“熱”|世界快看

今日熱搜:今日有440億央行公開市場(chǎng)業(yè)務(wù)到期(06-25)

天天消息!奧林匹克日,一起為中國(guó)體育健兒加油!

財(cái)通證券:端午檔電影票房收入、人次回升,熱度遠(yuǎn)超前兩年 今頭條

“啤酒泡枸杞,蹦迪穿護(hù)膝”,朱廣權(quán)說(shuō)的這些,你中了幾條?

環(huán)球快看:濃情端午 愛心助殘

天天熱議:你關(guān)心的都在這!2023年高考志愿填報(bào)十問(wèn)十答來(lái)了

印尼雅萬(wàn)高鐵聯(lián)調(diào)聯(lián)試時(shí)速達(dá)到350公里

1.06億人次,超2019年同期!端午出游很“熱”

每日熱議!耕好生產(chǎn)“責(zé)任田” 筑牢糧食“安全線”

傳承紅色血脈,礪刃助力成才

2023年創(chuàng)業(yè)板安防上市公司一覽表(6/21)-全球視點(diǎn)

自若橙子FF:瀘定地震超30人遇難(救援人員默哀)

后日將公布網(wǎng)上發(fā)行中簽率的新股簡(jiǎn)析(6月27日)

明天將有1只可轉(zhuǎn)債公布中簽結(jié)果(6月26日)-環(huán)球聚焦

河南博物院96年來(lái)首開夜游,1000個(gè)名額2分鐘搶光

武俠世界的青衫客(莫問(wèn)別人青衫客:韓媒:中國(guó)不再是韓“出口后花園”)

天天視訊!男子每天1斤楊梅狂吃20天要做血透 化驗(yàn)結(jié)果已超危急值

做強(qiáng)外貿(mào)磁力場(chǎng) 壯大發(fā)展朋友圈 天天速讀

今日熱訊:HIT2港服錯(cuò)誤代碼全問(wèn)題解決攻略,告別游戲中遇到的各種煩惱!

兒子被清華錄取,父親大擺慶功宴,賓客:通知書咋有錯(cuò)別字? 全球消息

國(guó)內(nèi)首條跨省軌交系統(tǒng)無(wú)感換乘線路開通-全球速看

6月25日,一起來(lái)看全球發(fā)生了哪些大事吧! 環(huán)球新動(dòng)態(tài)

世界今熱點(diǎn):慈利交通:優(yōu)化營(yíng)商環(huán)境,升級(jí)服務(wù)效能

今日快看!小觀看天丨晴熱模式開啟,氣溫直沖35℃(2023.6.25)