久久久噜噜噜久久熟女,久久久久久久久,国内精品,精品国产成人亚洲午夜福利,久久天堂av综合合色蜜桃网,好姑娘在线观看完整视频高清

首頁 > 汽車

斯坦福大學研究發(fā)現,AI聊天機器人ChatGPT的表現很不穩(wěn)定

來源:IT之家 時間:2023-09-08 22:48:08


(相關資料圖)

IT之家 9 月 7 日消息,斯坦福大學的一項新研究發(fā)現,熱門生成式人工智能(AI)聊天機器人 ChatGPT 的能力在幾個月內有所波動。

斯坦福大學的團隊評估了 ChatGPT 在幾個月內如何處理不同的任務。他們發(fā)現,ChatGPT 的能力隨時間的推移而出現了不一致。目前,ChatGPT 有兩個版本 —— 免費的 模型和更智能、更快速的付費 GPT-4 版本。 研究人員發(fā)現,GPT-4 在 3 月份能夠有效地解決數學問題,識別質數的準確率為 %。 三個月后,其準確率下降到了 % 。而另一方面, 卻變得更好,從 % 的準確率提高到了 %。

研究人員還注意到,在編寫代碼和視覺推理方面也有類似的波動。斯坦福大學計算機科學教授 James Zou 稱:“當我們調整一個大型語言模型來提高它在某些任務上的表現時,那可能會有很多意想不到的后果,可能會損害這個模型在其他任務上的表現…… 這個模型回答問題的方式有各種各樣的相互依賴性,這可能導致我們觀察到的一些惡化行為?!?

研究人員認為,結果并不能真正反映 ChatGPT 性能的準確性狀態(tài), 而是顯示了微調模型帶來的意外后果 。本質上, 當修改模型的一部分來改善一個任務時,其他任務可能會受到影響 。為什么會這樣很難確定,因為沒有人知道 ChatGPT 是如何運作的,而且它的代碼也不是開源的。

隨著時間的推移,研究人員注意到,ChatGPT 的回答不僅變得不太準確,而且還停止了解釋其推理過程。

由于 ChatGPT 的運作方式,要研究和衡量它的表現可能很困難,這項研究強調了觀察和評估驅動 ChatGPT 等工具的大型語言模型(LLM)性能變化的必要性。該研究已經在 arXiv 上發(fā)布,并正在等待同行評審,IT之家附鏈接在此。

相關稿件

斯坦福大學研究發(fā)現,AI聊天機器人ChatGPT的表現很不穩(wěn)定

“為早日住上好小區(qū)”:一老舊小區(qū)居民親自清拆違建

口腔健康一點通|什么是智齒?智齒到底需不需要拔?一起來看看

廈門深挖潛力探索地下開發(fā) 挺進城市第二空間

深圳圣達電梯有限公司虛假維保被罰款10000元

“法式”生活丨花12萬元買的車位卻無法停車 遇到這種事你該咋辦?

梅西自2018年1月至今任意球打進31球,點球也打進31球

我國秋糧陸續(xù)進入成熟期 長勢總體正常豐收有希望

諾基亞全鍵盤手機

“春風”吹進大巴山藥谷

天津市奧林匹克中心游泳跳水館免費對公眾開放的通知

海南熱帶雨林國家公園霸王嶺分局:維護雨林自然資源,保護生物多樣性,助力生態(tài)產業(yè)發(fā)展

“金九”首周鋼材庫存延續(xù)去化 終端拿貨意愿不及往年同期

迎接“金九銀十”旅游黃金季,武漢野生動物王國彩翼谷展示區(qū)開放

唐人神:8月生豬銷售收入同比上升20.16%

北京提醒:雙休日避免到山區(qū)、河道等區(qū)域活動

科普一下|紙吸管中的PFAS有哪些潛在危害?

深圳普降極端特大暴雨,四項雨量記錄破極值

慧博云通:余浩累計質押股數為1100萬股

俄大使揭幕金磚國家鈔票,統(tǒng)一貨幣即將到來,美金融霸權將被打破

重大戰(zhàn)果!1207名緬北電詐嫌疑人移交我方

OLED概念走強 冠石科技、華映科技漲停

武漢白癜風醫(yī)院哪家好-導致頭部白癜風的原因有哪些

首付80萬起擁有上海3房!華二+世外+特斯拉+千億產業(yè)=國企全新住宅2.5萬/㎡!

美網-薩巴倫卡首盤吞蛋2-1逆轉凱斯 進決賽將與高芙爭冠

展會活動|昇旸光學參加光博會取得圓滿閉幕

羊守終章:決戰(zhàn)狼首領(第二十五話、第二十六話)

政治學研究的時空動力學

蔚來想通了一半

俄羅斯聯(lián)邦海關署大樓發(fā)生大火