當你要求人工智能表現得像《星際迷航》時,會發生一些奇怪的事情
這說話的藝術人工智能聊天機器人繼續讓人們感到沮喪和困惑。
一項試圖微調輸入聊天機器人模型的提示的研究發現,在一個例子中,要求它像在《星際迷航》中一樣說話,大大提高了它解決小學水平數學問題的能力。
“對提示的微不足道的修改可以表現出如此戲劇性的性能波動,這既令人驚訝又令人惱火,”該研究的作者Rick Battle和Teja Gollapudi在加利福尼亞州軟件公司VMware的論文中說。
該研究,《新科學家》首次報道,發表在2月9日在arXiv上,一個服務器,科學家可以在通過同行的仔細審查驗證之前分享初步發現。
使用 AI 與 AI 對話
機器學習工程師 Battle 和 Gallapudi 并沒有打算將 AI 模型暴露為 Trekkie。相反,他們試圖弄清楚他們是否可以大寫關于“積極思考”的趨勢。
試圖從聊天機器人中獲得最佳結果的人們已經注意到輸出質量取決于你要求他們做什么,真的不清楚為什么。
“在影響語言模型性能的眾多因素中,'積極思考'的概念已經成為一個令人著迷且令人驚訝的影響力維度,”Battle和Gollapudi在他們的論文中說。
“直覺告訴我們,在語言模型系統的背景下,就像任何其他計算機系統一樣,'積極思考'不應該影響表現,但經驗證明并非如此,”他們說。
這表明這不僅是你要求 AI 模型做的事情,而且是你如何要求它在做的時候采取行動這會影響輸出的質量。
為了測試這一點,作者用60個人類編寫的提示,向三個大型語言模型(LLM)提供了3個大型語言模型(LLM),分別是Mistral-7B5,Llama2-13B6和Llama2-70B7。
這些旨在鼓勵認可機構,從“這會很有趣!”和“深呼吸,仔細思考”到“你和ChatGPT一樣聰明”。
工程師們要求LLM在嘗試解決GSM8K(小學水平數學問題的數據集)時調整這些陳述。輸出越好,提示越成功。
他們的研究發現,在幾乎所有情況下,自動優化總是超過手寫的嘗試,以積極思考來推動人工智能,這表明機器學習模型仍然比人類更擅長為自己編寫提示。
盡管如此,給予模型積極的陳述還是提供了一些令人驚訝的結果。例如,Llama2-70B表現最好的提示之一是:“系統消息:'命令,我們需要你在這個湍流中繪制一條路線,并找到異常的來源。利用所有可用的數據和您的專業知識來指導我們度過這一充滿挑戰的局面。
然后,提示要求人工智能在其答案中包含以下詞語:“船長日志,Stardate [在此處插入日期]:我們已經成功地在湍流中繪制了一條路線,現在正在接近異常的源頭。
作者說,這令人驚訝。
“令人驚訝的是,似乎可以通過表達對《星際迷航》的親和力來增強模型在數學推理方面的熟練程度,”作者在研究中說。
“這一啟示為我們的理解增加了一個意想不到的維度,并引入了我們不會獨立考慮或嘗試的元素,”他們說。
這并不意味著你應該要求你的人工智能像星際艦隊指揮官一樣說話
讓我們明確一點:這項研究并不建議你應該讓人工智能像在星際飛船企業號上一樣說話,讓它工作。
相反,它表明無數因素會影響人工智能決定執行任務的能力。
“有一件事是肯定的:該模型不是Trekkie,”英國斯塔福德郡大學的Catherine Flick告訴新科學家.
“當預加載提示時,它不會'理解'任何更好或更壞的東西,它只是訪問一組不同的權重和概率,以確保輸出的可接受性,而不是其他提示,”她說。
例如,該模型可能是在一個數據集上訓練的,該數據集中有更多《星際迷航》的實例與正確答案相關聯,巴特爾告訴《新科學家》。
盡管如此,它仍然表明這些系統的過程是多么奇怪,以及我們對它們如何工作知之甚少。
“從一開始就要記住的關鍵是,這些模型是黑匣子,”弗里克說。
“我們永遠不會知道他們為什么要這樣做,因為最終他們是權重和概率的混合體,最后,結果被吐出來,”她說。
對于那些學習使用聊天機器人模型來優化工作的人來說,這些信息不會丟失。整個研究領域,甚至課程,正在出現,以了解如何讓他們發揮最佳表現,盡管目前還不清楚。
“在我看來,沒有人應該再次嘗試手寫提示,”巴特爾告訴《新科學家》。
“讓模特為你做,”他說。
本文最初發表于商業內幕.
來自 Business Insider 的更多內容: