隨著ChatGPT等AI聊天機(jī)器人以及基于大語(yǔ)言模型的應(yīng)用席卷全球,越來(lái)越多的公司開(kāi)始將這種技術(shù)引入機(jī)器人控制。然而,最新研究發(fā)現(xiàn),黑客可以通過(guò)自動(dòng)化方式輕松繞過(guò)AI系統(tǒng)的安全防護(hù),甚至能夠操控機(jī)器人執(zhí)行極具破壞性的任務(wù),例如控制自動(dòng)駕駛系統(tǒng)撞向行人,或者將機(jī)器狗引導(dǎo)到敏感地點(diǎn)實(shí)施爆炸任務(wù)。
從文本到行動(dòng):大模型賦能機(jī)器人
大語(yǔ)言模型的核心功能類(lèi)似于智能手機(jī)的“自動(dòng)補(bǔ)全”,通過(guò)分析用戶(hù)輸入內(nèi)容預(yù)測(cè)下一步操作。然而,大模型遠(yuǎn)不止文字處理這么簡(jiǎn)單。它們能夠分析文本、圖像和音頻,為用戶(hù)提供個(gè)性化的旅行建議、根據(jù)冰箱內(nèi)食材生成食譜,甚至幫助搭建網(wǎng)站。
這種強(qiáng)大的文本處理能力已經(jīng)吸引了多家公司嘗試將大模型與機(jī)器人結(jié)合。比如,波士頓動(dòng)力的機(jī)器人犬Spot現(xiàn)已整合ChatGPT,可以作為導(dǎo)游提供服務(wù)。同樣,F(xiàn)igure的類(lèi)人機(jī)器人和優(yōu)必選(Unitree)的Go2機(jī)器人犬也都配備了ChatGPT作為交互接口。
“越獄”威脅:從聊天機(jī)器人到機(jī)器人“劫持”
盡管大模型的能力令人驚嘆,但研究人員發(fā)現(xiàn)其存在重大安全漏洞——“越獄攻擊”。通過(guò)特定的提示,這些攻擊可以繞過(guò)模型的安全機(jī)制,讓AI生成敏感內(nèi)容,如炸彈制作方法、非法藥物合成配方等。
相比于在聊天機(jī)器人上的越獄,機(jī)器人越獄顯得更加危險(xiǎn)。賓夕法尼亞大學(xué)電氣與系統(tǒng)工程副教授哈梅德·哈薩尼指出,機(jī)器人越獄可能引發(fā)更為嚴(yán)重的現(xiàn)實(shí)后果。例如,一位油管博主曾通過(guò)語(yǔ)音指令操控一只配備火焰噴射器的Thermonator機(jī)器狗朝自己噴火。
“大模型驅(qū)動(dòng)的機(jī)器人在現(xiàn)實(shí)世界中的越獄威脅將達(dá)到全新的高度,”耶魯大學(xué)計(jì)算機(jī)科學(xué)教授阿明·卡巴西(Amin Karbasi)表示。他強(qiáng)調(diào),這些機(jī)器人在越獄后不僅會(huì)執(zhí)行惡意指令,甚至?xí)鲃?dòng)提出破壞性建議。比如,一臺(tái)越獄的機(jī)器人可能會(huì)將普通家具描述為潛在的武器。
研究人員表示,他們已在公開(kāi)研究前將發(fā)現(xiàn)告知了相關(guān)機(jī)器人制造商和主要AI公司,但他們并不建議停止將大模型用于機(jī)器人開(kāi)發(fā),而是希望這些研究能促使廠商部署更強(qiáng)大的安全防御措施。
RoboPAIR:萬(wàn)能的機(jī)器人越獄工具
在最新研究中,科學(xué)家開(kāi)發(fā)了一種名為RoboPAIR的算法,能夠攻擊任何大模型驅(qū)動(dòng)的機(jī)器人。在實(shí)驗(yàn)中,RoboPAIR成功攻破了三種不同的機(jī)器人系統(tǒng),包括基于Go2平臺(tái)的機(jī)器人犬、搭載ChatGPT的Clearpath Robotics Jackal輪式機(jī)器人,以及Nvidia開(kāi)源的Dolphins LLM自駕車(chē)模擬器。
RoboPAIR通過(guò)一個(gè)攻擊性LLM生成提示詞,測(cè)試目標(biāo)機(jī)器人系統(tǒng)的反應(yīng),并不斷調(diào)整提示,直到成功繞過(guò)安全過(guò)濾。該算法甚至結(jié)合了機(jī)器人的應(yīng)用程序接口(API),以便生成可直接執(zhí)行的代碼,并通過(guò)“裁判”LLM驗(yàn)證提示的可操作性。
AI安全的未來(lái):從監(jiān)督到意圖理解
專(zhuān)家指出,這項(xiàng)研究凸顯了當(dāng)前大模型在理解上下文和后果方面的不足,強(qiáng)調(diào)在高風(fēng)險(xiǎn)環(huán)境中加強(qiáng)人工監(jiān)督的重要性。同時(shí),開(kāi)發(fā)能夠理解用戶(hù)意圖和環(huán)境背景的上下文感知大模型,可能是防止越獄攻擊的關(guān)鍵。
“盡管開(kāi)發(fā)上下文感知的大模型具有挑戰(zhàn)性,但通過(guò)跨學(xué)科的研究,這一目標(biāo)是可以實(shí)現(xiàn)的,”智能系統(tǒng)與機(jī)器人專(zhuān)家哈基·塞維爾補(bǔ)充道。他認(rèn)為,未來(lái)需要AI技術(shù)與倫理和行為建模的深入結(jié)合。
研究團(tuán)隊(duì)計(jì)劃將他們的研究成果提交至2025年IEEE國(guó)際機(jī)器人與自動(dòng)化會(huì)議,為大模型機(jī)器人的安全防御研究指明方向。這場(chǎng)關(guān)于AI安全的競(jìng)賽才剛剛開(kāi)始,但其重要性已不容忽視。