【今日視點(diǎn)】
◎本報記者 張佳欣
在一個(gè)繁忙的火車(chē)站,監控攝像頭正全方位追蹤站臺的情況,乘客流量、軌道占用、衛生狀況……所有信息實(shí)時(shí)傳輸給中央人工智能(AI)系統。這個(gè)系統的任務(wù)是幫助調度列車(chē),讓它們安全準點(diǎn)進(jìn)站。然而,一旦有人惡意干擾,比如用一束紅色激光模擬列車(chē)尾燈,那么攝像頭可能會(huì )誤以為軌道上已有列車(chē)。久而久之,AI學(xué)會(huì )了把這種假象當作真實(shí)信號,并不斷發(fā)出“軌道占用”的錯誤提示。最終,不僅列車(chē)調度被打亂,甚至還可能釀成安全事故。
澳大利亞《對話(huà)》雜志日前報道稱(chēng),這是數據“中毒”的一個(gè)非常典型的例子。AI系統在學(xué)習過(guò)程中,如果輸入了錯誤或誤導性數據,可能會(huì )逐漸形成錯誤認知,作出偏離預期的判斷。與傳統的黑客入侵不同,數據“中毒”不會(huì )直接破壞系統,而是讓AI“自己學(xué)壞”。隨著(zhù)AI在交通、醫療、媒體等領(lǐng)域的普及,這一問(wèn)題正引起越來(lái)越多的關(guān)注。
AI“中毒”的現實(shí)風(fēng)險
在火車(chē)站的例子中,假設一個(gè)技術(shù)嫻熟的攻擊者既想擾亂公共交通,又想收集情報,他連續30天用紅色激光欺騙攝像頭。如果未被發(fā)現,這類(lèi)攻擊會(huì )逐漸腐蝕系統,為后門(mén)植入、數據竊取甚至間諜行為埋下隱患。雖然物理基礎設施中的數據投毒較為罕見(jiàn),但線(xiàn)上系統,尤其是依賴(lài)社交媒體和網(wǎng)頁(yè)內容訓練的大語(yǔ)言模型中,它已是重大隱患。
一個(gè)著(zhù)名的數據“投毒”案例發(fā)生在2016年,微軟推出的聊天機器人Tay上線(xiàn)數小時(shí)后,就被惡意用戶(hù)灌輸不當言論,迅速模仿并發(fā)布到X(當時(shí)的Twitter)平臺上,不到24小時(shí)就被迫下線(xiàn)并道歉。
據英國《新科學(xué)家》雜志報道,2024年,互聯(lián)網(wǎng)出現了一個(gè)標志性事件,即AI爬蟲(chóng)的流量首次超過(guò)人類(lèi)用戶(hù),其中OpenAI的ChatGPT-User占據了全球6%的網(wǎng)頁(yè)訪(fǎng)問(wèn)量,它本質(zhì)上是ChatGPT的“上網(wǎng)代理”,在用戶(hù)需要實(shí)時(shí)信息時(shí)替他們訪(fǎng)問(wèn)網(wǎng)站。而Anthropic的ClaudeBot更是長(cháng)期大規模抓取網(wǎng)頁(yè)內容,占到13%的流量。
互聯(lián)網(wǎng)上的大量?jì)热菡籄I模型不斷采集、吸收,用于持續訓練。一旦有人故意投放有毒數據,比如篡改的版權材料、偽造的新聞信息,這些大規模采集的爬蟲(chóng)就可能把它們帶進(jìn)模型,造成版權侵權、虛假信息擴散,甚至在關(guān)鍵領(lǐng)域引發(fā)安全風(fēng)險。
版權之爭中的“投毒”反擊
隨著(zhù)AI爬蟲(chóng)的大規模抓取,許多創(chuàng )作者擔心作品被未經(jīng)許可使用。為了保護版權,創(chuàng )作者采取了法律和技術(shù)手段。如《紐約時(shí)報》起訴OpenAI,稱(chēng)其新聞報道被模型學(xué)習再利用,侵犯了版權。
面對曠日持久的版權拉鋸戰,一些創(chuàng )作者轉向技術(shù)“自衛”。美國芝加哥大學(xué)團隊研發(fā)了兩款工具。名為Glaze的工具可在藝術(shù)作品中加入微小的像素級干擾,讓AI模型誤以為一幅水彩畫(huà)是油畫(huà)。另一款工具Nightshade更為激進(jìn),它能在看似正常的貓的圖片中植入隱蔽特征,從而讓模型學(xué)到“貓=狗”這樣的錯誤對應。通過(guò)這種方式,藝術(shù)家們讓自己的作品在訓練數據中成為“毒藥”,保護了原創(chuàng )風(fēng)格不被復制。
這種反擊方式一度在創(chuàng )作者群體中風(fēng)靡。Nightshade發(fā)布不到一年,下載量便超過(guò)一千萬(wàn)次。與此同時(shí),基礎設施公司Cloudflare也推出了“AI迷宮”,通過(guò)制造海量無(wú)意義的虛假網(wǎng)頁(yè),將AI爬蟲(chóng)困在假數據的循環(huán)中,消耗其算力和時(shí)間??梢哉f(shuō),數據投毒在某些領(lǐng)域已經(jīng)從一種反擊手段,演變?yōu)榘鏅嗯c利益之爭中的防御武器。
去中心化成為AI的防護盾
這種局面讓人警覺(jué)。創(chuàng )作者的數據“投毒”是為了保護原創(chuàng ),但一旦同樣的技術(shù)被用于大規模制造虛假信息,其后果可能比版權爭議嚴重得多。
面對這種隱蔽的威脅,研究者正在探索新的防御手段。在美國佛羅里達國際大學(xué)的Solid實(shí)驗室,研究人員正著(zhù)力用去中心化技術(shù)來(lái)防御數據投毒攻擊。其中一種方法叫聯(lián)邦學(xué)習。與傳統的集中式訓練不同,聯(lián)邦學(xué)習允許模型在分布式設備或機構本地學(xué)習,只匯總參數而非原始數據。這種方式降低了單點(diǎn)中毒的風(fēng)險,因為某一個(gè)設備的“壞數據”不會(huì )立刻污染整個(gè)模型。
然而,如果在數據匯總環(huán)節遭遇攻擊,損害依然可能發(fā)生。為此,另一種工具——區塊鏈正被引入AI防御體系。區塊鏈的時(shí)間戳和不可篡改特性,使得模型更新過(guò)程可被追溯。一旦發(fā)現異常數據,可追根溯源,定位投毒源頭。同時(shí),多個(gè)區塊鏈網(wǎng)絡(luò )還能互相“通報”,當一個(gè)系統識別出可疑模式時(shí),可立刻警示其他系統。
任何依賴(lài)現實(shí)世界數據的AI系統都可能被操縱。利用聯(lián)邦學(xué)習和區塊鏈等防御工具,研究人員和開(kāi)發(fā)者正在打造更具韌性、可追溯的AI系統,在遭遇欺騙時(shí)能發(fā)出警報,提醒系統管理員及時(shí)介入,降低潛在風(fēng)險。