四十年前,《吃豆人》首次出現(xiàn)在日本的游戲廳中。如今,這款被列入世界游戲名作殿堂的經(jīng)典游戲借助于AI技術(shù)再度重生。
經(jīng)過(guò)5萬(wàn)個(gè)回合的游戲訓(xùn)練,由NVIDIA 研究院創(chuàng)建的強(qiáng)大新AI模型NVIDIA GameGAN,能夠在無(wú)需基礎(chǔ)游戲引擎的情況下生成完整版的《吃豆人》游戲。也就是說(shuō),該AI即使不了解游戲的基本規(guī)則,也可以完美再現(xiàn)這款經(jīng)典游戲。
GameGAN是首個(gè)利用生成式對(duì)抗網(wǎng)絡(luò)模仿計(jì)算機(jī)游戲引擎的神經(jīng)網(wǎng)絡(luò)模型。GAN模型由兩個(gè)相互對(duì)抗的神經(jīng)網(wǎng)絡(luò)組成,一個(gè)生成器和一個(gè)鑒別器,其能夠?qū)W習(xí)創(chuàng)建足以媲美原版內(nèi)容的新內(nèi)容。
NVIDIA研究人員兼該項(xiàng)目的首席作者Seung-Wook Kim表示:“這是首個(gè)使用GAN神經(jīng)網(wǎng)絡(luò)模擬游戲引擎的研究。我們想看看AI是否可以僅通過(guò)觀看游戲中智能代理的行為來(lái)學(xué)習(xí)領(lǐng)悟游戲環(huán)境規(guī)則。事實(shí)證明它做到了。”
當(dāng)智能代理試玩GAN生成的游戲時(shí),GameGAN會(huì)對(duì)代理的行為做出響應(yīng),從而實(shí)時(shí)生成新的游戲環(huán)境框架。在使用游戲不同等級(jí)或版本的游戲劇本進(jìn)行訓(xùn)練后,GameGAN甚至可以生成從未有過(guò)的游戲關(guān)卡。
游戲開發(fā)人員可以利用此功能自動(dòng)生成新的游戲等級(jí)關(guān)卡,AI研究人員則可以使用此功能更輕松地開發(fā)用于訓(xùn)練自主機(jī)器的模擬器系統(tǒng)。
游戲發(fā)行商萬(wàn)代南夢(mèng)宮娛樂(lè)旗下研發(fā)公司萬(wàn)代南夢(mèng)宮研究有限公司提供了此次用于訓(xùn)練GameGAN所用的《吃豆人》數(shù)據(jù)。該公司的Koichiro Tsutsumi表示:“在看到這個(gè)結(jié)果時(shí),我們都感到震驚,大家都無(wú)法相信可以在沒(méi)有游戲引擎的情況下再現(xiàn)了南夢(mèng)宮的經(jīng)典游戲《吃豆人》。這項(xiàng)研究將幫助游戲開發(fā)人員加快新關(guān)卡、角色甚至游戲的開發(fā)。一想到這一點(diǎn),我們就感到十分興奮。”
NVIDIA將于今年晚些時(shí)候在AI Playground上發(fā)布這款由AI再現(xiàn)的《吃豆人》。屆時(shí),所有人都可以親身體驗(yàn)此研究演示。
AI再現(xiàn)經(jīng)典之作
《吃豆人》是游戲史的經(jīng)典之作,過(guò)去在游戲廳里經(jīng)??梢钥吹?,伴隨著經(jīng)典的游戲背景音樂(lè),《吃豆人》的愛(ài)好者們控制著吃豆人,在這款經(jīng)典之作的迷宮中追逐吃豆躲避鬼魂。
僅在1981年,美國(guó)人就往游戲機(jī)里投了幾十億個(gè)25美分硬幣,玩《吃豆人》等投幣游戲,總游玩時(shí)間達(dá)到75000小時(shí)。在之后的幾十年中,這款熱門游戲不斷推陳出新,在電腦、游戲機(jī)和手機(jī)上推出了多個(gè)版本。
GameGAN版本依靠神經(jīng)網(wǎng)絡(luò)而非傳統(tǒng)的游戲引擎來(lái)生成《吃豆人》環(huán)境。AI持續(xù)追蹤這個(gè)虛擬世界,記錄已生成的內(nèi)容以保證幀與幀之間的視覺(jué)一致性。
無(wú)論是哪一款游戲,GAN都可以通過(guò)從過(guò)去的游戲中提取屏幕錄像和智能代理的按鍵軌跡來(lái)學(xué)習(xí)其規(guī)則。游戲開發(fā)人員可以將原關(guān)卡中的游戲劇本作為訓(xùn)練數(shù)據(jù),使用該工具為當(dāng)前的游戲設(shè)計(jì)新的等級(jí)關(guān)卡。
利用萬(wàn)代南夢(mèng)宮研究有限公司所提供的數(shù)據(jù),Kim和他在多倫多NVIDIA AI 研究院的同事們一起在NVIDIA DGX系統(tǒng)上使用《吃豆人》游戲?qū)υ撋窠?jīng)網(wǎng)絡(luò)進(jìn)行了總計(jì)數(shù)萬(wàn)幀的訓(xùn)練,同時(shí)加入了AI代理在游玩這款游戲時(shí)的鍵盤軌跡。
經(jīng)過(guò)訓(xùn)練后的GameGAN模型能夠生成靜態(tài)環(huán)境元素,例如統(tǒng)一的迷宮形狀、豆子和強(qiáng)化道具,以及作為敵人的幽靈和吃豆人本身等移動(dòng)元素。
該模型能夠?qū)W習(xí)簡(jiǎn)單和復(fù)雜的關(guān)鍵性游戲規(guī)則。例如,和原版游戲一樣,吃豆人無(wú)法穿過(guò)迷宮墻。他需要一邊四處移動(dòng),一邊吃豆。當(dāng)他吃到強(qiáng)化道具后,鬼魂會(huì)變成藍(lán)色并四處逃竄。當(dāng)吃豆人從一側(cè)離開迷宮時(shí),他會(huì)被傳送到迷宮的另一側(cè)。一旦吃豆人碰到鬼魂,屏幕就會(huì)閃爍并結(jié)束游戲。
由于該模型可以區(qū)分背景與活動(dòng)的角色,因此其可以將游戲中的迷宮替換成綠籬墻式的迷宮,還可以將吃豆人換成你最喜歡的表情符號(hào)。開發(fā)人員可以使用這項(xiàng)功能嘗試新的角色創(chuàng)意或游戲主題。
不僅僅適用于游戲
自主機(jī)器人通常也需要在模擬器中接受訓(xùn)練,模擬器中的AI可以在與現(xiàn)實(shí)世界中的目標(biāo)進(jìn)行交互之前,學(xué)習(xí)環(huán)境規(guī)則。對(duì)于開發(fā)人員而言,創(chuàng)建模擬器是一個(gè)相當(dāng)耗時(shí)的過(guò)程。開發(fā)人員必須編寫有關(guān)如何與目標(biāo)互動(dòng),以及及光在環(huán)境中如何表現(xiàn)等規(guī)則。
模擬器被廣泛用于開發(fā)各種自主機(jī)器,例如學(xué)習(xí)如何抓握和移動(dòng)物體的倉(cāng)庫(kù)機(jī)器人、或是需要在人行道上運(yùn)輸食物或藥品的物流機(jī)器人等。
而GameGAN的出現(xiàn),為其帶來(lái)了一種可能性 —— 在未來(lái)的某一天,神經(jīng)網(wǎng)絡(luò)訓(xùn)練將能取代此類任務(wù)中編寫模擬器的工作。
比如你在汽車上安裝一個(gè)攝像頭。該攝像頭可以記錄道路環(huán)境或駕駛員的行為,例如轉(zhuǎn)動(dòng)方向盤或踩下油門等。這些數(shù)據(jù)可被用于訓(xùn)練一個(gè)深度學(xué)習(xí)模型,其能夠預(yù)測(cè)在現(xiàn)實(shí)世界中,人類駕駛員(或自動(dòng)駕駛汽車)在做出猛踩剎車等動(dòng)作時(shí)會(huì)發(fā)生什么后果。
NVIDIA多倫多研究實(shí)驗(yàn)室主任Sanja Fidler表示:“我們最終將訓(xùn)練出一個(gè)AI,其只需通過(guò)觀看視頻和觀察目標(biāo)在環(huán)境中所采取的行動(dòng),就能模仿駕駛規(guī)則或物理定律。GameGAN是朝這一目標(biāo)所邁出的第一步。”
NVIDIA 研究院在全球擁有200多名科學(xué)家,主要關(guān)注于AI、計(jì)算機(jī)視覺(jué)、自動(dòng)駕駛汽車、機(jī)器人技術(shù)和圖形等領(lǐng)域的研究。
GameGAN由Fidler、Kim、NVIDIA研究員Jonah Philion、多倫多大學(xué)學(xué)生Yuyu Zhou和麻省理工學(xué)院(MIT)教授Antonio Torralba共同創(chuàng)作。該論文將在6月舉行的著名國(guó)際計(jì)算機(jī)視覺(jué)與模式識(shí)別會(huì)議上發(fā)表。