
電競資訊10月05日稱 據(jù) decoder 今天報(bào)道,騰訊研究人員最近用《王者榮耀》游戲作為訓(xùn)練平臺,探索如何讓 AI 在游戲中學(xué)會“戰(zhàn)略性思考”,研究全新 TiG(Think in Games)框架,相關(guān)成果已發(fā)表于 Hugging Face 網(wǎng)站和 arXiv 平臺。

研究團(tuán)隊(duì)指出,目前的 AI 模型存在明顯的功能鴻溝,以游戲?yàn)槿∠虻?AI 能正常游玩但無法理解自己所做的決策,而語言模型雖然可以推理策略,但很難真正執(zhí)行操作,為此他們研發(fā)了全新 TiG 框架,讓模型在游戲中同步思考、行動。
團(tuán)隊(duì)選擇以《王者榮耀》游戲作為訓(xùn)練范本,先使用匿名且標(biāo)準(zhǔn)化的賽事數(shù)據(jù)定義推上路、擊殺暴君、守家等 40 種宏觀行動,勝負(fù)回?cái)?shù)均衡,AI 模型們必須要在每個定義好的場景下選擇最佳策略,并解釋其戰(zhàn)略緣由。
具體來說,訓(xùn)練分為兩個階段,首先是在監(jiān)督中學(xué)習(xí),弄清楚這些策略的基本機(jī)制;隨后通過獎勵機(jī)制進(jìn)行強(qiáng)化學(xué)習(xí),如果行動正確能得 1 分,錯誤行動則得 0 分。
隨后團(tuán)隊(duì)測試了多種語言模型,涵蓋 Qwen2.5(7B、14B、32B)、Qwen3-14B 模型,并使用 DeepSeek-R1 大模型作為對照組;先從 DeepSeek-R1 提煉高質(zhì)量訓(xùn)練數(shù)據(jù),然后使用群體相對策略優(yōu)化(GRPO)技術(shù),比較不同策略之間的優(yōu)劣。
最終經(jīng)過 TiG 框架訓(xùn)練的模型不僅能制定行動計(jì)劃,還能解釋原因,例如 AI 會指出某個防御塔防守薄弱,是理想的進(jìn)攻目標(biāo),但需要注意埋伏的敵人。模型訓(xùn)練后仍保持原有的文本理解、數(shù)學(xué)推理與問答能力。
朱芳雨或向CBA公司提出申訴
山西隊(duì)球迷迪亞洛,在比賽中,做出了“數(shù)錢動作”,很明顯,是對廣東隊(duì)現(xiàn)場進(jìn)行了挑釁。對于迪亞洛的這個行為,不排除...
2026-01-25
凝聚力拉滿!廣東為林醫(yī)生慶生!杜鋒講話致敬,球員砸蛋糕未果!
一般球隊(duì)基本上都會給球員過生日,不過工作人員一般都不過。但在廣東就不一樣了,即便是工作人員,他們也在社交網(wǎng)...
2026-01-25
90度崴腳!一場球傷兩個主力,太陽隊(duì)完了!
NBA常規(guī)賽今天繼續(xù)進(jìn)行,菲尼克斯太陽隊(duì)在客場挑戰(zhàn)亞特蘭大老鷹隊(duì),這是他們東部六連客的最后一場比賽。太陽隊(duì)...
2026-01-25
轟32+8+1!火箭沒有人怪我,史密斯說出心里話,杜蘭特也把話挑明
火箭主場119比110擊敗鵜鶘,成功收獲兩連勝。目前火箭戰(zhàn)績來到25勝15負(fù),繼續(xù)穩(wěn)居西部第五的位置。雖然火箭追不...
2026-01-25
火箭119110鵜鶘!無解不是2連勝,是杜蘭特評價小賈,烏度卡攤牌
火箭在主場以119-110擊敗鵜鶘。這場比賽的結(jié)果并不算特別意外,畢竟兩隊(duì)本賽季實(shí)力差距明顯。但這場勝利卻讓...
2026-01-25