六月婷婷导航福利在线|国产日产欧产精品网站|欧美亚洲日韩国产综合网|亚洲中字幕永久在线观看|精品四虎免费观看国产高清|亚洲日本欧美一区二区三区|91国自产精品中文字幕亚洲|无码欧精品亚洲日韩一区app

首頁 > 資訊 > 要聞 > 正文

這只機(jī)器狗愛學(xué)習(xí)會“推理” 騰訊Max能靈活應(yīng)對環(huán)境并聰明預(yù)判

2023-06-15 09:14:01來源:深圳商報(bào)

機(jī)器狗通過深度強(qiáng)化學(xué)習(xí),已具備一定的推理和決策能力。騰訊供圖深圳新

機(jī)器狗通過深度強(qiáng)化學(xué)習(xí),已具備一定的推理和決策能力。騰訊供圖


(資料圖片僅供參考)

深圳新聞網(wǎng)2023年6月15日訊(深圳商報(bào)記者 陳姝)6月14日,騰訊Robotics X機(jī)器人實(shí)驗(yàn)室公布了智能體研究的最新進(jìn)展,通過將前沿的預(yù)訓(xùn)練AI模型和強(qiáng)化學(xué)習(xí)技術(shù)應(yīng)用到機(jī)器人控制領(lǐng)域,讓機(jī)器狗Max的靈活性和自主決策能力得到大幅提升。

讓機(jī)器狗像人和動物一樣靈活且穩(wěn)定地運(yùn)動,是機(jī)器人研究領(lǐng)域長期追求的目標(biāo),深度學(xué)習(xí)技術(shù)的不斷進(jìn)步,使得讓機(jī)器通過“學(xué)習(xí)”來掌握相關(guān)能力,學(xué)會應(yīng)對復(fù)雜多變的環(huán)境變得可行。

預(yù)訓(xùn)練和強(qiáng)化學(xué)習(xí)

靈活應(yīng)對復(fù)雜環(huán)境

騰訊Robotics X機(jī)器人實(shí)驗(yàn)室通過引入預(yù)訓(xùn)練AI模型和強(qiáng)化學(xué)習(xí)技術(shù),可以讓機(jī)器狗分階段進(jìn)行學(xué)習(xí),靈活應(yīng)對復(fù)雜環(huán)境。

第一階段通過游戲技術(shù)中常使用動作捕捉系統(tǒng),研究員收集真狗的運(yùn)動姿態(tài)數(shù)據(jù),包括走、跑、跳、站立等動作,并利用這些數(shù)據(jù),在仿真器中構(gòu)建了一個模仿學(xué)習(xí)任務(wù),再將這些數(shù)據(jù)中的信息抽象并壓縮到深度神經(jīng)網(wǎng)絡(luò)模型中。

在模仿學(xué)習(xí)的過程中,神經(jīng)網(wǎng)絡(luò)模型僅接收機(jī)器狗本體感知信息作為輸入,例如機(jī)器狗身上電機(jī)狀態(tài)等。再下一步,模型引入周邊環(huán)境的感知數(shù)據(jù),例如可以通過其他傳感器“看到”腳下的障礙物。

第二階段,通過額外的網(wǎng)絡(luò)參數(shù)來將第一階段掌握的機(jī)器狗靈動姿態(tài)與外界感知聯(lián)系在一起,使得機(jī)器狗能夠通過已經(jīng)學(xué)會的靈動姿態(tài)來應(yīng)對外界環(huán)境。當(dāng)機(jī)器狗適應(yīng)了多種復(fù)雜的環(huán)境后,這些將靈動姿態(tài)與外界感知聯(lián)系在一起的知識也會被固化下來,存在神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中。

第三階段,利用上述兩個預(yù)訓(xùn)練階段獲取的神經(jīng)網(wǎng)絡(luò),機(jī)器狗才有前提和機(jī)會來聚焦解決最上層的策略學(xué)習(xí)問題,最終具備端到端解決復(fù)雜的任務(wù)的能力。

障礙追逐游戲

模擬人類的推理方式

為了測試Max所掌握的這些新技能,研究員受到障礙追逐比賽“World Chase Tag”的啟發(fā),設(shè)計(jì)了一個雙狗障礙追逐的游戲。

在機(jī)器狗障礙追逐比賽中,游戲場地大小為4.5米×4.5米,其中散落著一些障礙物。游戲起始,兩個MAX機(jī)器狗會被放置在場地中的隨機(jī)位置,且隨機(jī)一個機(jī)器狗被賦予追擊者的角色,另一個為躲避者,同時,場地中會在隨機(jī)位置擺放一個旗子。

追擊者的任務(wù)是抓住躲避者,躲避者的目的則是在保證不被抓到的前提下去接近旗子。如果躲避者在被抓到之前成功觸碰到旗子,則兩個機(jī)器狗的角色會瞬間發(fā)生互換,同時旗子會重新出現(xiàn)在另一個隨機(jī)的位置。

從這個游戲看來,在基于預(yù)訓(xùn)練好的模型下,機(jī)器狗通過深度強(qiáng)化學(xué)習(xí),已經(jīng)具備一定的推理和決策能力:

比如,當(dāng)追擊者意識到自己在躲避者碰到旗子之前已經(jīng)無法追上它的時候,追擊者就會放棄追擊,而是在遠(yuǎn)離躲避者的位置徘徊,目的是為了等待下一個重置的旗子出現(xiàn)。

據(jù)介紹,游戲中機(jī)器狗的所有控制策略都是神經(jīng)網(wǎng)絡(luò)策略,在仿真中進(jìn)行學(xué)習(xí)并通過zero-shot transfer(零調(diào)整遷移),讓神經(jīng)網(wǎng)絡(luò)模擬人類的推理方式,來識別從未見過的新事物,并把這些知識部署到真實(shí)機(jī)器狗上。

騰訊Robotics X機(jī)器人實(shí)驗(yàn)室長期致力于機(jī)器人前沿技術(shù)的研究,以此前在機(jī)器人本體、運(yùn)動、控制領(lǐng)域等領(lǐng)先技術(shù)和積累為基礎(chǔ),研究員們也在嘗試將前沿的預(yù)訓(xùn)練模型和深度強(qiáng)化學(xué)習(xí)技術(shù)引入到機(jī)器人領(lǐng)域,提升機(jī)器人的控制能力,讓其更具靈活性,這也為機(jī)器人走入現(xiàn)實(shí)生活,服務(wù)人類打下了堅(jiān)實(shí)的基礎(chǔ)。

關(guān)鍵詞:

責(zé)任編輯:hnmd004

最新資訊

泽库县| 和政县| 峡江县| 安达市| 临清市| 绩溪县| 梅河口市| 通河县| 南投县| 汽车| 阳朔县| 南投县| 阿拉善左旗| 兴文县| 晋中市| 邵东县| 伽师县| 龙胜| 保定市| 铁岭县| 正镶白旗| 新津县| 洛隆县| 南丹县| 元谋县| 镇远县| 墨竹工卡县| 永年县| 舟曲县| 获嘉县| 河东区| 从江县| 徐汇区| 砚山县| 桐庐县| 枣阳市| 辛集市| 万全县| 藁城市| 大同县| 临漳县|