欧美成人黄色小视频,国产人妖乱国产精品人妖,国产性天天综合网,台湾佬中文娱乐久久久

4分鐘對(duì)打300多次,谷歌教會(huì)機(jī)器人打乒乓球

前沿科技 3年前 (2022) 虛像
3 0 0

想打乒乓球,可以找機(jī)器人陪練了。

讓一位乒乓球愛(ài)好者和機(jī)器人對(duì)打,按照機(jī)器人的發(fā)展趨勢(shì)來(lái)看,誰(shuí)輸誰(shuí)贏還真說(shuō)不準(zhǔn)。

機(jī)器人擁有靈巧的可操作性、腿部運(yùn)動(dòng)靈活、抓握能力出色 …… 已被廣泛應(yīng)用于各種挑戰(zhàn)任務(wù)。但在與人類(lèi)互動(dòng)緊密的任務(wù)中,機(jī)器人的表現(xiàn)又如何呢?就拿乒乓球來(lái)說(shuō),這需要雙方高度配合,并且球的運(yùn)動(dòng)非??焖伲@對(duì)算法提出了重大挑戰(zhàn)。

在乒乓球比賽中,首要的就是速度和精度,這對(duì)學(xué)習(xí)算法提出了很高的要求。同時(shí),這項(xiàng)運(yùn)動(dòng)具有高度結(jié)構(gòu)化(具有固定的、可預(yù)測(cè)的環(huán)境)和多智能體協(xié)作(機(jī)器人可以與人類(lèi)或其他機(jī)器人一起對(duì)打)兩大特點(diǎn),使其成為研究人機(jī)交互和強(qiáng)化學(xué)習(xí)問(wèn)題的理想實(shí)驗(yàn)平臺(tái)。

來(lái)自谷歌的機(jī)器人研究團(tuán)隊(duì)已經(jīng)建立了這樣一個(gè)平臺(tái)來(lái)研究機(jī)器人在多人、動(dòng)態(tài)和交互環(huán)境中學(xué)習(xí)所面臨的問(wèn)題。谷歌為此還專(zhuān)門(mén)寫(xiě)了一篇博客,來(lái)介紹他們一直在研究的兩個(gè)項(xiàng)目 Iterative-Sim2Real(i-S2R) 和 GoalsEye。i-S2R 讓機(jī)器人能夠與人類(lèi)玩家進(jìn)行超過(guò) 300 次的對(duì)打,而 GoalsEye 則使機(jī)器人能夠從業(yè)余愛(ài)好者那里學(xué)習(xí)到一些有用的策略(目標(biāo)條件策略)。

i-S2R 策略讓機(jī)器人和人類(lèi)對(duì)打,雖然機(jī)器人的握拍姿勢(shì)看起來(lái)不太專(zhuān)業(yè),但也不會(huì)漏掉一個(gè)球:

4分鐘對(duì)打300多次,谷歌教會(huì)機(jī)器人打乒乓球

你來(lái)我往,還挺像那么回事,妥妥打出了高質(zhì)量球的感覺(jué)。

而 GoalsEye 策略則能將球返回到桌面指定位置,就和指哪打哪差不多:

4分鐘對(duì)打300多次,谷歌教會(huì)機(jī)器人打乒乓球

i-S2R:利用模擬器與人類(lèi)合作進(jìn)行游戲

在這個(gè)項(xiàng)目中,機(jī)器人旨在學(xué)會(huì)與人類(lèi)合作,即盡可能長(zhǎng)時(shí)間地與人類(lèi)進(jìn)行對(duì)打。由于直接針對(duì)人類(lèi)玩家進(jìn)行訓(xùn)練既乏味又耗時(shí),因此谷歌采用了基于模擬的方法。然而,這又面臨一個(gè)新的問(wèn)題,基于模擬的方法很難準(zhǔn)確地模擬人類(lèi)行為、閉環(huán)交互任務(wù)等。

在 i-S2R 中,谷歌提出了一種在人機(jī)交互任務(wù)中可以學(xué)習(xí)人類(lèi)行為的模型,并在機(jī)器人乒乓球平臺(tái)上對(duì)其進(jìn)行實(shí)例化。谷歌已經(jīng)建立了一個(gè)系統(tǒng),該系統(tǒng)可以與業(yè)余人類(lèi)玩家一起實(shí)現(xiàn)高達(dá) 340 次擊球?qū)Υ颍ㄈ缦滤荆?/p>

4分鐘對(duì)打300多次,谷歌教會(huì)機(jī)器人打乒乓球

人與機(jī)器人對(duì)打 4 分鐘,來(lái)回多達(dá) 340 次

學(xué)習(xí)人類(lèi)行為模型

讓機(jī)器人準(zhǔn)確的學(xué)習(xí)人類(lèi)行為還面臨以下問(wèn)題:如果一開(kāi)始就沒(méi)有足夠好的機(jī)器人策略,就無(wú)法收集關(guān)于人類(lèi)如何與機(jī)器人交互的高質(zhì)量數(shù)據(jù)。但是如果沒(méi)有人類(lèi)行為模型,從一開(kāi)始就無(wú)法獲得機(jī)器人策略,這個(gè)問(wèn)題有點(diǎn)繞,就像先有雞還是先有蛋的問(wèn)題。一種方法是直接在現(xiàn)實(shí)世界中訓(xùn)練機(jī)器人策略,但這通常很慢,成本高昂,并且會(huì)帶來(lái)與安全相關(guān)的挑戰(zhàn),當(dāng)人參與其中時(shí),這些挑戰(zhàn)會(huì)進(jìn)一步加劇。

如下圖所示,i-S2R 使用一個(gè)簡(jiǎn)單的人類(lèi)行為模型作為近似起點(diǎn),并在模擬訓(xùn)練和現(xiàn)實(shí)世界部署之間交替進(jìn)行。每次迭代中,人類(lèi)行為模型和策略都會(huì)被調(diào)整。

4分鐘對(duì)打300多次,谷歌教會(huì)機(jī)器人打乒乓球

i-S2R 方法

谷歌根據(jù)玩家類(lèi)型對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行了細(xì)分:初學(xué)者(占 40% 的玩家)、中級(jí)(占 40% 的玩家)和高級(jí)(占 20% 的玩家)。由實(shí)驗(yàn)結(jié)果可得,對(duì)于初學(xué)者和中級(jí)玩家(占 80% 的玩家),i-S2R 的表現(xiàn)都明顯優(yōu)于 S2R+FT(sim-to-real plus fine-tuning)。

4分鐘對(duì)打300多次,谷歌教會(huì)機(jī)器人打乒乓球

按玩家類(lèi)型劃分的 i-S2R 結(jié)果。

GoalsEye:可精確擊中指定位置

在 GoalsEye 中,谷歌還展示了一種方法,該方法結(jié)合了行為克隆技術(shù)(behavior cloning techniques)來(lái)學(xué)習(xí)精確的目標(biāo)定位策略。

這里谷歌重點(diǎn)關(guān)注乒乓球的精度,他們希望機(jī)器人可以將小球精確返回到球臺(tái)上的任意指定位置,就如下圖所展示的指哪打哪。為實(shí)現(xiàn)如下效果,他們還采用了 LFP(Learning from Play)、GCSL(Goal-Conditioned Supervised Learning)。

4分鐘對(duì)打300多次,谷歌教會(huì)機(jī)器人打乒乓球

GoalsEye 策略瞄準(zhǔn)直徑為 20cm 的圓圈(左)。人類(lèi)玩家可以瞄準(zhǔn)同樣的目標(biāo)(右)。

在最初的 2480 次演示中,谷歌的訓(xùn)練策略僅在 9% 的時(shí)間內(nèi)準(zhǔn)確地?fù)糁邪霃綖?30 厘米的圓形目標(biāo)。在經(jīng)過(guò)了大約 13500 次演示后,小球達(dá)到目標(biāo)的準(zhǔn)確率上升到 43%(右下圖)。

4分鐘對(duì)打300多次,谷歌教會(huì)機(jī)器人打乒乓球

原文地址:http://www.myzaker.com/article/6358cd158e9f0978335fdc8d

版權(quán)聲明:虛像 發(fā)表于 2022年10月26日 pm7:46。
轉(zhuǎn)載請(qǐng)注明:4分鐘對(duì)打300多次,谷歌教會(huì)機(jī)器人打乒乓球 | 快導(dǎo)航網(wǎng)

相關(guān)文章

主站蜘蛛池模板: 晴隆县| 迁安市| 调兵山市| 当阳市| 德昌县| 灌阳县| 揭阳市| 堆龙德庆县| 茌平县| 汨罗市| 微山县| 漠河县| 深水埗区| 盈江县| 丽江市| 绍兴县| 蓝田县| 靖宇县| 镇远县| 逊克县| 荆门市| 永福县| 和硕县| 阳高县| 陆丰市| 仁布县| 晋城| 武川县| 金溪县| 万源市| 阳东县| 闽清县| 石渠县| 安阳县| 微山县| 松桃| 青海省| 衡阳市| 临沂市| 乐都县| 奉节县|