πŸ€– Π ΠΎΠ±ΠΎΡ‚ UBC ΠΈΠ³Ρ€Π°Π΅Ρ‚ Π² аэрохоккСй Π»ΡƒΡ‡ΡˆΠ΅ людСй: обучился Π² симуляции Π±Π΅Π· Ρ€Π΅Π°Π»ΡŒΠ½ΠΎΠ³ΠΎ ΠΎΠΏΡ‹Ρ‚Π°

Команда студСнтов University of British Columbia (Hudson Nock ΠΈ ΠΊΠΎΠ»Π»Π΅Π³ΠΈ) создала AI-Ρ€ΠΎΠ±ΠΎΡ‚Π° для аэрохоккСя Π·Π° 2 Π³ΠΎΠ΄Π° Ρ€Π°Π±ΠΎΡ‚Ρ‹ Π½Π°Π΄ capstone project. Π£Π½ΠΈΠΊΠ°Π»ΡŒΠ½ΠΎΡΡ‚ΡŒ Π² Ρ‚ΠΎΠΌ, Ρ‡Ρ‚ΠΎ AI обучался ΠΏΠΎΠ»Π½ΠΎΡΡ‚ΡŒΡŽ Π² симуляции ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠΌ reinforcement learning (Soft Actor-Critic) ΠΈ Π±Ρ‹Π» пСрСнСсён Π½Π° физичСский стол Π±Π΅Π· дообучСния (zero-shot transfer). Π ΠΎΠ±ΠΎΡ‚ ΠΏΠΎΠ±Π΅ΠΆΠ΄Π°Π΅Ρ‚ людСй, хотя Π½ΠΈΠΊΠΎΠ³Π΄Π° Π½Π΅ трСнировался Π½Π° Ρ€Π΅Π°Π»ΡŒΠ½ΠΎΠΌ столС. Команда использовала domain randomization β€” симулировала нСровности стола, Π·Π°Π΄Π΅Ρ€ΠΆΠΊΠΈ ΠΊΠ°ΠΌΠ΅Ρ€Ρ‹, Π²ΠΈΠ±Ρ€Π°Ρ†ΠΈΠΈ, Ρ‡Ρ‚ΠΎΠ±Ρ‹ AI учился ΠΎΠΆΠΈΠ΄Π°Ρ‚ΡŒ Π½Π΅ΠΎΠΆΠΈΠ΄Π°Π½Π½ΠΎΠ³ΠΎ. overhead-ΠΊΠ°ΠΌΠ΅Ρ€Π° 120 fps с retroreflective шайбой обСспСчиваСт Ρ‚ΠΎΡ‡Π½ΠΎΠ΅ отслСТиваниС.

Для индустрии это ΠΏΡ€ΠΎΡ€Ρ‹Π² Π² sim-to-real transfer: Ρ€ΠΎΠ±ΠΎΡ‚Ρ‹ ΠΌΠΎΠ³ΡƒΡ‚ ΠΎΠ±ΡƒΡ‡Π°Ρ‚ΡŒΡΡ слоТным динамичСским Π·Π°Π΄Π°Ρ‡Π°ΠΌ Π±Π΅Π· износа ΠΆΠ΅Π»Π΅Π·Π° ΠΈ тысяч часов Ρ€Π΅Π°Π»ΡŒΠ½ΠΎΠ³ΠΎ Π²Ρ€Π΅ΠΌΠ΅Π½ΠΈ. Π’Ρ€Π°Π΄ΠΈΡ†ΠΈΠΎΠ½Π½Ρ‹Π΅ ΠΏΠΎΠ΄Ρ…ΠΎΠ΄Ρ‹ (Unity, Unreal) Π·Π°ΠΌΠ΅Π½ΠΈΠ»ΠΈ Π½Π° soft actor-critic для ускорСния обучСния. Если AI освоил аэрохоккСй β€” ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΠΉ шаг Π°Π²Ρ‚ΠΎΠ½ΠΎΠΌΠ½Ρ‹Π΅ Π΄Ρ€ΠΎΠ½Ρ‹, Π°Π²Ρ‚ΠΎΠΌΠΎΠ±ΠΈΠ»ΠΈ ΠΈ манипуляторы, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ учатся Π² симуляции, Π° Ρ€Π°Π±ΠΎΡ‚Π°ΡŽΡ‚ Π² Ρ€Π΅Π°Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ Π±Π΅Π· Ρ‚ΠΎΠ½ΠΊΠΎΠΉ настройки.

🐱 НСйроныч: ΠŸΡ€ΠΎΠ³Ρ€Π΅ΡΡ, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ Π½Π°ΠΌ Π½ΡƒΠΆΠ΅Π½ для Π°Π²Ρ‚ΠΎΠ½ΠΎΠΌΠ½Ρ‹Ρ… систСм. Π–Π΄Ρ‘ΠΌ open-source ΠΊΠΎΠ΄!