当前位置: 首页 > news >正文

Pong是什么

Pong既是电子游戏历史上的开山鼻祖之一,也是现代强化学习(Reinforcement Learning, RL)和计算机视觉(CV)领域中最经典的基准测试环境(Benchmark)。

无论是想用 C++ 练手面向对象编程、在 FPGA 上连 VGA 显示器手撕硬件,还是刚开始用 PyTorch 训练 Policy Gradient(策略梯度)智能体,Pong 都是绝佳的切入点。

以下从游戏核心逻辑AI 强化学习环境两个维度为你拆解 Pong。


1. 极简极智:Pong 的核心游戏逻辑

从零实现一个 Pong 游戏(比如用 C++ 结合 SDL/SFML 库,或者用 Python 的 Pygame),其底层架构本质上是一个确定性的2D 刚体碰撞物理引擎

它的核心状态机和运动公式只有以下三部分:

① 状态表示(State)

整个游戏在二维平面坐标系下运行,只需要维护极少量的变量:

  • 球(Ball):位置(x,y)(x, y)(x,y),速度向量(vx,vy)(v_x, v_y)(vx,vy)
  • 球拍(Paddles):左拍ylefty_{left}yleft,右拍yrighty_{right}yright,以及固定的长宽和xxx轴位置。

② 碰撞与反弹公式(Collision & Reflection)

球在移动过程中,每帧更新:x←x+vxx \leftarrow x + v_xxx+vx,y←y+vyy \leftarrow y + v_yyy+vy

  • 上下墙壁碰撞:当球触及屏幕上边界或下边界时,速度在yyy轴反向:

vy←−vyv_y \leftarrow -v_yvyvy

  • 球拍碰撞与角度修正:当球的xxx坐标与球拍重合且yyy坐标在球拍范围内时,vxv_xvx反向。为了让游戏更有可玩性,通常会根据球击中球拍的位置来动态改变vyv_yvy,即击中球拍边缘时,反弹角度更刁钻:

vy←vy+offset×paddle_speedv_y \leftarrow v_y + \text{offset} \times \text{paddle\_speed}vyvy+offset×paddle_speed

③ 胜负判定

当球的xxx坐标越过左边界或右边界,则对方得分,球回到中心重新开球。


2. 深度学习中的 Pong:从像素到决策

在 OpenAI Gym(现为 Farama Foundation Gymnasium)的 Atari 游戏环境中,Pong-v4是用来检验强化学习算法(如 DQN, PPO)是否入门的标准试金石。

AI 是如何玩 Pong 的?

与人类玩家直接看屏幕类似,AI 模型的输入通常是原始的屏幕像素画面

  1. 输入预处理(State Representation)
  • 原始的 Atari 屏幕是210×160210 \times 160210×160的 RGB 图像。
  • 为了减少计算量,通常会将其裁剪为84×8484 \times 8484×84,并转换为灰度图。
  • 关键技巧:帧堆叠(Frame Stacking)。单张静态图片是无法看出球的运动方向和速度的。因此,通常会将连续的 4 帧画面压在一起作为网络的输入,这样 CNN(卷积神经网络)就能捕捉到速度和加速度信息。
  1. 动作空间(Action Space)
  • Pong 的动作空间极其精简,通常只有 3 个有效动作:NOOP(不动)、UP(向上移动球拍)、DOWN(向下移动球拍)。
  1. 奖励机制(Reward Signal)
  • 赢下一球获得+1
  • 输掉一球获得-1
  • 其余时间(球在空中飞时)奖励为0
  • 一场比赛先到 21 分的一方获胜。

为什么说它是经典的 Baseline?

Pong 的状态空间比围棋或《星际争霸》简单得多,且奖励相对密集(相比于那些要走很久迷宫才能拿到奖励的游戏)。一个设计良好的DQN(深度Q网络)Policy Gradient(策略梯度)算法,通常在消费级显卡上训练几个小时,就能实现对内置 AI(Rule-based AI)的 21:0 完美血洗。

它是验证“端到端”(输入像素,直接输出控制指令)控制算法是否写错 Bug 的最佳标尺。

http://www.gsyq.cn/news/1481761.html

相关文章:

  • 3分钟搞定Windows直读Btrfs分区:跨平台文件互通终极方案
  • 2026树洞陪聊深度测评|5个真实温柔情绪平台,治好成年人深夜孤独 - 时时资讯
  • AI 辅助算法训练平台设计:智能题解生成与自适应学习路径规划
  • 2026年绵阳装修消费调研:透明装修模式对业主决策的影响分析 - 优家闲谈
  • 不止是联机!用《龙之崛起》自带地图编辑器,打造属于你们的专属联机战役
  • Rollout
  • 终极指南:3步安全卸载Microsoft Edge浏览器,彻底释放Windows系统资源
  • 三步轻松下载B站4K视频:bilibili-downloader完全指南
  • 智能家居组网避坑指南:为什么你的Mesh路由器有时‘失联’?聊聊IEEE 1905.1拓扑发现那些事
  • 3分钟解锁音乐自由!ncmdump工具快速解密网易云NCM格式全攻略
  • GRPO算法
  • 2026年6月7日科技速递:高考AI监考、芯片股暴跌、谷歌Gemini漏洞、OpenAI人才流失
  • 当 AI Agent 成为你的用户——Agent-Native 网站是什么?为什么现在就该关注?
  • 嵌入式汉字编码与输入法实战:从GB2312原理到MCU实现
  • 一个 VS Code 插件,干翻了 GitHub 3800 个内部仓库
  • 从0到1搭建CSDN AI内容获客体系:3步建模、7天冷启动、22天实现线索成本低于行业均值58%
  • 告别依赖地狱:手把手教你用AppImage在Ubuntu 22.04上安装最新版Neovim(附FUSE问题解决)
  • 软件过程与管理知识回顾1 -
  • 华强北元器件分销商资源整合:从策略联盟到资本联姻的破局之路
  • 2026 无锡锡山区漏水维修攻略|苏易修缮推荐:卫生间/阳台/外墙/屋顶/地下室漏水|靠谱防水门店推荐 - 苏易修缮
  • BetterNCM安装工具:三分钟为网易云音乐打造个性化插件平台
  • 宠乐圈 宠物领养互助平台
  • 避开这些坑!农行OpenBank H5开户SDK集成实战与回调逻辑详解
  • 【字节跳动】入侵用户+隐私侵犯·全量证据材料 续编完整版
  • 太强了!输入主题,这几款AI写作辅助网站直接生成毕业论文!
  • Proteus液晶仿真核心指南:从HD44780到T6963C的驱动原理与实战
  • 记者走访:游戏电竞护航陪玩源码系统小程序升级护航俱乐部接单平台 - 壹软科技
  • 书匠策AI:期刊论文原来可以“躺“着写?这波操作我直接看傻了!
  • SMBus协议深度解析与服务器硬件管理实战指南
  • Claude Mythos:AI 网络安全能力的质变时刻