当前位置：首页 > news >正文

用Pygame和DQN复刻经典AI实验：手把手教你从零搭建自己的Wumpus世界（Python 3.7环境）

news 2026/6/11 6:01:15

从零构建Wumpus世界：基于Pygame与DQN的强化学习实战指南

在人工智能发展史上，Wumpus世界作为经典的环境模型，一直是理解智能体决策过程的理想沙盒。这个充满危险的洞穴系统不仅考验着AI的推理能力，更是强化学习算法实践的绝佳试验场。本文将带你从零开始，用Python 3.7构建完整的Wumpus世界模拟环境，并集成深度Q网络(DQN)算法，打造一个能够自主探索的智能体。

1. 环境配置与项目初始化

1.1 开发环境准备

推荐使用PyCharm+Anaconda的组合搭建开发环境，这能有效管理Python版本和依赖库。以下是经过验证的稳定版本组合：

conda create -n wumpus python=3.7 conda activate wumpus pip install torch==1.13.0 pygame==2.1.2 numpy==1.18.5

注意：PyGame 2.1.2与Python 3.7的兼容性最佳，避免使用更高版本可能导致的渲染问题

1.2 项目结构设计

合理的项目结构能显著提升开发效率。建议按以下方式组织代码：

wumpus-world/ ├── assets/ # 存放游戏素材 │ ├── wumpus.png │ ├── gold.png │ └── pit.png ├── models/ # 保存训练好的DQN模型 ├── world.py # 游戏核心逻辑 ├── environment.py # 强化学习环境封装 ├── dqn_agent.py # DQN算法实现 └── train.py # 训练主程序

2. 游戏核心逻辑实现

2.1 世界状态建模

Wumpus世界的核心是4×4的网格环境，我们需要精确建模每个房间的状态：

class Room: def __init__(self): self.has_pit = False # 是否存在无底洞 self.has_gold = False # 是否存在金子 self.has_wumpus = False # 是否存在怪兽 self.stench = False # 是否有臭气(邻近Wumpus) self.breeze = False # 是否有微风(邻近无底洞) self.visited = False # 是否被探索过

2.2 游戏物理引擎

World类负责维护游戏状态和规则验证。关键方法包括：

move_agent(): 处理智能体移动和碰撞检测
shoot_arrow(): 实现箭矢飞行逻辑和伤害计算
check_game_over(): 判定游戏结束条件

class World: def __init__(self, size=4): self.grid = [[Room() for _ in range(size)] for _ in range(size)] self.agent_pos = (0, 0) # 起始位置 self.agent_has_gold = False self.agent_has_arrow = True self.game_over = False def get_valid_actions(self): """返回当前状态下可执行的动作列表""" actions = ['move_forward'] if self.agent_has_arrow: actions.append('shoot') return actions

3. Pygame可视化实现

3.1 游戏界面设计

使用PyGame的Sprite系统实现游戏元素的渲染：

class GameVisualizer: def __init__(self, world, cell_size=150): pygame.init() self.world = world self.cell_size = cell_size self.screen = pygame.display.set_mode( (world.size * cell_size, world.size * cell_size)) def draw_room(self, x, y): room = self.world.grid[x][y] rect = pygame.Rect(x*self.cell_size, y*self.cell_size, self.cell_size, self.cell_size) # 绘制房间基础外观 color = (200, 200, 200) if room.visited else (100, 100, 100) pygame.draw.rect(self.screen, color, rect) # 绘制特殊标记 if room.stench: self._draw_indicator(rect, 'S', (255, 0, 0)) if room.breeze: self._draw_indicator(rect, 'B', (0, 0, 255))

3.2 用户交互处理

实现键盘控制与游戏状态同步：

def handle_input(self): for event in pygame.event.get(): if event.type == pygame.QUIT: return False if event.type == pygame.KEYDOWN: if event.key == pygame.K_UP: self.world.move_agent('up') elif event.key == pygame.K_SPACE: self.world.shoot_arrow() return not self.world.game_over

4. DQN智能体实现

4.1 状态编码设计

为提升训练效率，我们采用紧凑的状态表示而非原始图像：

def encode_state(self): """将游戏状态编码为神经网络输入向量""" state = [] for x in range(self.world.size): for y in range(self.world.size): room = self.world.grid[x][y] state.extend([ int(room.has_pit), int(room.has_gold), int(room.has_wumpus), int(room.stench), int(room.breeze), int(room.visited) ]) # 添加智能体位置和方向信息 state.extend([*self.agent_pos, self.agent_dir]) return torch.FloatTensor(state)

4.2 奖励函数设计

精心设计的奖励函数是强化学习成功的关键：

事件	奖励值	说明
成功离开洞穴	+1000	最高奖励
收集金子	+500	次级奖励
被Wumpus吃掉/掉入洞	-1000	终止惩罚
射出箭矢	-10	资源消耗惩罚
每步移动	-1	鼓励高效探索

4.3 DQN网络架构

实现包含经验回放的深度Q网络：

class DQN(nn.Module): def __init__(self, input_size, hidden_size, output_size): super(DQN, self).__init__() self.fc1 = nn.Linear(input_size, hidden_size) self.fc2 = nn.Linear(hidden_size, hidden_size) self.fc3 = nn.Linear(hidden_size, output_size) def forward(self, x): x = F.relu(self.fc1(x)) x = F.relu(self.fc2(x)) return self.fc3(x) class ReplayMemory: def __init__(self, capacity): self.memory = deque(maxlen=capacity) def push(self, state, action, reward, next_state, done): self.memory.append((state, action, reward, next_state, done))

5. 训练策略与调优技巧

5.1 渐进式难度训练

采用课程学习(Curriculum Learning)策略逐步提升难度：

初级阶段：仅包含1个无底洞，无Wumpus
中级阶段：增加Wumpus，但固定位置
高级阶段：完全随机生成所有危险元素

5.2 超参数优化

经过实验验证的推荐参数组合：

training_params = { 'batch_size': 64, # 经验回放批次大小 'gamma': 0.99, # 折扣因子 'eps_start': 0.9, # 初始探索率 'eps_end': 0.05, # 最终探索率 'eps_decay': 200, # 探索率衰减周期 'target_update': 10, # 目标网络更新频率 'memory_capacity': 10000, # 经验回放缓存大小 }

5.3 训练监控与可视化

使用TensorBoard记录训练过程关键指标：

writer = SummaryWriter('runs/wumpus_experiment') for episode in range(num_episodes): # ...训练逻辑... writer.add_scalar('Reward/episode', total_reward, episode) writer.add_scalar('Loss/episode', total_loss, episode)

6. 实际开发中的挑战与解决方案

在实现过程中，开发者常会遇到几个典型问题：

稀疏奖励问题：智能体很难偶然获得正奖励
- 解决方案：设计中间奖励，如探索新房间+1
灾难性遗忘：网络在学习新场景时忘记旧知识
- 解决方案：使用优先级经验回放(PER)
训练不稳定：Q值波动剧烈
- 解决方案：实现双DQN(Double DQN)架构

# 双DQN实现示例 target_q_values = target_net(next_state_batch).gather(1, next_action_batch) expected_q_values = reward_batch + (1 - done_batch) * gamma * target_q_values

7. 项目扩展与进阶方向

完成基础版本后，可以考虑以下增强功能：

多智能体协作：引入多个智能体共同探索
部分可观察性：限制智能体的感知范围
动态环境：实现移动的Wumpus和变化的地形
迁移学习：将在小地图学到的策略迁移到更大网格

实现动态Wumpus的关键代码片段：

def update_wumpus_positions(self): for wumpus in self.wumpus_list: if random.random() < 0.3: # 30%概率移动 possible_moves = self.get_valid_moves(wumpus.position) if possible_moves: wumpus.position = random.choice(possible_moves) self.update_stench_markers()

在完成这个项目的过程中，最令人惊喜的发现是：即使使用相对简单的DQN架构，智能体也能发展出有效的探索策略。经过约5000次训练迭代后，智能体学会了先沿着墙壁探索的安全策略，这与人类玩家的直觉策略惊人地相似。

查看全文

http://www.gsyq.cn/news/1502082.html