当前位置：首页 > news >正文

提升AI智能体成功率：构建多策略融合的浏览器感知层实战

news 2026/7/4 1:34:38

🚀 30+款热门AI模型一站整合，DeepSeek/GLM/Claude 随心用，限时 5 折。 👉 点击领海量免费额度

在实际的 AI 应用开发中，尤其是构建基于大语言模型的智能体（Agent）时，很多开发者会遇到一个令人困惑的现象：精心设计的 Agent 逻辑、调用了强大的模型 API，但任务执行的成功率却远低于预期。Agent 在尝试操作浏览器、解析网页内容时，常常“看”不清、“读”不懂，导致后续的推理和决策建立在错误或缺失的信息之上，最终任务失败。问题的根源往往不在于大模型本身的推理能力，而在于一个更底层、更关键的环节——如何让 Agent 准确地“看见”并“理解”屏幕上的信息。这个“眼睛”，就是计算机视觉与网页结构解析的结合体。

本文将深入探讨浏览器自动化 Agent 的核心瓶颈，即信息感知（Perception）层。我们会从 Agent 的基本工作流切入，分析为什么“看”比“想”更难。然后，我们将通过一个完整的实战项目，演示如何构建一个更可靠的“眼睛”。这个项目将结合 Playwright 进行浏览器控制，使用多种策略（如 DOM 解析、OCR、视觉特征匹配）来提取和理解页面信息，并设计一个决策框架让 Agent 基于这些信息行动。最后，我们会总结一套针对不同网页类型的感知策略选型指南和常见问题的排查清单。

1. 理解 Agent 的工作流与感知瓶颈

一个典型的浏览器操作 Agent（例如 AutoGPT、WebGPT 或自定义的自动化脚本）的工作流可以简化为一个循环：观察（Observe） -> 思考（Think） -> 行动（Act）。大语言模型（LLM）主要承担“思考”环节，它将观察到的信息转化为具体的行动指令。然而，如果“观察”环节提供的信息是模糊、错误或不完整的，无论后面的模型多强大，整个链条都会失效。

1.1 为什么网页“观察”如此困难？

网页对于人类是直观的视觉和语义整体，但对于程序来说，它是由多种层次混杂的数据结构：

DOM 树：最基础的结构化描述，包含了元素的标签、属性、层级关系。但对于动态渲染、复杂 Canvas 或大量自定义组件构成的页面，DOM 可能无法反映真实的视觉布局和内容。
视觉渲染：浏览器最终绘制出的像素图像。这包含了所有视觉信息，但丢失了语义结构。一个按钮在图片上只是一个色块区域。
无障碍树：为辅助技术提供的语义化信息，质量取决于开发者的实现。

Agent 的“眼睛”需要在这三者之间取得平衡。纯依赖 DOM 解析，会遇到单页应用（SPA）动态内容、伪元素、复杂 CSS 布局导致的定位失败；纯依赖视觉（OCR），则无法理解元素的功能（如这是一个提交按钮还是一个图片链接），且处理速度慢、受字体和样式影响大。

1.2 感知层的核心挑战

动态内容加载：页面元素在交互后异步出现，简单的静态 DOM 抓取会遗漏。
元素定位不稳定：依赖 CSS 选择器或 XPath 定位元素，一旦前端代码微调（如类名变化、结构重组）就会失效。
非文本内容理解：图标、图表、验证码、视频封面等，需要计算机视觉识别其含义。
布局理解：判断哪些元素是导航栏、主内容区、侧边栏、弹窗，这对于 Agent 决定“点击哪里”至关重要。
状态判断：一个按钮是可用还是禁用（disabled），一个复选框是否被勾选，这些状态信息必须被准确感知。

2. 环境准备与核心工具选型

为了构建一个强大的感知层，我们需要一组专门工具。以下是我们实战项目的基础环境。

2.1 项目初始化与依赖安装

我们使用 Python 作为开发语言。首先创建项目并安装核心库。

# 创建项目目录 mkdir robust-browser-agent && cd robust-browser-agent python -m venv venv # 激活虚拟环境 (Windows) venv\Scripts\activate # 激活虚拟环境 (MacOS/Linux) source venv/bin/activate # 安装核心依赖 pip install playwright beautifulsoup4 lxml pillow opencv-python pytesseract # 安装Playwright浏览器内核 playwright install chromium

关键依赖说明：

Playwright：微软出品的浏览器自动化库。相比 Selenium，它提供更可靠的自动等待、网络拦截、丰富的选择器和对动态内容的更好支持。它是我们控制浏览器的“手”。
BeautifulSoup4 & lxml：用于解析 HTML DOM 结构，提取文本和属性。它们是传统的“结构之眼”。
Pillow & opencv-python：图像处理库。用于截图、图像预处理和简单的视觉匹配。
pytesseract： Tesseract OCR 的 Python 封装。用于从图像中提取文字，是我们的“视觉之眼”。需要额外安装 Tesseract-OCR 引擎。

注意： Tesseract 需要单独安装。在 Ubuntu 上可以sudo apt install tesseract-ocr，在 MacOS 上可以brew install tesseract，在 Windows 上需要从 GitHub 下载安装程序并配置环境变量TESSDATA_PREFIX。

2.2 项目结构设计

一个清晰的项目结构有助于管理复杂的感知策略。

robust-browser-agent/ ├── agent_core.py # Agent 主循环和决策逻辑 ├── perception/ # 感知层模块 │ ├── __init__.py │ ├── dom_analyzer.py # DOM 解析器 │ ├── visual_analyzer.py # 视觉分析器 (OCR, 匹配) │ └── page_understander.py # 综合页面理解 ├── actions/ # 行动层模块 │ ├── __init__.py │ └── browser_controller.py # 基于 Playwright 的浏览器操作 ├── config.yaml # 配置文件 ├── resources/ # 资源文件 │ └── reference_images/ # 用于视觉匹配的参考图片 └── main.py # 程序入口

3. 构建多策略融合的感知层

感知层的目标是生成一个对当前页面状态的结构化、语义化描述，供 LLM 决策使用。我们将实现三种策略，并根据页面特性动态选择或融合。

3.1 策略一：增强型 DOM 解析

单纯的innerText提取不够。我们需要提取元素的语义角色、可交互状态和视觉位置。

创建perception/dom_analyzer.py：

from playwright.sync_api import Page, Locator from bs4 import BeautifulSoup import json class DOMAnalyzer: def __init__(self, page: Page): self.page = page def get_element_info(self, selector: str) -> dict: """获取单个元素的增强信息""" locator = self.page.locator(selector) if not locator.count(): return None element = locator.first # 获取基本属性 tag = element.evaluate('el => el.tagName') text = element.inner_text().strip() html = element.inner_html() is_visible = element.is_visible() is_enabled = not element.is_disabled() # 获取计算样式和位置（相对视口） bounding_box = element.bounding_box() # 获取一些重要的 ARIA 属性 role = element.get_attribute('role') or tag.lower() aria_label = element.get_attribute('aria-label') placeholder = element.get_attribute('placeholder') info = { 'selector': selector, 'tag': tag, 'text': text, 'is_visible': is_visible, 'is_enabled': is_enabled, 'role': role, # 语义角色，如 'button', 'link', 'textbox' 'aria_label': aria_label, 'placeholder': placeholder, 'position': bounding_box, } return info def get_page_semantic_summary(self) -> str: """获取页面语义化摘要，用于给LLM的上下文""" # 提取所有关键交互元素 interactive_selectors = [ 'button', 'a', 'input', 'textarea', 'select', '[role="button"]', '[role="link"]', '[tabindex]' ] elements_info = [] for selector in interactive_selectors: locators = self.page.locator(selector).all() for loc in locators[:10]: # 限制数量，避免过长 try: # 使用更稳定的方式生成选择器（示例简化） # 实际项目中可能需要更复杂的逻辑来生成唯一选择器 elem_info = self.get_element_info_for_locator(loc) if elem_info and elem_info.get('is_visible'): elements_info.append(elem_info) except: pass # 提取主要文本内容（段落、标题） main_content = self.page.locator('body').inner_text()[:1500] # 截断 summary = { 'interactive_elements': elements_info, 'main_content_preview': main_content, 'url': self.page.url, 'title': self.page.title() } return json.dumps(summary, indent=2, ensure_ascii=False) def get_element_info_for_locator(self, locator: Locator) -> dict: """通过Locator对象获取信息（简化版）""" # 这里需要实现一个将Locator转换为稳定选择器的方法 # 例如，通过组合id、class、属性等 # 此处为示例，直接使用一个简化逻辑 try: text = locator.inner_text().strip() or '' tag = locator.evaluate('el => el.tagName') return {'text': text, 'tag': tag, 'is_visible': locator.is_visible()} except: return None

这个解析器不仅获取文本，还收集了可见性、可用性、屏幕位置和 ARIA 角色，这些信息对于判断“能否操作”和“操作什么”至关重要。

3.2 策略二：视觉与 OCR 后备

当 DOM 解析失效时（例如，元素是 Canvas 绘制的，或者文本是图片形式），我们需要视觉方案。

创建perception/visual_analyzer.py：

from PIL import Image import pytesseract import cv2 import numpy as np from pathlib import Path class VisualAnalyzer: def __init__(self, tesseract_cmd_path=None): if tesseract_cmd_path: pytesseract.pytesseract.tesseract_cmd = tesseract_cmd_path # 确保Tesseract能找到语言包，简体中文：chi_sim self.tessdata_dir = Path('/usr/share/tesseract-ocr/4.00/tessdata') # 根据系统调整 def extract_text_from_image(self, image_path_or_pil_image, lang='eng+chi_sim'): """从图片中提取文本""" try: if isinstance(image_path_or_pil_image, str): img = Image.open(image_path_or_pil_image) else: img = image_path_or_pil_image # 预处理图像以提高OCR精度：转灰度、二值化、去噪 img_gray = cv2.cvtColor(np.array(img), cv2.COLOR_RGB2GRAY) _, img_bin = cv2.threshold(img_gray, 150, 255, cv2.THRESH_BINARY + cv2.THRESH_OTSU) # 使用Tesseract提取文本 custom_config = f'--tessdata-dir "{self.tessdata_dir}" --psm 6 -l {lang}' text = pytesseract.image_to_string(Image.fromarray(img_bin), config=custom_config) return text.strip() except Exception as e: print(f"OCR 失败: {e}") return "" def find_image_on_screen(self, screenshot, template_path, threshold=0.8): """使用模板匹配在屏幕截图中查找特定图标或按钮""" screenshot_cv = cv2.cvtColor(np.array(screenshot), cv2.COLOR_RGB2GRAY) template = cv2.imread(template_path, cv2.IMREAD_GRAYSCALE) if template is None: raise ValueError(f"无法加载模板图片: {template_path}") result = cv2.matchTemplate(screenshot_cv, template, cv2.TM_CCOEFF_NORMED) min_val, max_val, min_loc, max_loc = cv2.minMaxLoc(result) if max_val >= threshold: # 返回匹配位置（中心点） h, w = template.shape top_left = max_loc center_x = top_left[0] + w // 2 center_y = top_left[1] + h // 2 return (center_x, center_y), max_val else: return None, max_val

视觉分析器提供了两个关键能力：OCR 提取图片文字和模板匹配寻找已知图标。这对于登录验证码、图形按钮或自定义控件非常有用。

3.3 策略三：综合页面理解与决策

我们需要一个调度器，根据页面特征决定使用哪种感知策略，并融合结果。

创建perception/page_understander.py：

from .dom_analyzer import DOMAnalyzer from .visual_analyzer import VisualAnalyzer from playwright.sync_api import Page import tempfile class PageUnderstander: def __init__(self, page: Page): self.page = page self.dom_analyzer = DOMAnalyzer(page) self.visual_analyzer = VisualAnalyzer() self.last_screenshot = None def analyze_page(self, strategy='auto'): """分析当前页面，返回结构化描述""" page_info = { 'url': self.page.url, 'title': self.page.title(), 'strategies_used': [], 'interactive_elements': [], 'key_text_blocks': [], 'screenshot_path': None } # 策略选择 if strategy in ['dom', 'auto']: dom_summary = self.dom_analyzer.get_page_semantic_summary() page_info['dom_summary'] = dom_summary page_info['strategies_used'].append('dom') # 这里可以解析dom_summary，填充interactive_elements等 # 如果DOM分析结果中关键交互元素缺失或文本为空，启动视觉后备 if strategy in ['visual', 'auto'] and self._needs_visual_fallback(page_info): # 1. 截屏 with tempfile.NamedTemporaryFile(suffix='.png', delete=False) as tmp: screenshot_path = tmp.name self.page.screenshot(path=screenshot_path, full_page=True) self.last_screenshot = screenshot_path page_info['screenshot_path'] = screenshot_path # 2. OCR提取主要区域文本（示例：截取页面中心区域） # 实际项目中，可以更智能地划分区域 screenshot_img = Image.open(screenshot_path) # 这里可以调用visual_analyzer.extract_text_from_image # ... # 3. 匹配已知关键图标（如登录按钮、搜索图标） # reference_icon_path = 'resources/reference_images/login_button.png' # position, confidence = self.visual_analyzer.find_image_on_screen(screenshot_img, reference_icon_path) # if position: # page_info['detected_icons'].append({'name': 'login_button', 'position': position}) page_info['strategies_used'].append('visual') # 生成给LLM的最终观察描述 page_info['llm_observation'] = self._generate_llm_observation(page_info) return page_info def _needs_visual_fallback(self, page_info) -> bool: """启发式判断是否需要视觉后备""" # 示例逻辑：如果DOM摘要中交互元素少于2个，或者主要文本内容过短，则启用视觉 dom_text = page_info.get('dom_summary', '') # 简单检查文本长度（实际需要更复杂的逻辑） if len(dom_text) < 100: return True # 检查是否有常见的动态内容占位符 if 'loading' in dom_text.lower() or 'div' in dom_text and 'button' not in dom_text: # 可能是一个重度依赖JS渲染的页面 return True return False def _generate_llm_observation(self, page_info) -> str: """将多源信息整合成一段给LLM的自然语言描述""" observation_parts = [] observation_parts.append(f"当前页面标题：{page_info['title']}") observation_parts.append(f"当前URL：{page_info['url']}") if 'dom_summary' in page_info: # 可以解析dom_summary的JSON，提取关键信息 observation_parts.append("页面主要可操作元素：[基于DOM分析] 包括按钮、链接、输入框等。") if page_info.get('screenshot_path'): observation_parts.append("页面已截图，部分文本或图标可能通过图像识别获得。") if page_info.get('detected_icons'): observation_parts.append(f"检测到已知图标：{page_info['detected_icons']}") observation_parts.append("\n请根据以上信息决定下一步操作。") return "\n".join(observation_parts)

这个理解器是感知层的大脑，它协调 DOM 和视觉分析，并生成最终给 LLM 的“观察报告”。

4. 整合 Agent 核心循环与行动层

有了可靠的“眼睛”，我们需要构建“大脑”（LLM 集成）和“手”（浏览器操作）。

4.1 浏览器控制器（行动层）

创建actions/browser_controller.py：

from playwright.sync_api import sync_playwright, Page, BrowserContext import time class BrowserController: def __init__(self, headless=False): self.playwright = sync_playwright().start() self.browser = self.playwright.chromium.launch(headless=headless) self.context = self.browser.new_context( viewport={'width': 1280, 'height': 720}, user_agent='Mozilla/5.0 ...' # 设置合适的UA ) self.page = self.context.new_page() self.page.set_default_timeout(30000) # 30秒超时 def goto(self, url): """导航到指定URL，并等待网络空闲""" response = self.page.goto(url, wait_until='networkidle') return response def click(self, selector, strict=True): """点击元素，支持多种定位策略""" try: # Playwright 会自动等待元素可操作 self.page.click(selector, strict=strict) # 点击后建议等待一小段时间，让页面反应 self.page.wait_for_timeout(500) return True except Exception as e: print(f"点击失败 {selector}: {e}") return False def fill(self, selector, text): """填充输入框""" try: self.page.fill(selector, text) return True except Exception as e: print(f"填充失败 {selector}: {e}") return False def get_page(self) -> Page: return self.page def close(self): self.context.close() self.browser.close() self.playwright.stop()

4.2 Agent 核心决策循环（集成 LLM）

创建agent_core.py。这里我们模拟 LLM 的调用，实际项目中替换为 OpenAI、Claude 或本地模型的 API 调用。

from perception.page_understander import PageUnderstander from actions.browser_controller import BrowserController import json class BrowserAgent: def __init__(self, llm_client=None): self.browser = BrowserController(headless=False) # 调试时设为False self.page = self.browser.get_page() self.understander = PageUnderstander(self.page) self.llm = llm_client # 实际项目中传入配置好的LLM客户端 self.max_steps = 20 # 防止无限循环 def run_task(self, initial_goal: str): """执行一个目标任务""" print(f"任务目标: {initial_goal}") current_goal = initial_goal step = 0 while step < self.max_steps: step += 1 print(f"\n--- 步骤 {step} ---") # 1. 观察 (Perception) print("[Agent] 正在观察页面...") observation = self.understander.analyze_page(strategy='auto') print(f"观察结果摘要:\n{observation['llm_observation'][:500]}...") # 打印前500字符 # 2. 思考 (Think) - 调用LLM print("[Agent] 正在思考下一步行动...") # 构建给LLM的提示词 prompt = self._build_llm_prompt(current_goal, observation['llm_observation']) # 模拟LLM返回一个结构化的动作指令 action_instruction = self._mock_llm_call(prompt) # 实际项目调用真实API # 解析动作指令 action_type = action_instruction.get('action') action_target = action_instruction.get('target') action_value = action_instruction.get('value') # 3. 行动 (Act) print(f"[Agent] 执行动作: {action_type} -> {action_target}") success = self._execute_action(action_type, action_target, action_value) # 4. 评估与更新目标 if action_type == 'finish': print("[Agent] 任务完成！") break if not success: print("[Agent] 动作执行失败，可能需要调整策略或目标。") # 可以在这里加入重试或策略切换逻辑 # 简单目标更新逻辑（实际应由LLM判断） if '搜索结果' in observation.get('dom_summary', '') and 'search' in current_goal.lower(): current_goal = "从搜索结果中提取第一项的标题和链接" def _build_llm_prompt(self, goal, observation): """构建LLM提示词""" prompt_template = f""" 你是一个网页浏览助手。你的目标是：{goal} 当前页面观察： {observation} 请根据观察，从以下动作中选择一个并严格按照JSON格式回复： - `click(selector)`: 点击一个元素。selector是CSS选择器或文本。 - `fill(selector, text)`: 在输入框填充文本。 - `scroll(direction)`: 滚动页面，direction是 'up' 或 'down'。 - `goto(url)`: 导航到新URL。 - `finish(reason)`: 任务完成。 你的回复必须是有效的JSON，且只包含以下键：`action`, `target`, `value`。 示例：{{"action": "click", "target": "button.submit", "value": null}} 请回复： """ return prompt_template def _mock_llm_call(self, prompt): """模拟LLM调用。实际项目替换为真实API调用。""" # 这是一个非常简单的规则模拟器，真实场景需要强大的LLM observation_lower = prompt.lower() if '搜索' in prompt and '输入框' not in observation_lower: # 假设页面有一个搜索框 return {"action": "fill", "target": "input[type='search'], input[name='q']", "value": "目标关键词"} elif 'button' in observation_lower or '提交' in observation_lower: return {"action": "click", "target": "button", "value": None} else: return {"action": "finish", "target": None, "value": "无法确定下一步"} def _execute_action(self, action_type, target, value): """执行具体的浏览器动作""" if action_type == 'click': return self.browser.click(target) elif action_type == 'fill': return self.browser.fill(target, value) elif action_type == 'goto': return self.browser.goto(target) is not None elif action_type == 'scroll': # 简化滚动 self.page.evaluate(f"window.scrollBy(0, {500 if value=='down' else -500})") self.page.wait_for_timeout(1000) return True elif action_type == 'finish': return True else: print(f"未知动作类型: {action_type}") return False def shutdown(self): self.browser.close()

5. 运行验证与结果分析

创建一个主程序入口main.py来测试我们的 Agent。

from agent_core import BrowserAgent def main(): agent = BrowserAgent() try: # 示例任务：打开百度，搜索一个关键词 agent.run_task("打开百度首页，并在搜索框中输入'人工智能'进行搜索") # 可以继续更复杂的任务，如登录、填写表单等 # agent.run_task("在搜索结果页，点击第一个链接") finally: agent.shutdown() if __name__ == '__main__': main()

运行此程序，你将看到浏览器启动，导航到百度，并尝试执行搜索。在控制台，你会看到 Agent 的观察、思考和行动日志。

关键验证点：

观察是否准确：检查observation['llm_observation']是否包含了页面标题、URL 和关键元素描述。
动作是否执行：观察浏览器是否成功完成了点击、输入等操作。
策略切换：可以故意访问一个大量使用 Canvas 或图片文字的网站，观察感知层是否从 DOM 策略切换到了视觉策略（通过strategies_used字段）。

6. 常见问题排查与优化策略

当你的浏览器 Agent 仍然失败时，请按以下清单排查。

6.1 感知层常见问题

问题现象	可能原因	检查与解决思路
元素定位不到	1. 页面未加载完成。 2. 元素在 iframe 内。 3. 选择器不稳定（依赖动态类名）。 4. 元素被遮挡或不可见。	1. 在动作前增加`page.wait_for_selector`或`wait_for_timeout`。 2. 使用`page.frame_locator()`定位 iframe 内元素。 3. 使用更稳定的选择器：优先`id`，其次`>OCR 识别率低`	1. 图片质量差、背景复杂。 2. 字体特殊或过小。 3. Tesseract 语言包未安装或路径错误。	1. 对截图进行预处理：灰度化、二值化、降噪、调整对比度。 2. 尝试不同的`--psm`参数，或使用更专业的 OCR 服务（如 Google Cloud Vision）。 3. 确认`tesseract_cmd`路径和`TESSDATA_PREFIX`环境变量正确。
动态内容抓取为空	页面由 JavaScript 动态渲染，初始 HTML 无内容。	1. 使用 Playwright 的`wait_for_selector`等待特定元素出现。 2. 使用`page.evaluate()`注入脚本等待数据加载完成（如监听特定变量或事件）。 3. 考虑使用`networkidle`或`domcontentloaded`等待策略。
Agent 决策循环卡住	LLM 返回的动作无法执行或无效，导致死循环。	1. 在动作执行失败后，加入重试机制或备用动作。 2. 为 LLM 提供更严格的输出格式约束（如 JSON Schema）。 3. 在提示词中加入“如果无法确定，请要求更多信息或执行`scroll`以查看更多内容”。

6.2 性能与稳定性优化

感知策略降级与融合：
- 主策略：优先使用快速、准确的 DOM 解析。
- 降级策略：当 DOM 解析结果置信度低（如交互元素少）时，自动触发视觉分析。
- 融合策略：对于关键区域（如登录框），同时使用 DOM 和视觉验证，确保定位准确。
选择器生成与缓存：
- 不要依赖自动生成的复杂 XPath。为关键元素（如登录按钮、搜索框）维护一个选择器映射表，支持多个备选选择器。
- 对成功操作过的元素，将其稳定选择器缓存起来，下次直接使用。
异常处理与状态恢复：
- 每个动作（click, fill）都必须有 try-catch。
- 动作失败后，不是立即重试，而是重新进行“观察”，因为页面状态可能已改变。
- 设置全局超时和最大重试次数，避免无限循环。
针对特定网站的适配：
- 对于重要且频繁访问的网站（如公司内部系统），可以编写专门的“适配器”（Adapter），硬编码其页面结构和操作流程，绕过通用感知逻辑，这是稳定性的终极保障。

7. 最佳实践与扩展方向

7.1 感知层设计最佳实践

分而治之：将感知任务拆解为“布局分析”、“文本提取”、“交互元素识别”、“状态判断”等子模块，分别优化。
上下文感知：不要孤立地分析一个元素。结合它在页面中的位置（顶部导航、侧边栏、弹窗）、相邻元素和页面整体任务（登录、搜索）来理解其功能。
持续学习：记录 Agent 失败案例的截图和 DOM 快照，用于优化选择器或训练专门的视觉分类模型。

7.2 扩展方向

集成真实 LLM：将_mock_llm_call替换为对 GPT-4、Claude 3 或本地 Llama 模型的调用。设计更完善的提示工程（Few-shot, Chain-of-Thought）来提升决策质量。
引入视觉语言模型：使用如 GPT-4V、Gemini Pro Vision 等支持图像输入的模型，直接分析页面截图，让 Agent 真正“看懂”界面布局和内容。
强化学习微调：在特定网站（如电商、CRM）上，通过记录成功轨迹来微调一个轻量级策略网络，让 Agent 更快地学会该网站的操作模式。
多模态记忆：让 Agent 记住操作历史（包括成功和失败的截图、动作），在后续类似任务中作为参考，实现持续学习。

浏览器 Agent 的稳定性瓶颈确实常在“眼睛”而非“大脑”。通过构建一个融合 DOM 解析、计算机视觉和启发式规则的多策略感知层，并辅以健壮的行动控制和异常处理，可以显著提升自动化任务的鲁棒性。核心在于理解网页的混合本质，并准备好当一种感知方式失效时，有另一种方式可以顶上。从简单的选择器定位到复杂的视觉理解，每一步的可靠性提升，都将直接转化为 Agent 整体成功率的跃升。