H3CSE 高性能园区网MAD分裂检测技术详解MAD分裂检测技术详解一、MAD概述与原理1.1 基础介绍1.2 分裂危害与核心概念1IRF分裂危害2核心关键概念1.3 MAD三大检测方式概述1.4 MAD故障恢复机制1正常恢复流程堆叠链路修复2异常恢复流程Active侧设备故障二、MAD检测方式详解2.1.1 典型拓扑与组网描述2.1.2 使用场景2.1.3 检测原理2.1.4 特点总结2.2 BFD MAD基于双向转发检测2.2.1 工作流程与状态说明2.2.2 使用场景2.2.3 检测原理2.2.4 特点总结2.3 ARP/ND MAD基于地址解析协议/邻居发现协议2.3.1 使用场景2.3.2 检测原理2.3.3 特点总结2.4 MAD冲突处理与恢复机制2.4.1 冲突处理优先级规则2.4.2 Recovery状态处理2.4.3 异常恢复机制mad restore命令2.5 三种检测方式对比三、MAD 典型配置实操3.1 BFD MAD 完整配置最常用3.1.1 基础配置3.1.2 检测端口关闭 STP3.1.3 配置 BFD MAD3.1.4 查看与验证3.2 LACP MAD 完整配置3.2.1 基础配置3.2.2 聚合组启用 LACP MAD3.3 ARP MAD 完整配置3.3.1 基础配置MAD分裂检测技术详解一、MAD概述与原理1.1 基础介绍MADMulti-Active Detection即多Active检测是一种专门用于检测和处理IRF分裂的核心防护技术是IRF堆叠高可靠性的重要配套机制。核心功能提供IRF分裂检测执行IRF冲突处理实现IRF故障恢复应用场景不仅可用于IRF堆叠分裂检测同时支持MNAC虚拟化架构的集群分裂检测适配多数企业虚拟化组网场景。1.2 分裂危害与核心概念1IRF分裂危害当IRF堆叠链路故障断裂时完整的IRF堆叠会分裂为多个独立的IRF系统分裂后的多套IRF完全同步原有配置拥有相同IP地址与三层配置直接引发全网IP地址冲突、路由震荡、广播风暴导致网络故障持续扩大全网业务瘫痪2核心关键概念Domain ID域编号用于标识IRF堆叠组的编号同一IRF组内所有成员设备Domain ID必须一致用于区分不同虚拟化集群。Active ID活跃IDIRF活跃标识取值为当前IRF中Master主设备的成员编号是堆叠身份判定的核心依据。1.3 MAD三大检测方式概述检测方式核心特点环境要求LACP MAD复用现有聚合组网无需额外接口检测速度快中间设备必须为H3C设备BFD MAD毫秒级检测、兼容性强不限设备厂商需要专用物理链路作为检测端口ARP/ND MAD扩展ARP/ND报文携带标识信息完成检测适用于开生成树、无链路聚合场景1.4 MAD故障恢复机制1正常恢复流程堆叠链路修复当IRF堆叠链路故障恢复时系统会按以下步骤完成恢复链路修复后两套IRF系统可正常通信Recovery状态的设备保持端口关闭不转发流量系统自动完成IRF合并恢复为统一的堆叠系统业务流量正常转发图示展现IRF堆叠链路断裂后系统分裂为两套独立设备组。一组维持Active状态承载业务另一组进入Recovery状态关停业务端口规避地址冲突与网络紊乱问题。2异常恢复流程Active侧设备故障如果Active状态的IRF因物理故障不可用需要手动恢复业务原Active侧设备故障下线业务中断原Recovery状态的设备仍保持端口关闭无法接管业务管理员执行mad restore命令激活Recovery状态的IRF使其转为Active状态并接管全网业务Recovery状态说明被判定为异常的IRF系统会关闭除保留端口外的所有业务端口阻断流量转发避免网络冲突。链路修复后设备可自动合并还原堆叠架构若主运设备故障执行mad restore命令即可唤醒备用设备承接全网业务。二、MAD检测方式详解MAD提供了三种主流的分裂检测方式它们在实现原理、组网要求、检测速度和兼容性上各有差异。本节将逐一展开详解并对比它们的优劣。2.1.1 典型拓扑与组网描述下图展示了LACP MAD的典型部署场景【正常状态】 Slot1(Master)IRF堆叠链路 Slot2(Standby)┌───────────┐ ┌──────────────┐ ┌───────────┐ │ XG1/0/1 ◄───────────────────────────►│ XG2/0/1 │ │ │ │ │ │ XG1/0/9 ────────────┐ ┌───────┤ XG2/0/10 │ └───────────┘ │ │ └───────────┘ ▼ ▼ ┌───────────────────┐ │ SW3 │ │(动态聚合组123)│ └───────────────────┘ 【分裂状态】 Slot1(Master)IRF堆叠链路(故障)Slot2(新Master)┌───────────┐ ┌──────────────┐ ┌───────────┐ │ XG1/0/1 ◄───×─────────────────────×───►│ XG2/0/1 │ │ │ │ │ │ XG1/0/9 ────────────┐ ┌─×─────┤ XG2/0/10 │ └───────────┘ │ │ └───────────┘ ▼ ▼ ┌───────────────────┐ │ SW3 │ │(动态聚合组123)│ └───────────────────┘左侧正常状态两台交换机Slot1Master与Slot2Standby通过XG1/0/1和XG2/0/1组成IRF堆叠链路形成统一的IRF系统。两台设备分别通过XG1/0/0/9和XG2/0/10与下游设备SW3建立跨设备动态链路聚合Bridge-Aggregation 123。此时执行display mad verboseMulti-active recovery state: No未进入恢复状态MAD status: NormalMAD状态正常两个成员端口状态均为Normal无端口被关闭。右侧IRF分裂状态IRF堆叠链路故障断开Slot1与Slot2各自独立运行Slot2自动升级为新的Master。LACP MAD通过聚合链路检测到Domain ID相同但Active ID不同判定为IRF分裂。系统触发冲突处理Slot2进入Recovery状态其连接聚合组的端口XG2/0/10被强制关闭图中红色叉号。此时执行display mad verboseMulti-active recovery state: Yes已进入恢复状态MAD status: FaultyMAD状态异常Slot2的成员端口状态为Faulty业务被阻断。2.1.2 使用场景典型场景上游或下游设备与IRF堆叠组进行跨设备链路聚合的组网环境。关键限制组网中必须使用H3C设备作为中间转发设备才能正确识别和处理扩展的LACP报文。2.1.3 检测原理LACP MAD的核心是利用标准LACP协议报文通过扩展TLV字段来传递IRF标识信息从而实现分裂检测。报文扩展在LACP报文中新增自定义TLV字段用于携带IRF的Domain ID和Active ID。信息交互开启LACP MAD后IRF成员设备之间会定期通过跨设备聚合链路交互这些扩展的LACP报文互相传递标识信息。状态判定Domain ID不同说明报文来自不同的IRF堆叠组属于正常跨组通信无需处理。Domain ID相同、Active ID相同说明全网仅存在一个活跃的IRF堆叠状态正常未发生分裂。Domain ID相同、Active ID不同说明同一个IRF分裂为多个系统且出现了多个不同的主设备Master判定为IRF分裂立即触发冲突处理机制。2.1.4 特点总结检测速度快依托LACP报文周期交互能快速发现分裂。无额外开销复用现有链路聚合组网无需占用额外的物理接口。厂商锁定必须使用H3C设备作为中间设备兼容性受限。2.2 BFD MAD基于双向转发检测2.2.1 工作流程与状态说明BFD MAD 的工作过程分为三个阶段和拓扑中的状态一一对应正常工作状态两台设备组成统一的IRF堆叠系统左侧为Master右侧为Standby。设备间存在两条关键链路黑色的IRF堆叠链路以及红色的BFD检测链路。此时整个堆叠组中只有Master设备的MAD IP生效Standby设备的MAD IP处于未激活状态。因此两端之间的BFD会话始终处于Down状态不会触发任何告警或冲突处理。IRF分裂与检测状态当IRF堆叠链路发生故障断开系统分裂为两个独立的IRF系统原Standby设备自动升级为新的Master。两个系统的Master设备都会激活自身的MAD IP。通过BFD检测链路双方可以探测到对方的MAD IP同时存在BFD会话因此被激活变为Up状态。系统判定为IRF分裂随即启动冲突处理流程。冲突处理完成状态系统根据优先级规则Active ID更小的设备获胜其中一套IRF系统进入Active状态继续转发业务。另一套则进入Recovery状态关闭除保留端口外的所有业务端口以避免网络冲突。此时由于非获胜方的业务端口被关闭BFD会话再次变为Down状态检测流程结束。关键状态总结IRF正常工作时BFD SessionDownIRF分裂时BFD SessionUpBFD MAD检测生效后BFD SessionDown2.2.2 使用场景典型场景IRF成员设备之间单独连接一条专用链路配置为三层接口并分别配置MAD IP。优势场景跨厂商组网环境不依赖中间设备的品牌。2.2.3 检测原理BFD MAD通过在IRF成员间建立BFD会话监测对端MAD IP的存活状态以此判断堆叠是否分裂。正常运行时整个IRF堆叠组中只有Master设备的MAD IP会生效所有Slave设备的MAD IP处于未激活状态。因此成员间的BFD会话始终处于Down状态不会触发任何告警。分裂发生时当IRF链路故障堆叠分裂为两个独立系统双方各自的Master设备会激活自身的MAD IP。分裂检测当一方检测到另一方的MAD IP也处于生效状态时BFD会话被成功激活系统判定为IRF分裂并启动冲突处理流程。2.2.4 特点总结检测速度较快BFD本身支持毫秒级故障检测能快速响应。兼容性强不要求中间设备是H3C设备支持跨厂商组网。资源占用需要专用的物理接口和链路作为BFD检测通道会额外占用设备端口资源。2.3 ARP/ND MAD基于地址解析协议/邻居发现协议2.3.1 使用场景典型场景使用以太网实现适用于开启生成树协议、未使用链路聚合的IPv4/IPv6组网环境。限制条件若使用中间设备该设备必须为H3C设备。2.3.2 检测原理ARP/ND MAD通过扩展ARP/ND报文字段在地址解析过程中传递IRF标识信息实现分裂检测。报文扩展在ARPIPv4或NDIPv6报文中扩展自定义字段用于携带IRF的Domain ID和Active ID。信息交互开启ARP/ND MAD后IRF成员设备会在发送地址解析报文时携带这些标识信息。状态判定Domain ID不同报文来自不同IRF属于正常通信无需处理。Domain ID相同、Active ID相同全网仅存在一个活跃的IRF状态正常。Domain ID相同、Active ID不同判定为IRF分裂触发冲突处理。2.3.3 特点总结组网灵活可以不使用中间设备直接在IRF成员间通过二层网络交互报文。无额外接口无需占用专用接口利用现有以太网链路即可实现。检测速度较慢依赖ARP/ND报文的交互周期检测速度慢于LACP和BFD。厂商限制若使用中间设备必须为H3C设备否则无法识别扩展字段。2.4 MAD冲突处理与恢复机制当MAD检测到IRF分裂后会立即启动冲突处理机制以避免网络中出现多个主设备导致的IP地址冲突和环路问题。2.4.1 冲突处理优先级规则不同的检测方式冲突处理的判定逻辑略有差异检测方式冲突处理优先级从高到低LACP / BFD MAD1.健康状态健康状态较好的IRF进入Active状态2.成员数量成员设备数量更多的IRF进入Active状态3.Active IDActive ID值更小的IRF进入Active状态ARP/ND MAD1.健康状态健康状态较好的IRF进入Active状态2.成员编号成员设备ID更小的IRF进入Active状态2.4.2 Recovery状态处理被判定为非活跃的IRF系统会进入Recovery状态。在此状态下系统会自动关闭所有成员设备上除保留端口外的所有物理端口确保该系统不再转发任何业务报文从根本上杜绝网络冲突。2.4.3 异常恢复机制mad restore命令在极端情况下如果在IRF链路故障修复前原本处于Active状态的IRF也发生了物理故障如整机断电业务会中断。此时处于Recovery状态的IRF不会自动接管业务。管理员必须登录到处于Recovery状态的设备执行mad restore命令手动将其激活为Active状态使其接管全网业务。2.5 三种检测方式对比对比维度LACP MADBFD MADARP/ND MAD检测速度快较快较慢接口占用不占用额外接口需要专用检测链路不占用额外接口中间设备要求必须为H3C设备无要求可以不用若用则必须为H3C适用场景已部署跨设备链路聚合的H3C组网跨厂商组网、高可靠核心场景开启生成树、无聚合的传统组网三、MAD 典型配置实操3.1 BFD MAD 完整配置最常用3.1.1 基础配置system-view irf domain10vlan100port GigabitEthernet1/0/24 GigabitEthernet2/0/24 quit3.1.2 检测端口关闭 STPinterface GigabitEthernet1/0/24 undo stpenablequit interface GigabitEthernet2/0/24 undo stpenablequit3.1.3 配置 BFD MADinterface Vlan-interface100mad bfdenablemadipaddress192.168.100.1255.255.255.0 member1madipaddress192.168.100.2255.255.255.0 member2quit3.1.4 查看与验证display mad verbose display irf display bfd session3.2 LACP MAD 完整配置3.2.1 基础配置system-view irf domain103.2.2 聚合组启用 LACP MADinterface Bridge-Aggregation1madenablequit3.3 ARP MAD 完整配置3.3.1 基础配置system-view irf domain10interface Vlan-interface1mad arpenablequit声明本文为个人学习笔记仅供学习交流使用不代表官方观点。