当前位置：首页 > news >正文

从零搭建高可用Redis Cluster集群：3主3从架构实战与生产环境优化

news 2026/6/16 7:18:43

1. 项目概述：为什么你需要一个Redis集群？

如果你正在处理一个用户量激增的电商秒杀系统，或者一个需要实时推送消息的社交应用，单节点的Redis是不是偶尔会让你感到力不从心？内存满了、连接数爆了、服务器宕机了数据全丢……这些问题，我都经历过。从单机到集群，是Redis服务从“能用”到“高可用、高性能、易扩展”的关键一步。今天，我就结合自己踩过的坑和积累的经验，带你从零开始，手把手搭建一个生产可用的Redis Cluster集群，并深入聊聊背后的门道。

简单说，Redis集群（Cluster）是Redis官方提供的分布式解决方案。它通过数据分片（Sharding）将数据自动分散到多个节点，同时通过主从复制（Replication）为每个分片提供数据冗余，实现了真正意义上的高可用和横向扩展。你不再需要担心单点故障，也能轻松突破单机内存和性能的瓶颈。接下来，我会用一个最经典的3主3从架构作为例子，把部署的每一步掰开揉碎讲清楚，包括原理、配置、实操和那些官方文档里不会写的“坑”。

2. 集群架构核心设计与选型考量

在动手之前，我们必须搞清楚要搭建一个什么样的集群，以及为什么这么选。这决定了后续所有配置和操作的走向。

2.1 主流高可用方案对比：哨兵 vs 集群

很多朋友一开始会混淆Redis Sentinel（哨兵）和Redis Cluster。简单来说：

Redis Sentinel（哨兵模式）：核心目标是高可用。它监控主从节点，在主节点故障时自动选举一个从节点升级为主节点。但它不解决数据分片问题，所有数据还是一份，写性能和存储容量受限于单机。
Redis Cluster（集群模式）：核心目标是分布式和高可用。它内置了数据分片和主从复制，既能横向扩展性能和容量，又能保证每个分片的高可用。

所以，如果你的业务数据量不大，但对可用性要求极高，哨兵可能更简单。但如果你面临数据量增长、吞吐量要求高，那么Redis Cluster是必然选择。我们这次聚焦的就是后者。

2.2 3主3从架构：一个经典且平衡的选择

为什么是3个主节点和3个从节点？这不是随便定的数字。

数据分片：Redis Cluster将整个数据集划分为16384个哈希槽（hash slot）。3个主节点，可以相对均匀地分配这些槽位（比如节点1：0-5460，节点2：5461-10922，节点3：10923-16383）。这提供了基本的读写分流和容量扩展。
高可用与故障转移：每个主节点都配备一个从节点。当任何一个主节点宕机，其对应的从节点会通过集群内部的选举机制升级为新的主节点，保证服务不中断。3个主节点意味着最多可以容忍同时宕机3个从节点（或1个主节点及其从节点），但为了集群正常选举，存活的主节点数必须超过总数的一半，所以3主架构最多允许1个主节点同时故障。
资源与复杂度平衡：6个节点是构建一个具备基本容错能力集群的最小推荐配置。节点太少（如1主1从）无法形成有效的多数派选举；节点太多则会增加运维复杂度和网络开销。3主3从在资源消耗、性能和可靠性之间取得了很好的平衡。

2.3 网络与部署规划：单机模拟与生产分离

为了演示方便，我们常常在一台服务器上通过不同端口（6379-6384）来模拟6个节点。但这仅限于学习和测试环境！

重要提示：在生产环境中，务必将主从节点部署在不同的物理机或虚拟机上，以避免宿主机宕机导致的主从节点同时失效，从而失去高可用意义。规划时，至少保证主节点和其从节点不在同一台机器上。

我们的演示环境规划如下：

服务器IP：10.1.11.64（单机模拟）
节点端口：
- 主节点：6379, 6380, 6381
- 从节点：6382, 6383, 6384
集群密码：统一设置为admin123456，包括客户端访问密码(requirepass)和主从同步密码(masterauth)。

3. 基础环境准备与Redis安装

万丈高楼平地起，我们先要把Redis本体安装好，并做好基础配置。

3.1 系统依赖与编译环境搭建

Redis是C语言编写的，编译需要GCC。对于较新版本的Redis（如6.x以上），建议使用高版本的GCC以获得更好的性能和兼容性。

# 1. 安装基础编译工具和软件集（Software Collections, SCL） yum -y install gcc-c++ centos-release-scl # 2. 安装 devtoolset-9（包含了GCC 9） yum -y install devtoolset-9-gcc devtoolset-9-gcc-c++ devtoolset-9-binutils # 3. 临时启用 devtoolset-9 scl enable devtoolset-9 bash # 4. 永久启用（可选，建议在编译完成后根据情况决定） echo "source /opt/rh/devtoolset-9/enable" >> /etc/profile source /etc/profile

这里使用devtoolset-9是为了获取更新的编译器。如果你系统自带的GCC版本足够（可通过gcc --version查看，建议4.9.2以上），可以跳过第2、3步。

3.2 下载、编译与安装Redis

我们以Redis 6.2.6稳定版为例。

# 1. 下载源码包 wget http://download.redis.io/releases/redis-6.2.6.tar.gz # 2. 解压到 /opt 目录 tar -zxvf redis-6.2.6.tar.gz -C /opt/ # 3. 进入目录并编译安装 cd /opt/redis-6.2.6 make && make install

make install命令会将redis-server、redis-cli等可执行文件默认安装到/usr/local/bin/目录下。为了后续管理方便，我们创建软链接。

3.3 配置系统服务与全局命令

虽然集群节点我们后续会用自定义配置启动，但建立软链接可以让你在任何目录下都能方便地使用redis-server和redis-cli命令。

ln -s /opt/redis-6.2.6/src/redis-server /usr/bin/redis-server ln -s /opt/redis-6.2.6/src/redis-cli /usr/bin/redis-cli

现在，你可以在终端直接输入redis-server -v和redis-cli -v来验证安装是否成功了。

4. 集群节点配置与启动

这是搭建集群的核心步骤，每一步的配置都关系到集群的稳定性和安全性。

4.1 准备集群专用目录与基础配置文件

我们不希望把集群节点的数据、日志和配置文件混在一起，所以先创建一个清晰的工作目录。

mkdir /opt/redis-cluster cd /opt/redis-cluster

接下来，创建一份基础的redis.conf配置文件。这个文件将作为所有节点的模板。

cat > redis-base.conf << EOF daemonize yes protected-mode no port 6379 bind 0.0.0.0 maxmemory-policy allkeys-lru requirepass admin123456 masterauth admin123456 cluster-enabled yes cluster-config-file nodes.conf cluster-node-timeout 15000 pidfile /opt/redis-cluster/node-{port}/redis.pid logfile /opt/redis-cluster/node-{port}/redis.log dir /opt/redis-cluster/node-{port}/ dbfilename dump-{port}.rdb appendonly yes appendfilename "appendonly-{port}.aof" EOF

关键配置解析：

daemonize yes：以守护进程方式运行。
protected-mode no&bind 0.0.0.0：关闭保护模式并绑定所有IP，仅用于内网测试环境。生产环境应设置为protected-mode yes并配置bind为具体内网IP，同时使用防火墙策略。
requirepass和masterauth：必须设置且密码相同。前者是客户端访问密码，后者是主从节点间同步数据的认证密码。
cluster-enabled yes：开启集群模式的核心配置。
cluster-config-file：集群节点自动生成的配置文件，记录了集群状态，不要手动修改。
cluster-node-timeout：节点失联超时时间，单位毫秒。超过此时长，集群认为该节点故障，会触发故障转移。
dir：指定工作目录，存放数据、日志、配置文件等。
maxmemory-policy allkeys-lru：内存满时的淘汰策略，根据业务选择。allkeys-lru是常用策略。

4.2 批量生成6个节点的配置文件

手动改6次端口太麻烦，我们用Shell循环来高效完成。

# 创建6个节点的目录 for port in {6379..6384}; do mkdir -p node-${port} done # 为每个节点复制并定制配置文件 for port in {6379..6384}; do cp redis-base.conf node-${port}/redis.conf # 使用sed命令替换配置文件中的占位符{port}为实际端口 sed -i "s/{port}/${port}/g" node-${port}/redis.conf # 也可以直接使用echo追加，但sed更精准 # echo "port ${port}" >> node-${port}/redis.conf done

执行后，检查一下node-6379/redis.conf，确认里面的{port}都已经被替换成了6379。这个技巧在管理多实例时非常有用。

4.3 启动所有Redis节点

配置好了，就可以逐个启动了。同样，我们用循环来一键启动。

for port in {6379..6384}; do cd /opt/redis-cluster/node-${port} redis-server redis.conf echo "Redis node on port ${port} started." done

启动后，用ps -aux | grep redis-server命令检查，应该能看到6个redis-server进程，分别监听6379到6384端口。同时，每个节点的目录下应该生成了nodes.conf（可能初始为空或内容很少）和日志文件。

实操心得：启动后务必查看日志文件（cat node-6379/redis.log），检查是否有ERROR级别的报错。常见错误包括：端口被占用、目录权限不足、配置文件语法错误等。日志是排查问题的第一手资料。

5. 组建Redis Cluster集群

节点都跑起来了，但它们现在还是6个独立的Redis实例，我们需要用redis-cli --cluster create命令把它们“编织”成一个集群。

5.1 执行集群创建命令

这是最关键的一步命令。--cluster-replicas 1参数表示每个主节点带1个从节点。

redis-cli -a admin123456 --cluster create \ 10.1.11.64:6379 \ 10.1.11.64:6380 \ 10.1.11.64:6381 \ 10.1.11.64:6382 \ 10.1.11.64:6383 \ 10.1.11.64:6384 \ --cluster-replicas 1

命令执行过程详解：

命令会列出它规划的主从分配方案。它会自动将前3个节点（6379, 6380, 6381）设为主节点，后3个节点（6382, 6383, 6384）设为从节点，并为你分配好主从对应关系（通常是6382作为6379的从节点，以此类推）。
它会向你展示哈希槽的分配计划（将16384个槽大致均分给3个主节点）。
最后，它会问你是否接受这个配置，输入yes并回车。

如果一切顺利，你会看到类似[OK] All 16384 slots covered.的输出，这表示集群已经成功创建，所有哈希槽都已分配完毕。

5.2 集群状态验证与信息查看

创建成功后，我们通过几个命令来验证集群的健康状态。

1. 检查集群节点信息：

redis-cli -a admin123456 -c -p 6379 cluster nodes

-c参数表示以集群模式连接，会自动重定向到正确的节点。这条命令会输出一个长列表，包含每个节点的ID、IP端口、角色（master/slave）、状态、负责的哈希槽范围等信息。仔细看，你应该能看到3个master和3个slave，以及slave后面跟着它所属的master的节点ID。

2. 检查集群整体状态：

redis-cli -a admin123456 -c -p 6379 cluster info

关注几个关键指标：

cluster_state:ok：集群状态正常。
cluster_slots_assigned:16384：所有槽位已分配。
cluster_slots_ok:16384：所有槽位状态正常。
cluster_known_nodes:6：集群已知节点数为6。

3. 进行简单的数据读写测试：

# 连接集群（任意节点均可） redis-cli -a admin123456 -c -p 6379 # 在CLI中执行 127.0.0.1:6379> set hello world -> Redirected to slot [866] located at 10.1.11.64:6381 OK 10.1.11.64:6381> get hello "world" 10.1.11.64:6381> set foo bar -> Redirected to slot [12182] located at 10.1.11.64:6379 OK

注意看，当你执行set命令时，客户端可能会提示Redirected to slot ...，这说明集群正在工作！它根据键名计算出的哈希槽不在当前连接的节点上，于是自动将你重定向到了正确的节点。这就是集群的“透明分片”。

6. 生产环境关键配置与优化

测试集群跑通了，但离上生产还差得远。以下这些配置和优化点，是保证集群稳定运行的关键。

6.1 网络与安全加固

1. 防火墙配置：必须开放集群总线端口。Redis集群节点间通信使用两个端口：客户端访问端口（如6379）和集群总线端口（客户端端口+10000，即16379）。你需要同时开放它们。

# 开放客户端端口范围 firewall-cmd --permanent --add-port=6379-6384/tcp # 开放集群总线端口范围 firewall-cmd --permanent --add-port=16379-16384/tcp firewall-cmd --reload

2. 绑定IP与保护模式：生产环境绝不允许bind 0.0.0.0和protected-mode no。应该：

# 在 redis.conf 中 bind <内部网络IP，如192.168.1.100> # 只绑定内网IP protected-mode yes # 开启保护模式

同时，通过防火墙严格限制访问源IP。

3. 使用更安全的密码：admin123456这种密码太弱。生产环境应使用长且复杂的密码，并定期更换。

6.2 内存与持久化策略

1. 最大内存限制：务必在每个节点的配置中设置maxmemory。例如maxmemory 4gb。防止单个节点内存无限增长导致OOM（内存溢出）被系统杀死。2. 持久化策略：我们配置中开启了AOF（appendonly yes）。在集群中，持久化主要在从节点上进行会更安全，可以减少对主节点性能的影响。可以考虑将主节点的appendonly设为no，依靠从节点的AOF或RDB进行数据持久化，但需要权衡数据安全性。3. 备份策略：定期对从节点的RDB或AOF文件进行备份。虽然集群有副本，但防范误操作（如flushall）需要外部备份。

6.3 系统内核参数优化

对于Linux系统，以下参数调整对Redis性能，尤其是持久化时的性能有帮助。

# 编辑 /etc/sysctl.conf vm.overcommit_memory = 1 # 允许内存过量分配，避免fork时失败 net.core.somaxconn = 1024 # 提高TCP连接队列长度 # 执行 sysctl -p 使配置生效

此外，建议禁用系统的透明大页（Transparent Huge Pages），因为它可能导致Redis延迟飙升。

echo never > /sys/kernel/mm/transparent_hugepage/enabled # 为了永久生效，可以写入 /etc/rc.local

7. 集群运维、监控与故障排查实录

集群跑起来只是开始，日常运维和问题排查才是重头戏。

7.1 常用集群管理命令

查看集群节点信息：cluster nodes（最常用）
查看集群状态：cluster info
检查集群健康度：redis-cli --cluster check <host:port>
重新分片（Reshard）：redis-cli --cluster reshard <host:port>（用于扩容/缩容）
添加新节点：redis-cli --cluster add-node <new_host:new_port> <existing_host:existing_port>
将节点设置为从节点：redis-cli --cluster add-node --slave --master-id <master-id> <new_host:new_port> <existing_host:existing_port>
从集群中删除节点：redis-cli --cluster del-node <host:port> <node-id>

7.2 监控指标与告警

你需要监控以下关键指标，可以使用Prometheus + Grafana + redis_exporter方案：

节点状态：是否master/slave，是否connected。
内存使用率：used_memory，接近maxmemory时告警。
连接数：connected_clients。
每秒操作数：instantaneous_ops_per_sec。
键空间命中率：keyspace_hits/ (keyspace_hits+keyspace_misses)。过低可能意味着缓存穿透或内存不足。
主从延迟：master_repl_offset和slave_repl_offset的差值。
集群状态：cluster_state是否为ok。

7.3 常见问题与排查技巧

问题1：集群创建失败，提示[ERR] Node ... is not empty

原因：目标节点目录下已有数据（如旧的dump.rdb、nodes.conf、appendonly.aof文件）。
解决：停止该节点服务，清空其工作目录（dir指定的路径），再重新启动节点并执行集群创建命令。

问题2：执行命令时提示(error) CLUSTERDOWN Hash slot not served

原因：集群状态不正常，可能有哈希槽未被分配或节点失联。
排查：
1. 运行cluster info查看cluster_state和cluster_slots_assigned。
2. 运行cluster nodes查看所有节点是否connected，以及主节点的哈希槽分配是否完整（0-16383）。
3. 检查网络和防火墙，确保所有节点的客户端端口和集群总线端口都能互通。

问题3：主节点宕机后，从节点未能自动切换为主节点

原因：
1. 集群认为主节点未真正失效（cluster-node-timeout设置过长）。
2. 剩余的主节点数未达到集群大多数（对于3主集群，至少需要2个主节点在线才能选举）。
3. 从节点与主节点连接异常，复制状态有问题。
排查：
1. 检查cluster-node-timeout设置，生产环境通常设为15-30秒。
2. 检查cluster nodes输出，确认从节点状态为slave且指向正确的主节点ID。
3. 查看从节点日志，是否有复制相关的错误。

问题4：客户端连接集群时，遇到频繁的重定向（MOVED/ASK错误）

原因：客户端未使用集群模式驱动，或者驱动未能正确缓存哈希槽映射表。
解决：确保使用支持Redis Cluster的客户端（如Jedis、Lettuce、redis-py-cluster），并正确配置集群节点地址。对于命令行redis-cli，务必加上-c参数。

问题5：内存增长过快，疑似内存泄漏

排查：
1. 使用redis-cli -p 6379 --bigkeys分析哪种类型的键占用了大量内存。
2. 检查是否设置了合理的maxmemory-policy。
3. 检查业务代码，是否有无过期时间的缓存键设置，或者是否存在集合/列表类型数据无限增长的情况。
4. 可以使用MEMORY USAGE <key>命令查看特定键的内存占用。

搭建和维护一个健壮的Redis集群，远不止把节点启动起来那么简单。它涉及到前期的架构设计、部署时的细致配置、运行时的严密监控以及故障时的快速响应。希望这篇从原理到实操，再到运维经验的详细梳理，能帮你避开我当年踩过的那些坑，真正驾驭好Redis集群这个强大的工具。记住，在分布式系统的世界里，细节决定成败，而日志和监控是你最好的朋友。

查看全文

http://www.gsyq.cn/news/1533708.html