⭐⭐⭐ Spring Boot 项目实战	⭐⭐⭐ Spring Cloud 项目实战
《Dubbo 实现原理与源码解析 —— 精品合集》	《Netty 实现原理与源码解析 —— 精品合集》
《Spring 实现原理与源码解析 —— 精品合集》	《MyBatis 实现原理与源码解析 —— 精品合集》
《Spring MVC 实现原理与源码解析 —— 精品合集》	《数据库实体设计合集》
《Spring Boot 实现原理与源码解析 —— 精品合集》	《Java 面试题 + Java 学习指南》

摘要: 原创出处 cnblogs.com/lyalong/p/17089373.html 「rm-rf*」欢迎转载，保留摘要，谢谢！

🙂🙂🙂关注**微信公众号：【芋道源码】**有福利：

RocketMQ / MyCAT / Sharding-JDBC 所有源码分析文章列表

RocketMQ / MyCAT / Sharding-JDBC 中文注释源码 GitHub 地址

您对于源码的疑问每条留言都将得到认真回复。甚至不知道如何读源码也可以请教噢。

新的源码解析文章实时收到通知。每周更新一篇左右。

认真的源码交流微信群。

背景

我们的业务共使用 11 台（阿里云）服务器，使用 SpringcloudAlibaba 构建微服务集群, 共计 60 个微服务, 全部注册在同一个 Nacos 集群。

流量转发路径：nginx -> spring-gateway -> 业务微服务。

使用的版本如下：

spring-boot.version：2.2.5.RELEASE
spring-cloud.version：Hoxton.SR3
spring-cloud-alibaba.version：2.2.1.RELEASE
java.version：1.8

案发

春节放假期间收到反馈，网页报错服务未找到（gateway 找不到服务的报错提示）。查看 nacos 集群列表，发现个别服务丢失（下线）。

这个问题每几天出现一次, 出现时间不固定, 每次掉线的服务像是随机选的几个。服务手动 kill+restart 后能稳定运行 2-3 天。

排查和解决

怀疑对象一：服务器内存爆了

进阿里云控制台查看故障机器近期的各项指标，但是发现故障机器的指标有重要的几项丢失。内存使用率、CPU 使用率、系统负载均不显示。

控制台看不了只好进服务器内查看各指标，free -m 查看内存无异常。提交阿里工单。授权阿里工程师帮忙修复控制台显示问题，怀疑这个问题对业务有影响。

控制台修复后掉线问题依然存在。

怀疑对象二：CPU满载

能感觉到执行命令很流畅，所以感觉不是这个原因。top 查看后很正常。

怀疑对象三：磁盘满了

虽然概率很小，但是 du -sh * 看一下，发现磁盘容量还能用到公司倒闭。

怀疑对象四：网络有问题

服务器那三个基本故障暂时排除后，最大怀疑对象就是网络。毕竟服务掉线肯定是服务端一段时间内接收不到客户端心跳包，所以把客户端踢下线了。
通过 telnet,mtr -n ...,netstat -nat |grep "TIME_WAIT" | wc -l 这些命令也只能看个大概。
echo "1" > /proc/sys/net/ipv4/tcp_tw_reuse 修改内核参数，开启 TIME_WAIT socket 复用能力，提升实例的网络发送请求性能。
查看 nacos 客户端（微服务）的日志，在前面案发里提到没有日志记录。