08:45开始:
####room服务:
1. 发现server 504 (nginx)
2. [1040] Too many connections (php-fpm)
####server:
1. nginx访问日志504.
2. (request: "POST /index.php") execution timed out (136.359234 sec), terminating
####处理:
1. 查看nginx 访问日志, 发现大量504
2. 验证laravel框架错误,php错误日志,没发现错误。
3. 在php-fpm日志中发现执行超时终止执行,可能php-fpm阻塞
4. 重启cgi, nginx 返回200, 几分钟后又504了 (业务脚本对应服务器监控发现连接数飙升)
5. 怀疑可能是mysql阻塞,上阿里云rds查看,半小时内连接数直线上升.可能是脚本不断重启造成。临时关闭本机cron脚本。不生效。
6. rds临时扩容解决。
####监控分析如下:
7:40 — 8:10 业务脚本没有安全退出,pm2不停新启。半小时内phantomjs进程数达到100+,
8:10 — 8:40 系统负载200+(机器双核)
8:10 — 8:40 tcp连接数没采集到(系统负载过高)
8:40-8:43 连接数增量350
DB server : 08:45 — 09:10 连接数持续增长
刚好接上开始故障现象。
###总结:
故障,可能是几小时之前触发的。
系统负载过高时,会出现监控数据不全。
服务之间共享资源使用需谨慎。