504

08:45开始:

####room服务:

1.  发现server 504 (nginx)
2.  [1040] Too many connections (php-fpm)

####server:

1.  nginx访问日志504.
2.  (request: "POST /index.php") execution timed out (136.359234 sec), terminating

####处理:

1. 查看nginx 访问日志, 发现大量504
2. 验证laravel框架错误,php错误日志,没发现错误。
3. 在php-fpm日志中发现执行超时终止执行,可能php-fpm阻塞
4. 重启cgi, nginx 返回200, 几分钟后又504了 (业务脚本对应服务器监控发现连接数飙升)
5. 怀疑可能是mysql阻塞,上阿里云rds查看,半小时内连接数直线上升.可能是脚本不断重启造成。临时关闭本机cron脚本。不生效。
6. rds临时扩容解决。

####监控分析如下:
7:40 — 8:10 业务脚本没有安全退出,pm2不停新启。半小时内phantomjs进程数达到100+,
8:10 — 8:40 系统负载200+(机器双核)
8:10 — 8:40 tcp连接数没采集到(系统负载过高)
8:40-8:43 连接数增量350
DB server : 08:45 — 09:10 连接数持续增长

刚好接上开始故障现象。

###总结:
故障,可能是几小时之前触发的。
系统负载过高时,会出现监控数据不全。
服务之间共享资源使用需谨慎。