请选择 进入手机版 | 继续访问电脑版
 找回密码
 立即注册

QQ登录

只需要一步,快速开始

搜索
开启左侧

用Nginx日志这样排障,开工都不带怕的!

马上注册,分享更多源码,享用更多功能,让你轻松玩转云大陆。

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
某天 8 点 35 分,某地铁乘车码 APP 出现异常。正值早高峰时期,乘车码异常给众多客户造成了极大困扰。据初步定位,故障主要发生在该地铁 Nginx 集群系统上。虽然故障在半个小时后自动恢复为正常,但对该故障进行分析定位,对地铁乘车系统而言依然意义重大。
1、Nginx 日志分析
Nginx 作为大型站点使用最广的 Web 服务器,其内存占用少、并发能力强,支持反向代理、负载均衡等服务,常被百度、淘宝、新浪等高并发站点批量部署使用。Nginx 的性能之强大,使其在网站整体架构中占据了极其重要的地位,其稳固性也与整体业务系统的健康度息息相关。
由于系统输出的日志中包含了系统执行过的相关动作,从旁路日志数据中挖掘价值,成为系统维护及数据分析最有效的方式之一。一条常见的 Nginx 访问日志中包含了访问来源 IP、时间戳、访问状态码、URL 等信息,对这些信息进行挖掘,可以获知客户访问体验,还可进行安全行为分析、经营数据分析等。
从 Nginx 日志中排查故障,可以准确定位故障源,快速实现故障恢复。
uo39yIeBYg9n0xnC.jpg
【图:日志的价值】


2、日志易 Nginx 日志排障
该地铁公司与日志易团队建立合作,使用日志易产品对该 Nginx 故障进行了排查。在数百次日志分析排障场景中,日志易团队积累了上百种日志分析 APP,本次 Nginx 日志分析排障场景中,“全量中间件日志分析 APP ”将大显身手。
日志易工程师对故障发生时间段的 Nginx 日志、Corosync 日志、操作系统 Message 日志进行了分析。首先应确定故障发生的具体时间范围,通过对 Nginx 日志进行业务量三天环比分析,发现与前两日基线相比,当日 8 点 25-30 分期间,业务交易量已明显下降。
PggbnDN9cnc82fDS.jpg
故障排查范围缩小后,还应对访问数、访问状态、访问 URL 资源趋势、故障时间段内 Lost 主机、系统资源占用等基础数据进行分析。为防黑客利用国外“肉鸡”攻击,还应对外国 IP 访问趋势进行分析。
日志易团队根据以上分析结果,得知在故障时间段内,请求量没有添加,可排除 DDOS 网络攻击的可能性。但该时间段内,访问失败量与响应时间添加了,且个别主机由于并发过大造成宕机,故障期间某条 URL 请求量非常大且无 referer 来源,猜测可能受到 CC 攻击。
该地铁技术团队根据日志易分析反馈结果及自身业务状况分析,得知故障来源于地铁 APP 的新闻推送。由于该地铁新闻推送与二维码购票通道没有分离,大量的新闻页访问占用了带宽资源,导致购票通道(入站与出站二维码生成)出现短暂故障。
根据最终结果,地铁技术团队将普通访问通道与购票通道做了分离,以后地铁二维码就不会由于新闻推送受到影响了。
日志易的排障应用场景还有很多,欲理解更多日志易落地案例,欢迎垂询 400-085-0159,或关注日志易公众号,回复“日志分析”进行查看。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

广告招商