波谲云诡,数据库延迟

本文摘自:《逆流而上:阿里巴巴技术成长之路》 3.2 波谲云诡,数据库延迟背景 某业务在生产环境遇到了一个诡异的数据库访问现象:应用通过数据库中间件TDDL访问MySQL数据库,偶尔会出现超长的访问延迟,导致整个远程服务接口调用超时。从调用链分析平台EagleEye(分布式调用的跟踪者)看到的图形是这个样子(如图3-9所示)。 从这张图上可以看出: (1)访问多张表的延迟都超过500ms; (2) … 阅读更多

山洪暴发,高流量触发Tomcat bug引起集群崩溃

本文摘自:逆流而上:阿里巴巴技术成长之路 2.4 山洪暴发,高流量触发Tomcat bug引起集群崩溃背景 中间件M应用在2013年开始采用Async Servlet+HSF Callback调用模型,以提高其性能,从而获得较好的效果。当时Tomcat的连接协议,采用APR模式,但2013年双11前,发现APR的Tcnative存在一个导致JVM Crash的bug,提交了bug给官方。 在201 … 阅读更多

智能定位,网络端到端静默丢包点迅速锁定

本文摘自:逆流而上:阿里巴巴技术成长之路 背景 随着阿里巴巴集团业务的高速发展,数据中心的数量和规模都在快速扩张,网络运营的设备数量、型号、软件版本的类型均呈快速增长的趋势,网络规模的扩张导致了相同故障发生概率下出现设备转发异常的次数也在不断增加,对业务影响和网络运营带来了很多风险和挑战。 常见的网络丢包故障发生在线路和端口级别,大都是因为线路质量劣化、线路流量拥塞、光模块故障等,这类问题网络运营 … 阅读更多