我在外包的日子10:元旦后台系统宕机记事

公司一直没有帮我们配电脑。平时写代码时,要参考很多文档,需要一个大的显示器。等了好久就不等了,去京东上看,24寸的要800块钱左右。后来经罗工开导,可以先买个二手的用着,便宜不少。于是就上闲鱼上看同城的显示器,看了半天,确定去一个在大沙田的卖家家里看看情况。

因为那个地方路小,地图上没具体的名称,导航了半天,又微信联系卖家,最后才找到地方。房间里信号差,付款时到伸手到容器找信号。看到领导在微信群里说后台系统宕机了,要我去查一查。我看到时,比较吃惊,因为入职来,从没碰后台,也不知如何部署的。之前曾经问原来的同事,可能忌讳我,没说。我在微信里说不知道IP,不知道账号密码。后来有同事发了出来,我没法那么快回去,后来他们联系甘工,一起查看。我回到租房时,已经5点半了,他们已经解决了。

我在吃饭时,领导在微信群里at一些人,说晚上8点半要去公司开会。我准时到,黄工已经在了。等到9点多,领导和其它一些人到,就讨论如何善后。因为这事我不知头不知尾,所以不好说什么。到晚上11点多才开完,临走领导叫我回去起草情况说明报告厅,发给他审核,上班时就交给公交集团。

原来,后台的日志太多了,把一个磁盘分区搞满了。所以系统卡住,在外看来,系统就是挂了。

元旦后上班第一天下午,领导叫我和Z工去公交集团公司开会,也是说如何解决此事。公交领导对这个事比较在意,因为是生产环境发生的。还讨论了双备、热备,申请备份机器等,还有运维监控、机器巡检等等,另外提到,出现异常时,要及时通知运维人员(如邮件、短信)。这些事太久远了,我也只听听而已。

其实这个事,根本不应该发生,就是因为一期的“开发人员”不够专业,只顾打印日志,而不管日志有多大。公交集团还以为什么大事,问我们1TB磁盘够不够。

另外还有一个支付金额的问题,不知何故,微信支付后,系统会确认2次,这样就造成重复充值2次,但只有一份金额,相当于买一送一。司机发现此情况后,立马叫其它人充值,有的充了几百块。同事发现此情况后,直接在数据库里动手更新,改回正常的金额。但此时,就会出现金额为负数的情况。(注:话是这么描述,但个中的逻辑,我一直没理清楚)。这个事,我也写了一点在报告里,但后来领导删除了,公交那边也没怎么问。至于公交账面数据不对的,就由公司赔偿。

这个事对我的启发有:
第一,对于一些问题,个人认为难不难,并不重要,重要的是对方领导、已方领导的认知。如果他们认为很难,就一定很难。不要试图以技术人员的认知来说服商务、领导的认知。
第二,一些事情可以铺得很大很广,如系统资源监控等,但现在不一定要做,也不一定能做。
第三,自己的水平,不一定要马上表现出来,要慢慢让他人看到,让他们(主要是领导)有一个印象:你是不断在学习、不断提高的。

李迟 2019.1.13 周六