京东618技术大考,京东云如何交出完美答卷?

  •   2021-06-17/23:13
  • 又是一年京东618!对于京东云而言,6.18和11.11就是年中和年末的两次技术大考,不仅对于系统性能和运维水平提出了全面的考验,也是锻炼队伍,提升能力的宝贵时机。在618零时即将到来之际,京东云千余名工程师驻场守护,全员值守,迎接亿万级流量洪峰的到来。

    京东618:最复杂的云计算应用场景

    京东618是全球最复杂、最严苛、压力最大、链条最长的云原生应用场景之一。对于用户而言,从提交订单到付款成功不过是动动手指的事情,但对京东云来说,要承受的却是海量数据的流量洪峰——从订单系统、搜索系统到支付系统,再到订单智能分发系统、运力调控系统、顾客与商家双向数据的实时同步运算,所有这一切都在云上完成,对京东云的算力、带宽、高并发处理能力带来了严峻的挑战。

    仅以支付环节为例,它直接关系着消费者的体验。支付系统实际上是一个非常庞大复杂的系统,光是核心的子系统就有几十、上百个。近年来,基于京东云技术底座,京东支付已经建立起一套完备的支付系统,包含完善的自动化的网络管理,强大的高可用的PaaS组件如云数据库、缓存、MQ、RPC、监控等,并基于京东云的多种弹性存储方案打造了同城多中心多活容灾交易系统,不断提升系统的稳定性和可靠性,也大大减少了人工压力。2021年,凭借京东云的不断突破,部分业务场景首次尝试大规模的异地多活,就近为用户提供体验优质的服务。目前用户在京东消费,下单页面展示用户支付工具仅耗时10ms,极大地提升了用户体验。

    6月1日凌晨,京东云发布的首份战报显示,当日凌晨,京东云每秒用户访问峰值较去年同期提升223%;访问带宽增长140%,实时数据分析累计达3万亿条。京东云以超高弹性轻松应对凌晨时分用户瞬间的下单支付高峰,云平台统一安全运营中心则为超过100万智能应用与相关资产提供主动安全保障,为用户打造了丝般流畅、安全如盾的网络环境和购物体验。

    京东集团副总裁、京东科技京东云产品研发负责人曹鹏在主题为“解码京东618:京东云发布十大技术应用趋势”的媒体沙龙上介绍了京东云的备战情况。曹鹏指出,今年618京东云做了一个重大升级,就是通过混合云操作系统云舰(JDOS)统一计算资源底座,实现对1000万核计算资源的弹性调度与管理,部署更快,弹性更好。基于混合云操作系统云舰(JDOS),京东云在备战618期间资源扩容135%,还可以实现有限的计算资源在不同任务间无缝切换,交付效率提升了1.5倍,能够更加从容的应对流量洪峰。

    突发断电断网  仍然稳如磐石

    618期间,京东云除了要应对流量洪峰,还要应对各类攻击与突发事件,后者对于京东云而言是更大的技术挑战。

    为保障京东平台和商家的业务不中断,用户购物体验更顺畅,京东云构建起基于容器、虚拟机、物理服务器等混合基础架构场景下的安全防护体系。在历年的618中,京东云均取得用户无感知、零延迟、零卡顿、零宕机、零安全事故的傲人成绩。成果背后是京东云技术团队积极备战、反复演练、深度复盘,一场场硬仗打下来的结果。

    在618期间,京东云所在的某运营商机房突发断电断网。由于该机房承载着部分核心业务系统,如果不能第一时间处置,会影响用户购买商品、下单支付等业务功能。

    在电力双路中断发生的第一时间,京东云运维平台通过秒级监控快速定位故障,并通过全自动化的容灾预案进行止 损:在1分钟内将受影响的流量调度到另一个双活出口,10分钟内业务全部恢复正常,将受影响的业务范围和时间均压缩到了最低。

    亲历事件的京东云网络工程师介绍,京东云能够如此快速处置此类高风险事件源自两大能力:一是多活灾备架构,在全国各地的网络优质节点建设接入点,不把鸡蛋放在同一个篮子里,持续建设异地多活能力,实现跨地域容灾,保证业务随时随地高可用;二是全流程自动化应急处置,京东云智能检测系统可以做到1分钟发现、1分钟定位、分钟级恢复,通过技术手段实现从故障预测、故障诊断到故障修复的系统化、自动化流程,实现业务快速无感知恢复。

    除了断电断网这类极端情况,京东云还建立起了全链路、立体式的安全体系,全面护航618安全。在京东平台所有业务部门和企业级客户为迎战618做扩容准备的同时,京东云安全团队会协助各业务部门进行资产梳理和风险评估工作,提前1个月完成安全防护方案、应急预案、演练方案以及方案的评审工作。

    京东云技术团队安全演练现场

    攻击演练是检验云原生安全产品防护能力和应急预案最有效的手段。活动准备期间,京东云安全团队协同网络部门、各业务部门进行了多轮针对性的攻击演练。由于模拟攻击是针对线上生产环境发起,防守方未被提前告知攻击时间和流量,并且线上业务也随时可能遭受来自互联网的真实攻击流量,无形中提升了攻击演练的复杂度。

    京东云安全团队经历多次攻防演练的洗礼,在预案中充分考虑各方面安全风险,从容应对突发状况。在本次618备战抗DDoS攻防演练中,攻击方模拟发起攻击峰值超过上百Gbps,CC攻击峰值上万次每秒。防守方对海外安全加速产品、IP高防、NF1-TP防护产品和联动防护机制进行了验证,均符合预期,并且在事后的演练复盘中对部分可进行自动化处理的步骤进行了优化,进一步缩短了安全响应处置时间。

    京东云已是全球容器化最彻底的云平台之一,并同时拥有全球最大规模的Docker集群和Kubernetes集群。在混合云操作系统云舰(JDOS)的加持之下,京东云在今年618期间的表现值得期待。


    评论 {{userinfo.comments}}

    {{money}}

    {{question.question}}

    A {{question.A}}
    B {{question.B}}
    C {{question.C}}
    D {{question.D}}
    提交

    驱动号 更多