比格云实践:如何提升云主机稳定性及防御能力?

  •   2016-12-30/13:24
  • 背景介绍

    云计算时代到来,IDC行业的服务商和用户也开始成批转向IaaS服务。从国内IaaS服务目前的应用形式来看,云主机、云存储用户采用率最高,使用比例达70%以上。

    但云主机厂商所提供的产品质量却参差不齐,此外,用户对于云主机各方面性能的需求也不尽相同。例如对于广大的中小企业来说,用户对网络I/O有着更高带宽、更低延时的普遍需求。

    通常情况下,对云主机通用处理能力的评测主要包含以下指标:vCPU运算处理能力(整数运算和浮点数运算)、内存处理能力(数据的读写速度)、硬盘处理能力(随机数据读写速度)、网络传输能力(流出与流入流量的TCP吞吐量)、在线可用性(主机可远程访问时间的比例)。市面上围绕以上五大部分进行的评测报告也是多如牛毛。根据对多份调查报告的统计, 网络传输能力和硬盘处理能力是用户评定云主机优劣的两项最重要指标。

    首先是对云主机IOPS的测定

    因此,为了检测自身IO性能,比格云近期使用了fio测试工具,在“4K、512K”的数据块、iodepth队列深度128条件下,随机申请了一台比格云Linux云主机(CPU-4核、OS-CentOS 6.8 64bits、Mem-8G、数据盘200G),对其数据盘IO进行测试。

    按照如下命令测试数据盘裸设备(/dev/vdc1):

    #测试随机读IOPS:

    #fio-direct=1-iodepth=128-filename=/dev/vdc1-rw=randread-ioengine=libaio-bs=4k-size=10G-numjobs=64-runtime=1000-group_reporting-name=randread.iops-output=randread.iops

    #测试随机写IOPS:

    #fio-direct=1-iodepth=128-filename=/dev/vdc1-rw=randwrite-ioengine=libaio-bs=4k-size=10G-numjobs=64-runtime=1000-group_reporting-name=randwrite.iops-output=randwrite.iops

    #测试顺序写吞吐量:

    #fio-direct=1-iodepth=128-filename=/dev/vdc1-rw=write-ioengine=libaio-bs=512k-size=10G-numjobs=64-runtime=1000-group_reporting-name=write.throughput-output=write.throughput

    #测试顺序读吞吐量:

    fio-direct=1-iodepth=128-filename=/dev/vdc1-rw=read-ioengine=libaio-bs=512k-size=10G-numjobs=64-runtime=1000-group_reporting-name=read.throughput-output=read.throughput

    最终测试结果为:随机读IOPS为131194,随机写IOPS为79128(4K数据块),以及顺序读吞吐量为6.2GB/s,顺序写吞吐量为2.2GB/s(512K数据块)。

    在对网络速度进行测试过程中,也是针对一台Linux云主机(配置为1个IP、10M带宽、CPU4核、内存16G、数据盘300G),用speedtest_cli命令检测,检测到网络实时下载和上传速度可能达到191.33 Mbit/s和11.17 Mbit/s。

    IOPS和网络通道是制约云主机性能的两大瓶颈,而这一结果也使得比格云的云主机相较于传统机型,能提供更多的用户场景和更好的用户体验。

    对云主机稳定性的打磨

    IOPS指标对于数据库类型的应用来说十分关键,但对云主机而言,速度只是反映其整体性能的一个维度。除此之外,还包括稳定性和安全性等指标。

    在11月1日比格云开放运营前两个月,比格云先进行了一轮免费内测,主要对性能(IOPS表现)和稳定性(负载均衡、防攻击等)做实测。根据内测用户提交的主机试用申请和反馈数据,比格云又进行了为期两个月的优化升级,以加固云主机的稳定性,并增加了许多便于用户操作的实用功能,例如定时器、监控告警通知、可视化防攻击查询等。

    云主机非常依赖所在物理机的稳定性,硬件故障是影响物理机稳定性的一个重要因素。因此,比格云主要通过提供硬件上的冗余来隔离单一硬件故障对云主机稳定性的破坏。例如,一块电源模块的损坏甚至机柜一排电力的中断都不会影响到物理机的电力供应;又或者,尽管在其中一块磁盘损坏的情况下,通过Raid+hotspare的磁盘阵列也可以做到对用户毫无影响,并且在很短的时间内自动恢复成原来的冗余程度。

    除此之外,云主机稳定性还与网络链路的高可用性有关。相比于单链路网络,双链路网络在一条链路出故障时,仍保证有另一条链路可用,实现对单点网络故障的屏蔽。比格云将分布在不同机柜的交换机互相做堆叠,服务器上的多个网卡分别接入同一个堆叠组下的不同交换机做bonding。正常情况,同一个bonding下的多条链路可同时工作。如果某一条链路异常,流量会自动重新分配到其他正常链路,最大程度保证用户网络的高可用性。

    目前,比格云采用的全网双链路多冗余架构意味着,在目前比格云的架构内,任何单台设备或链路的物理故障都不会影响用户的正常使用。在数据存储上,比格云采取了三重数据保护策略,第一,数据盘采取Raid磁盘阵列防止因物理损坏引起的数据丢失;第二,为用户提供本机内的快照;第三,自动为用户定期做远端备份。同时,比格云已经在筹备建设第二个节点,并将在此搭建上进行异地灾备的网络架构。

    比格云防御架构

    优化升级后,比格云网络冗余架构能有效屏蔽网络故障。云防火墙的架设,也可针对DDoS攻击做特别布防。DDoS攻击、误操作、病毒都会导致数据丢失的风险,因此比格云提供了20G的基础DDoS防护,能够检测清洗SYN Flood、ACK Flood、UDP Flood、ICMP Flood、NTP/DNS/SSDP反射攻击等常见的攻击类型。检测设备对进入核心交换机的流量进行旁路检测,发现攻击后对被攻击的IP进行引流,然后由专门的设备完成清洗,再回注到核心交换机上。

    为游戏、视频、移动应用等领域创造的可能

    相比于自建服务器,云服务的最大优势就是可以快速部署、弹性伸缩。在对秒级创建,随时申请和使用的便捷部署探索中,比格云的服务可让用户根据业务的不同对主机配置、带宽大小自由升级、弹性扩展。

    在互联网时代,云主机所提供的计算资源是构建各种应用的物理基础。比格云团队中的第一代云计算程序员见证了AWS的时代,通过对底层架构和产品建设的持续打磨的,让这个团队能不断成长,满足游戏、视频、移动应用等各领域的行业客户对云主机的性能指标、网络端口稳定性、数据信息安全性以及主机抗攻击性能等严苛要求。


    评论 {{userinfo.comments}}

    {{money}}

    {{question.question}}

    A {{question.A}}
    B {{question.B}}
    C {{question.C}}
    D {{question.D}}
    提交

    驱动号 更多