计算机系统应用  2018, Vol. 27 Issue (12): 96-100   PDF    
地市级气象核心网络扁平化改造
许皓皓1, 关兴民2     
1. 宁波市气象网络与装备保障中心, 宁波 315012;
2. 黑龙江省气象数据中心, 哈尔滨 150001
摘要:随着气象系统业务内容的不断扩展, 原气象核心网络在性能,稳定性和运维效率方面逐渐难以满足需求. 为保障网络系统高效可靠运转, 对网络现状进行研究并提出改造需求, 详细设计网络改造方案和设备割接步骤, 基于网络虚拟化和可视化融合运维平台, 采用新一代CSS和iStack交换机堆叠技术, 对气象核心网络进行了平滑升级改造, 组建扁平化大二层气象网络系统. 通过改造简化了网络结构, 提高了网络效能和运维效率.
关键词: 网络虚拟化    气象核心网络    CSS    iStack    
Flatened Rebuild of Municipal Meteorological Core Network
XU Hao-Hao1, GUAN Xing-Min2     
1. Ningbo Meteorological Network and Equipment Support Center, Ningbo 315012, China;
2. Meteorological Data Centre of Heilongjiang Province, Heilongjiang, Harbin 150001, China
Abstract: With the continuous expansion of business in meteorological system, the performance, stability, and maintenance efficiency of original core network have been short of capacity to meet the demand. To guarantee reliable and efficient operation of meteorological network system, current status of the network has been studied and rebuild demands are proposed, network reform schemes and equipment changeover procedures have been designed in detail, a new generation of CSS and iStack switch stacks technologies have been adopted in smoothly upgrading the meteorological core network based on network virtualization and visual fusion operation and maintenance platform, overall built a 2 layer flat meteorological network system. By rebuilding, the network structure is simplified, and the network performance and maintenance efficiency are improved.
Key words: network virtualization     meteorological core network     CSS     iStack    

引言

气象通信网络用于气象信息的采集, 传递, 分发和应用, 是气象业务开展的重要基础设施载体, 一旦运行不稳定或者出现重大故障, 不但会影响全市气象业务的正常开展, 对当地气象灾害防御, 人民生命财产安全, 经济社会健康发展都会产生一定影响. 以宁波市为例, “十三五”以来, 气象大数据业务的持续开展, 服务器虚拟化等云计算技术在地市级数据中心的应用都对气象网络系统的交换处理能力提出了更高要求[14], 目前网络中, 核心, 汇聚, 接入层设备的使用年限大都比较长, 在突发异常数据或攻击时,网络设备极易出现负载过重或宕机现象, 已经无法高效承载当前气象业务需要, 当前网络核心和接入层通过VRRP+MSTP方式组网, 这种网络架构不够稳定, 容易引起环路问题, 且结构复杂不易维护. 此外现网中使用了多种不同厂商, 不同型号, 不同定位的网络设备, 认证系统, 安全系统, 路由交换系统之间无法产生协同性, 设备故障不易发现, 导致网络运维效率低, 运维成本高. 基于上述背景, 对气象核心网络进行改造, 提升网络处理能力, 稳定性和运维效率已经势在必行.

针对宁波市气象核心网络存在的网络结构不合理, 设备性能和网络效率不足, 缺乏整体运维手段等一系列问题, 基于交换设备虚拟化技术, 对现有网络进行升级改造, 组建扁平化大二层网络, 简化网络结构, 提升网络传输性能和运行稳定性, 增强网络运维管理效率, 以满足当前气象业务对网络运行的要求.

1 现状和改造需求分析 1.1 网络现状

宁波市气象核心网络采用核心, 汇聚, 接入三层网络组网架构, 网络拓扑如图1所示. 其中核心层使用两台华为S9312交换设备基于VRRP+MSTP技术组建冗余网络, MSTP技术提供二层的负载均衡及故障切换, VRRP在三层实现网关冗余, 两台核心交换机路由表保持一致; 汇聚层交换机用来为接入层设备做端口扩充和链路延伸. 除中心机房服务器接入交换机外, 主要业务汇聚层交换机也采用双链路的冗余架构, 连接宁波市9个区县(市)气象局, 同时为环保, 国土, 水利, 海事, 民航等部门提供网络接入用于部门数据共享业务. 由于气象行业的特点, 市气象局需要与省气象局, 国家气象局之间进行通信, 现网中通过路由器实现与上级部门的互联, 启用OSPF协议进行路由学习实现网络互通. 接入层设备主要用来为楼层用户PC等终端设备提供网络接入服务, 通过汇聚层交换机接入核心交换机. 当前网络主要存在如下几方面不足: ① 网络结构不够简洁, 组网模式存在环路问题, 可靠性不足; ② 网络传输和处理能力不足, 设备陈旧, 运行风险性大; ③ 网络缺乏融合运行管理能力, 运维效率低.

图 1 网络现状拓扑图

1.2 需求分析

通过对地市级气象核心网络现状进行分析和研究,本次改造立足当前和未来数年全市气象业务发展需要,力求补齐当前网络短板, 有效承载市县两级计算存储资源池和应用系统网络通信需求, 实现省市县三级气象部门数据高效传输和共享. 本次改造需求分析描述如下:

1) 优化网络结构. 改变核心和接入层通过VRRP技术部署双核心交换机, 通过MSTP来解决二层环网的组网模式, 采用扁平化, 无环路的网络架构, 保证网络的可靠性, 简化网络结构, 同时具备良好的扩展性.

2) 提升设备性能和网络效率. 更新现网核心和汇聚层设备, 提升背板带宽和包转发率, 升级网络干道带宽, 全面提升核心网络处理和传输能力.

3) 构建网络运维管理体系. 建设一套融合网络运维平台, 具备可视化分析呈现能力, 对网络等设备进行集中运维, 提供网络质量分析, 流量监控, 故障诊断定位等功能.

2 网络扁平化改造 2.1 改造方案

现网环境中通过VRRP+MSTP实现核心交换机双节点冗余备份. 冗余结构虽然提高了网络的可靠性, 但也使得网络结构和互联关系更复杂, 增加网络协议的部署难度. 本次改造更换了核心和汇聚层设备, 实现双机虚拟化堆叠, 组建大二层网络架构, 改造后拓扑见图2. 主要改造内容和改造方式如下: ① 按照用途和接入类型将汇聚交换机分为服务器接入, 区县(市)气象局接入和外联单位接入三种类型. 服务器接入和区县(市)气象局接入作为关键气象业务, 采用iStack双机虚拟化堆叠方式提供服务; 将外部门通讯线路分离出来统一接入外联单位接入交换机, 根据业务功能不同做到区域分开, 提高网络规划合理性和安全性. ② 核心交换机替换为两台华为S12712, 采用虚拟化堆叠方式组建CSS2(第二代集群交换机系统)集群, 构建无环路网络, 核心交换机配置全网设备网关和静态路由. ③ 整合气象部门上下行设备, 宁波市区县(市)气象局, 省局路由器, 国家局路由器通过iStack双机虚拟化堆叠交换机接入核心交换机, 全部采用双链接冗余, 保障核心业务稳定性. ④ 部署融合网络运维平台, 对现有网络设备和关键服务器做统一监控和风险实时报警, 提高网络系统的运行监控和自动运维能力. ⑤ 核心层和汇聚层网络设备改造后全部采用光纤连接, 组建万兆全光骨干网.

改造完毕后网络结构更加扁平化, 核心网络采用低延时, 大带宽, 高可靠的CSS2集群, 网络结构更加层次分明, 互联关系更简单, 网络各层之间通过链路聚合, 自然消除环路, 不需要再部署xSTP, VRRP等协议; 跨设备的链路均衡实现了100%的网络链路和带宽利用率; 网络虚拟化使得登陆集群系统对所有成员设备进行统一配置管理成为可能, 搭配融合网络运维平台可以全面简化网络运维工作, 构建高效网络运维管理体系. 和原有的华为S9312冗余核心交换机相比, 两台华为S12712核心交换机堆叠后集群背板带宽达到74.5 Tbps, 包转发率为9120 Mbps, 核心层网络背板带宽提升了6倍, 包转发率性能提升了7倍; 新的S5720汇聚交换机堆叠后较原先的S5700交换机性能提升了4至5倍, 网络整体性能得到明显提升, 满足气象业务高可靠性和性能要求.

图 2 改造后网络拓扑图

2.2 割接关键步骤

鉴于气象行业的特殊性, 气象探测报文, 天气预报和预警信息等重要气象数据需要24小时不间断通过网络传输. 而实施核心网络的升级改造, 受机柜空间等机房环境限制, 涉及到原设备摘除下架, 新设备上架, 启动, 线缆连接等一系列过程, 如果因为割接过程设计不合理导致长时间断网, 将造成严重的后果. 因此, 我们根据业务重要程度将网络设备分为非常重要, 比较重要, 一般重要3类, 采用分步实施方案, 将网络割接风险点有效分离, 实现最短时间断网, 尽可能减小对重要气象业务影响. 核心交换机和区县(市)气象局接入汇聚交换机作为“非常重要”网络设备, 对气象业务影响最大, 割接难度最高, 两者实施均安排在业务量最小的凌晨时段进行.

(1) 区县(市)气象局接入汇聚交换机割接步骤:

① 新汇聚交换机进行离线预配置, 配置内容包括Vlan, 上联口, 下联口, 虚拟化等, 原交换机在不断电情况下架, 新交换机上架, 此时业务不中断.

② 新交换机用Trunk方式和核心交换机连通, 测试新设备接入端口通往省气象局业务连通性; 逐一将各区县(市)气象局线路割接到新交换机上, 割接过程保持长Ping不中断, 一条线路测试完成后再割接第二条.

③ 区县(市)气象局线路切换完毕后, 将剩余外联单位线路依次割接至外联单位汇聚专用交换机, 此交换机保留原始架构和配置, 完成设备更换.

(2) 核心交换机割接步骤:

① 先对现有2台核心交换机进行网络精简, 将备用核心交换机关机, 保证所有业务在单核心状态下正常工作.

② 2台新核心交换机完成预配置, 放置在机柜外加电启动, 和老核心交换机之间不做互联打通; 优先割接区县(市)气象局汇聚交换机线路, 保持业务连通性测试, 出现问题立即回退, 保证业务断网时间在1分钟内, 同样步骤将其他线路逐一割接到新核心交换机上.

③ 线路割接完毕后, 将老核心交换机下架, 新核心交换机上架, 考虑到意外情况发生可能, 设备割接过程中, 新老核心都必须保持开机状态, 这样可以保证在任意时间段都有回退的余地.

3 关键技术研究 3.1 网络虚拟化

随着云计算的迅猛发展, 虚拟化技术在信息化领域被广泛应用. 除了服务器虚拟化和存储虚拟化之外, 网络虚拟化技术2012年开始在软件定义网络及OpenFlow的发展推动下应运而生并迅速发展, 正在颠覆当下的网络架构领域[5,6]. 本次改造使用的华为CSS(Cluster Switch System,集群交换系统)和iStack(Intelligent Stack,智能堆叠)都是网络虚拟化的一种形态, 是指将几台交换设备通过专用的堆叠线缆连接起来, 对外呈现为一台逻辑交换机[79].

3.1.1 CSS堆叠

CSS是一种将多台支持集群特性的交换机设备虚拟化为一台交换机设备的技术. 本次改造采用的S12712核心交换机是在CSS的基础上推出的第二代硬件集群系统, 集群系统的控制平面与转发平面分离, 具有低延时, 大带宽, 高可靠等特点. 目前CSS2集群只支持两台设备, 主交换机为经过集群竞争后, 角色为主的交换机, 负责管理整个集群系统; 备交换机是主交换机的备份交换机, 当主交换机发生故障时, 备交换机接管主交换机的所有业务. CSS2集群建立过程如下:

1) 通过专用堆叠线缆连接集群成员交换机交换网板上的集群卡, 每块集群卡上有8个10GE集群接口, 按照面板接口顺序的方式一对一进行连接, 为保证堆叠冗余可靠性, 每台交换机至少使用两块集群卡.

2) 集群交换机加电,最先完成启动, 并进入单框集群运行状态的交换机成为主交换机; 如设备同时完成启动, 集群优先级高的设备成为主交换机; 如果设备同时完成启动, 并且集群优先级又相同时, MAC地址小的成为主交换机.

3) 集群中的备交换机在启动时, 会将主交换机的当前配置文件同步到本地.集群正常运行后, 用户所进行的任何配置, 都会记录到主交换机的当前配置文件中, 并同步到备交换机.通过即时同步, 集群中的所有交换机均保存相同的配置, 即使主交换机出现故障, 备交换机仍能按照相同的配置执行各项功能[10].

3.1.2 iStack堆叠

iStack堆叠就是将多台设备通过专用堆叠口或业务口连接起来形成一台虚拟的逻辑设备, 用户对这台虚拟设备进行管理, 来实现对堆叠中的所有设备的管理. iStack堆叠具有简化网络配置, 高可靠性, 网络扩展能力强, 堆叠模式灵活等诸多优点. 堆叠建立过程如下:

1) 首先根据业务需求进行堆叠物理连接, 可以使用专用堆叠线缆连接堆叠卡上专用堆叠口, 主要优点是无需配置; 也可以通过光纤线连接业务口堆叠, 优点是无需专用堆叠卡, 支持长距离堆叠.

2) 堆叠角色选举, 角色由堆叠成员运行时间, 优先级大小, MAC地址大小等因素决定. 堆叠系统一共有Master, Standby及Slave三种不同角色, Master设备负责管理整个堆叠, Standby设备是Master设备的备用设备, Master设备故障时Standby设备会自动接替业务, Slave设备主要用于业务转发, 一个堆叠中同时只能存在一台Master设备和一台Standby设备, 其他设备都是Slave设备.

3) 堆叠角色选取完毕后进行拓扑收集, 堆叠设备通过报文交换连接关系, 设备编号, 优先级, MAC, 运行状态等拓扑信息, 成员设备会向Master设备主动发送本机收集到的拓扑信息, Master设备会收集到所有设备的拓扑信息, 根据拓扑信息计算出堆叠转发表项和破环点信息下发给堆叠中的所有成员设备, 并向所有成员设备分配堆叠ID.

4) 堆叠建立完毕, Master设备将整个堆叠系统的拓扑信息同步给所有成员设备, 成员设备同步Master设备的系统软件和配置文件, 进入稳定运行状态.

3.2 可视化融合运维

可视化融合运维技术提供了所见即所得的故障监控和易用的运维工具, 具备多类型设备统一资源,性能,告警, 拓扑以及配置管理, 网络质量, 流量等监控和快速诊断, IT资源实时, 历史数据分析等特点, 通过一套系统, 对所有的设备进行统一监控, 故障关联定位, 以及业务的一站式配置, 是提高运维效率的有效手段. 本次改造部署了一套融合运维平台, 引入组件化, WEB化等关键技术, 提供统一的告警和性能管理等全网状态监控和恢复手段, 以及丰富的可选业务组件, 平台技术特性包括: ① 提供统一监控, 诊断和恢复解决方案, 包括性能管理, 故障管理, 网络诊断和配置备份等功能; ② 组件化模式, 可按需构建运维平台集成到统一的WEB界面; ③ B/S架构, 系统轻量级, 管理人员可通过浏览器完成所有运维操作; ④ 支持多种厂商设备, 可实现全网设备统一管理; ⑤ 具备开放集成能力, 提供Restful和SNMP两种接口, 支持第三方应用系统将运维平台集成到业务流程中.

4 结语

本次地市级气象核心网络升级改造工程于2017年11月初开始, 历时约一个月时间全部完成并投入气象业务实时运行, 改造利用了CSS, iStack虚拟化堆叠, 可视化融合运维等技术, 组建了大二层网络. 改造后网络结构更加扁平化, 同时消除了网络环路; 核心层和汇聚层网络带宽和包转发率性能提升了4-7倍, 关键气象业务系统和数据库访问速度有效改善, 网络整体性能得到明显提升; 可视化平台使网络系统运维管理更加简单高效; 网络系统改造完毕半年以来运行稳定, 实现了零故障运行, 为气象系统各类业务的有效运转提供了良好的网络保障.

参考文献
[1]
钱峥, 曹艳艳, 赵科科, 等. 私有云在市级气象业务平台的实现与应用. 气象科技, 2014, 42(4): 641-646. DOI:10.3969/j.issn.1671-6345.2014.04.020
[2]
钱峥, 赵科科, 许皓皓. 虚拟化技术在气象的应用. 浙江气象, 2013, 34(2): 20-24. DOI:10.3969/j.issn.1004-5953.2013.02.006
[3]
许皓皓, 徐振宇, 赵科科. 超融合虚拟化架构在气象行业的应用研究. 现代计算机, 2017(30): 19-22, 36. DOI:10.3969/j.issn.1007-1423.2017.30.004
[4]
许皓皓, 李从初, 姚浩立, 等. 云桌面在市级气象部门的应用. 信息通信, 2017(8): 145-146. DOI:10.3969/j.issn.1673-1131.2017.08.075
[5]
孙浩, 章韵, 倪晓军. 基于OpenFlow的网络虚拟化技术. 计算机应用, 2016, 36(S2): 1-5, 10.
[6]
余涛, 毕军, 吴建平. 未来互联网虚拟化研究. 计算机研究与发展, 2015, 52(9): 2069-2082.
[7]
刘一谦, 方国强, 张常亮. 基于虚拟化技术构建省级气象信息网络系统. 计算机系统应用, 2017, 26(7): 84-89. DOI:10.15888/j.cnki.csa.005843
[8]
温涛, 虞红芳, 李乐民. 网络虚拟化的过去、现在和未来. 中兴通讯技术, 2014, 20(3): 2-7. DOI:10.3969/j.issn.1009-6868.2014.03.001
[9]
李敏, 李斌, 杨叶梅. 一种网络设备虚拟化堆叠技术的研究与实现. 福建电脑, 2018, 34(1): 60-61, 79.
[10]
常俊, 李瑞华. CSS集群技术在地震核心网中的应用. 震灾防御技术, 2015, 10(3): 664-672.