关于计算类硕士学位毕业论文范文 跟网络先行在高性能计算中心搬迁中的作用方面硕士学位毕业论文范文

本论文可用于计算论文范文参考下载,计算相关论文写作参考研究。

网络先行在高性能计算中心搬迁中的作用

摘 要:随着大数据时代的到来,为适应业务发展和新技术应用,近年来企业加快了计算中心设备的更新换代,然而陈旧的机房以及落后的基础设施不能再满足整个计算机系统的运行要求,而为此投入大量资金建立新的数据中心.本文基于东方地球物理公司研究院高性能计算中心顺利完成整体搬迁项目而提出的网络先行准备方案,并介绍了方案思路.

关键词:高性能计算;网络架构;网络设计;HPC

一、前言

对于任何一个数据中心来说,网络有着举足轻重的作用,高性能计算更是如此.网络性能的好坏直接影响到计算中心的正常运营,一个拥有高效、弹性、易管理的网络链路,体现出整个计算机系统运行的效率和良好性.以坐落于河北涿州的中石油东方地球物理公司(以下称东方公司)研究院为例,其拥有亚洲最大的地震资料处理计算中心,浮点运算速度达到2487 万亿次/ 秒.具备年处理能力二维30 万千米,三维20 万平方千米.然而近年来随着计算机的更新换代以及业务规模的不断扩大,在用机房已经无法满足运行需求.

二、背景

2016 年秋,东方公司新建成的高性能计算中心投入使用,新中心对包括机房承重、制冷、供电甚至防灾抗震等诸多方面进行了重新设计.计算中心搬迁工作随即展开,从方案的设计到具体实施等一系列搬迁集成工作均由东方公司研究院计算机技术服务中心负责.

东方公司研究院计服中心自上世纪七十年始,就全方位致力于高性能计算机系统集成、运维管理与信息化建设等技术工作.多年来,在为东方公司研究院高性能计算中心提供全面运维保障的同时,也造就了一支高素质的IT 运维团队.在HPC 并行计算集群、各类型服务器、大型存储系统及网络运维管理方面有极其丰富的经验,范围涵盖包括机房设计、大规模计算系统集成、网络规划设计、数据中心搬迁等诸多方面[1].

此次承担这样庞大规模的机房搬迁,同时又即将年末,许多在运的地震资料处理项目进入后期收尾阶段,更加大了搬迁难度.如何控制在最小限度影响生产的形势下,既快又好的完成此次搬迁工作,对于计服中心的管理者和工程师来说是摆在面前的头等难题[2].搬迁准备之初,搬迁工作组就理清了思路,设备未动,“网络先行”,计算中心网络的布局和使用应该提前进行,在搬迁实施启动前完成相应的一些列测试和准备工作.

三、现状分析

东方地球物理公司研究院高性能计算系统主要面向地震资料数据处理计算,安装有Omega、Paradigm 等全球最先进的处理软件,也有自主开发的GEOEAST 处理解释一体化地震勘探软件.总体来说,地震资料处理计算的特点是计算量大、数据量高.目前,中心仅负责计算作业的节点就有两千多台,面对如此大规模设备的搬迁,需要根据业务的应用特点对计算中心网络现状进行认真分析[3].

软件使用特点.地震资料处理是将从野外采集得到的原始地震数据拿回计算中心,一步步按照一定的流程进行计算处理,转变成地层构造图像,通常的地震数据处理流程如图1:

应用软件和数据库安装在机房的集群服务器上,用户在办公室通过网络将软件调用到本地工作站使用,机房计算设备包括登陆服务器、软件服务器、数据库服务器,由大量计算节点组成的计算集群,以及存储系统(如图2).

根据处理软件各流程模块特性,实际使用有以下情况:

? 大批量节点并行模式下的处理计算,例如多波、三维叠前时间/ 深度偏移等处理,一旦作业发送,将以集群规模对项目数据体进行并行计算,而项目的数据是以几十TB 甚至上百TB 来吞吐计算.以叠前偏移为例,叠前时间偏与叠前深度偏对网络要求也不尽相同,前者要求在带宽稳定的情况下保证数据能够按时地分装到各计算节点,而后者则更加注重网络带宽不足产生的瓶颈问题,因为需要将目标数据一次性拷贝到各计算节点缓存磁盘再进行处理计算.

? 小计算量的常规处理作业,这种作业计算量较小但作业数量多发送频次及高,往往一组机柜同时发送几百个作业.

? 在软件界面下进行地震剖面对比、层位拾取、调试速度等实时交互性操作,这种应用更注重网络的瞬时性和数据的快速读写能力[4].

从上述来看,不同的运行模块,不同的处理方式对网络要求各有特点,但总结可以发现地震资料处理应用对网络环境要求非常高,高带宽、低延时响应是必须条件.

(1)此次搬迁工作是一次整体性质搬迁,整个高性能计算中心所有设备必须按计划全部搬入新址,上百个机柜、几千台设备,如此庞大规模的搬迁任务可以说是前所未有的挑战.计服中心有着二十多年的大型机房运维管理及搬迁经验,曾经承担吉林油田物探计算中心、中石油ERP 系统、加油站系统等多个大型计算中心、数据中心机房搬迁项目并出色完成了任务,即便如此也感到了巨大的压力.同时搬迁期内还有很多在运的项目,这些项目项目大多都面临年末验收,处于关键阶段.用户给出搬迁的窗口时间非常短暂,这就要求能够招之即搬,搬之即用.在这其中网络可谓牵一发而动全局,若因新机房网络运行异常,可能导致大面积设备运行瘫痪,用户工作将受到严重影响,损失难以想象.

(2)本计算中心网络运行特点

? 安全性.本计算中心专用业务网络为独立的局域网,完全与其它办公业务隔离,用户终端通过支持MAC 绑定方式及ACL 访问控制管理.

? 高带宽.高性能计算机系统需要使用高速网络,才能满足TB 级甚至PB 级数据的吞吐.尤其在并行计算集群系统内部,更是要求线速,以避免因网络带宽不足而给并行计算带来瓶颈.

? 高可靠性.计算中心网络要求可靠性极高,尤其是核心交换机、骨干网络等关键位置应采取冗余模式,提高网络对单点故障的抵御能力,防止网络单点故障不影响整个网络的正常运行.

? 可扩展性.为适应每年的设备更新引进,高性能计算中心网络应该具有良好的横向可扩展性.

东方公司研究院高性能计算中心网络采用三层设计,计算中心网络总体架构为“核心—边缘”,将整个计算中心划分为用户区、核心交换区和业务区(图3).随着地震资料采集技术的不断提升,地震勘探数据成倍增长(图4),为适应因业务发展而快速扩展的高密度PC-Cluster 集群,2011年计算中心核心及主干网络进行了全面升级,对网络架构做了模块化部署,核心网络区及关键网络采用冗余设计.主干网络使用高速万兆以太网络.集群内服务器、计算节点群及存储系统网络以线速模式运行,使用vlan 技术划分各个业务模块,通过核心区来路由各vlan 之间的次级通讯.

四、“网络先行”实施思路

新计算中心应避免传统计算中心网络架构不足和缺点,如网络效率低下、网络带宽不足等等,从一开始,需要根据未来机房业务、核心区及用户办公区设计网络,搬迁前预先对计算中心新址的综合布线进行有针对性测试,并搭建测试机群及用户终端,模拟实际生产运行环境[5].

(1)计算中心新址准备

? 网络设计.根据新址工作环境,对用户区、机房区做综合布线设计,设计内容包括用户生产终端——弱电间的水平布线、办公楼——机房布线及机房楼内部布线.

? 综合布线测试.通常情况下,大约75% 的网络故障发生在物理链路层,因此为了保证用户拥有一个稳定良好的的应用环境,在综合布线施工验收时,必须明确对所有的线路逐一测试.

? 水平布线子系统测试.测试用户工位信息模块——楼层配线架的水平布线系统线缆连通性,如果没有专业的网络测试仪(如MicroScanner),可购买廉价的测试仪,借助两根跳线分别连接起点和终点(如图5),跳线另一端分别连接网线测试仪的主测试仪和远程测试端口,通过测试仪1—G 的指示灯逐个顺序闪亮来测试网线连通性.

? 建筑群主干子系统测试.楼层弱电间——计算中心机房的建筑群子系统(图6)通过多条冗余单模光缆连接,在条件允许的情况下,可以对光缆衰减、串扰等情况进行详细检查.考虑到新址实际情况,用户区到机房区采用近距离光缆干路铺设,一般不会产生严重衰减,只要确保光缆链路连通性既可.快速测试可以使用激光指点器对准光纤一端打光,光纤的另一端会有光线出来.

? 网络性能测试.为了保证搬迁后用户能第一时间使用传输效果良好的网络,我们借助一些软件工具对整个网络进行测试.

Sniffer 工具,一款网络分析软件,可以对网络出现的异常情况进行分析,找出网络中潜在的问题.例如软件运行延迟,传输出现丢包、错报现象.

Iperf 工具,网络性能测试工具,可以测试TCP 和UDP传输性能,包括传输震动、丢包、最大传输率等等,可以针对网络理论带宽进行压力性测试,找出网络瓶颈及可能存在的故障点.

(2)模拟实际业务环境进行测试

? 东方公司研究院高性能计算中心为双冗余核心交换机,两台核心之间通过VRRP 协议实现冗余备份,任何一台宕机都不会影响整个计算中心网络的正常运行.我们将一台核心交换机搬迁到新址,临时从服务商租借一条从在用机房(交换机A)到新址机房(交换机B)的高速链路,作为心跳链路将分在两地的核心交换机恢复VRRP 模式.并分别在新址核心交换机B 端及各业务楼层分别连接服务器,以测试双核心远程链路连接下网络连通性.

? 在上述测试满足情况下,我们于中秋节三天将一套160 节点高性能计算集群和两套存储系统搬迁到新机房,该集群连接到新址的核心交换机B 上,旧机房用户发送命令通过两台核心交换机心跳链路实现异地用户对该集群的处理应用,用户操作正常,作业运行良好.

五、结语

基于以上的对综合布线、网络、用户实际使用效果等多阶段详细测试,新址的网络满足计算中心的使用需求.同时,两个核心交换机通过ISP 专线实现异地冗余,计算设备的停机时间缩短至最少,仅需要“停机下架—搬迁—上架集成”这段必须时间.“模块化”搬迁的实施思路也在试搬迁集群上运行进行了详尽的试运行测试,网络提前设计、测试及运行的设想得到充分论证.十月开始,东方地球物理公司研究院开始了计算中心的整体搬迁工作.搬迁历时仅用二十多天,搬迁中对各集群及其分属用户进行分批次的模块化搬迁,涉及的PC-Cluster 集群、存储、应用服务器、外设及业务工作站等各类设备近万台.搬迁过程中设备拆卸、上架、安装及调试均由研究院计服中心技术人员独立完成,其工程量之大,设备及业务恢复之迅速高效得到公司领导的高度认可和赞扬.

计算论文范文结:

关于计算方面的论文题目、论文提纲、计算论文开题报告、文献综述、参考文献的相关大学硕士和本科毕业论文。

1、关于云计算的论文

2、云计算论文

3、云计算技术论文