5G、大数据、人工智能等技术对数据处理和网络带宽的要求越来越高,数据中心需要不断制造更大的网络带宽来满足这些要求。因此数据中心在这个时期迫切需要扩大网络带宽,特别是网络的数据核心。扩大网络带宽最直接的方式就是扩大单端口网络带宽,从40G到100G,从100G到200G/400G甚至更高,从而扩大整个数据中心的带宽。专家预测2020年大部分400GbE部署将稳步增长。400GbE交换机将作为超大规模数据中心的骨干或核心交换机,以及私有云和公有云数据中心的骨干或脊交换机。需要注意的是,100G才普及了两三年,现在就要过渡到400G,网络带宽增长的速度越来越快。
一方面数据中心对高速光模块需求旺盛,另一方面光收发模块故障率居高不下,直观上相比1G、10G、40G、100G、200G甚至400G,故障率要高很多。当然这些高速光模块的系统复杂度要比低速光模块高很多。比如一个40G光模块实际上是由4x10G通道绑定在一起并同时工作,相当于4x10G同时工作,只要一条路径出现问题,整个40G就无法再使用,故障率当然比10G高很多。而光收发模块要了解4条光路的协调,出错概率自然更高。对于100G来说尤其如此。有些是通过10x10G通道进行传输,有些则使用新的光学技术。这些都会增加出错的可能性。速度再快也不说,技术成熟度也不高。像2019年推向市场的400G光模块技术,故障率肯定会有小幅上升。好在一开始不会有太多的使用。随着技术的不断进步,我们相信它会像普通模块一样逐渐稳定下来。
光模块故障对业务影响并不大。数据中心的链路都是冗余备份的,如果某条链路的光模块发生故障,业务可以通过其他链路进行处理,如果是CRC错包,也可以通过网络管理立即判断,并尽快更换。所以光模块故障对业务影响并不大。极少数情况下,系统端口故障也可能是由光模块引起的,进而导致整个系统死机。这种情况一般是由于系统实现不合理造成的,很少发生。大多数光模块与设备都是松耦合的,虽然连接在一起,但并不存在耦合关系。所以高速光模块虽然在使用中经常损坏,但对业务影响不大,一般人们不会再关注它们。光收发模块一旦确定故障就立即更换,而且高速光收发模块的保护时间也比较长,如果发生故障,基本上是免费更换,损失并不大。
光端机的故障一般表现为端口无法UP、光端机无法识别、端口CRC错包等现象。这些故障与设备、光端机模块本身、链路质量都有关系,特别是对于错文件、无法UP的情况,从软件技术上很难判断故障的位置。有些还是适配问题,双方都没什么问题,但是没有对对方进行调试和适配,导致无法协同工作。这样的情况比较多,所以很多网络设备都会提供适配光模块的列表,要求客户使用自己定制的光模块,保证稳定可用。如果遇到故障,最好的办法还是轮换测试,更换链路光纤,更换模块,更换端口。通过这一连串的测试,确认是光端机模块问题,还是链路或设备端口问题。幸好这种故障现象一般比较确定,而且那种非固定的故障现象比较难处理。比如端口有CRC错包,立刻拔掉光收发模块,换上新的,故障现象消失,再换上原来的光模块,故障不再复发。很难判断是不是光模块的问题,这种情况在实际使用中经常遇到,很难判断。
如何降低光模块故障率?
第一,抓紧源头,带宽更高的光模块不要仓促推向市场,需要充分实验。而且高速光模块需要配套相应的设备,这些技术也需要完善成熟。不要过分追求高速,新的高速光模块要平稳推向市场。现在网络设备支持多端口捆绑,如果400G不行,4x100G捆绑也能满足需求;第二,关注高速光模块的引入。网络设备运营商和数据中心客户在引入高速光模块时要谨慎,对高速光模块进行严格测试,坚决过滤质量有问题的产品。现在市场上的高速光模块竞争激烈,都希望在新的高速模块上抢占先机,但品质和价格参差不齐。这就需要网络设备运营商和数据中心用户加大测试力度,模块价格越高,验证越复杂;第三,光收发模块确实是一个集成度很高的设备,裸露的光纤通道和内部零件非常脆弱,使用的时候要小心对待,戴上软手套,避免落入灰尘,这些也会限制故障率,不使用的光收发模块要戴上光纤帽,放在袋子里;第四,尽量少出现恶劣的情况,比如100G光模块长期在接近速度极限的地方使用,200米距离的光收发模块在200米距离的地方使用,这些极限边界值的使用都会导致光模块的损耗更大。这就好比人,在温度24℃~26℃的空调房间内工作的人,工作效率还是很高的。在室外35℃的高温环境下,无法长时间监听,工作效率极低,为光收发模块提供一个温暖的环境,可以有效延长光收发模块的服务寿命。
随着大数据的兴起,数据中带宽要求越来越高,引入更高速的光收发模块已经成为关键路径,必须把控好方向。如果新的高速光收发模块在市场上不断碰壁,就逃脱不了被淘汰的结局。当然,任何新技术都有一个成熟的过程,高速光收发模块也不例外,需要不断的技术创新,解决各种问题,提高光模块的质量,降低故障率。高速光收发模块是模块厂商的盈利引擎,也是历代模块厂商的必争之地,质量控制必须严格把关。
文章筛选
快速重复订单
|
![]() 降低数据中心高速光模块故障率的最佳方法光端机故障很少会对业务造成重大影响,数据中心的链路均有冗余备份。
发表评论
先 登录 才能发表评论。 |
当前暂无评论。