服务热线:400-630-3382
解决方案

PTN OAM技术白皮书
1. OAM 产生背景
      以太网技术自诞生起,就以其简单易用和价格低廉的特点逐步成为局域网的主导技术。近年来,随着千兆、万兆以太网技术的相继应用,也促使网络运营商、设备制造商和标准化组织致力于将以太网技术向城域网和广域网领域推进。
      以太网最初为局域网而设计,由于局域网本身已具备较高的可靠性和稳定性,因此在设计以太网之初并未建立管理维护的机制。而相对于局域网,城域网和广域网在链路长度和网络规模上都迅速扩大,于是有效管理维护机制的缺乏,已成为以太网技术在城域网和广域网应用的严重障碍。为此,在以太网上实现OAM(Operation, Administration and Maintenance,操作、管理和维护)机制成为必然的发展趋势。以太网OAM 技术可以有效提高对以太网的管理和维护能力,保障网络的稳定运行。OAM也是分组传送技术PTN/IP RAN的重要组成部分。
       OAM技术分为以下两个级别:
• 链路级以太网 OAM 技术:多应用于网络的PE 设备—CE 设备—用户设备之间(也叫最后一公里)的以太网物理链路,用于监测用户网络与运营商网络之间的链路状态,典型协议为EFM OAM(Ethernet in the First Mile OAM,最后一公里以太网OAM)协议。
• 网络级以太网 OAM 技术:多应用于网络的接入汇聚层,用于监测整个网络的连通性、定位网络的连通性故障,典型协议为CFD(Connectivity Fault Detection,连通错误检测)协议。
        各级别上典型的以太网OAM协议如表1所示。

表1 OAM 协议

  协议名称   应用级别   协议标准   说明
  EFM OAM     链路级    IEEE 802.3ah   针对两台直连设备间的链路,提供链路性能监测、故障侦测和告警、环路测试等功能。
  CFD     网络级    IEEE 802.1ag ITU-T Y.1731   主要用于在二层网络中检测链路连通性,以及在故障发生时确认故障并定位。

        本文将主要针对 EFM OAM 和CFD 分别进行介绍。


2. EFM OAM技术简介

2.1 EFM OAM实体
     使能了EFM OAM 功能的接口称为EFM OAM 实体,简称OAM 实体。
2.2 EFM OAM协议报文
      EFM OAM 工作在数据链路层,其协议报文被称为OAMPDU(OAM Protocol Data Units,OAM 协议数据单元)。EFM OAM 就是通过设备之间定时交互OAMPDU 来报告链路状态,使网络管理员能够对网络进行有效的管理.
图1 OAMPDU 报文格式示意图
 
       如图 1所示,是几种常见OAMPDU的报文格式,各重要字段的含义如表2所示。

表2 OAMPDU重要字段含义

  字段   含义
  Dest addr    目的MAC地址,为慢速协议组播地址:0x0180-C200-0002。慢速协议报文的特点就是不能被网桥转发,因此无论是否具备OAM功能或OAM功能是否激活,EFM OAM报文都不能跨多跳转发。
  Source addr   源MAC地址,为发送端接口的MAC地址(若没有则采用该设备的桥MAC地址),是一个单播MAC地址。
  Type   协议类型,为0x8809。
  Subtype   协议子类型,为0x03。
  Flags    Flag域,包含了EFM OAM实体的状态信息。
  Code   消息编码,不同取值表示不同类型的OAMPDU,常见的OAMPDU如表3所示。

表3 常见的OAMPDU

  Code值   报文类型   中文含义    作用
  0x00   Information OAMPDU   信息OAMPDU,也称为心跳报文   用于将OAM实体的状态信息(包括本地信息、远端信息和自定义信息)发给远端OAM 实体,以保持以太网OAM连接。
  0x01    Event Notification OAMPDU   事件通知OAMPDU    一般用于链路监控,对连接本端和远端OAM 实体的链路上所发生的故障进行告警。
  0x04    Loopback Control OAMPDU   环回控制OAMPDU   主要用于远端环回控制,用来控制远端设备的OAM环回状态,该报文中带有使能或去使能环回功能的信息,根据该信息开启或关闭远端环回功能。

2.3 EFM OAM工作机制
2.3.1 建立以太网OAM 连接
       以太网OAM 连接的建立过程也称为Discovery 阶段,即本端OAM 实体发现远端OAM 实体、并与之建立稳定对话的过程。在这个过程中,相连的OAM 实体通过交互Information OAMPDU 通报各自的以太网OAM 配置信息和本端支持的以太网OAM 能力信息。当OAM 实体收到对端的配置参数后,决定是否建立OAM 连接。当两端OAM 实体对Loopback 功能、单向链路检测及链路事件等配置信息的检查都通过之后,以太网OAM 协议开始正常工作。
      EFM OAM 的连接模式有两种:主动模式和被动模式。EFM OAM连接只能由主动模式的OAM实体发起,而被动模式的OAM 实体只能等待远端OAM实体的连接请求;同处于被动模式下的两个OAM 实体之间无法建立EFM OAM连接。这两种模式下设备的处理能力如表4所示。

表4 两种工作模式下设备的处理能力

  处理能力   主动模式   被动模式
  初始化EFM OAM Discovery 过程   可以   不可以
  对EFM OAM Discovery 初始化过程的响应   可以   可以
  发送Information OAMPDU    可以   可以
  发送Event Notification OAMPDU    可以   可以
  发送不携带TLV 的Information OAMPDU   可以   可以
  发送Loopback Control OAMPDU   可以   不可以
  对Loopback Control OAMPDU 的响应   可以,但需要远端为主动模式   可以

      以太网OAM 连接建立后,两端的OAM 实体会以一定的时间间隔为周期发送Information OAMPDU 来检测连接是否正常,该间隔被称为握手报文发送间隔。如果一端OAM 实体在连接超时时间内未收到对端OAM 实体发来的Information OAMPDU,则认为OAM 连接中断。
2.3.2 链路监控
      以太网的故障检测非常困难,特别是在网络物理通信没有中断而网络性能缓慢下降的情况下。链路监控用于在各种环境下检测和发现链路层故障,以太网OAM通过交互Event Notification OAMPDU 来监控链路:当一端OAM实体监控到一般链路事件(其所含类型如表 5所示)时,将向其对端发送Event Notification OAMPDU 以进行通报,管理员可以通过观察日志信息动态地掌握网络的状况。
      一般链路事件用于链路性能监控,其包含的类型如表5所示

表5 一般链路事件

  事件   描述
  错误信号事件(Errored Symbol Event) 以收到设定数量的信号为检测窗口,在窗口期内检测到的错误信号。
  错误帧事件(Errored Frame Event) 以设定的时间为检测窗口,在窗口期内检测到的错误帧数量如果达。
  错误帧周期事件(Errored Frame Period Event) 以收到设定数量的帧为检测窗口,在窗口期内检测到的错误帧数量如果达到或超过了检测阈值,就产生一次错误帧周期事件。
 错误帧秒事件(Errored Frame Seconds Event) 以设定的时间为检测窗口,在窗口期内检测到的错误帧秒(在某一秒内检测到至少一个错误帧,就称该秒为错误帧秒)数量如果达到或超过了检测阈值,就产生一次错误帧秒事件。

2.3.3 远端故障检测
       在以太网OAM连接已建立的情况下,两端的OAM实体会不断交互Information OAMPDU。当设备故障或不可用导致流量中断时,故障端OAM实体会通过Information OAMPDU中的Flag域将故障信息(即紧急链路事件类型)通知给对端OAM实体。这样,管理员可以通过观察日志信息动态地了解链路状态,对相应的错误及时进行处理。紧急链路事件的类型及其对应的Information OAMPDU 发送频率如表 6所示。
        紧急链路事件用于远端故障检测,其包含的类型以及对应的Information OAMPDU发送频率如表6 所示。

表6 紧急链路事件

  事件类型   描述    OAMPDU 发送频率
  链路故障(Link Fault)   远端链路信号丢失   每秒发送一次
  致命故障(Dying Gasp)   不可预知的状态发生,比如电源中断   不间断发送
  紧急事件(Critical Event)   不能确定的紧急事件发生   不间断发送

2.3.4 远端环回
      远端环回是指主动模式下的OAM 实体向对端(远端)发送除OAMPDU 以外的所有其它报文时,对端收到报文后不按其目的地址进行转发,而是将其按原路返回给本端。远端环回只有在以太网OAM 连接建立之后才能实现。
      远端环回功能可用于检测链路质量和定位链路故障。定期进行环回检测可以及时发现网络故障,并可通过分段环回检测来定位故障发生的具体区域。

3. CFD技术简介
3.1 ME
      ME(Maintenance Entity ,维护实体)代表需要管理的一个实体,它是两个维护实体组端点之间的一种关系.
3.2 MEG
      MEG(Maintenance Entity Group, 维护实体组) 中包括能满足以下条件的不同的ME:一个MEG的ME存在于同一个管理域的边界之内;同时一个MEG的ME具有同样的MEG等级;并且一个MEG的ME属于同一个点到点的ETH连接或者多点的ETH连通性。对于一个点到点的以太网连接,一个MEG仅包含单个ME。对于一个有n个端点的多点的以太网连通性,一个MEG包含n*(n–1)/2个ME。
      为了准确定位故障点,在MEG中引入了级别(层次)的概念。MEG 共分为八级,用整数0~7 来表示,数字越大级别越高,MEG 的范围也就越大。不同MEG之间可以相邻或嵌套,但不能交叉,且嵌套时只能由高级别MEG 向低级别MEG嵌套,即低级别MEG 必须包含在高级别ME 内部。低级别MEG 的CFD PDU 进入高级别MEG 后会被丢弃;高级别MEG 的CFD PDU 则可以穿越低级别MEG; 相同级别的MEG的CFD PDU 不可以互相穿越。
3.3 MEP
       MEG端点(MEP)标志一个以太网 MEG的端点,它能够发出和终止OAM帧,用于差错管理和性能监测。OAM帧不同于以太网中转信流。OAM帧被加入到会聚的以太网中转信流中,且可以设想它们将与被监测的ETH中转信流经受同样的转发处理。MEP不会在以太网中转信流中加入新的转发识别码。MEP也不终止以太网的中转信流,尽管它可以观察信流(例如对帧进行计数)。
       MEP所属的MEG确定了该MEP 发出的报文所属的VLAN;MEP 的级别等于其所属ME的级别,MEP 发出的报文的级别等于该MEP 的级别。MEP 的级别决定了其所能处理的报文的级别:当MEP 收到高于自己级别的报文时不会进行处理,而是将其按原有路径转发;而当MEP 收到小于等于自己级别的报文时才会进行处理。需要注意的是,本段是针对同一VLAN 内的报文处理方式进行描述,不同VLAN 内的报文之间是相互隔离的,不会相互影响。
       MEP 具有方向性,分为内向MEP 和外向MEP 两种:
  •内向MEP 通过除其所在的接口以外的所有接口向外发送CFD PDU,即在其所属MEG 所服务的VLAN 中进行广播。
  •外向MEP 则直接通过其所在的接口向外发送CFD PDU。
3.4 MIP
      MEG中间点(MIP)是MEG中的一个中间点,不能主动发出CFD PDU,但可以处理和响应CFD PDU。MIP 可以配合MEP 完成类似于ping 和tracert 的功能。当MIP 收到不等于自己级别的报文时不会进行处理,而是将其按原有路径转发;只有当MIP 收到等于自己级别的报文时才会进行处理。
3.5 CFD 协议报文
      CFD 的协议报文被称为CFD PDU。不同的CFD PDU 具有相同的报文头,通过头部的类型字段来区分报文类型。
图2 CFD PDU 报文格式示意图
 
      图2所示为CFD PDU的报文格式和常见的CFD PDU,CFD PDU 中重要字段的含义如表7所示。

表7 CFD PDU 重要字段含义

  字段   含义
  MEG Level   用于标识OAM PDU的MEG等级。数值范围从0到7。数值越大级别越高。
  Version   用于标识OAM协议的版本。为了支持Y.1731规范的OAM功能,其版本总是为0。
  OpCode   消息编码,不同取值表示不同类型的CFD PDU,常见的CFD PDU如表8所示。
  Flags    Flag域,在不同类型CFD PDU中表示不同的含义。
  TLV Offset   它包含OAM PDU中第一个TLV相对于TLV偏置值字段的偏置数量。这一字段的数值与OAM PDU的类型相联系。当TLV偏置值为0时,它指向TLV偏置值字段后的第一个字节。

表8 常见的CFD PDU 
  OpCode 值   报文类型   目标MAC 地址   用途
  0x01   CCM PDU   0180-C200-003x(1类组播地址,x取值如表9)   连续性检测
  0x02   LBR PDU   发起端单播地址   环回测试
  0x03   LBM PDU   目标端单播地址   环回测试
  0x04   LTR PDU   发起端单播地址   链路跟踪
  0x05   LTM PDU   0180-C200-003y(2类组播地址,y取值如表9)   链路跟踪
  0x33   AIS PDU   0180-C200-003x(1类组播地址,x取值如表9)   告警抑制
  0x35   LCK PDU   0180-C200-003x(1类组播地址,x取值如表9)   锁定信号功能
  0x37   TST PDU    目标端单播地址   测试信号
  0x42   LMR PDU   发起端单播地址   单向丢包测试
  0x43   LMM PDU    目标端单播地址   单向丢包测试
  0x45   1DM PDU   目标端单播地址   单向时延测试  
  0x46   DMR PDU   发起端单播地址   双向时延测试
  0x47   DMM PDU    目标端单播地址   双向时延测试
  0x52   CSF PDU   0180-C200-003x(1类组播地址,x取值如表9)   客户信号失效
表9 组播地址中x 和y 的取值
  MEG level    x 的取值    y 的取值
 7  7  F
 6  6  E
 5  5  D
 4  4  C
 3  3  B
 2  2  A
 1  1  9
 0  0  8
      CFD 的有效应用建立在合理的网络部署和配置之上。它的功能是在所配置的MEP 之间实现的,包括以下几种:
3.5.1 连续性检测功能
      MEP 之间的连通失败可能由设备故障或配置错误造成,连续性检测(Continuity Check,CC)功能就是用来检测MEP 之间的连通状态。该功能的实现方式是:由MEP 周期性地发送CCM PDU,相同MEG 的其它MEP 接收该报文,并由此获知远端状态。若MEP 在3.5 个CCM PDU 发送周期内未收到远端MEP 发来的CCM PDU,则认为链路有问题,会输出日志报告。当ME中的多个MEP 在发送CCM PDU 时,就实现了多点到多点之间的链路检测。
       CCM PDU中时间间隔域(Interval 域)的值、CCM PDU 的发送间隔和远端MEP的超时时间这三者之间的关系如表10所示。

表10 参数关系表

  CCM PDU 中时间间隔域的值   CCM PDU 的发送间隔   远端MEP 的超时时间
 1   10/3毫秒   35/3毫秒
 2   10毫秒   35毫秒
 3   100毫秒   350毫秒
 4   1秒   3.5秒
 5   10秒   35秒
 6   60秒   210秒
 7   600秒   2100 秒

3.5.2 环回测试功能
      环回测试(Loopback,LB)功能类似于IP 层的ping 功能,)用于检验一个MEP与一个MIP或对等的MEP间的连通性。该功能的实现方式是:由源MEP 发送LBM PDU 给目标MIP或者对等的MEP,并根据能否收到对端反馈的LBR PDU 来检验链路状态。
3.5.3 链路跟踪功能
      链路跟踪(Linktrace,LT)功能类似于IP 层的tracert 功能,用于确定源MEP 到目标MEP 的路径,其实现方式是:由源MEP 发送LTM PDU 给目标MEP ,目标MEP 及LTM PDU 所经过的MIP 收到该报文后,会发送LTR PDU 给源MEP,源MEP 则根据收到的LTR PDU 来确定到目标MEP 的路径。
3.5.4 告警抑制功能
      告警抑制功能是用来减少MEP 故障告警的数量。如果MEP 在3.5 个CCM PDU 发送周期内未收到远端MEP 发来的CCM PDU,便立刻开始周期性地发送AIS(Alarm Indication Signal,告警指示信号) PDU,该报文的发送方向与CCM PDU 相反。其它MEP 在收到AIS PDU 后,会抑制本端的故障告警,并继续发送AIS PDU 。此后,如果MEP 收到了CCM PDU,便停止发送AIS PDU 并恢复故障告警。
      在检测出故障情况时,MEP可以在与它对等MEP相反的方向上发送AIS帧。AIS帧传输的周期性基于AIS的传输周期。建议采用1 s的AIS传输周期。其第一个AIS帧必须总是在检测出故障情况后立即发送
3.5.5 锁定信号功能
      锁定信号功能(LCK PDU)用于通告服务器层(子层)MEP的管理性锁定以及随后的数据业务流中断,该业务流是送往期待接收这业务流的MEP的。它使得接收带有LCK PDU信息的帧的MEP能区分是故障情况,还是服务器层(子层)MEP的管理性锁定动作。
      在由管理所锁定时,MEP 在与它对等的MEP 相反的方向上发送LCK PDU。LCK PDU传输的周期性基于LCK PDU传输周期。LCK PDU传输周期与AIS PDU的传输周期相同。一旦接收到一个LCK PDU,MEP将对它进行检查,以确保其MEG等级对应于它配置的MEG等级。其周期字段指示可以期待的LCK PDU的周期性。一旦接收到LCK PDU,MEP应检测LCK PDU状态。在检测到LCK PDU状态之后,如果在LCK PDU传输周期3.5倍的时间间隔内不再收到LCK PDU帧,该MEP将清除LCK状态。
3.5.6 测试信号功能
      测试信号功能用来测试MEP 之间的报文比特错误。由源MEP 发送指定数量的TST PDU 给目标MEP(每个TST PDU 都携带不同的递增序号),该报文中携带有伪随机序列或全0 值。目标MEP 收到该报文后,根据其中指定的测试模式和测试比特内容进行计算和比较,从而确定报文是否有比特错误。测试的比特长度为32 位,有以下几种测试模式:
  • 全0比特不带校验和
  • 全0比特带校验和
  • 伪随机比特带校验和
  • 伪随机比特不带校验和
3.5.7 帧丢失测试功能
     帧丢失测试(Loss Measurement,LM)功能用来检测MEP 之间的单向丢包情况,其实现方式是:由源MEP 发送LMM(Loss Measurement Message ,丢包测试报文) PDU 给目标MEP, 目标MEP 收到该报文后,会发送LMR(Loss Measurement Reply ,丢包测试应答) PDU 给源MEP,源MEP 则根据两个连续的LMR PDU 来计算源MEP 和目标MEP 间的丢包数,即源MEP 从收到第二个LMR PDU 开始,根据本LMR PDU 和前一个LMR PDU 的统计计数来计算源MEP 和目标MEP 间的丢包数。
3.5.8 帧时延测试功能
      帧时延测试(Delay Measurement,DM)功能用来检测MEP 之间报文传输的时延情况,分为单向时延测试和双向时延测试两种:
      单向时延测试
      单向时延测试功能的实现方式是:源MEP 发送1DM(One-way Delay Measurement ,单向时延测试) PDU 给目标MEP ,该报文中携带有其发送时间。目标MEP 收到该报文后记录其接收时间,并结合其发送时间来计算并记录链路传输的时延和抖动(即时延变化值)。
      如图2所示,1DM PDU中的TxTimeStampf 字段填充源MEP的发送时间TxTimef,RxTimeStampf 字段填充目标MEP的接收时间RxTimef 。源MEP会以100 毫秒为间隔发送指定数量(缺省为5 个)的1DM PDU 。目标MEP收到该报文后,计算RxTimef 与TxTimef 的差值即为此次测试的时延。时延抖动则是本次测出的时延与已测出的最小时延的差值。单向时延测试要求测试设备之间已完成时钟同步,否则测试出的时延有较大误差,而只能进行时延抖动测试。
      双向时延测试
      双向时延是用于测量报文从本端发送到接收的一次往返过程中,报文在链路上的消耗时间。测试是从源MEP 向目的MEP 发送测试请求报文,然后在接收到目的MEP 的应答报文后,根据应答报文的接收时间和测试请求的发送时间的差值计算双向报文时延。
      如图2所示,DMM PDU 中的TxTimeStampf 字段填充源MEP 的发送时间TxTimef ,目标MEP 收到此报文后直接将其中的TxTimef 填充到DMR PDU中,并在DMR PDU中填充上DMM PDU的接收时间RxTimef 和DMR PDU的发送时间TxTimeb 。源MEP 在收到DMR PDU 后,需要获取到DMR PDU 的接收时间RxTimeb 。如果报文中填充了DMM PDU 的接收时间和DMR PDU 的发送时间,则可根据以下公式计算出报文往返消耗在链路上的双向时延:双向链路时延= (RxTimeb – TxTimef) – (TxTimeb – RxTimef) ;否则,只能计算出双向报文时延= RxTimeb – TxTimef 。
3.5.9 客户信号失效功能
      客户信号失效功能用于通知远端MEP,本端MEP出现入口客户信号失效。

4. OPWILL仪表OAM测试功能
       OPWILL公司的推出的数据测试仪表例如PTN测试仪以及多业务测试仪表例如ETS-300 IP RAN/PTN综合测试仪等仪表都支持IEEE802.3ah,IEEE802.1ag和ITU-T Y.1731等标准的OAM测试功能
图8 OPWILL仪表OAM功能测试功能选择页面
 
图9 OPWILL仪表EFM OAM功能测试功能
 
图10 OPWILL仪表CFD OAM功能测试功能
 
      OPWILL仪表的OAM功能可以用于PTN/UTN/IP RAN设备的故障检验和PTN/UTN/IP RAN承载网开通,维护。为4G网络的开通提供强而有力的保障。

5. 参考文献
  •IEEE 802.3ah:Carrier Sense Multiple Access with Collision Detection (CSMA/CD) Access Method and Physical Layer Specifications 
  •IEEE 802.1ag:Virtual Bridged Local Area Networks Amendment 5: Connectivity Fault Management 
  •ITU-T Y.1731:OAM functions and mechanisms for Ethernet based networks 
  •H3C 以太网OAM技术白皮书


版权所有 © 北京奥普维尔科技有限公司 保留一切权利  京公网安备110108003925号