H3CSecPathM9000系列多业务安全网关故障处理手册6W401新华三集团|网关模块会出现什么故障_汽车

非经本公司书面许可，任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部，并不得以任何形式传播。

除新华三技术有限公司的商标外，本手册中出现的其它公司的商标、产品标识及商品名称，由各自权利人拥有。

本文档中的信息可能变动，恕不另行通知。

(1)更换和维护设备部件时，请佩戴防静电手腕，以确保您和设备的安全。

(2)设备正常运行时，建议您在完成重要功能的配置后，及时保存当前配置，以便设备出现故障后能迅速恢复配置。

(3)M9000的故障，包括主控故障、引擎故障、接口板、网板故障。对主控板和接口板的故障，主要通过主控板上的Console口或者Telnet来进行搜集。对引擎故障，主要通过引擎上的Console口来搜集。

(4)设备出现故障时，请尽可能全面、详细地记录现场信息（包括但不限于以下内容），搜集信息越全面、越详细，越有利于故障的快速定位。

·记录完整的网络拓扑，包括组网图、端口连接关系、故障位置。

·记录现场采取的故障处理措施（比如配置操作、插拔线缆、手工重启设备）及实施后的现象效果。

·记录故障处理过程中配置的所有命令行显示信息。

·搜集设备日志信息和diag信息。

·记录抓取的报文信息、Debug开关打印信息、主控板与网板持续异常重启的串口输出信息。

·记录设备故障时单板、电源、风扇指示灯的状态，或给现场设备拍照记录。

·引擎故障时，需要单独记录引擎的故障信息。需要连接引擎的串口线搜集信息。

(5)故障处理过程中，请注意：

·明确每项配置操作的影响，保证操作出问题时能够被恢复，故障影响不会扩大。

·请不要保存故障处理过程中的配置，特别是出现IRF分裂、单板Fault、单板重启时，否则会引起配置丢失。

·更换主控板时，请确保新、老主控板的软件版本一致。

为方便故障快速定位，建议不要关闭设备的信息中心（info-centerenable），缺省情况下信息中心处于开启状态。

设备运行过程中会产生logfile日志信息及记录设备运行状态的diag信息。这些信息存储在Flash中，可以通过FTP或TFTP等方式导出。不同主控板中导出的logfile、diag文件请按照一定规则存放（如不同的文件夹：chassisXslotY），避免不同主控板的运行信息相互混淆，以方便查询。

表1设备运行信息介绍

分类

文件名

内容

logfile日志

logfileX.log

命令行记录、Trap信息、设备运行中产生的记录信息

diag信息

XXX.gz

设备状态、CPU状态、内存状态、配置情况、软件表项、硬件表项等

请先通过logfilesave将设备缓存的logfile日志保存到Flash中，并将日志搜集完整，包括：主用主控板、备用主控板、IRF下主框/备框各主备主控板的日志，如果设备创建Context还需要搜集每个Context对应的日志。

[H3C]logfilesave

Thecontentsinthelogfilebufferhavebeensavedtothefileflash:/logfile/logfile.log.

主用主控板logfile日志：

dirslot0#flash:/logfile/

Directoryofflash:/logfile

0-rw-5233116Apr27201309:20:44logfile1.log

1-rw-5142919May03201314:15:42logfile2.log

2-rw-5193287May09201312:28:08logfile3.log

1021808KBtotal(259072KBfree)

备用主控板logfile日志：

dirslot1#flash:/logfile/

Directoryofslot1#flash:/logfile

0-rw-5242287May13201316:47:46logfile4.log

1-rw-5143837May24201322:56:46logfile5.log

2-rw-5149806Jun01201313:43:26logfile6.log

1020068KBtotal(643264KBfree)

IRF下备框主控板logfile日志，如备框有两块主控板，则两块都需要搜集：

dirchassis2#slot0#flash:/logfile/

Directoryofchassis2#slot0#flash:/logfile

0-rw-5215316Jun03201305:49:20logfile7.log

1-rw-5235163Jun21201307:31:54logfile8.log

2-rw-3256492Jun26201309:01:08logfile9.log

1021808KBtotal(773424KBfree)

displaydiagnostic-information

Saveordisplaydiagnosticinformation(Y=save,N=display)[Y/N]:y

Pleaseinputthefilename(*.gz)[flash:/diag.gz]:

Thefilealreadyexists,overwirteit[Y/N]:y

Diagnosticinformationisoutputtingtoflash:/diag.gz.

Savesuccessfully.

dirflash:/

Directoryofflash:

6-rw-898180Jun26201309:23:51diag.gz

也可以将diag信息直接显示出来（不建议这样搜集），搜集前请先执行screen-lengthdisable，避免屏幕输出被打断，如下：

screen-lengthdisable

Screen-lengthconfigurationisdisabledforcurrentuser

displaydiagnostic-information

Saveordisplaydiagnosticinformation(Y=save,N=display)[Y/N]:n

==================================================================

===============displaycpu===============

Chassis2Slot0CPU0CPUusage:

4%inlast5seconds

0%inlast1minute

0%inlast5minutes

Chassis2Slot0CPU1CPUusage:

0%inlast5seconds

如遇到故障无法确认，请将故障描述连同搜集的信息发送给H3C技术支持人员分析。

图1故障处理流程图

故障分析时常用的方法有：

·端口报文计数。

·报文镜像。

·端口抓包。

·查看会话状态及统计信息。

·查看L2、L3转发表项及统计。

·查看Openflow表项下发是否正确。

·Debug开关信息。

图2网络故障模型

表2故障点影响分析

故障点

可能现象

影响范围

（1）、（3）（含光模块）

端口down

业务会切换

端口错包增加

影响该链路上的业务（影响范围大）

（2）

主控单板故障

引擎单板故障

如果链路和该引擎单板track，业务会切换

接口单板故障

业务可能会切换

（4）

堆叠链路单条断

不影响业务，但可能影响性能

堆叠链路2条链路全断

堆叠分裂

表3常见的故障恢复措施

故障原因

业务恢复动作

故障排除动作

硬件

·隔离故障单板；

·调整业务流向来隔离故障设备（如可以调整路由的优先级，避免流量经过故障设备，实现流量切换）

更换备件（备件上线应用前应进行必要的测试）

软件

·重启故障设备的协议；

·调整业务流向来隔离故障设备。

·升级版本（含补丁版本）；

·调整组网或配置消除引发故障因素。

链路

调整业务流向来隔离故障线路

检修线路

其他

·修改错误配置；

·正确连接设备端口；

·调整业务流向来隔离故障线路。

·检修机房的电源、空调等支撑系统

·单板状态异常（比如状态为Absent、Fault等）。

·单板出现异常重启、无法启动或不断重启等。

单板状态包括：Normal、Master、Standby、Absent和Fault。

Master与Standby分别表示主、备主控板。Normal表示单板处于正常运行状态。

displaydevice

SlotNo.BrdTypeBrdStatusSubslotSftVerPatchVer

0NSQM1CGQ4TG24SHA0Normal0M9016-V-9153P22None

1NONEAbsent0NONENone

2NSQM1CGQ4TG24SHA0Normal0M9016-V-9153P22None

3NONEAbsent0NONENone

4NSQM1SUPD0Master0M9016-V-9153P22None

5NSQM1SUPD0Standby0M9016-V-9153P22None

6NSQM1FWEFGA0Normal0M9016-V-9153P22None

CPU1Normal0M9016-V-9153P22

7NONEAbsent0NONENone

8NONEAbsent0NONENone

9NONEAbsent0NONENone

10NSQM1FAB08E0Normal0M9016-V-9153P22None

11NSQM1FAB08E0Normal0M9016-V-9153P22None

12NSQM1FAB08E0Normal0M9016-V-9153P22None

13NSQM1FAB08E0Normal0M9016-V-9153P22None

displayversion

H3CComwareSoftware,Version7.1.064,Release9153P22

H3CSecPathM9016-Vuptimeis0weeks,4days,0hours,7minutes

Lastrebootreason:Userreboot

Bootimage:flash:/M9000-CMW710-BOOT-R9153P22.bin

Bootimageversion:7.1.064,Release9153P22

CompiledDec10202014:00:00

Systemimage:flash:/M9000-CMW710-SYSTEM-R9153P22.bin

Systemimageversion:7.1.064,Release9153P22

Featureimage(s)list:

flash:/M9000-CMW710-DEVKIT-R9153P22.bin,version:7.1.064

LPU0:

Uptimeis0weeks,4days,0hours,3minutes

H3CSecPathM9016-VLPUwith1LS1043AProcessor

BOARDTYPE:NSQM1CGQ4TG24SHA0

DRAM:2048Mbytes

PCB1Version:VER.A

BootromVersion:108

CPLD1Version:002

CPLD2Version:001

ReleaseVersion:H3CSecPathM9016-V-9153P22

PatchVersion:None

RebootCause:UserReboot

LPU2:

MPU(M)4:

Uptimeis0weeks,4days,0hours,7minutes

H3CSecPathM9016-VMPU(M)with1XLP316Processor

BOARDTYPE:NSQM1SUPD0

DRAM:8192Mbytes

FLASH:500Mbytes

NVRAM:512Kbytes

BootromVersion:132

CPLD1Version:004

CPLD2Version:003

CPLD3Version:003

MPU(S)5:

Uptimeis0weeks,4days,0hours,6minutes

H3CSecPathM9016-VMPU(S)with1XLP316Processor

CPLD1Version:001

CPLD3Version:001

LPU6:

Uptimeis0weeks,1day,17hours,56minutes

H3CSecPathM9016-VLPUwith1XLP308Processor

BOARDTYPE:NSQM1FWEFGA0

FLASH:8Mbytes

PCB2Version:VER.B

BootromVersion:100

CPLD2Version:002

SLOT6CPU1

CPUtype:Multi-coreCPU

DDR4:49152Mbytes

FLASH:7122Mbytes

BoardPCBVersion:Ver.A

CPLDVersion:2.0

ReleaseVersion:SecBladeFWEnhanced-9153P22

FPGA0Version:B50506

FPGA0DATE:2020.11.27

FPGA1Version:B50506

FPGA1DATE:2020.11.27

BasicBootWareVersion:1.03

ExtendBootWareVersion:1.03

NPU10:

H3CSecPathM9016-VNPUwith1XLS208Processor

BOARDTYPE:NSQM1FAB08E0

DRAM:1024Mbytes

PCB1Version:VER.B

BootromVersion:518

CPLD1Version:005

NPU11:

Uptimeis0weeks,3days,23hours,46minutes

RebootCause:ColdReboot

NPU12:

Uptimeis0weeks,3days,23hours,44minutes

BootromVersion:511

NPU13:

(1)确认单板是否插稳，如检查单板与机框之间是否有空隙，也可以将单板拔出后重新插入。

(2)将单板放到别的槽位，将框上别的正常的单板放到这个槽位，进一步确认是不是单板或机框槽位故障。

(3)检查单板面板、内部的指示灯是否发光。

(4)如果单板是主控板、业务板、网板，请连上串口线，查看配置终端上是否有单板正常启动的显示信息、或单板启动是否异常。

(5)如确认为单板故障，请更换单板并将故障信息发送H3C技术支持人员分析。

(2)如果单板是主控板、引擎板、网板，请连上串口线，查看配置终端上是否有单板正常启动的显示信息、或单板异常启动信息。如下述主控板启动时出现内存读写测试失败而不断重启，需要检查主控板内存条是否插稳。

(3)将单板放到别的槽位，进一步确认是不是单板故障。

(4)如确认为单板故障，请更换单板并将故障信息发送H3C技术支持人员分析。

这里的单板重启是指单板出现过重启，而当前单板状态是Normal。

(2)如果所有单板同时出现重启，请检查设备电源模块是否正常，确认外部电源是否出现过停电，电源进线是否插稳、是否出现松动。

(3)确认日志中重启时有无出现“SlotXneedtoberebootedautomatically!”，“Note:theoperatingdeviceissda0,it'snotonline”提示信息，这种情况是不正常的。请更换单板并搜集故障信息并发送H3C技术支持人员分析。

(4)如无法确认，请搜集故障信息并发送H3C技术支持人员分析。

风扇框指示灯异常，设备打印风扇异常信息，如：

%Jun2610:12:24:8052013H3CDEV/3/FAN_ABSENT:-MDC=1;Chassis2Fan2isabsent.

%Jun2610:12:32:8052013H3CDEVD/2/DRV_DEV_FAN_CHANGE:-MDC=1;Chassis2:Fancommunicationstatechanged:Fan1changedtofault.

%Jun2610:12:42:4052013H3CDEV/2/FAN_FAILED:-MDC=1;Chassis2Fan1failed.

(1)风扇框在位时，用手放在设备出风口，判断是否有出风，如果出风口无风，则风扇异常。

(2)检查风扇的入风口、出风口是否被挡住或积累太多灰尘。

(3)检查风扇框是否正常在位，各个风扇的状态是否正常、转速是否相差达到50%以上。如存在异常，建议通过风扇框拔插、更换交叉进一步确认。

(4)如果故障不能恢复，需要更换该风扇框，但当前没有风扇框，请关闭设备以免发生温度高导致单板烧坏；如果有降温措施保证系统工作在50度以下，可以暂时继续使用设备。

displayfan

Chassis1:

FanFrame0State:Normal

Chassis2:

设备打印温度过低、过高等告警信息，如：

%Jun2610:13:46:2332013H3CDEV/4/TEMPERATURE_WARNING:-MDC=1;TemperatureisgreaterthanwarningupperlimitonChassis1slot2sensorinflow1.

(1)检查环境温度是否正常。如果环境温度较高，请确认原因，比如机房通风不畅、空调制冷故障等。

(2)检查设备当前的temperature温度是否超出上下的Warning、Alarm门限。也可以用手触摸单板，确认单板是不是很烫，如单板温度很高，请立即检查原因。持续处于较高的温度下，可能会导致单板损坏。

·如果温度值为error或出现明显不合实际的值，可能是通过I2C总线访问单板温度传感器异常（displayenvironment命令）。设备光模块信息访问也是通过I2C总线（displaytransceiver命令），请继续检查单板读取光模块信息是否正常。如光模块访问正常，请使用temperature-limit命令重新设置单板的温度告警门限值，并通过displayenvironment查看是否设置成功。

[H3C]temperature-limitchassis2slot1hotspot108590

displayenvironment

Systemtemperatureinformation(degreecentigrade):

----------------------------------------------------------------------

ChassisSlotSensorTemperatureLowerWarningAlarmShutdown

10inflow13504860NA

10hotspot14308095NA

11inflow13404860NA

11hotspot13808095NA

12hotspot149088100110

13hotspot14308097NA

13hotspot24108097NA

14hotspot14208097NA

14hotspot24008097NA

15hotspot14508097NA

15hotspot24108097NA

16hotspot153088100110

17hotspot155088100110

18hotspot167088100110

19hotspot161088100110

20inflow13408590NA

20hotspot14208590NA

21inflow13608590NA

21hotspot14108590NA

22hotspot156088100110

23hotspot14708097NA

23hotspot24408097NA

(3)如果仍然无法确认故障原因，请搜集信息并发送给H3C技术支持人员协助分析。

表4故障诊断命令

命令

说明

displaydevice

显示设备信息，检查各单板的状态是否正常

displayenvironment

显示设备的温度信息，检查环境温度是否正常（是否超出温度告警阈值）

displayfan

显示设备内置风扇的工作状态

displaypower

显示设备上的电源系统信息。详细信息包括下列信息：

·电源管理使能状态

·电源类型、额定输入电压和额定输出功率

·在位电源模块的状态

displayversion

save

将当前配置保存到指定文件

temperature-limit

设置设备的温度告警门限

使用displayinterface命令查询端口的入、出方向流量统计信息，发现错包统计计数不为0。

[H3C]displayinterfaceGigabitEthernet1/4/0/17

GigabitEthernet1/4/0/17

Currentstate:UP

Lineprotocolstate:UP

Description:GigabitEthernet1/4/0/17Interface

Bandwidth:1000000kbps

MaximumTransmitUnit:1500

Internetprotocolprocessing:disabled

IPPacketFrameType:PKTFMT_ETHNT_2,HardwareAddress:8042-0004-5611

IPv6PacketFrameType:PKTFMT_ETHNT_2,HardwareAddress:8042-0004-5611

Mediatypeistwistedpair

Porthardwaretypeis1000_BASE_T

Lastclearingofcounters:16:45:01Wed12/11/2013

Peakvalueofinput:0bytes/sec,at2013-12-1116:45:03

Peakvalueofoutput:12328675bytes/sec,at2013-12-1117:01:56

Last300secondsinput:0packets/sec0bytes/sec

Last300secondsoutput:85491packets/sec12069673bytes/sec

Input(total):2packets,128bytes

2unicasts,0broadcasts,0multicasts,0pauses

Input(normal):2packets,-bytes

Input:4inputerrors,1runts,1giants,0throttles

1CRC,1frame,-overruns,0aborts

-ignored,-parityerrors

Output(total):202277882packets,28751562624bytes

202277844unicasts,0broadcasts,0multicasts,0pauses

Output(normal):202277844packets,-bytes

Output:8outputerrors,-underruns,-bufferfailures

2aborts,2deferred,2collisions,2latecollisions

0lostcarrier,-nocarrier

·inputerrors：各种输入错误的总数。

·runts：表示接收到的超小帧个数。超小帧即接收到的报文小于64字节，且包括有效的CRC字段，报文格式正确。

·giants：是超过端口设置的MaximumFrameLength的报文个数。

·CRC：表示接收到的CRC校验错误报文个数。

·frame：端口接收时出错的报文。

·outputerrors：各种输出错误的总数。

·aborts：表示发送失败的报文总数。

·collisions：表示冲突帧总数，即在发送过程中发生冲突的报文。

(1)使用仪器测试链路，链路质量差或者线路光信号衰减过大会导致报文在传输过程中出错。如链路故障请更换网线或光纤。

(4)排查对端设备或者中间的传输设备。

(5)如故障无法确认，请将故障信息发送H3C技术支持人员分析。

(1)检查两端的jumbo配置是否一致，如jumbo是否使能，端口默认的最大报文长度是否一致，允许最大报文长度是否一致。

(2)如果仍然无法确认，请将故障信息发送技术支持人员分析。

(1)检查端口是否配置为半双工模式，如为半双工，请更改为全双工模式。

(2)如果仍然无法确认，请将故障信息发送H3C技术支持人员分析。

端口无法正常Up。

(1)测试端口之间网线、光纤链路是否正常，光纤两端的发送/接收端是否错连；更换端口之间的网线、光纤或将网线、光纤放到别的正常端口，以确认是否中间传输链路故障。

(2)检查本端、对端端口配置是否正确，如端口是否shutdown，速率、双工、协商模式、MDI是否正确。

[H3C]displaytransceiverinterfaceTen-GigabitEthernet1/5/0/1

Ten-GigabitEthernet1/5/0/1transceiverinformation:

TransceiverType:10G_BASE_LR_XFP

ConnectorType:LC

Wavelength(nm):1310

TransferDistance(km):10(SMF)

DigitalDiagnosticMonitoring:YES

VendorName:SumitomoElectric

如果确认光模块有问题，需要更换光模块。

(1)查看本设备及对端设备日志，确认有无端口shutdown操作。

(2)查看两端端口状态，确认是否为协议异常或在线诊断模块检测到异常将端口shutdown。当设备在线诊断模块检测到端口故障时，将端口shutdown隔离，以便流量切换到备份链路。请将故障信息发送H3C技术支持人员分析。

[H3C]displayinterfaceGigabitEthernet1/4/0/1

GigabitEthernet1/4/0/1

Currentstate:DOWN

Lineprotocolstate:DOWN

Description:GigabitEthernet1/4/0/1Interface

IPPacketFrameType:PKTFMT_ETHNT_2,HardwareAddress:8042-0004-5601

IPv6PacketFrameType:PKTFMT_ETHNT_2,HardwareAddress:8042-0004-5601

Mediatypeisnotsure,PorthardwaretypeisNoconnector

Peakvalueofoutput:0bytes/sec,at2013-12-1116:45:03

Last300secondsoutput:0packets/sec0bytes/sec

(4)如仍无法确认，请搜集本端、对端设备信息，并将信息发送H3C技术支持人员分析。

端口频繁Up/Down。

(2)对于电口，一般在自协商情况下容易出现协商不稳定，这种情况请尝试设置强制速率双工。

(3)如果故障依存在，请排查链路、对端设备、中间设备。

(4)如仍无法确认，请将故障信息发送H3C技术支持人员分析。

安装光模块的接口不能正常up，出现告警信息。

(1)检查光模块Alarm告警信息。告警信息中如果存在接收有问题那一般是对端端口、光纤或中转传输设备导致；如果是发送有问题或者电流、电压异常那就需要排查本端端口。

[H3C]displaytransceiveralarminterfaceTen-GigabitEthernet1/5/0/1

Ten-GigabitEthernet1/5/0/1transceivercurrentalarminformation:

None

表5光模块告警信息说明

字段

描述

SFP/SFP+

RXlossofsignal

接收信号丢失

RXpowerhigh

接收光功率高告警

RXpowerlow

接收光功率低告警

TXfault

发送错误

TXbiashigh

偏置电流高告警

TXbiaslow

偏置电流低告警

TXpowerhigh

发送光功率高告警

TXpowerlow

发送光功率低告警

Temphigh

温度高告警

Templow

温度低告警

Voltagehigh

电压高告警

Voltagelow

电压低告警

TransceiverinfoI/Oerror

模块信息读写错误

Transceiverinfochecksumerror

模块信息校验和错误

Transceivertypeandportconfigurationmismatch

模块类型和端口配置不匹配

Transceivertypenotsupportedbyporthardware

端口不支持该模块类型

XFP

RXnotready

接收状态未就绪

RXCDRlossoflock

RXCDR时钟失锁

TXnotready

发送状态未就绪

TXCDRlossoflock

TXCDR时钟失锁

Modulenotready

模块状态未就绪

APDsupplyfault

APD（AvalanchePhotoDiode，雪崩光电二极管）错误

TECfault

TEC（ThermoelectricCooler，热电冷却器）错误

Wavelengthunlocked

光信号波长失锁

模块信息校验错误

(2)对怀疑故障的光模块进行交叉验证，如更换端口、与正常的光模块互换，确认是光模块本身故障还是相邻设备或中间链路故障。

(3)如果确认是光模块本身故障，请通过displaytransceiverdiagnosis命令收集光模块当前的数字诊断信息（非H3C定制光模块可能无法查询到数字诊断信息），并发送给H3C技术支持人员分析。

[H3C]displaytransceiverdiagnosisinterfaceTen-GigabitEthernet1/5/0/2

Ten-GigabitEthernet1/5/0/2transceiverdiagnosticinformation:

Currentdiagnosticparameters:

Temp.(°C)Voltage(V)Bias(mA)RXpower(dBm)TXpower(dBm)

483.3339.100.13-1.35

Alarmthresholds:

High733.6375.002.508.16

Low-52.971.00-12.30-11.20

(4)建议尽量使用H3C定制光模块。可以使用displaytransceivermanuinfointerface命令来查看光模块制造厂家信息。

[H3C]displaytransceivermanuinfointerface

Ten-GigabitEthernet1/2/0/1transceivermanufactureinformation:

Thetransceiverdoesnotsupportthisfunction.

Ten-GigabitEthernet1/2/0/2transceivermanufactureinformation:

Ten-GigabitEthernet1/2/0/3transceivermanufactureinformation:

Thetransceiverisabsent.

Ten-GigabitEthernet1/2/0/4transceivermanufactureinformation:

Ten-GigabitEthernet1/2/0/5transceivermanufactureinformation:

Manu.SerialNumber:210231A0G1X122000082

ManufacturingDate:2012-02-28

VendorName:H3C

Ten-GigabitEthernet1/2/0/6transceivermanufactureinformation:

Manu.SerialNumber:210231A0G1X122000083

表6故障诊断命令

displaycurrent-configuration

显示设备当前生效的配置，指定interface可以显示指定接口当前生效的配置

displayinterface

查询端口的入、出方向流量统计信息、端口状态，可查看是否存在错包及错包统计信息

displaytransceiveralarm

显示可插拔接口模块的当前故障告警信息

displaytransceiverdiagnosis

显示可插拔光模块的数字诊断参数的当前测量值，包括温度、电压、偏置电流、接收光功率、发送光功率

displaytransceiverinterface

显示指定接口可插拔接口模块的主要特征参数，检查两端光模块类型是否一致，如速率、波长、单模多模状态等

displaytransceivermanuinfo

显示可插拔接口模块的电子标签信息，可用来查询光模块的定制厂商

报文转发丢包，ping不通或ping丢包，tracert异常。

ping10.0.0.5

PING10.0.0.5(10.0.0.5):56databytes,pressCTRL_Ctobreak

Requesttimeout

---10.0.0.5pingstatistics---

5packet(s)transmitted,0packet(s)received,100.0%packetloss

M9000设备，端口默认没有加入到任何安全域，要确认端口是否加入到安全域。

如果端口加入到安全域中，要确认是否配置了安全策略。系统默认情况下，相同安全域、不同安全域之间、安全域与local之间，转发默认是deny的。

报文转发异常通常会涉及多台设备，需要逐一排查。为方便排查，排查前建议先明确报文的转发走向，如经过哪些中间设备，在设备的哪些接口进入设备，又会从哪些接口出去。检查出入接口的报文统计。确认统计是否正确。

检查入方向报文统计计数，可以通过resetcounterinterface命令清除计数。

如果设备未收到Ping报文，请排查上游的相邻设备；如果设备发送的Ping报文计数正确，建议排查下游的相邻设备；如果Ping报文入出计数不正确，分下面几种情况进行分析：

·有入报文统计，没有出报文统计，进行如下排查：

(1)查看是否在链路层处理有丢包，执行displayethernetstatistics命令，如下：

displayethernetstatisticschassis1slot3

ETHreceivepacketstatistics:

Totalnum:0ETHIINum:0

SNAPNum:0RAWNum:0

LLCNum:0UnknownNum:0

ForwardNum:0ARP:0

MPLS:0ISIS:0

ISIS2:0IP:0

IPV6:0

ETHreceiveerrorstatistics:

NullPoint:0ErrIfindex:0

ErrIfcb:0IfShut:0

ErrAnalyse:0ErrSrcMAC:0

ErrHdrLen:0

ETHsendpacketstatistics:

L3OutNum:0VLANOutNum:0

FastOutNum:0L2OutNum:0

ETHsenderrorstatistics:

MbufRelayNum:0NullMbuf:0

ErrAdjFwd:0ErrPrepend:0

ErrHdrLen:0ErrPad:0

ErrQosTrs:0ErrVLANTrs:0

ErrEncap:0ErrTagVLAN:0

IfShut:0IfErr:0

(2)如果链路层处理没有丢包，执行displayipstatistics命令，查看IP层丢包原因：

displayipstatistics

Input:sum263207520local1772

badprotocol0badformat0

badchecksum0badoptions0

Output:forwarding24511617local476

dropped21949noroute156

compressfails0

Fragment:input0output0

dropped0

fragmented0couldn'tfragment0

Reassembling:sum0timeouts0

(3)打开debuggingaspfall、debuggingpacket-filterpacketip，来确定ASPF是否有丢包。

·无出、入报文统计

需要分析是否上游没有把报文发送过来。

处于不同网段的两台PC：PC1和PC2，PC1的地址为10.1.1.1，PC2的地址为220.1.1.2。中间穿越M9000设备互相ping包，M9000设备对PC1的地址静态NAT转换为220.1.1.1；发现PC1pingPC2不通，查看PC2可以收到PC1的ping报文，但是PC1收不到PC2的回应报文。

dissecurity-policyip

Security-policyip

rule0name0

actionpass

检查设备到某一目的IP网段的路由是否存在，如路由不存在，请检查路由协议配置、状态是否正确。

[H3C]displayiprouting-table10.1.1.0

检查设备到某一目的IP网段的FIB表项是否存在，如路由存在、FIB表项异常，请将故障信息发送H3C技术支持人员分析。

[H3C]displayfib10.1.1.0

查看10.1.1.1的arp表项是否存在：

[H3C]displayarp10.1.1.1

通过displaysession命令确认会话是否正常建立。

域间策略默认ASPF对所有的报文进行检测。但如果在域间策略中配置了aspfapplypolicy命令，那么只对策略中配置的detect协议进行ASPF检测，其他协议不进行检测。如果不配置detecticmp，那么如果没有配置反向域间策路，报文就被deny了。可以使用下面命令打开debug：

debuggingpacket-filterpacketipacl

INTEGER<2000-2999>SpecifyabasicACL

INTEGER<3000-3999>SpecifyanadvancedACL

来看是否有deny信息，如果有类似下面信息：

*Dec1216:49:07:1882013H3CFILTER/7/PACKET:-Slot=3.1;Thepacketisdeny.SrcZoneName=tom1,DstZoneName=tom;PacketInfo:Src-IP=220.1.1.2,Dst-IP=10.1.1.1,VPN-Instance=none,Src-Port=1024,Dst-Port=1025,Protocol=UDP(17),ACL=none.

说明没有正确配置ASPF策略，导致被反向域间策略deny了。

如果前面的检查均没有问题。需要查看流表是否有问题。

首先我们要看接口板的流表是否正常。对静态NAT，如下配置：

[H3C]natstaticoutbound10.1.1.1220.1.1.1

然后在接口上使能静态NAT，正常流表应显示如下：

(1)首先查看接口板流表下刷是否正确

[H3C-probe]displaysysteminternalopenflowinstanceinner-redirectflow-table

Instance4097FlowTableInformation:

Table200information:

Tabletype:Extensibility,flowentrycount:25,totalflowentrycount:25

Flowentryrule6information:

cookie:0x0,priority:7861,hardtime:0,idletime:0,flags:check_overlap

|reset_counts|no_pkt_counts|no_byte_counts,bytecount:--,packetcount:--

Matchinformation:

Inputinterface:RAGG11

Ethernettype:0x0800

IPRange:IPv4destinationaddressfrom220.1.1.1to220.1.1.1

Instructioninformation:

Writeactions:

Outputinterface:Blade2/10/0/1

Flowentryrule7information:

cookie:0x0,priority:7840,hardtime:0,idletime:0,flags:check_overlap

IPRange:IPv4sourceaddressfrom10.10.1.1to10.10.1.1

VRFindex:0

Flowentryrule8information:

cookie:0x0,priority:7841,hardtime:0,idletime:0,flags:check_overlap

IPRange:IPv4destinationaddressfrom10.10.1.1to10.10.1.1

上面3个表项，缺少一个都是会引起转发异常的。

(2)如果接口板的流表没有异常，再查看业务板流表下刷是否正确，执行如下命令：

[H3C-probe]displaysysteminternalopenflowinstanceinnerflow-table

Instance4096FlowTableInformation:

Tabletype:Extensibility,flowentrycount:27,totalflowentrycount:27

cookie:0x0,priority:7860,hardtime:0,idletime:0,flags:check_overlap

表7故障诊断命令

displayarp

显示ARP表项，检查设备ARP学习的接口是否正确

displaycurrent-configuration|includelsr-id

显示当前的MPLSLSRID

displaycurrent-configurationconfigurationmpls-ldp

显示当前生效的MPLSLDP配置信息，检查LDP的md5-password配置是否一致

displayfib

显示FIB信息，检查设备到某一目的IP网段的FIB表项是否存在

displayipinterfacebrief

显示三层接口的IP基本配置信息

displayiprouting-table

显示路由表中当前激活路由的摘要信息，检查设备到某一目的IP网段的路由是否存在

displaysession

显示会话信息

displaythis

显示当前视图下生效的配置

interface

进入接口视图

displaysysteminternalopenflowinstance

查看openflow表项

displaynatoutbound

查看natoutbound配置信息

IRF无法正常建立。

通常为配置错误引起，请检查以下配置是否正确。

ChassisSlotTypeStateSubslotSoftVerPatchVer

10NSQ1GT48EA0Normal0M9014-9106None

11NONEAbsent0NONENone

12NONEAbsent0NONENone

13NSQ1TGS8EA0Normal0M9014-9106None

14NSQ1FWCEA0Normal0M9014-9106None

15NONEAbsent0NONENone

16NSQ1SUPB0Master0M9014-9106None

17NONEAbsent0NONENone

18NONEAbsent0NONENone

19NONEAbsent0NONENone

110NONEAbsent0NONENone

111NONEAbsent0NONENone

112NSQ1QGS4SF0Normal0M9014-9106None

113NSQ1GP48EB0Normal0M9014-9106None

114NONEAbsent0NONENone

115NSQ1FAB12D0Normal0M9014-9106None

116NONEAbsent0NONENone

117NONEAbsent0NONENone

……

通过displayinterface查询IRF物理端口状态是否UP：

displayinterfaceGigabitEthernet1/0/0/10

GigabitEthernet1/0/0/10

Description:GigabitEthernet1/0/0/10Interface

IPPacketFrameType:PKTFMT_ETHNT_2,HardwareAddress:8042-0000-560a

IPv6PacketFrameType:PKTFMT_ETHNT_2,HardwareAddress:8042-0000-560a

Lastclearingofcounters:Never

Peakvalueofinput:0bytes/sec,at2013-12-1315:15:02

Peakvalueofoutput:0bytes/sec,at2013-12-1315:15:02

displayirfconfiguration

进入IRF端口视图，使用displaythis命令，确认IRF的两台设备的工作模式是否正常。

[H3C]irf-port1/2

[H3C-irf-port1/2]displaythis

irf-port1/2

portgroupinterfaceTen-GigabitEthernet1/3/0/1modeenhanced

IRF运行过程中出现分裂。

%Jun2610:13:46:2332013H3CSTM/2/STM_LINK_STATUS_TIMEOUT:IRFport1isdownbecauseheartbeattimedout.

%Jun2610:13:46:4362013H3CSTM/3/STM_LINK_STATUS_DOWN:-MDC=1;IRFport2isdown.

20NSQ1GT48EA0Normal0M9014-9153P22None

21NONEAbsent0NONENone

22NONEAbsent0NONENone

23NSQ1TGS8EA0Normal0M9014-9153P22None

24NSQ1FWCEA0Normal0M9014-9153P22None

25NONEAbsent0NONENone

26NSQ1SUPB0Master0M9014-9153P22None

27NSQ1SUPB0Standby0M9014-9153P22None

28NONEAbsent0NONENone

29NONEAbsent0NONENone

210NSQ1FWCEA0Normal0M9014-9153P22None

211NONEAbsent0NONENone

212NONEAbsent0NONENone

213LSU1GP24TXEB0Normal0M9014-9153P22None

214NONEAbsent0NONENone

215NSQ1FAB12D0Normal0M9014-9153P22None

216NSQ1FAB12D0Normal0M9014-9153P22None

217NSQ1FAB12D0Normal0M9014-9153P22None

displayinterfaceGigabitEthernet2/6/0/1

GigabitEthernet2/6/0/1currentstate:UP

Lineprotocolcurrentstate:UP

IPPacketFrameType:PKTFMT_ETHNT_2,HardwareAddress:0000-e80d-c000

Description:GigabitEthernet2/6/0/1Interface

Loopbackisnotset

Mediatypeisopticalfiber,Porthardwaretypeis1000_BASE_SX_SFP

disversion

H3CSecPathM9016-Vuptimeis0weeks,4days,0hours,16minutes

LPUChassis1Slot0:

Uptimeis0weeks,1day,18hours,32minutes

H3CSecPathM9014LPUwith1XLS408Processor

BOARDTYPE:NSQ1GT48EA0

FLASH:0Mbytes

NVRAM:0Kbytes

CPLD1Version:003

ReleaseVersion:H3CSecPathM9014-9153P22

RebootCause:DEVHandShakeReboot

表8故障诊断命令

显示设备信息，用于检查各成员设备的软件版本、主控板类型是否一致

displayirfconfiguration

显示所有成员设备的IRF配置信息，用于检查IRF端口连接是否异常，一台设备的IRF-Port1口只能与另一台设备的IRF-Port2口连接

显示当前视图下生效的配置，在系统视图下检查成员设备的如下配置是否一致：irfmodeenhanced配置

未加入冗余组的冗余口具有单独的冗余功能。冗余组只在接口UP/DOWN事件到来时进行激活切换。所有业务逻辑均基于冗余口实现，成员口只负责发送和接受报文。

问题集中在报文收发环节，存在冗余口直连无法ping通的情况。

(1)打开debuggingethernetpacket查看冗余口是否有报文上收与发送的调试信息。对冗余口1，采用如下命令：debuggingethernetpacketinterfaceReth1

(2)打开arperrordebug命令查看是否存在错误信息。采用如下debug命令：

debuggingarperror

如果有错误信息，说明ARP学习异常。

(3)打开iperror查看是否有错误信息。采用如下debug命令：

debuggingiperror

如果有错误信息，根据此信息来确定丢包的原因。

(4)查看displayethernertstatistics查看是否有错误计数随报文收发增长，命令如下：

displayethernetstatisticschassis1slot0

Totalnum:48668ETHIINum:48668

ForwardNum:48668ARP:0

L3OutNum:80843VLANOutNum:0

FastOutNum:215L2OutNum:0

ErrEncap:1045ErrTagVLAN:0

(1)需要确认是否建立了冗余表项。查看命令如下：

[H3C]displayeth-trunkinterfaceRETH-Trunk1

RETH-Trunk1:

Physicalstatus:UP

Linkstatus:UP

Numberofmembers:2

Eth-trunkgroup:100

MemberPhysicalstatusActivestatusHoldstatus

RAGG1UPActiveNormal

RAGG5UPInactiveNormal

displayrethinterfaceReth1

Reth1:

Redundancygroup:1

MemberPhysicalstatusForwardingstatusPresencestatus

XGE1/4/0/9UPActiveNormal

XGE2/4/0/9UPInactiveNormal

要分析Physicalstatus状态，如果都为down，说明系统异常。分析Forwardingstatus状态，如果都为Inactive状态，说明成员口异常。

(2)如果表项存在且成员状态正常，即部分报文能够上收，查看表项是否有错误。

(3)可以通过shutdown冗余口，尝试刷新表项，看表项是否能够重新建立。如果冗余口的成员口为子接口，还需要查看表项是否带tag。

(4)如果冗余口、arp表项正常，需要确认驱动有没有上发报文，可查看物理接口计数，看报文是否已经上收。

(1)报文的收发一般都是双向的过程，A-B两端报文需要互通，可以先确定是报文丢在哪一环，再针对某一环节进行定位。如A-B两端，可单pingA->B查看报文是否能通，再单pingB->A查看报文是否能通。若两端都能通，则证明报文收发没问题。某一端不能通，以B->A为例，先看B是否将报文发出，定位方式按照以上步骤来，再看A是否上收，定位方式也是如此。

图3组网图

(1)M9000-1和M9000-2这2台防火墙构成主备方式的IRF设备，冗余口Reth1为上行口，聚合口Route-Aggregation1和Route-Aggregation2为冗余口Reth1的成员，成员Route-Aggregation1的优先级高。

(2)冗余口Reth2为下行口，聚合口Route-Aggregation3和Route-Aggregation4为冗余口Reth2的成员，成员Route-Aggregation3的优先级高。

(3)冗余口Reth1和Reth2配有IP地址。冗余组1包含冗余口1和冗余口2。

interfaceReth1

ipaddress100.1.1.1255.255.255.0

memberinterfaceRoute-Aggregation1priority100

memberinterfaceRoute-Aggregation2priority1

interfaceReth2

memberinterfaceRoute-Aggregation3priority100

memberinterfaceRoute-Aggregation4priority1

track11interfaceRoute-Aggregation1

track12interfaceRoute-Aggregation2

track13interfaceRoute-Aggregation3

track14interfaceRoute-Aggregation4

redundancygroup1

memberinterfaceReth1

memberinterfaceReth2

memberfailovergroup1

memberfailovergroup2

node1

bindchassis1

priority100

track1interfaceBlade1/2/0/1

track3interfaceBlade1/3/0/1

node2

bindchassis2

priority50

track2interfaceBlade2/2/0/1

track4interfaceBlade2/3/0/1

通过冗余组进行IRF主备切换时，不能成功进行切换，出现异常。

(1)如遇group频繁进行激活成员切换的情况，有规律的定时的切换，就需要注意观察下是否频繁有track事件上报。对应查看下track接口的主备关系，于当前track所在node的主备关系是否一致。

(2)如果没有问题，还需要查看下track事件与接口状态是否相符。

(4)如果仍无问题，则查看下track状态与group中的Track状态是否一致。

查看track状态：

distrack5

TrackID:5

State:Positive

Duration:0days0hours0minutes6seconds

Trackedobjecttype:Interface

Notificationdelay:Positive0,Negative0(inseconds)

Trackedobject:

Interface:Route-Aggregation1

Protocol:None

查看冗余组中的track状态：

displayredundancygroup1

Redundancygroup1(ID1):

NodeIDChassisPriorityStatusTrackweight

1Chassis1100Primary255

2Chassis250Secondary255

Preemptdelaytimeremained:0min

Preemptdelaytimersetting:1min

Remaininghold-downtime:0sec

Hold-downtimersetting:1sec

Manualswitchoverrequest:No

Memberinterfaces:

Reth1

Reth2

Memberfailovergroups:

Node1:

Trackinfo:

TrackStatusReducedweightInterface

1Positive255Blade1/2/0/1

3Positive255Blade1/3/0/1

11Positive255RAGG1

13Positive255RAGG3

Node2:

2Positive255Blade2/2/0/1

4Positive255Blade2/3/0/1

12Positive255RAGG2

14Positive255RAGG4

如果不一致，说明track存在问题。

·每个冗余组节点都有权重，缺省值为255，每个冗余组节点必须关联至少一个Track项，每个Track项对应一个权重增量。当Track项变为NotReady或Negative状态时，冗余组节点用当前权重减去对应的权重增量获得新的当前权重。当Track项变为Positive时，冗余组节点用当前权重加上对应的权重增量获得新的当前权重。当前权重小于或等于0时，则认为该节点故障，无法正常工作，触发冗余组的倒换/倒回。

举例说明如下：

1Chassis1100Secondary0

2Chassis250Primary255

11Negative(Faulty)255RAGG11

表9故障诊断命令

displayredundancygroup

显示冗余组状态

displaytrack

显示track状态

displayrethinterfaceReth

显示冗余口状态信息

显示接口信息

图4组网图

PC1访问PC2，在M9000上对PC1的地址进行NAT转换，转换地址池为：4.4.4.25到4.4.4.30。M9000上有2块防火墙业务板。

nataddress-group0

address4.4.4.254.4.4.30

interfaceRoute-Aggregation1023

ipbindingvpn-instancevpn11

ipaddress192.168.1.25424

interfaceRoute-Aggregation1021

ipaddress4.4.4.254255.255.255.0

natoutboundaddress-group0

NAT不能正常转换或者NAT转换的报文不能正常转发。

[H3C]displaynatoutbound

NAToutboundinformation:

Thereare1NAToutboundrules.

Interface:Route-Aggregation1021

ACL:---Addressgroup:257Port-preserved:N

NO-PAT:NReversible:N

*Dec1309:58:48:0822013H3CNAT/7/COMMON:-Chassis=2-Slot=10.1;

PACKET:(Route-Aggregation1021-out)Protocol:TCP

192.168.1.2:13249-4.4.4.6:21(VPN:16)------>

4.4.5.11:11000-4.4.4.6:21(VPN:0)

*Dec1309:58:48:0832013H3CNAT/7/COMMON:-Chassis=2-Slot=10.1;

PACKET:(Route-Aggregation1021-in)Protocol:TCP

4.4.4.6:21-4.4.5.11:11000(VPN:0)------>

4.4.4.6:21-192.168.1.2:13249(VPN:16)

注：###可以看到正向的流量做了NAT转换，从vpn11的域转成了没有vpn的域。

displaysessiontableipv4verbose

Slot0inchassis1:

Totalsessionsfound:0

Slot3inchassis1:

CPU0onslot4inchassis1:

Slot6inchassis1:

Initiator:

SourceIP/port:192.168.1.2/13790

DestinationIP/port:4.4.4.6/21

DS-Litetunnelpeer:-

VPNinstance/VLANID/VLLID:vpn11/-/-

Protocol:TCP(6)

Responder:

SourceIP/port:4.4.4.6/21

DestinationIP/port:4.4.4.27/1060

VPNinstance/VLANID/VLLID:vpn12/-/-

State:TCP_ESTABLISHED

Application:FTP

Starttime:2013-12-1510:49:00TTL:3592s

Interface(in):Route-Aggregation1023

Interface(out):Route-Aggregation1021

Zone(in):Trust

Zone(out):menglei

Initiator->Responder:3packets128bytes

Responder->Initiator:2packets130bytes

对于动态NAT，NAT表项会下刷到每一块业务板上，起到分流作用。

cookie:0x0,priority:7301,hardtime:0,idletime:0,flags:check_overlap

Inputinterface:RAGG1021

IPRange:IPv4destinationaddressfrom4.4.4.25to4.4.4.27

Outputinterface:Blade2/4/0/1

IPRange:IPv4destinationaddressfrom4.4.4.28to4.4.4.30

图5组网图

PC1访问PC2，在M9000上对PC1的地址进行静态NAT444转换，转换公网地址池为：4.4.5.11到4.4.5.13。M9000上有2块防火墙业务板。

#配置NAT444地址池。

natport-block-group256

local-ip-address192.168.1.2192.168.1.11vpn-instancevpn11

global-ip-pool4.4.5.114.4.5.12

block-size1000

port-range1000019000

#配置入接口。

#配置出接口。

natoutboundport-block-group256

#配置vpn-instance到公网之间路由。

略。

NAT444不能正常转换、NAT444转换的报文不能正常转发、反向报文无法正常转发。

displaynatport-block-group256

Portblockgroup256:

Portrange:10000-19000

Blocksize:1000

LocalIPaddressinformation:

StartaddressEndaddressVPNinstance

192.168.1.2192.168.1.11vpn11

GlobalIPpoolinformation:

StartaddressEndaddress

4.4.5.114.4.5.12

这里，每一个私网需要的端口块的端口个数为：1000。

私网地址段192.168.1.2-192.168.1.11共有10个私网地址：共需要1个地址块。

端口范围设置为：10000-19999，因此每一个公网地址可以提供9个地址块。

因此，从上面的配置分析，10个私网地址需要2个公网地址，这里的设置满足需求。

Flowentryrule24information:

cookie:0x0,priority:7521,hardtime:0,idletime:0,flags:check_overlap

IPRange:IPv4destinationaddressfrom4.4.5.11to4.4.5.12

Flowentryrule25information:

cookie:0x0,priority:7500,hardtime:0,idletime:0,flags:check_overlap

IPRange:IPv4sourceaddressfrom192.168.1.2to192.168.1.11

VRFindex:16

[H3C]displayipvpn-instanceinstance-name

Flowentryrule26information:

cookie:0x0,priority:7501,hardtime:0,idletime:0,flags:check_overlap

IPRange:IPv4destinationaddressfrom192.168.1.2to192.168.1.11

分析：我们可以看到下发了三条openflow，对于静态nat444来说，所有的openflow都是下发到主板卡上去的。

可以通过displayblade-controller-teamdefault这条命令可以用来查看哪块是主板卡，如下：

displayblade-controller-teamDefault

ID:1Name:Default

ChassisSlotCPUStatusLBGroupID

231Normal1

*241Normal1

*:Primarybladecontrolleroftheteam.

下面分析一下三条openflow：

(1)IPRange:IPv4destinationaddressfrom4.4.5.11to4.4.5.11

这一条指明了从pc2回到pc1的流量（经过nat转换之后的地址）该上送到哪块板卡上。

(2)IPRange:IPv4sourceaddressfrom192.168.1.2to192.168.1.2

这一条指明了从PC1到PC2的流量该上送到哪块板卡上。

(3)IPRange:IPv4destinationaddressfrom192.168.1.2to192.168.1.2

大家对这条openflow可能会不理解，觉得这条openflow为什么要下发呢？其实此时如果要是有一个PC3（和pc1同网侧）想要访问PC1，那么PC3访问PC1的流量该上送到哪块板卡呢？由于第二条openflow的存在，PC1的流量肯定上送到主板卡，如果PC3访问PC1的流量没有上送到主板卡，而上送到别的板卡上去了，那么PC1此时就没法访问PC3了。

M9000作为出口网关设备割接之后，内网部分用户无法上网，外网用户无法访问内网服务器，但是从外网ping出接口的地址可以ping通。

如果NAT地址池的地址和接口地址不在同一网段，NAT地址池的地址无法响应。如果不在同一网段，要确保对端设置了NAT地址池的路由。

表10故障诊断命令

显示natoutbound设置信息

displaynatserver

显示natserver设置信息及状态

displayblade-controller-teamDefault

显示设备上那块业务板为主业务板

displayopenflowinstance

显示openflow下刷的表项

图6组网图

M9000-1和M9000-2两台防火墙设备之间建立IPsec隧道，对PC1和PC2之间访问的流量进行IPsec保护

配置描述：

·M9000-1上，ike的local-address为：9.9.9.9，remote-address为：9.9.9.19，安全acl规则为：

rule0permitipsource151.1.0.00.0.255.255destination152.2.0.00.0.255.255

·M9000-2上，ike的local-address为：9.9.9.19，remote-address为：9.9.9.9，安全acl规则为：

rule0permitipsource152.2.0.00.0.255.255destination151.1.0.00.0.255.255

ikesa和ipsecsa都可以建立，但是PC1和PC2互相ping，均不能ping通。

查看ikesa：

[h3c]disikesa

Connection-IDRemoteFlagDOI

------------------------------------------------------------------

19.9.9.9RDIPsec

Flags:

RD--READYRL--REPLACEDFD-FADINGRK-REKEY

查看ipsecsa：

[h3c]disipsecsa

-------------------------------

Interface:Ten-GigabitEthernet8/2/20

-----------------------------

IPsecpolicy:ipsec

Sequencenumber:1

Mode:ISAKMP

Flowtablestatus:Active

Tunnelid:0

Encapsulationmode:tunnel

PerfectForwardSecrecy:

InsideVPN:

ExtendedSequenceNumbersenable:N

TrafficFlowConfidentialityenable:N

PathMTU:1428

Tunnel:

localaddress:9.9.9.19

remoteaddress:9.9.9.9

Flow:

souraddr:152.2.0.0/255.255.0.0port:0protocol:ip

destaddr:151.1.0.0/255.255.0.0port:0protocol:ip

[InboundESPSAs]

SPI:42602698(0x028a10ca)

ConnectionID:4294967296

Transformset:ESP-ENCRYPT-AES-CBC-128ESP-AUTH-SHA1

SAidletime:86400

SAduration(kilobytes/sec):1843200/3600

SAremainingduration(kilobytes/sec):1843199/3154

Maxreceivedsequence-number:4

Anti-replaycheckenable:Y

Anti-replaywindowsize:64

UDPencapsulationusedforNATtraversal:N

Status:Active

[OutboundESPSAs]

SPI:3182510800(0xbdb142d0)

ConnectionID:4294967297

Maxsentsequence-number:4

[h3c-probe]displaysysteminternalopenflowinstanceinner-redirectflow-tab

Instance4097flowtableinformation:

Flowentry41information:

cookie:0x0,priority:8102,hardtime:0,idletime:0,flags:check_overlap

IPprotocol:50

IPv4sourceaddress:9.9.9.19,mask:255.255.255.255

IPv4destinationaddress:9.9.9.9,mask:255.255.255.255

Group:4026531873

Flowentry42information:

cookie:0x0,priority:8300,hardtime:0,idletime:0,flags:check_overlap

IPv4sourceaddress:151.1.0.0,mask:255.255.0.0

IPv4destinationaddress:152.2.0.0,mask:255.255.0.0

IPsecopenflow是在一阶段、二阶段后协商成功后才会下发，会下发两条规则，所下的规则如下：

(1)对于解密方向，只能看到隧道头中的地址，所以要用隧道的源地址和目的地址来下引流规则：

接口索引+隧道源地址+隧道目的地址。

(2)对于加密方向，由于是明文，可以知道流的源地址和目的地址，所以用ACL流信息来下引流规则。

如果IPSecSA正常建立，但是IPSecopenflow没有正常下发，就会出现ping不通的现象。

[h3c-probe]displaysysteminternalopenflowinstanceinnerflow-table

Instance4096flowtableinformation:

Flowentry21information:

Flowentry22information:

图7组网图

M9000设备M9000-1和M9000-2组成主备堆叠设备，M9000-1为Master。防火墙FW和堆叠设备建立IPsec隧道，保护PC1和PC2之间的交互流量。

IPsec加密流量主要走IRF主设备M9000-1，但当M9000-1出故障down掉后，发现PC1和PC2不能再ping通。

displaysysteminternalopenflowinstanceinner-redirectflow-tab

displaysysteminternalopenflowinstanceinnerflow-table

如果出现如下信息：

可以看出，IPsecSA虽然没有建立起来，但是，IPsecopenflow表项仍存在。说明存在openflow表项存在异常。信息中，Group:4026531873表明SA的出端口仍为已经down掉的M9000-1上的端口，说明openflow表项没有随着主设备的down掉而删除，导致无法建立正常的SA。

(2)对主备切换，如果处理IPsec业务的业务板或者堆叠主机down掉，IPsecSA会重新建立。需要确认当前存在的IPsecSA是否是重新建立的。

(3)如果SA已经成功建立，并且openflow表项正确下了。可以尝试resetipsecsa、resetikesa命令，尝试重新建立IPsecSA。

表11故障诊断命令

displayikesa

显示ikesa的信息

displayipsecsa

显示ipsecsa的信息

显示openflow表项信息

resetikesa

清除ikesa

resetipsecsa

清除ipsecsa

客户端可以ping通sslvpn网关，但是无法打开sslvpn页面。

(1)首先查看SSL策略视图下是否未引用PKI域，通过以下命令查看，ssl策略下需要引用PKI域

[H3C]sslserver-policyXXX

[H3C-ssl-server-policy-XXX]disthis

sslserver-policyXXX

pki-domainssl

return

如果pki-domainssl命令不存在，需要添加。

(2)查看是否在该PKI域下导入了CA证书，LOCAL证书。并且保证LOCAL证书是CA服务器颁发给服务器的证书，而不是客户端证书，通过以下命令查看

displaypkicertificatedomainXXXXca

displaypkicertificatedomainXXXXlocal

(3)可能是在SSLgateway的serviceenable之后，再进行了导入证书的操作，只要导入了证书或者SSL策略进行了配置变化，就必须在sslgatewayXXX里面进行undoserviceenable，然后再serviceenable一下便可，证书和配置才能生效

表12故障诊断命令

sslserver-policypolicy-name

创建SSL服务器端策略，并进入SSL服务器端策略视图

pki-domaindomain-name

配置SSL服务器端策略所使用的PKI域

displaypkicertificatedomaindomain-name{ca|local}

显示证书内容

sslvpngatewaygateway-name

创建SSLVPN网关，并进入SSLVPN网关视图

serviceenable

开启当前的SSLVPN网关

图8组网图

三台物理服务器ServerA、ServerB和ServerC均可提供FTP服务，且这三台服务器的硬件配置顺次降低。通过配置负载均衡，在考虑硬件性能的前提下让这三台服务器联合提供FTP服务，并通过健康检测来监控这些服务器是否可达。

(1)配置实服务组

#创建ICMP类型的NQA模板t1。

nqatemplateicmpt1

#创建实服务组sf，配置其调度算法为加权轮转算法，并指定其健康检测方法为t1。

server-farmsf

probet1

(2)配置实服务器

#创建实服务器rs1，配置其IPv4地址为192.168.1.1、权值为150，并加入实服务组sf。

real-serverrs1

ipaddress192.168.1.1

weight150

#创建实服务器rs2，配置其IPv4地址为192.168.1.2、权值为120，并加入实服务组sf。

real-serverrs2

ipaddress192.168.1.2

weight120

#创建实服务器rs3，配置其IPv4地址为192.168.1.3、权值为80，并加入实服务组sf。

real-serverrs3

ipaddress192.168.1.3

weight80

(3)配置虚服务器

#创建TCP类型的虚服务器vs，配置其VSIP为61.159.4.100，指定其默认实服务组为sf，并开启此虚服务。

virtual-servervstypetcp

virtualipaddress61.159.4.100

defaultserver-farmsf

虚服务vs和实服务rs1、rs2、rs3都处于active状态，但是host访问虚服务地址不能成功。

如果虚服务没有统计，则客户端到LB设备不可达，确保客户端和LB设备可达后再查看是否正常；如果虚服务有统计且有丢包统计，开启LB的debug或者在客户端抓包分析。

查看虚服务vs统计：

[LB]displayvirtual-serverstatisticsnamevs

Slot1:

Virtualserver:vs

Totalconnections:10

Activeconnections:3

Maxconnections:3

Connectionspersecond:0

Maxconnectionspersecond:1

Clientinput:3210bytes

Clientoutput:14074bytes

Throughput:0bytes/s

Maxthroughput:7554bytes/s

Receivedpackets:1365

Sentpackets:2796

Droppedpackets:0

如果实服务器有丢包统计，开启LB的debug或者在响应服务器端抓包分析，以确定相应实服务器和LB设备之间的链路是否可达，相应实服务器的服务或者服务端口是否开启。

查看实服务统计：

[LB]displayreal-serverstatisticsnamers1

Realserver:rs1

Totalconnections:5

Activeconnections:1

Maxconnections:1

Serverinput:307462bytes

Serveroutput:27460bytes

Maxthroughput:316457bytes/s

Receivedpackets:319

Sentpackets:236

Receivedrequests:0

Droppedrequests:0

Sentresponses:0

Droppedresponses:0

[LB]displayreal-serverstatisticsnamers2

Realserver:rs2

Totalconnections:2

Serverinput:870147bytes

Serveroutput:45163bytes

Maxthroughput:580348bytes/s

Receivedpackets:748

Sentpackets:511

[LB]displayreal-serverstatisticsnamers3

Realserver:rs3

Receivedpackets:178

Sentpackets:311

CPU高，内存高，哪些负载均衡的功能会造成哪些影响。

displayvirtual-serverstatistics

显示虚服务器的统计信息

displayreal-serverstatistics

显示实服务器的统计信息

debugginglball

开启LB的所有调试信息

debugginglberror

开启LB的错误调试信息

debugginglbevent

开启LB的事件调试信息

debugginglbfsm

开启LB的状态机调试信息

debugginglbpacket

开启LB的报文调试信息

发现负载均衡分担不均匀时，如何排查并进行优化。

(1)可以查看各个实服务的统计信息是否均匀。如果想让各个服务器均匀的分担一般用轮转的调度算法，将客户端请求均匀分担到多个实服务。

(2)LB插卡是多核CPU系统，每个核单独按照自己的表项进行轮转，所以全局来看，有可能出现每个实服务分到的连接数不均衡的问题。请考虑修改调度算法为最小连接或者随机等观察一下。

(3)源地址HASH算法流量不均匀，请确认源地址个数是否足够。

(4)通过配置负载均衡策略，进行更精细的分类，将请求进行分类送给哪些服务器，尽量满足用户实际需求:对于特殊业务，服务器的状态，需要依据实际环境进行调整。

配置

displayreal-serverstatistics[namereal-server-name]

displayvirtual-serverstatistics[namevirtual-server-name]

清除实服务器的统计信息

resetreal-serverstatistics[real-server-name]

清除虚服务器的统计信息

resetvirtual-serverstatistics[virtual-server-name]

图9组网图

局域网内PC通过防火墙访问Internet，防火墙上开启IPS业务，保护内外网用户免遭受攻击。

域间策略中开启ips检测。

app-profile3_5_54752_IPv4

ipsapplypolicydefaultmodeprotect

object-policyipTrust-Untrust

rule54752inspect3_5_54752_IPv4

zone-pairsecuritysourceTrustdestinationUntrust

object-policyapplyipTrust-Untrust

内网用户发起的正常业务流量访问不成功，设备上报ips攻击日志。

(1)首先查看设备上报的IPS攻击日志，源目的IP端口是否为客户端、服务器的IP端口，如果是则记录IPS日志中对应的AttackID。

(2)创建IPS策略，将报攻击的IPS特征关闭或者将动作设置为permit加log，并在域间策略中引用。

(3)抓取客户端访问业务的报文并反馈给研发进行分析，确认是否为误报，如果为误报则修改对应特征，如果非误报则对用户进行解释并在配置中对该条特征进行放行。

ipspolicypolicy-name

缺省情况下，存在一个缺省IPS策略，名称为default，且不能被修改和删除

signatureoverride{pre-defined|user-defined}signature-id{{disable|enable}[{block-source|drop|permit|redirect|reset}|capture|logging]*}

缺省情况下，预定义IPS特征使用系统预定义的状态和动作，自定义IPS特征的动作和状态在管理员导入的特征库文件中定义。

缺省IPS策略中的IPS特征的动作属性和生效状态属性不能被修改

设备CPU占用率持续在60%以上，下发命令时设备反应很慢。

displaycpu-usage

Chassis1Slot0CPU0CPUusage:

1%inlast5seconds

2%inlast1minute

2%inlast5minutes

Chassis1Slot4CPU0CPUusage:

4%inlast1minute

4%inlast5minutes

Chassis1Slot7CPU0CPUusage:

84%inlast5seconds

27%inlast1minute

27%inlast5minutes

Chassis1Slot8CPU0CPUusage:

3%inlast5seconds

6%inlast1minute

6%inlast5minutes

Chassis1Slot9CPU0CPUusage:

Chassis2Slot4CPU0CPUusage:

Chassis2Slot6CPU0CPUusage:

Chassis2Slot7CPU0CPUusage:

Chassis2Slot8CPU0CPUusage:

15%inlast5seconds

Chassis2Slot9CPU0CPUusage:

这里，是在IRF环境下，查询的CPU利用率信息。Chassis1和Chassis2别表示堆叠的框1和框2。该命令显示的是每个框上每个槽位的CPU利用率。

displaycpu-usagehistory

100%|

95%|

90%|

85%|

80%|

75%|

70%|

65%|

60%|

55%|

50%|

45%|

40%|

35%|

30%|

25%|

20%|

15%|

10%|

5%|#

------------------------------------------------------------

102030405060(minutes)

cpu-usage(CPU0)last60minutes(SYSTEM)

CPU占用率高的原因通常有：

·路由振荡。

·配置过多的路由策略。

·报文攻击。

·链路环路。

·报文没有走快转。

·接口没有加入安全域或者没有安全策略，大量报文在设备上丢弃。

·是否打开了debugging命令。

通过displayroute-policy命令可以查看设备配置的路由策略，请检查配置的路由策略是否过多，导致CPU处理的负担增加。

displayroute-policy

Route-policy:policy1

permit:1

if-matchcost10

continue:nextnode11

applycomm-listadelete

链路成环时，网络振荡，大量的协议报文上送CPU处理也可能导致CPU占用率升高。存在环路时流量成环，可能会出现广播，设备很多端口的流量会变得很大，端口使用率达到90％以上：

displayinterfaceTen-GigabitEthernet6/0/11

Ten-GigabitEthernet6/0/11

Description:Ten-GigabitEthernet6/0/11Interface

Bandwidth:10000000kbps

Maximumtransmissionunit:1500

Allowjumboframestopass

Broadcastmax-ratio:100%

Multicastmax-ratio:100%

Unicastmax-ratio:100%

Internetprotocolprocessing:Disabled

IPpacketframetype:EthernetII,hardwareaddress:1234-660e-0012

IPv6packetframetype:EthernetII,hardwareaddress:1234-660e-0012

Mediatypeisopticalfiber,Porthardwaretypeis10G_BASE_SR_SFP

Outputqueue-Urgentqueuing:Size/Length/Discards0/1024/0

Outputqueue-Protocolqueuing:Size/Length/Discards0/500/0

Outputqueue-FIFOqueuing:Size/Length/Discards0/75/0

10Gbps-speedmode,Full-duplexmode

Linkspeedtypeisautonegotiation,linkduplextypeisautonegotiation

Flow-controlisnotenabled

TheMaximumFrameLengthis9216

Lastlinkflapping:1hours31minutes7seconds

Lastclearingofcounters:09:48:08Mon12/28/2020

Currentsystemtime:2020-12-2811:06:14Beijing+08:00:00

Lasttimewhenphysicalstatechangedtoup:2020-12-2809:35:07Beijing+08:00:00

Lasttimewhenphysicalstatechangedtodown:2020-12-2809:34:55Beijing+08:00:00

Peakinputrate:29bytes/sec,at2020-12-2809:54:00

Peakoutputrate:373bytes/sec,at2020-12-2810:40:17

Last300secondinput:0packets/sec24bytes/sec0%

Last300secondoutput:2packets/sec212bytes/sec0%

Input(total):785packets,116898bytes

5unicasts,0broadcasts,780multicasts,0pauses

Input(normal):785packets,-bytes

Input:0inputerrors,0runts,0giants,0throttles

0CRC,0frame,-overruns,0aborts

Output(total):10296packets,1119042bytes

772unicasts,0broadcasts,9524multicasts,0pauses

Output(normal):10296packets,-bytes

Output:0outputerrors,-underruns,-bufferfailures

0aborts,0deferred,0collisions,0latecollisions

如链路出现环路：

·排查链路连接、端口配置是否正确。

·设备对接的交换机是否使能STP协议，配置是否正确。

·设备路由是否设置正确，是否存在路由环路。

可以通过displayipfast-forwardingcache命令来确定报文是否走快转，如果cache表项中不存在某条流，说明报文没有走快转。

displayipfast-forwardingcache

Totalnumberoffast-forwardingentries:10

SIPSPortDIPDPortProInput_IfOutput_IfFlg

192.168.96.39162192.168.210.201158617M-GE1/0/0/0InLoop01

192.168.96.18162192.168.210.201158517M-GE1/0/0/0InLoop01

192.168.96.16162192.168.210.201158417M-GE1/0/0/0InLoop01

12.1.1.1378412.1.1.24921617N/AInLoop01

192.168.210.2011585192.168.96.1816217InLoop0M-GE1/0/0/01

192.168.210.2011584192.168.96.1616217InLoop0M-GE1/0/0/01

192.168.210.2011586192.168.96.3916217InLoop0M-GE1/0/0/01

12.1.1.24921612.1.1.1378417InLoop0N/A1

192.168.96.4050356192.168.210.20236M-GE1/0/0/0InLoop01

192.168.210.2023192.168.96.40503566InLoop0M-GE1/0/0/01

可以根据某一个地址进行确认以该地址为源或目的IP报文是否走快转，命令如下：

displayipfast-forwardingcache12.1.1.1

Totalnumberoffast-forwardingentries:2

12.1.1.1378412.1.1.24921617RAGG5.3101InLoop01

多次查看单板内存占用率，发现内存占用率持续偏高，始终处于70％以上（未使用的内存占用率低于30%）。Total表示总的内存，Used表示当前使用的内存，FreeRatio表示未使用的内存占用率。

displaymemorychassis1slot2

MemorystatisticsaremeasuredinKB:

Chassis1Slot2:

TotalUsedFreeSharedBuffersCachedFreeRatio

Mem:984640313232671408002656868.2%

-/+Buffers/Cache:286664697976

Swap:000

Chassis1Slot2CPU1:

Mem:14834944334237611492568060012450077.5%

-/+Buffers/Cache:321727611617668

这类问题通常为软件问题引起，如内存泄露，也可能是由于会话数目、路由数目过多导致。请按照下面步骤进一步搜集信息发送给H3C技术支持人员分析。

通过displayprocessmemory命令多次查询单板各进程的内存使用信息。Dynamic类型的内存为设备动态申请的，在内存出现泄露时会变得很大，通过前后比较观察可以确认哪个进程的内存占用持续增加。如果持续增加，说明该进程可能发生了泄露，请记录下进程的JID。下面以查询JID为78的diagd进程为例说明。

displayprocessmemorychassis2slot2

JIDTextDataStackDynamicName

11686042464scmd

20000[kthreadd]

30000[ksoftirqd/0]

78112936812320diagd

7976104088mdcagentd

801168860816fsd

8114099216212dbmd

8372496820syslogd

84168419801644drvdiagd

85172171121612devd

9411288641212edev

再进一步确认JID为78的diagd进程的哪种字节大小的内存块发生泄露。如下命令所示，Size表示内存块的字节大小，Total表示总的申请个数，Used表示使用数目，Free表示未使用的数目，FreeRatio表示未使用的内存块百分比。通过多次查询并比较查询值可以看出哪个Size的内存块Used个数持续增加。查询完毕后，请将搜集到的信息发送H3C给技术支持人员分析。

displayprocessmemoryheapjob78verbose

Heapusage:

SizeFreeUsedTotalFreeRatio

1603853850.0%

24249513.9%

32013130.0%

400770.0%

6404114110.0%

720440.0%

80101100.0%

96101100.0%

1040880.0%

1360880.0%

1520990.0%

1840110.0%

3680880.0%

30800110.0%

8200101100.0%

29376101100.0%

LargeMemoryUsage:

UsedBlocks:24

UsedMemory(inbytes):2031616

FreeBlocks:0

FreeMemory(inbytes):0

Summary:

Totalvirtualmemoryheapspace(inbytes):2113536

Totalphysicalmemoryheapspace(inbytes):454656

Totalallocatedmemory(inbytes):2075736

表13故障诊断命令

displaycpu-usage

显示CPU利用率的统计信息，用于查询CPU占用率高的任务

displaycpu-usagehistory

以图形方式显示CPU利用率统计历史信息

显示指定接口的信息，检查接口的流量是否正常

displaymemory

显示单板内存占用率

displayprocessmemory

显示单板各进程的内存使用信息，通过多次查询，发现可能存在内存泄露的进程

displayprocessmemoryheap

显示Dynamic类型内存的详细信息，确认哪种字节大小的内存块发生了泄露

displayroute-policy

显示设备配置的路由策略，检查配置的路由策略是否过多，导致CPU处理的负担增加

13.1对象策略加速使得CPU升高

升级策略加速优化版本，支持对象策略延迟加速功能，即等连续几条对象策略配置下发完成后再进行一次加速，可以避免当前刷配置导致cpu高的现象。

延迟加速功能版本支持情况：

D032SP版本支持情况：D032SP26及后续版本；

D045SP版本支持情况：D045SP07及后续版本。

13.2安全策略自动加速

流量下，安全策略不支持加速的时候走满匹配，多策略配置会消耗cpu。

升级安全策略加速功能版本，并支持安全策略自动加速功能，即新建和更改策略项配置时2秒后（策略不大于100条时）进行策略加速，或20秒后（策略总数大于100条）进行策略加速。

安全策略加速功能版本支持情况：

D032SP版本支持情况：都支持；

D045SP版本支持情况：都支持。

图10组网图

两台Device上下行分别接入二层交换机，Device的上下行接口工作在三层模式。

两台Device之间建立一条RBM通道。

两台Device上下行分别配置两个VRRP备份组，并与RBM关联，具体如下：

DeviceA上下行业务接口的VRRP备份组1和3加入Activegroup；DeviceA上下行业务接口的VRRP备份组2和4加入Standbygroup。

DeviceB上下行业务接口的VRRP备份组1和3加入Standbygroup；DeviceB上下行业务接口的VRRP备份组2和4加入Activegroup。

两台Device上需要将去往Internet路由的下一跳指定为Router连接Device的接口IP地址（此示例中为2.1.1.15）。

Router上需要将去往HostA路由的下一跳指定为VRRP备份组1的虚拟IP地址（此示例中为2.1.1.3）。

Router上需要将去往HostB路由的下一跳指定为VRRP备份组2的虚拟IP地址（此示例中为2.1.1.4）。

HostA上需要设置默认网关IP地址为VRRP备份组3的虚拟IP地址（此示例中为10.1.1.3）。

HostB上需要设置默认网关IP地址为VRRP备份组4的虚拟IP地址（此示例中为10.1.1.4）。

SwitchA需要将连接Device和Router的接口加入相同的VLAN。

SwitchB需要将连接Device和Host的接口加入相同的VLAN。

观察发现，两台防火墙的VRRP状态都为Backup。

(1)检查RBM控制通道连接是否正常，使用命令行displayremote-backup-groupstatus

RBM_P[M9012_1]disremote-backup-groupstatus

Remotebackupgroupinformation:

Backupmode:Dual-active

Devicemanagementrole:Primary

Devicerunningstatus:Active

Datachannelinterface:Route-Aggregation1023

LocalIP:30.24.0.1

RemoteIP:30.24.0.2Destinationport:60164

Controlchannelstatus:Connected

Keepaliveinterval:1s

Keepalivecount:10

Configurationconsistencycheckinterval:1hour

Configurationconsistencycheckresult:Consistent(2020-12-1710:55:15)

Configurationbackupstatus:Autosyncenabled

Sessionbackupstatus:Hotbackupenabled

Delay-time:1min

Controlchannelstatus如果显示为Connected则表示正常。如果显示未disconnected，则表示状态断连，需要检查RBM控制通道使用的接口的物料状态。

(2)检查业务板是否为选中状态，使用命令行displaylink-aggregationverboseBlade-Aggregation

RBM_P[M9012_1]dislink-aggregationverboseBlade-Aggregation

LoadsharingType:Shar--Loadsharing,NonS--Non-Loadsharing

PortStatus:S--Selected,U--Unselected,I--Individual

Port:A--Autoport

Flags:A--LACP_Activity,B--LACP_Timeout,C--Aggregation,

D--Synchronization,E--Collecting,F--Distributing,

G--Defaulted,H--Expired

AggregateInterface:Blade-Aggregation1

AggregationMode:Static

LoadsharingType:Shar

PortStatusPriorityOper-Key

--------------------------------------------------------------------------------

Blade4/0/1S327684

Blade7/0/1S327684

AggregateInterface:Blade-Aggregation257

Blade4/0/2S327685

Blade7/0/2S327685

Blade引擎口状态为S则表示正常。如果所有引擎口状态都为U，或者无引擎口显示，请排查业务引擎版状态。

(3)如果上述都没有发现问题，但是两台防火墙的VRRP状态都为BackUP，请联系技术支持人员。

图11组网图

外网设备通过防火墙访问sever，防火墙上开启攻击防范业务，保护内网server免受攻击。

配置攻击防范策略，对fin的泛洪进行检测

attack-defensepolicy1

fin-flooddetectnon-specific

fin-floodactionloggingdropclient-verify

在入方向安全域下应用攻击防范策略

security-zonenameUntrust

attack-defenseapplypolicy1

外网用户向server发起fin的泛洪攻击，防火墙设备没有报日志，流量也没有转发出去。

(1)首先排查配置问题，攻击防范策略是否配置在入方向的安全域上，对于fin的攻击是否进行配置。

(2)使用命令行displayattack-defensemalformed-packetstatistics排查是否是畸形报文丢包了。（fin是畸形报文的一种）

(3)检查流量进来的目的地址是否唯一，对于唯一的目的地址的阈值是否达到阈值门限

(4)如果上述都没有发现问题，请联系技术支持人员。

displayattack-defensepolicy{name}

显示攻击防范配置

displayattack-defensestatisticssecurity-zone{zone}

显示攻击防范丢包统计

displayblacklist{ip|ipv6}

显示黑名单统计

图12组网图

PC访问Internet的流量由PC---Switch---Internet进行转发，T9012-S旁挂在交换机上并接收镜像流量做IPS处理，这种组网为最常见的旁挂部署方式。

配置交换机镜像组和镜像源目的接口；

配置IDS设备inline黑洞模式的Bridge实例并添加接口；

配置安全域并添加接口；

安全策略中引用IPS策略；

displaysessiontableipv4verbose

查看设备是否存在会话，以及会话是否正常，主要从会话状态，应用，以及是否是单向流判断。

SourceIP/port:8:7:6:5:4:3:2:2/6158

DestinationIP/port:1:2:3:4:5:6:7:7/110

VPNinstance/VLANID/InlineID:-/-/-

Inboundinterface:Ten-GigabitEthernet2/2/0/10

Sourcesecurityzone:Untrust

SourceIP/port:1:2:3:4:5:6:7:7/110

DestinationIP/port:8:7:6:5:4:3:2:2/6158

Inboundinterface:Ten-GigabitEthernet2/2/0/9

Sourcesecurityzone:Trust

State:TCP_ESTABLISHED//如果状态有问题，三次握手不全，无法检测，无法产生ips日志

Application:POP3//如果应用不识别，无法产生ips日志

RuleID:0

Rulename:v6

Starttime:2018-12-2718:49:14TTL:1199s

Initiator->Responder:5packets406bytes

Responder->Initiator:4packets303bytes

//如果是单向流，特征不完全，检测失败，无法产生ips日志

displaycountersrateinboundinterface

判断相应接口是否有流量被镜像过来，如果没有，需检查交换机镜像配置。

displaysysteminternalippacket-dropstatistics

displaysysteminternalaspfstatisticszone-pairipv4

有些环境因为配置等问题，报文还未走到DPI模块就被丢弃了，自然无法产生IPS日志。

这种情况多数为交换机镜像过来的正反向报文没有从同一个物理口或逻辑口进入设备，需要注意黑洞模式的接口对配置。

会话正常的情况下，查看license和特征库版本，displaysecurity-policyip，查看安全策略配置，确认内容安全是否引用了ips策略，以及安全策略的命中情况，以确保流量是命中了开启内容安全的那条安全策略。

displayinspectstatus

查看是否处于bypass状态，当处于bypass状态时，设备不做dpi检测。

disinspectstatus

Chassis1Slot0:

Runningstatus:normal

displaysysteminternalinspecthit-statistics

确认报文是否经过DPI检测，如下所示，设备进行了DPI检测，但是报文仅仅命中部分AC，没有完整命中特征，所以不会产生日志。Rulehits下不为0时，表示有报文命中了规则。

RuleIDModuleRulehitsAChitsPCREtryPCREhits

1855IPS0100

FW设备上行或下行接口故障，但是流量仍然上送到本设备，RBM未进行切换。

分别登陆两台设备查看RBM详细配置，RBM默认会检测本框中业务板的个数，但是接口类故障需要手工配置track检测。

配置主：

track1interfaceRoute-Aggregation1

track2interfaceRoute-Aggregation11

RBM_P[M9016_1-remote-backup-group]displaythis

remote-backupgroup

backup-modedual-active

data-channelinterfaceRoute-Aggregation1000

delay-time1

adjust-costbgpenableabsolute10000

adjust-costospfenableabsolute10000

adjust-costospfv3enableabsolute10000

track1

track2

local-ip192.168.195.9

remote-ip192.168.195.10

device-roleprimary

配置备：

RBM_S[M9016_2-remote-backup-group]displaythis

local-ip192.168.195.10

remote-ip192.168.195.9

device-rolesecondary

RBM检测track的状态(通过displaytrackall命令查询)，当track的结果为positive时，RBM认为本机状态正常；当track结果为negative时，RBM模块认为本机异常触发RBM切换，进而调整相应的路由开销，引导流量全部走到另外一台FW设备。

初始开局时，确保两台FW的RBM中绑定track，并增加路由开销联动。RBM中的配置不会同步，每台FW需分别手动添加。

RBM_P[M9016_1]%Dec1714:25:43:1912020M9016_1RBM/6/RBM_CFG_COMPARE_START:Startedconfigurationconsistencycheck.

%Dec1714:25:44:7752020M9016_1RBM/6/RBM_CFG_COMPARE_RESULT:Thefollowingmoduleshaveinconsistentconfiguration:acl.

%Dec1714:25:44:7752020M9016_1RBM/6/RBM_CFG_COMPARE_FINISH:Finishedconfigurationconsistencycheck.

首先根据告警提示信息检查对应模块不一致的地方，例如系统检测到acl模块存在差异，建议比对当前两台FW的acl配置，存在2种情况：

配置备上存在acl3000，配置主上没有，

1)若确认acl3000需要保留，直接在配置主上增加acl3000，系统自动进行配置同步，然后保存2台设备的配置

2)若确认acl3000无需保留，在配置主上执行configurationmanual-sync命令，系统自动进行配置同步，配置备acl3000自动删除，然后保存2台设备的配置

配置主上存在acl3000,配置备上没有

1)若确认acl3000需要保留，在配置主上执行configurationmanual-sync命令，系统自动进行配置同步，然后保存2台设备的配置

2)若确认acl3000无需保留，在配置主上删除acl3000，并执行configurationmanual-sync命令，系统自动进行配置同步，然后保存2台设备的配置

PC1访问PC2。在M9000上，通过IPv4到IPv6源地址静态转换策略，为目的IPv4地址指定一个对应的IPv6地址23::1。PC1访问该IPv6地址便可以访问PC2。

对于PC1，通过IPv6到IPv4的源地址动态转换策略，将IPv6发送过来的IPV6报文源地址转换为IPv4地址30.30.40.100。

aclipv6number2000

rule0permitsource1:1::1/128

aftaddress-group0

address30.30.40.10030.30.40.100

aftv6tov4sourceaclipv6number2000address-group0

aftv4tov6source1.1.1.123::1

interfaceRoute-Aggregation10.900

aftenable

interfaceRoute-Aggregation10.901

AFT不能正常转换或者AFT转换的报文不能正常转发。

Displayaftconfiguration查看设备上AFT的配置。在M9000上，流量入接口和出接口都需要开启aft功能（aftenable）。

[H3C]disaftconfiguration

AFTALG:

DNS:Enabled

FTP:Enabled

HTTP:Enabled

ICMP-ERROR:Enabled

RTSP:Enabled

SIP:Enabled

debuggingaftpacketip

Dec1615:08:22:6972020H3CAFT/7/COMMON:-Slot=6.1;

PACKET:(Route-Aggregation10.900)Protocol:UDP

1.1.1.1/69-30.30.40.100/1128(VPN:0)------>

23::1/69–1:1::1/35017(VPN:0)

或

debuggingaftpacketipv6

Dec1615:09:13:6962020H3CAFT/7/COMMON:-Slot=6.1;

PACKET:(Route-Aggregation10.901)Protocol:UDP

1:1::1/6677-23::1/5060(VPN:0)------>

30.30.40.100/1149-1.1.1.1/5060(VPN:0)

注：如果以上信息，表示IPv4和IPv6已经进行了AFT转换。

[H3C-probe]dissysteminternalopenflowinstanceinner-redirectflow-table

Flowentry3305information:

cookie:0x0,priority:5045,hardtime:0,idletime:0,flags:check_overlap

Inputinterface:RAGG10

VLANID:900,mask:0xfff

IPRange:IPv4destinationaddressfrom30.30.40.100to30.30.40.100

Group:4026531857

Flowentry3306information:

VLANID:4094,mask:0xfff

Flowentry3307information:

cookie:0x0,priority:5080,hardtime:0,idletime:0,flags:check_overlap

IPv4sourceaddress:1.1.1.1,mask:255.255.255.255

Group:4026531865

Flowentry3308information:

cookie:0x0,priority:5085,hardtime:0,idletime:0,flags:check_overlap

IPv4destinationaddress:1.1.1.1,mask:255.255.255.255

Flowentry3309information:

cookie:0x0,priority:7085,hardtime:0,idletime:0,flags:check_overlap

IPv6destinationaddress:23::1

IPv6destinationaddressmask:FFFF:FFFF:FFFF:FFFF:FFFF:FFFF:FFFF:FFFF

Flowentry3310information:

图13组网图

单板出现异常重启或者下电

查看diagfile.log日志

morediagfile/diagfile.log

查看设备diagfile.log日志，如果有单板间的hg口故障日志，表明单板间的内联口出现故障，而裁决单板重启，若单板重启后，内联口恢复正常，将日志发给技术支持人员进行分析。

%@12527^Dec1916:10:56:9062020M9kDRV/3/HG_MONITOR_PORT_ERROR:-Chassis=1-Slot=10;Chassis1Slot10Unit0Port3toChassis1Slot3Unit0Port1:Thesourceportwentdown.

%@12528^Dec1916:10:56:6402020M9kDRV/3/HG_MONITOR_PORT_ERROR:-Chassis=1-Slot=13;Chassis1Slot13Unit0Port3toChassis1Slot3Unit0Port8:Thesourceportwentdown.

%@12529^Dec1916:10:57:3762020M9kDRV/3/HG_MONITOR_PORT_ERROR:-Chassis=1-Slot=11;Chassis1Slot11Unit0Port3toChassis1Slot3Unit0Port3:Thesourceportwentdown.

%@12530^Dec1916:10:56:7402020M9kDRV/3/HG_MONITOR_PORT_ERROR:-Chassis=1-Slot=12;Chassis1Slot12Unit0Port3toChassis1Slot3Unit0Port6:Thesourceportwentdown.

%@12554^Dec1916:11:11:9592020M9kDRV/3/FAULT_MONITOR_BITMAP:

FaultPhySlotList:3

FaultReasonBitMap:

slot:01234567891011121314151617

-----------------------------------------------------

Fabric1:555255555555555555

Fabric2:555255555555555555

Fabric3:555255555555555555

Fabric4:555255555555555555

IOboard:555555555555555555

FaultReason:0-RFCS,1-RERPKT,2-DOWN,3-UNRESP,4-1bit,5-NORMAL

%@12555^Dec1916:11:11:9602020M9kDRV/3/FAULT_MONITOR_REBOOT:Chassis1Slot3:Thecardwillberestartedduetoahardwarefailure.

查看logfile.log日志

morelogfile/logfile.log

查看设备logfile.log日志，如果有单板间的hg口故障日志，表明单板间的内联口出现故障，而裁决单板重启，若单板重启后，内联口恢复正常，将日志发给技术支持人员进行分析。

%@4387931%Dec1916:10:56:9062020M9kDRV/3/HG_MONITOR_PORT_ERROR:-Chassis=1-Slot=10;Chassis1Slot10Unit0Port3toChassis1Slot3Unit0Port1:Theconnectivityoftheinternalportfailed.

%@4387932%Dec1916:10:56:6402020M9kDRV/3/HG_MONITOR_PORT_ERROR:-Chassis=1-Slot=13;Chassis1Slot13Unit0Port3toChassis1Slot3Unit0Port8:Theconnectivityoftheinternalportfailed.

%@4387933%Dec1916:10:57:3762020M9kDRV/3/HG_MONITOR_PORT_ERROR:-Chassis=1-Slot=11;Chassis1Slot11Unit0Port3toChassis1Slot3Unit0Port3:Theconnectivityoftheinternalportfailed.

%@4387934%Dec1916:10:56:7402020M9kDRV/3/HG_MONITOR_PORT_ERROR:-Chassis=1-Slot=12;Chassis1Slot12Unit0Port3toChassis1Slot3Unit0Port6:Theconnectivityoftheinternalportfailed.

%@4387947%Dec1916:11:11:9602020M9kDRV/3/FAULT_MONITOR_REBOOT:Chassis1Slot3:Thecardwillberestartedduetoahardwarefailure.

%@4387948%Dec1916:11:12:1512020M9kDEV/2/BOARD_STATE_FAULT:BoardstatechangedtoFaultonchassis1slot3,typeisNSQM1FWEFGA0.

查看设备diagfile.log日志，如果半小时内出现3次单板间的hg口故障而导致到重启，最后出现“Thecardwillbeisolatedduetoahardwarefailure”日志时，表明单板间的内联口出现故障并且无法通过重启恢复，而裁决单板下电隔离，此时可查看日志将hg口故障涉及到单板进行更换，并将日志发给技术支持人员进行分析。

%@12574^Dec1917:15:53:0912020M9kDRV/3/HG_MONITOR_PORT_ERROR:-Chassis=1-Slot=10;Chassis1Slot10Unit0Port3toChassis1Slot3Unit0Port1:Thesourceportwentdown.

%@12584^Dec1917:23:57:0022020M9kDRV/3/HG_MONITOR_PORT_ERROR:-Chassis=1-Slot=10;Chassis1Slot10Unit0Port3toChassis1Slot3Unit0Port1:Thesourceportwentdown.

%@12605^Dec1917:32:34:0012020M9kDRV/3/HG_MONITOR_PORT_ERROR:-Chassis=1-Slot=10;Chassis1Slot10Unit0Port3toChassis1Slot3Unit0Port1:Thesourceportwentdown.

%@12615^Dec1917:32:54:9962020M9kDRV/3/FAULT_MONITOR_BITMAP:

FaultPhySlotList:10

Fabric2:555555555555555555

Fabric3:555555555555555555

Fabric4:555555555555555555

%@12616^Dec1917:32:54:9962020M9kDRV/3/FAULT_MONITOR_ISOLATE:Chassis1Slot10:Thecardwillbeisolatedduetoahardwarefailure.

查看设备logfile.log日志，如果半小时内出现3次单板间的hg口故障而导致到重启，最后出现“Thecardwillbeisolatedduetoahardwarefailure”日志时，表明单板间的内联口出现故障并且无法通过重启恢复，而裁决单板下电隔离，此时可查看日志将hg口故障涉及到单板进行更换，并将日志发给技术支持人员进行分析。

%@4388208%Dec1917:15:40:3452020M9kDRV/3/HG_MONITOR_PORT_ERROR:-Chassis=1-Slot=10;Chassis1Slot10Unit0Port3toChassis1Slot3Unit0Port1:Theconnectivityoftheinternalportfailed.

%@4388291%Dec1917:23:57:0022020M9kDRV/3/HG_MONITOR_PORT_ERROR:-Chassis=1-Slot=10;Chassis1Slot10Unit0Port3toChassis1Slot3Unit0Port1:Theconnectivityoftheinternalportfailed.

%@4388385%Dec1917:32:34:0012020M9kDRV/3/HG_MONITOR_PORT_ERROR:-Chassis=1-Slot=10;Chassis1Slot10Unit0Port3toChassis1Slot3Unit0Port1:Theconnectivityoftheinternalportfailed.

%@4388389%Dec1917:32:54:9962020M9kDRV/3/FAULT_MONITOR_ISOLATE:Chassis1Slot10:Thecardwillbeisolatedduetoahardwarefailure.

(1)如果是主备倒换导致电子标签丢失，因为主备倒换需要重启设备，可以通过locallogbuf（locallogbuffer是驱动记录的底层信息）日志查看异常情况。

[B-probe]locallogbuffer10display查看到异常打印信息

举例说明，日志异常打印：

Sep08202016:54:36:488937:

LINE:152-TASK:ofpd-FUNC:BSP_E2PROM_Read_OnSelec:

getI2CMutexSem1fail.

Sep08202016:54:36:596761:

LINE:2077-TASK:TEMP-FUNC:drv_sysm_get_power_size_75X:

Sep08202016:54:37:489907:

LINE:5780-TASK:ofpd-FUNC:DRV_SYSM_SysGetManufactureInfo:

Infunction:BSP_E2PROM_Read_OnSelec,Readmanualinfoerror

Sep08202016:54:37:489967:

LINE:6089-TASK:ofpd-FUNC:DRV_SYSM_ManuInfoResolve:

ReadmanufactureinformationFail!

Sep08202016:54:37:490005:

LINE:12303-TASK:ofpd-FUNC:DRV_DEVM_GetManuInfo:

getchassismanuinfofailed!

在电子标签读取失败的情况下，查询上述日志信息后，请将搜集到的信息发送给H3C技术支持人员分析。

#显示设备的电子标签信息。（分布式设备－独立运行模式）（集中式IRF设备）

displaydevicemanuinfo

Slot1CPU0:

DEVICE_NAME:XXXX

DEVICE_SERIAL_NUMBER:XXXXXXXXXXXXXXXXXXXX

MAC_ADDRESS:XXXX-XXXX-XXXX

MANUFACTURING_DATE:XXXX-XX-XX

VENDOR_NAME:H3C

PRODUCTID:XX-XXXX-XX

Subslot1:

Fan1:

DEVICE_SERIAL_NUMBER:XXXXXXXXXX

Fan2:

Power1:

表14表1-9displaydevicemanuinfo命令信息显示描述表

表示设备的电子标签信息，包括：

·DEVICE_NAME：表示设备的名称

·DEVICE_SERIAL_NUMBER：表示设备的序列号

·MAC_ADDRESS：表示设备出厂MAC地址

·MANUFACTURING_DATE：表示设备的调测日期

·VENDOR_NAME：表示设备制造商的名称

·PRODUCTID：表示产品代码

表示子卡的电子标签信息

表示风扇的电子标签信息

表示电源的电子标签信息

高端防火墙设备M9000系列可以通过任一视图下displaydevice、disversion和probe视图下displaysysteminternalversion查看状态正常的设备的版本情况。

设备的主控版本、业务版本都应该取自相同的版本路径。否则会导致主控、业务板卡版本不一致，使得业务板卡fault状态（比如主控取45SP分支版本，业务板取32SP分支版本，业务板会fault启动不了）

如果主控、业务板卡取的分支不同导致板卡fault，启动不了，会有两种情况。一种是板卡一直fault，板卡一直在重启状态；一种是板卡fault卡住不动。针对上述情况，bootlooder和web升级版本解决问题不在适用，只能通过bootware（Ctrl+B）方式升级版本解决板卡fault问题。板卡fault卡住不动需要插拔板卡让板卡重启，手动连续按Ctrl+B，使得板卡进入bootware升级界面，通过bootware方式升级版本解决板卡fault问题。

THE END

H3CSecPathM9000系列多业务安全网关故障处理手册6W401新华三集团

大众网关故障码怎么消？故障码

车身控制模块故障会有哪些表现？

POS机始终显示无线模块连接问题分析及解决策略

备战金九银十，腾讯T4梳理2020年最全999道Java岗必备面试题答案

网络通讯方式范文

网关控制模块坏了会怎样

产业人才子弟学校（高林校区）（施工）

SLA4个9，贝壳高可用架构的质量保障体系腾讯云开发者社区

ESPWiFiManager使用指南：提高WiFi连接效率和稳定性

H3CSecPathM9000系列多业务安全网关故障处理手册6W401新华三集团

AWS常见问题汇总

智能配电房智能网关(配电房智能网关模块装置是什么/有什么作用)

电子科学与技术实验报告(八篇)

网络安全风险应急预案范文

汽车网关通常位于哪个位置？汽车频道

一种网关设备故障处理方法及装置与流程