非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。
除新华三技术有限公司的商标外,本手册中出现的其它公司的商标、产品标识及商品名称,由各自权利人拥有。
本文档中的信息可能变动,恕不另行通知。
目录
(1)更换和维护设备部件时,请佩戴防静电手腕,以确保您和设备的安全。
(2)设备正常运行时,建议您在完成重要功能的配置后,及时保存当前配置,以便设备出现故障后能迅速恢复配置。
(3)M9000的故障,包括主控故障、引擎故障、接口板、网板故障。对主控板和接口板的故障,主要通过主控板上的Console口或者Telnet来进行搜集。对引擎故障,主要通过引擎上的Console口来搜集。
(4)设备出现故障时,请尽可能全面、详细地记录现场信息(包括但不限于以下内容),搜集信息越全面、越详细,越有利于故障的快速定位。
·记录完整的网络拓扑,包括组网图、端口连接关系、故障位置。
·记录现场采取的故障处理措施(比如配置操作、插拔线缆、手工重启设备)及实施后的现象效果。
·记录故障处理过程中配置的所有命令行显示信息。
·搜集设备日志信息和diag信息。
·记录抓取的报文信息、Debug开关打印信息、主控板与网板持续异常重启的串口输出信息。
·记录设备故障时单板、电源、风扇指示灯的状态,或给现场设备拍照记录。
·引擎故障时,需要单独记录引擎的故障信息。需要连接引擎的串口线搜集信息。
(5)故障处理过程中,请注意:
·明确每项配置操作的影响,保证操作出问题时能够被恢复,故障影响不会扩大。
·请不要保存故障处理过程中的配置,特别是出现IRF分裂、单板Fault、单板重启时,否则会引起配置丢失。
·更换主控板时,请确保新、老主控板的软件版本一致。
为方便故障快速定位,建议不要关闭设备的信息中心(info-centerenable),缺省情况下信息中心处于开启状态。
设备运行过程中会产生logfile日志信息及记录设备运行状态的diag信息。这些信息存储在Flash中,可以通过FTP或TFTP等方式导出。不同主控板中导出的logfile、diag文件请按照一定规则存放(如不同的文件夹:chassisXslotY),避免不同主控板的运行信息相互混淆,以方便查询。
表1设备运行信息介绍
分类
文件名
内容
logfile日志
logfileX.log
命令行记录、Trap信息、设备运行中产生的记录信息
diag信息
XXX.gz
设备状态、CPU状态、内存状态、配置情况、软件表项、硬件表项等
请先通过logfilesave将设备缓存的logfile日志保存到Flash中,并将日志搜集完整,包括:主用主控板、备用主控板、IRF下主框/备框各主备主控板的日志,如果设备创建Context还需要搜集每个Context对应的日志。
[H3C]logfilesave
Thecontentsinthelogfilebufferhavebeensavedtothefileflash:/logfile/logfile.log.
主用主控板logfile日志:
Directoryofflash:/logfile
0-rw-5233116Apr27201309:20:44logfile1.log
1-rw-5142919May03201314:15:42logfile2.log
2-rw-5193287May09201312:28:08logfile3.log
1021808KBtotal(259072KBfree)
备用主控板logfile日志:
Directoryofslot1#flash:/logfile
0-rw-5242287May13201316:47:46logfile4.log
1-rw-5143837May24201322:56:46logfile5.log
2-rw-5149806Jun01201313:43:26logfile6.log
1020068KBtotal(643264KBfree)
IRF下备框主控板logfile日志,如备框有两块主控板,则两块都需要搜集:
Directoryofchassis2#slot0#flash:/logfile
0-rw-5215316Jun03201305:49:20logfile7.log
1-rw-5235163Jun21201307:31:54logfile8.log
2-rw-3256492Jun26201309:01:08logfile9.log
1021808KBtotal(773424KBfree)
Saveordisplaydiagnosticinformation(Y=save,N=display)[Y/N]:y
Pleaseinputthefilename(*.gz)[flash:/diag.gz]:
Thefilealreadyexists,overwirteit[Y/N]:y
Diagnosticinformationisoutputtingtoflash:/diag.gz.
Savesuccessfully.
Directoryofflash:
6-rw-898180Jun26201309:23:51diag.gz
也可以将diag信息直接显示出来(不建议这样搜集),搜集前请先执行screen-lengthdisable,避免屏幕输出被打断,如下:
Screen-lengthconfigurationisdisabledforcurrentuser
Saveordisplaydiagnosticinformation(Y=save,N=display)[Y/N]:n
==================================================================
===============displaycpu===============
Chassis2Slot0CPU0CPUusage:
4%inlast5seconds
0%inlast1minute
0%inlast5minutes
Chassis2Slot0CPU1CPUusage:
0%inlast5seconds
如遇到故障无法确认,请将故障描述连同搜集的信息发送给H3C技术支持人员分析。
图1故障处理流程图
故障分析时常用的方法有:
·端口报文计数。
·报文镜像。
·端口抓包。
·查看会话状态及统计信息。
·查看L2、L3转发表项及统计。
·查看Openflow表项下发是否正确。
·Debug开关信息。
图2网络故障模型
表2故障点影响分析
故障点
可能现象
影响范围
(1)、(3)(含光模块)
端口down
业务会切换
端口错包增加
影响该链路上的业务(影响范围大)
(2)
主控单板故障
引擎单板故障
如果链路和该引擎单板track,业务会切换
接口单板故障
业务可能会切换
(4)
堆叠链路单条断
不影响业务,但可能影响性能
堆叠链路2条链路全断
堆叠分裂
表3常见的故障恢复措施
故障原因
业务恢复动作
故障排除动作
硬件
·隔离故障单板;
·调整业务流向来隔离故障设备(如可以调整路由的优先级,避免流量经过故障设备,实现流量切换)
更换备件(备件上线应用前应进行必要的测试)
软件
·重启故障设备的协议;
·调整业务流向来隔离故障设备。
·升级版本(含补丁版本);
·调整组网或配置消除引发故障因素。
链路
调整业务流向来隔离故障线路
检修线路
其他
·修改错误配置;
·正确连接设备端口;
·调整业务流向来隔离故障线路。
·检修机房的电源、空调等支撑系统
·单板状态异常(比如状态为Absent、Fault等)。
·单板出现异常重启、无法启动或不断重启等。
单板状态包括:Normal、Master、Standby、Absent和Fault。
Master与Standby分别表示主、备主控板。Normal表示单板处于正常运行状态。
SlotNo.BrdTypeBrdStatusSubslotSftVerPatchVer
0NSQM1CGQ4TG24SHA0Normal0M9016-V-9153P22None
1NONEAbsent0NONENone
2NSQM1CGQ4TG24SHA0Normal0M9016-V-9153P22None
3NONEAbsent0NONENone
4NSQM1SUPD0Master0M9016-V-9153P22None
5NSQM1SUPD0Standby0M9016-V-9153P22None
6NSQM1FWEFGA0Normal0M9016-V-9153P22None
CPU1Normal0M9016-V-9153P22
7NONEAbsent0NONENone
8NONEAbsent0NONENone
9NONEAbsent0NONENone
10NSQM1FAB08E0Normal0M9016-V-9153P22None
11NSQM1FAB08E0Normal0M9016-V-9153P22None
12NSQM1FAB08E0Normal0M9016-V-9153P22None
13NSQM1FAB08E0Normal0M9016-V-9153P22None
H3CComwareSoftware,Version7.1.064,Release9153P22
H3CSecPathM9016-Vuptimeis0weeks,4days,0hours,7minutes
Lastrebootreason:Userreboot
Bootimage:flash:/M9000-CMW710-BOOT-R9153P22.bin
Bootimageversion:7.1.064,Release9153P22
CompiledDec10202014:00:00
Systemimage:flash:/M9000-CMW710-SYSTEM-R9153P22.bin
Systemimageversion:7.1.064,Release9153P22
Featureimage(s)list:
flash:/M9000-CMW710-DEVKIT-R9153P22.bin,version:7.1.064
LPU0:
Uptimeis0weeks,4days,0hours,3minutes
H3CSecPathM9016-VLPUwith1LS1043AProcessor
BOARDTYPE:NSQM1CGQ4TG24SHA0
DRAM:2048Mbytes
PCB1Version:VER.A
BootromVersion:108
CPLD1Version:002
CPLD2Version:001
ReleaseVersion:H3CSecPathM9016-V-9153P22
PatchVersion:None
RebootCause:UserReboot
LPU2:
MPU(M)4:
Uptimeis0weeks,4days,0hours,7minutes
H3CSecPathM9016-VMPU(M)with1XLP316Processor
BOARDTYPE:NSQM1SUPD0
DRAM:8192Mbytes
FLASH:500Mbytes
NVRAM:512Kbytes
BootromVersion:132
CPLD1Version:004
CPLD2Version:003
CPLD3Version:003
MPU(S)5:
Uptimeis0weeks,4days,0hours,6minutes
H3CSecPathM9016-VMPU(S)with1XLP316Processor
CPLD1Version:001
CPLD3Version:001
LPU6:
Uptimeis0weeks,1day,17hours,56minutes
H3CSecPathM9016-VLPUwith1XLP308Processor
BOARDTYPE:NSQM1FWEFGA0
FLASH:8Mbytes
PCB2Version:VER.B
BootromVersion:100
CPLD2Version:002
SLOT6CPU1
CPUtype:Multi-coreCPU
DDR4:49152Mbytes
FLASH:7122Mbytes
BoardPCBVersion:Ver.A
CPLDVersion:2.0
ReleaseVersion:SecBladeFWEnhanced-9153P22
FPGA0Version:B50506
FPGA0DATE:2020.11.27
FPGA1Version:B50506
FPGA1DATE:2020.11.27
BasicBootWareVersion:1.03
ExtendBootWareVersion:1.03
NPU10:
H3CSecPathM9016-VNPUwith1XLS208Processor
BOARDTYPE:NSQM1FAB08E0
DRAM:1024Mbytes
PCB1Version:VER.B
BootromVersion:518
CPLD1Version:005
NPU11:
Uptimeis0weeks,3days,23hours,46minutes
RebootCause:ColdReboot
NPU12:
Uptimeis0weeks,3days,23hours,44minutes
BootromVersion:511
NPU13:
(1)确认单板是否插稳,如检查单板与机框之间是否有空隙,也可以将单板拔出后重新插入。
(2)将单板放到别的槽位,将框上别的正常的单板放到这个槽位,进一步确认是不是单板或机框槽位故障。
(3)检查单板面板、内部的指示灯是否发光。
(4)如果单板是主控板、业务板、网板,请连上串口线,查看配置终端上是否有单板正常启动的显示信息、或单板启动是否异常。
(5)如确认为单板故障,请更换单板并将故障信息发送H3C技术支持人员分析。
(2)如果单板是主控板、引擎板、网板,请连上串口线,查看配置终端上是否有单板正常启动的显示信息、或单板异常启动信息。如下述主控板启动时出现内存读写测试失败而不断重启,需要检查主控板内存条是否插稳。
(3)将单板放到别的槽位,进一步确认是不是单板故障。
(4)如确认为单板故障,请更换单板并将故障信息发送H3C技术支持人员分析。
这里的单板重启是指单板出现过重启,而当前单板状态是Normal。
(2)如果所有单板同时出现重启,请检查设备电源模块是否正常,确认外部电源是否出现过停电,电源进线是否插稳、是否出现松动。
(3)确认日志中重启时有无出现“SlotXneedtoberebootedautomatically!”,“Note:theoperatingdeviceissda0,it'snotonline”提示信息,这种情况是不正常的。请更换单板并搜集故障信息并发送H3C技术支持人员分析。
(4)如无法确认,请搜集故障信息并发送H3C技术支持人员分析。
风扇框指示灯异常,设备打印风扇异常信息,如:
%Jun2610:12:24:8052013H3CDEV/3/FAN_ABSENT:-MDC=1;Chassis2Fan2isabsent.
%Jun2610:12:32:8052013H3CDEVD/2/DRV_DEV_FAN_CHANGE:-MDC=1;Chassis2:Fancommunicationstatechanged:Fan1changedtofault.
%Jun2610:12:42:4052013H3CDEV/2/FAN_FAILED:-MDC=1;Chassis2Fan1failed.
(1)风扇框在位时,用手放在设备出风口,判断是否有出风,如果出风口无风,则风扇异常。
(2)检查风扇的入风口、出风口是否被挡住或积累太多灰尘。
(3)检查风扇框是否正常在位,各个风扇的状态是否正常、转速是否相差达到50%以上。如存在异常,建议通过风扇框拔插、更换交叉进一步确认。
(4)如果故障不能恢复,需要更换该风扇框,但当前没有风扇框,请关闭设备以免发生温度高导致单板烧坏;如果有降温措施保证系统工作在50度以下,可以暂时继续使用设备。
Chassis1:
FanFrame0State:Normal
Chassis2:
设备打印温度过低、过高等告警信息,如:
%Jun2610:13:46:2332013H3CDEV/4/TEMPERATURE_WARNING:-MDC=1;TemperatureisgreaterthanwarningupperlimitonChassis1slot2sensorinflow1.
(1)检查环境温度是否正常。如果环境温度较高,请确认原因,比如机房通风不畅、空调制冷故障等。
(2)检查设备当前的temperature温度是否超出上下的Warning、Alarm门限。也可以用手触摸单板,确认单板是不是很烫,如单板温度很高,请立即检查原因。持续处于较高的温度下,可能会导致单板损坏。
·如果温度值为error或出现明显不合实际的值,可能是通过I2C总线访问单板温度传感器异常(displayenvironment命令)。设备光模块信息访问也是通过I2C总线(displaytransceiver命令),请继续检查单板读取光模块信息是否正常。如光模块访问正常,请使用temperature-limit命令重新设置单板的温度告警门限值,并通过displayenvironment查看是否设置成功。
[H3C]temperature-limitchassis2slot1hotspot108590
Systemtemperatureinformation(degreecentigrade):
----------------------------------------------------------------------
ChassisSlotSensorTemperatureLowerWarningAlarmShutdown
10inflow13504860NA
10hotspot14308095NA
11inflow13404860NA
11hotspot13808095NA
12hotspot149088100110
13hotspot14308097NA
13hotspot24108097NA
14hotspot14208097NA
14hotspot24008097NA
15hotspot14508097NA
15hotspot24108097NA
16hotspot153088100110
17hotspot155088100110
18hotspot167088100110
19hotspot161088100110
20inflow13408590NA
20hotspot14208590NA
21inflow13608590NA
21hotspot14108590NA
22hotspot156088100110
23hotspot14708097NA
23hotspot24408097NA
(3)如果仍然无法确认故障原因,请搜集信息并发送给H3C技术支持人员协助分析。
表4故障诊断命令
命令
说明
displaydevice
显示设备信息,检查各单板的状态是否正常
displayenvironment
显示设备的温度信息,检查环境温度是否正常(是否超出温度告警阈值)
displayfan
显示设备内置风扇的工作状态
displaypower
显示设备上的电源系统信息。详细信息包括下列信息:
·电源管理使能状态
·电源类型、额定输入电压和额定输出功率
·在位电源模块的状态
displayversion
save
将当前配置保存到指定文件
temperature-limit
设置设备的温度告警门限
使用displayinterface命令查询端口的入、出方向流量统计信息,发现错包统计计数不为0。
[H3C]displayinterfaceGigabitEthernet1/4/0/17
GigabitEthernet1/4/0/17
Currentstate:UP
Lineprotocolstate:UP
Description:GigabitEthernet1/4/0/17Interface
Bandwidth:1000000kbps
MaximumTransmitUnit:1500
Internetprotocolprocessing:disabled
IPPacketFrameType:PKTFMT_ETHNT_2,HardwareAddress:8042-0004-5611
IPv6PacketFrameType:PKTFMT_ETHNT_2,HardwareAddress:8042-0004-5611
Mediatypeistwistedpair
Porthardwaretypeis1000_BASE_T
Lastclearingofcounters:16:45:01Wed12/11/2013
Peakvalueofinput:0bytes/sec,at2013-12-1116:45:03
Peakvalueofoutput:12328675bytes/sec,at2013-12-1117:01:56
Last300secondsinput:0packets/sec0bytes/sec
Last300secondsoutput:85491packets/sec12069673bytes/sec
Input(total):2packets,128bytes
2unicasts,0broadcasts,0multicasts,0pauses
Input(normal):2packets,-bytes
Input:4inputerrors,1runts,1giants,0throttles
1CRC,1frame,-overruns,0aborts
-ignored,-parityerrors
Output(total):202277882packets,28751562624bytes
202277844unicasts,0broadcasts,0multicasts,0pauses
Output(normal):202277844packets,-bytes
Output:8outputerrors,-underruns,-bufferfailures
2aborts,2deferred,2collisions,2latecollisions
0lostcarrier,-nocarrier
·inputerrors:各种输入错误的总数。
·runts:表示接收到的超小帧个数。超小帧即接收到的报文小于64字节,且包括有效的CRC字段,报文格式正确。
·giants:是超过端口设置的MaximumFrameLength的报文个数。
·CRC:表示接收到的CRC校验错误报文个数。
·frame:端口接收时出错的报文。
·outputerrors:各种输出错误的总数。
·aborts:表示发送失败的报文总数。
·collisions:表示冲突帧总数,即在发送过程中发生冲突的报文。
(1)使用仪器测试链路,链路质量差或者线路光信号衰减过大会导致报文在传输过程中出错。如链路故障请更换网线或光纤。
(4)排查对端设备或者中间的传输设备。
(5)如故障无法确认,请将故障信息发送H3C技术支持人员分析。
(1)检查两端的jumbo配置是否一致,如jumbo是否使能,端口默认的最大报文长度是否一致,允许最大报文长度是否一致。
(2)如果仍然无法确认,请将故障信息发送技术支持人员分析。
(1)检查端口是否配置为半双工模式,如为半双工,请更改为全双工模式。
(2)如果仍然无法确认,请将故障信息发送H3C技术支持人员分析。
端口无法正常Up。
(1)测试端口之间网线、光纤链路是否正常,光纤两端的发送/接收端是否错连;更换端口之间的网线、光纤或将网线、光纤放到别的正常端口,以确认是否中间传输链路故障。
(2)检查本端、对端端口配置是否正确,如端口是否shutdown,速率、双工、协商模式、MDI是否正确。
[H3C]displaytransceiverinterfaceTen-GigabitEthernet1/5/0/1
Ten-GigabitEthernet1/5/0/1transceiverinformation:
TransceiverType:10G_BASE_LR_XFP
ConnectorType:LC
Wavelength(nm):1310
TransferDistance(km):10(SMF)
DigitalDiagnosticMonitoring:YES
VendorName:SumitomoElectric
如果确认光模块有问题,需要更换光模块。
(1)查看本设备及对端设备日志,确认有无端口shutdown操作。
(2)查看两端端口状态,确认是否为协议异常或在线诊断模块检测到异常将端口shutdown。当设备在线诊断模块检测到端口故障时,将端口shutdown隔离,以便流量切换到备份链路。请将故障信息发送H3C技术支持人员分析。
[H3C]displayinterfaceGigabitEthernet1/4/0/1
GigabitEthernet1/4/0/1
Currentstate:DOWN
Lineprotocolstate:DOWN
Description:GigabitEthernet1/4/0/1Interface
IPPacketFrameType:PKTFMT_ETHNT_2,HardwareAddress:8042-0004-5601
IPv6PacketFrameType:PKTFMT_ETHNT_2,HardwareAddress:8042-0004-5601
Mediatypeisnotsure,PorthardwaretypeisNoconnector
Peakvalueofoutput:0bytes/sec,at2013-12-1116:45:03
Last300secondsoutput:0packets/sec0bytes/sec
(4)如仍无法确认,请搜集本端、对端设备信息,并将信息发送H3C技术支持人员分析。
端口频繁Up/Down。
(2)对于电口,一般在自协商情况下容易出现协商不稳定,这种情况请尝试设置强制速率双工。
(3)如果故障依存在,请排查链路、对端设备、中间设备。
(4)如仍无法确认,请将故障信息发送H3C技术支持人员分析。
安装光模块的接口不能正常up,出现告警信息。
(1)检查光模块Alarm告警信息。告警信息中如果存在接收有问题那一般是对端端口、光纤或中转传输设备导致;如果是发送有问题或者电流、电压异常那就需要排查本端端口。
[H3C]displaytransceiveralarminterfaceTen-GigabitEthernet1/5/0/1
Ten-GigabitEthernet1/5/0/1transceivercurrentalarminformation:
None
表5光模块告警信息说明
字段
描述
SFP/SFP+
RXlossofsignal
接收信号丢失
RXpowerhigh
接收光功率高告警
RXpowerlow
接收光功率低告警
TXfault
发送错误
TXbiashigh
偏置电流高告警
TXbiaslow
偏置电流低告警
TXpowerhigh
发送光功率高告警
TXpowerlow
发送光功率低告警
Temphigh
温度高告警
Templow
温度低告警
Voltagehigh
电压高告警
Voltagelow
电压低告警
TransceiverinfoI/Oerror
模块信息读写错误
Transceiverinfochecksumerror
模块信息校验和错误
Transceivertypeandportconfigurationmismatch
模块类型和端口配置不匹配
Transceivertypenotsupportedbyporthardware
端口不支持该模块类型
XFP
RXnotready
接收状态未就绪
RXCDRlossoflock
RXCDR时钟失锁
TXnotready
发送状态未就绪
TXCDRlossoflock
TXCDR时钟失锁
Modulenotready
模块状态未就绪
APDsupplyfault
APD(AvalanchePhotoDiode,雪崩光电二极管)错误
TECfault
TEC(ThermoelectricCooler,热电冷却器)错误
Wavelengthunlocked
光信号波长失锁
模块信息校验错误
(2)对怀疑故障的光模块进行交叉验证,如更换端口、与正常的光模块互换,确认是光模块本身故障还是相邻设备或中间链路故障。
(3)如果确认是光模块本身故障,请通过displaytransceiverdiagnosis命令收集光模块当前的数字诊断信息(非H3C定制光模块可能无法查询到数字诊断信息),并发送给H3C技术支持人员分析。
[H3C]displaytransceiverdiagnosisinterfaceTen-GigabitEthernet1/5/0/2
Ten-GigabitEthernet1/5/0/2transceiverdiagnosticinformation:
Currentdiagnosticparameters:
Temp.(°C)Voltage(V)Bias(mA)RXpower(dBm)TXpower(dBm)
483.3339.100.13-1.35
Alarmthresholds:
High733.6375.002.508.16
Low-52.971.00-12.30-11.20
(4)建议尽量使用H3C定制光模块。可以使用displaytransceivermanuinfointerface命令来查看光模块制造厂家信息。
[H3C]displaytransceivermanuinfointerface
Ten-GigabitEthernet1/2/0/1transceivermanufactureinformation:
Thetransceiverdoesnotsupportthisfunction.
Ten-GigabitEthernet1/2/0/2transceivermanufactureinformation:
Ten-GigabitEthernet1/2/0/3transceivermanufactureinformation:
Thetransceiverisabsent.
Ten-GigabitEthernet1/2/0/4transceivermanufactureinformation:
Ten-GigabitEthernet1/2/0/5transceivermanufactureinformation:
Manu.SerialNumber:210231A0G1X122000082
ManufacturingDate:2012-02-28
VendorName:H3C
Ten-GigabitEthernet1/2/0/6transceivermanufactureinformation:
Manu.SerialNumber:210231A0G1X122000083
表6故障诊断命令
displaycurrent-configuration
显示设备当前生效的配置,指定interface可以显示指定接口当前生效的配置
displayinterface
查询端口的入、出方向流量统计信息、端口状态,可查看是否存在错包及错包统计信息
displaytransceiveralarm
显示可插拔接口模块的当前故障告警信息
displaytransceiverdiagnosis
显示可插拔光模块的数字诊断参数的当前测量值,包括温度、电压、偏置电流、接收光功率、发送光功率
displaytransceiverinterface
显示指定接口可插拔接口模块的主要特征参数,检查两端光模块类型是否一致,如速率、波长、单模多模状态等
displaytransceivermanuinfo
显示可插拔接口模块的电子标签信息,可用来查询光模块的定制厂商
报文转发丢包,ping不通或ping丢包,tracert异常。
PING10.0.0.5(10.0.0.5):56databytes,pressCTRL_Ctobreak
Requesttimeout
---10.0.0.5pingstatistics---
5packet(s)transmitted,0packet(s)received,100.0%packetloss
M9000设备,端口默认没有加入到任何安全域,要确认端口是否加入到安全域。
如果端口加入到安全域中,要确认是否配置了安全策略。系统默认情况下,相同安全域、不同安全域之间、安全域与local之间,转发默认是deny的。
报文转发异常通常会涉及多台设备,需要逐一排查。为方便排查,排查前建议先明确报文的转发走向,如经过哪些中间设备,在设备的哪些接口进入设备,又会从哪些接口出去。检查出入接口的报文统计。确认统计是否正确。
检查入方向报文统计计数,可以通过resetcounterinterface命令清除计数。
如果设备未收到Ping报文,请排查上游的相邻设备;如果设备发送的Ping报文计数正确,建议排查下游的相邻设备;如果Ping报文入出计数不正确,分下面几种情况进行分析:
·有入报文统计,没有出报文统计,进行如下排查:
(1)查看是否在链路层处理有丢包,执行displayethernetstatistics命令,如下:
ETHreceivepacketstatistics:
Totalnum:0ETHIINum:0
SNAPNum:0RAWNum:0
LLCNum:0UnknownNum:0
ForwardNum:0ARP:0
MPLS:0ISIS:0
ISIS2:0IP:0
IPV6:0
ETHreceiveerrorstatistics:
NullPoint:0ErrIfindex:0
ErrIfcb:0IfShut:0
ErrAnalyse:0ErrSrcMAC:0
ErrHdrLen:0
ETHsendpacketstatistics:
L3OutNum:0VLANOutNum:0
FastOutNum:0L2OutNum:0
ETHsenderrorstatistics:
MbufRelayNum:0NullMbuf:0
ErrAdjFwd:0ErrPrepend:0
ErrHdrLen:0ErrPad:0
ErrQosTrs:0ErrVLANTrs:0
ErrEncap:0ErrTagVLAN:0
IfShut:0IfErr:0
(2)如果链路层处理没有丢包,执行displayipstatistics命令,查看IP层丢包原因:
Input:sum263207520local1772
badprotocol0badformat0
badchecksum0badoptions0
Output:forwarding24511617local476
dropped21949noroute156
compressfails0
Fragment:input0output0
dropped0
fragmented0couldn'tfragment0
Reassembling:sum0timeouts0
(3)打开debuggingaspfall、debuggingpacket-filterpacketip,来确定ASPF是否有丢包。
·无出、入报文统计
需要分析是否上游没有把报文发送过来。
处于不同网段的两台PC:PC1和PC2,PC1的地址为10.1.1.1,PC2的地址为220.1.1.2。中间穿越M9000设备互相ping包,M9000设备对PC1的地址静态NAT转换为220.1.1.1;发现PC1pingPC2不通,查看PC2可以收到PC1的ping报文,但是PC1收不到PC2的回应报文。
Security-policyip
rule0name0
actionpass
检查设备到某一目的IP网段的路由是否存在,如路由不存在,请检查路由协议配置、状态是否正确。
[H3C]displayiprouting-table10.1.1.0
检查设备到某一目的IP网段的FIB表项是否存在,如路由存在、FIB表项异常,请将故障信息发送H3C技术支持人员分析。
[H3C]displayfib10.1.1.0
查看10.1.1.1的arp表项是否存在:
[H3C]displayarp10.1.1.1
通过displaysession命令确认会话是否正常建立。
域间策略默认ASPF对所有的报文进行检测。但如果在域间策略中配置了aspfapplypolicy命令,那么只对策略中配置的detect协议进行ASPF检测,其他协议不进行检测。如果不配置detecticmp,那么如果没有配置反向域间策路,报文就被deny了。可以使用下面命令打开debug:
INTEGER<2000-2999>SpecifyabasicACL
INTEGER<3000-3999>SpecifyanadvancedACL
来看是否有deny信息,如果有类似下面信息:
*Dec1216:49:07:1882013H3CFILTER/7/PACKET:-Slot=3.1;Thepacketisdeny.SrcZoneName=tom1,DstZoneName=tom;PacketInfo:Src-IP=220.1.1.2,Dst-IP=10.1.1.1,VPN-Instance=none,Src-Port=1024,Dst-Port=1025,Protocol=UDP(17),ACL=none.
说明没有正确配置ASPF策略,导致被反向域间策略deny了。
如果前面的检查均没有问题。需要查看流表是否有问题。
首先我们要看接口板的流表是否正常。对静态NAT,如下配置:
[H3C]natstaticoutbound10.1.1.1220.1.1.1
然后在接口上使能静态NAT,正常流表应显示如下:
(1)首先查看接口板流表下刷是否正确
[H3C-probe]displaysysteminternalopenflowinstanceinner-redirectflow-table
Instance4097FlowTableInformation:
Table200information:
Tabletype:Extensibility,flowentrycount:25,totalflowentrycount:25
Flowentryrule6information:
cookie:0x0,priority:7861,hardtime:0,idletime:0,flags:check_overlap
|reset_counts|no_pkt_counts|no_byte_counts,bytecount:--,packetcount:--
Matchinformation:
Inputinterface:RAGG11
Ethernettype:0x0800
IPRange:IPv4destinationaddressfrom220.1.1.1to220.1.1.1
Instructioninformation:
Writeactions:
Outputinterface:Blade2/10/0/1
Flowentryrule7information:
cookie:0x0,priority:7840,hardtime:0,idletime:0,flags:check_overlap
IPRange:IPv4sourceaddressfrom10.10.1.1to10.10.1.1
VRFindex:0
Flowentryrule8information:
cookie:0x0,priority:7841,hardtime:0,idletime:0,flags:check_overlap
IPRange:IPv4destinationaddressfrom10.10.1.1to10.10.1.1
上面3个表项,缺少一个都是会引起转发异常的。
(2)如果接口板的流表没有异常,再查看业务板流表下刷是否正确,执行如下命令:
[H3C-probe]displaysysteminternalopenflowinstanceinnerflow-table
Instance4096FlowTableInformation:
Tabletype:Extensibility,flowentrycount:27,totalflowentrycount:27
cookie:0x0,priority:7860,hardtime:0,idletime:0,flags:check_overlap
表7故障诊断命令
displayarp
显示ARP表项,检查设备ARP学习的接口是否正确
displaycurrent-configuration|includelsr-id
显示当前的MPLSLSRID
displaycurrent-configurationconfigurationmpls-ldp
显示当前生效的MPLSLDP配置信息,检查LDP的md5-password配置是否一致
displayfib
显示FIB信息,检查设备到某一目的IP网段的FIB表项是否存在
displayipinterfacebrief
显示三层接口的IP基本配置信息
displayiprouting-table
显示路由表中当前激活路由的摘要信息,检查设备到某一目的IP网段的路由是否存在
displaysession
显示会话信息
displaythis
显示当前视图下生效的配置
interface
进入接口视图
displaysysteminternalopenflowinstance
查看openflow表项
displaynatoutbound
查看natoutbound配置信息
IRF无法正常建立。
通常为配置错误引起,请检查以下配置是否正确。
ChassisSlotTypeStateSubslotSoftVerPatchVer
10NSQ1GT48EA0Normal0M9014-9106None
11NONEAbsent0NONENone
12NONEAbsent0NONENone
13NSQ1TGS8EA0Normal0M9014-9106None
14NSQ1FWCEA0Normal0M9014-9106None
15NONEAbsent0NONENone
16NSQ1SUPB0Master0M9014-9106None
17NONEAbsent0NONENone
18NONEAbsent0NONENone
19NONEAbsent0NONENone
110NONEAbsent0NONENone
111NONEAbsent0NONENone
112NSQ1QGS4SF0Normal0M9014-9106None
113NSQ1GP48EB0Normal0M9014-9106None
114NONEAbsent0NONENone
115NSQ1FAB12D0Normal0M9014-9106None
116NONEAbsent0NONENone
117NONEAbsent0NONENone
……
通过displayinterface查询IRF物理端口状态是否UP:
GigabitEthernet1/0/0/10
Description:GigabitEthernet1/0/0/10Interface
IPPacketFrameType:PKTFMT_ETHNT_2,HardwareAddress:8042-0000-560a
IPv6PacketFrameType:PKTFMT_ETHNT_2,HardwareAddress:8042-0000-560a
Lastclearingofcounters:Never
Peakvalueofinput:0bytes/sec,at2013-12-1315:15:02
Peakvalueofoutput:0bytes/sec,at2013-12-1315:15:02
进入IRF端口视图,使用displaythis命令,确认IRF的两台设备的工作模式是否正常。
[H3C]irf-port1/2
[H3C-irf-port1/2]displaythis
irf-port1/2
portgroupinterfaceTen-GigabitEthernet1/3/0/1modeenhanced
IRF运行过程中出现分裂。
%Jun2610:13:46:2332013H3CSTM/2/STM_LINK_STATUS_TIMEOUT:IRFport1isdownbecauseheartbeattimedout.
%Jun2610:13:46:4362013H3CSTM/3/STM_LINK_STATUS_DOWN:-MDC=1;IRFport2isdown.
20NSQ1GT48EA0Normal0M9014-9153P22None
21NONEAbsent0NONENone
22NONEAbsent0NONENone
23NSQ1TGS8EA0Normal0M9014-9153P22None
24NSQ1FWCEA0Normal0M9014-9153P22None
25NONEAbsent0NONENone
26NSQ1SUPB0Master0M9014-9153P22None
27NSQ1SUPB0Standby0M9014-9153P22None
28NONEAbsent0NONENone
29NONEAbsent0NONENone
210NSQ1FWCEA0Normal0M9014-9153P22None
211NONEAbsent0NONENone
212NONEAbsent0NONENone
213LSU1GP24TXEB0Normal0M9014-9153P22None
214NONEAbsent0NONENone
215NSQ1FAB12D0Normal0M9014-9153P22None
216NSQ1FAB12D0Normal0M9014-9153P22None
217NSQ1FAB12D0Normal0M9014-9153P22None
GigabitEthernet2/6/0/1currentstate:UP
Lineprotocolcurrentstate:UP
IPPacketFrameType:PKTFMT_ETHNT_2,HardwareAddress:0000-e80d-c000
Description:GigabitEthernet2/6/0/1Interface
Loopbackisnotset
Mediatypeisopticalfiber,Porthardwaretypeis1000_BASE_SX_SFP
H3CSecPathM9016-Vuptimeis0weeks,4days,0hours,16minutes
LPUChassis1Slot0:
Uptimeis0weeks,1day,18hours,32minutes
H3CSecPathM9014LPUwith1XLS408Processor
BOARDTYPE:NSQ1GT48EA0
FLASH:0Mbytes
NVRAM:0Kbytes
CPLD1Version:003
ReleaseVersion:H3CSecPathM9014-9153P22
RebootCause:DEVHandShakeReboot
表8故障诊断命令
显示设备信息,用于检查各成员设备的软件版本、主控板类型是否一致
displayirfconfiguration
显示所有成员设备的IRF配置信息,用于检查IRF端口连接是否异常,一台设备的IRF-Port1口只能与另一台设备的IRF-Port2口连接
显示当前视图下生效的配置,在系统视图下检查成员设备的如下配置是否一致:irfmodeenhanced配置
未加入冗余组的冗余口具有单独的冗余功能。冗余组只在接口UP/DOWN事件到来时进行激活切换。所有业务逻辑均基于冗余口实现,成员口只负责发送和接受报文。
问题集中在报文收发环节,存在冗余口直连无法ping通的情况。
(1)打开debuggingethernetpacket查看冗余口是否有报文上收与发送的调试信息。对冗余口1,采用如下命令:debuggingethernetpacketinterfaceReth1
(2)打开arperrordebug命令查看是否存在错误信息。采用如下debug命令:
debuggingarperror
如果有错误信息,说明ARP学习异常。
(3)打开iperror查看是否有错误信息。采用如下debug命令:
debuggingiperror
如果有错误信息,根据此信息来确定丢包的原因。
(4)查看displayethernertstatistics查看是否有错误计数随报文收发增长,命令如下:
Totalnum:48668ETHIINum:48668
ForwardNum:48668ARP:0
L3OutNum:80843VLANOutNum:0
FastOutNum:215L2OutNum:0
ErrEncap:1045ErrTagVLAN:0
(1)需要确认是否建立了冗余表项。查看命令如下:
[H3C]displayeth-trunkinterfaceRETH-Trunk1
RETH-Trunk1:
Physicalstatus:UP
Linkstatus:UP
Numberofmembers:2
Eth-trunkgroup:100
MemberPhysicalstatusActivestatusHoldstatus
RAGG1UPActiveNormal
RAGG5UPInactiveNormal
Reth1:
Redundancygroup:1
MemberPhysicalstatusForwardingstatusPresencestatus
XGE1/4/0/9UPActiveNormal
XGE2/4/0/9UPInactiveNormal
要分析Physicalstatus状态,如果都为down,说明系统异常。分析Forwardingstatus状态,如果都为Inactive状态,说明成员口异常。
(2)如果表项存在且成员状态正常,即部分报文能够上收,查看表项是否有错误。
(3)可以通过shutdown冗余口,尝试刷新表项,看表项是否能够重新建立。如果冗余口的成员口为子接口,还需要查看表项是否带tag。
(4)如果冗余口、arp表项正常,需要确认驱动有没有上发报文,可查看物理接口计数,看报文是否已经上收。
(1)报文的收发一般都是双向的过程,A-B两端报文需要互通,可以先确定是报文丢在哪一环,再针对某一环节进行定位。如A-B两端,可单pingA->B查看报文是否能通,再单pingB->A查看报文是否能通。若两端都能通,则证明报文收发没问题。某一端不能通,以B->A为例,先看B是否将报文发出,定位方式按照以上步骤来,再看A是否上收,定位方式也是如此。
图3组网图
(1)M9000-1和M9000-2这2台防火墙构成主备方式的IRF设备,冗余口Reth1为上行口,聚合口Route-Aggregation1和Route-Aggregation2为冗余口Reth1的成员,成员Route-Aggregation1的优先级高。
(2)冗余口Reth2为下行口,聚合口Route-Aggregation3和Route-Aggregation4为冗余口Reth2的成员,成员Route-Aggregation3的优先级高。
(3)冗余口Reth1和Reth2配有IP地址。冗余组1包含冗余口1和冗余口2。
interfaceReth1
ipaddress100.1.1.1255.255.255.0
memberinterfaceRoute-Aggregation1priority100
memberinterfaceRoute-Aggregation2priority1
interfaceReth2
memberinterfaceRoute-Aggregation3priority100
memberinterfaceRoute-Aggregation4priority1
track11interfaceRoute-Aggregation1
track12interfaceRoute-Aggregation2
track13interfaceRoute-Aggregation3
track14interfaceRoute-Aggregation4
redundancygroup1
memberinterfaceReth1
memberinterfaceReth2
memberfailovergroup1
memberfailovergroup2
node1
bindchassis1
priority100
track1interfaceBlade1/2/0/1
track3interfaceBlade1/3/0/1
node2
bindchassis2
priority50
track2interfaceBlade2/2/0/1
track4interfaceBlade2/3/0/1
通过冗余组进行IRF主备切换时,不能成功进行切换,出现异常。
(1)如遇group频繁进行激活成员切换的情况,有规律的定时的切换,就需要注意观察下是否频繁有track事件上报。对应查看下track接口的主备关系,于当前track所在node的主备关系是否一致。
(2)如果没有问题,还需要查看下track事件与接口状态是否相符。
(4)如果仍无问题,则查看下track状态与group中的Track状态是否一致。
查看track状态:
TrackID:5
State:Positive
Duration:0days0hours0minutes6seconds
Trackedobjecttype:Interface
Notificationdelay:Positive0,Negative0(inseconds)
Trackedobject:
Interface:Route-Aggregation1
Protocol:None
查看冗余组中的track状态:
Redundancygroup1(ID1):
NodeIDChassisPriorityStatusTrackweight
1Chassis1100Primary255
2Chassis250Secondary255
Preemptdelaytimeremained:0min
Preemptdelaytimersetting:1min
Remaininghold-downtime:0sec
Hold-downtimersetting:1sec
Manualswitchoverrequest:No
Memberinterfaces:
Reth1
Reth2
Memberfailovergroups:
1
2
Node1:
Trackinfo:
TrackStatusReducedweightInterface
1Positive255Blade1/2/0/1
3Positive255Blade1/3/0/1
11Positive255RAGG1
13Positive255RAGG3
Node2:
2Positive255Blade2/2/0/1
4Positive255Blade2/3/0/1
12Positive255RAGG2
14Positive255RAGG4
如果不一致,说明track存在问题。
·每个冗余组节点都有权重,缺省值为255,每个冗余组节点必须关联至少一个Track项,每个Track项对应一个权重增量。当Track项变为NotReady或Negative状态时,冗余组节点用当前权重减去对应的权重增量获得新的当前权重。当Track项变为Positive时,冗余组节点用当前权重加上对应的权重增量获得新的当前权重。当前权重小于或等于0时,则认为该节点故障,无法正常工作,触发冗余组的倒换/倒回。
举例说明如下:
1Chassis1100Secondary0
2Chassis250Primary255
11Negative(Faulty)255RAGG11
表9故障诊断命令
displayredundancygroup
显示冗余组状态
displaytrack
显示track状态
displayrethinterfaceReth
显示冗余口状态信息
显示接口信息
图4组网图
PC1访问PC2,在M9000上对PC1的地址进行NAT转换,转换地址池为:4.4.4.25到4.4.4.30。M9000上有2块防火墙业务板。
nataddress-group0
address4.4.4.254.4.4.30
interfaceRoute-Aggregation1023
ipbindingvpn-instancevpn11
ipaddress192.168.1.25424
interfaceRoute-Aggregation1021
ipaddress4.4.4.254255.255.255.0
natoutboundaddress-group0
NAT不能正常转换或者NAT转换的报文不能正常转发。
[H3C]displaynatoutbound
NAToutboundinformation:
Thereare1NAToutboundrules.
Interface:Route-Aggregation1021
ACL:---Addressgroup:257Port-preserved:N
NO-PAT:NReversible:N
*Dec1309:58:48:0822013H3CNAT/7/COMMON:-Chassis=2-Slot=10.1;
PACKET:(Route-Aggregation1021-out)Protocol:TCP
192.168.1.2:13249-4.4.4.6:21(VPN:16)------>
4.4.5.11:11000-4.4.4.6:21(VPN:0)
*Dec1309:58:48:0832013H3CNAT/7/COMMON:-Chassis=2-Slot=10.1;
PACKET:(Route-Aggregation1021-in)Protocol:TCP
4.4.4.6:21-4.4.5.11:11000(VPN:0)------>
4.4.4.6:21-192.168.1.2:13249(VPN:16)
注:###可以看到正向的流量做了NAT转换,从vpn11的域转成了没有vpn的域。
Slot0inchassis1:
Totalsessionsfound:0
Slot3inchassis1:
CPU0onslot4inchassis1:
Slot6inchassis1:
Initiator:
SourceIP/port:192.168.1.2/13790
DestinationIP/port:4.4.4.6/21
DS-Litetunnelpeer:-
VPNinstance/VLANID/VLLID:vpn11/-/-
Protocol:TCP(6)
Responder:
SourceIP/port:4.4.4.6/21
DestinationIP/port:4.4.4.27/1060
VPNinstance/VLANID/VLLID:vpn12/-/-
State:TCP_ESTABLISHED
Application:FTP
Starttime:2013-12-1510:49:00TTL:3592s
Interface(in):Route-Aggregation1023
Interface(out):Route-Aggregation1021
Zone(in):Trust
Zone(out):menglei
Initiator->Responder:3packets128bytes
Responder->Initiator:2packets130bytes
对于动态NAT,NAT表项会下刷到每一块业务板上,起到分流作用。
cookie:0x0,priority:7301,hardtime:0,idletime:0,flags:check_overlap
Inputinterface:RAGG1021
IPRange:IPv4destinationaddressfrom4.4.4.25to4.4.4.27
Outputinterface:Blade2/4/0/1
IPRange:IPv4destinationaddressfrom4.4.4.28to4.4.4.30
图5组网图
PC1访问PC2,在M9000上对PC1的地址进行静态NAT444转换,转换公网地址池为:4.4.5.11到4.4.5.13。M9000上有2块防火墙业务板。
#配置NAT444地址池。
natport-block-group256
local-ip-address192.168.1.2192.168.1.11vpn-instancevpn11
global-ip-pool4.4.5.114.4.5.12
block-size1000
port-range1000019000
#配置入接口。
#配置出接口。
natoutboundport-block-group256
#配置vpn-instance到公网之间路由。
略。
NAT444不能正常转换、NAT444转换的报文不能正常转发、反向报文无法正常转发。
Portblockgroup256:
Portrange:10000-19000
Blocksize:1000
LocalIPaddressinformation:
StartaddressEndaddressVPNinstance
192.168.1.2192.168.1.11vpn11
GlobalIPpoolinformation:
StartaddressEndaddress
4.4.5.114.4.5.12
这里,每一个私网需要的端口块的端口个数为:1000。
私网地址段192.168.1.2-192.168.1.11共有10个私网地址:共需要1个地址块。
端口范围设置为:10000-19999,因此每一个公网地址可以提供9个地址块。
因此,从上面的配置分析,10个私网地址需要2个公网地址,这里的设置满足需求。
Flowentryrule24information:
cookie:0x0,priority:7521,hardtime:0,idletime:0,flags:check_overlap
IPRange:IPv4destinationaddressfrom4.4.5.11to4.4.5.12
Flowentryrule25information:
cookie:0x0,priority:7500,hardtime:0,idletime:0,flags:check_overlap
IPRange:IPv4sourceaddressfrom192.168.1.2to192.168.1.11
VRFindex:16
[H3C]displayipvpn-instanceinstance-name
Flowentryrule26information:
cookie:0x0,priority:7501,hardtime:0,idletime:0,flags:check_overlap
IPRange:IPv4destinationaddressfrom192.168.1.2to192.168.1.11
分析:我们可以看到下发了三条openflow,对于静态nat444来说,所有的openflow都是下发到主板卡上去的。
可以通过displayblade-controller-teamdefault这条命令可以用来查看哪块是主板卡,如下:
ID:1Name:Default
ChassisSlotCPUStatusLBGroupID
231Normal1
*241Normal1
*:Primarybladecontrolleroftheteam.
下面分析一下三条openflow:
(1)IPRange:IPv4destinationaddressfrom4.4.5.11to4.4.5.11
这一条指明了从pc2回到pc1的流量(经过nat转换之后的地址)该上送到哪块板卡上。
(2)IPRange:IPv4sourceaddressfrom192.168.1.2to192.168.1.2
这一条指明了从PC1到PC2的流量该上送到哪块板卡上。
(3)IPRange:IPv4destinationaddressfrom192.168.1.2to192.168.1.2
大家对这条openflow可能会不理解,觉得这条openflow为什么要下发呢?其实此时如果要是有一个PC3(和pc1同网侧)想要访问PC1,那么PC3访问PC1的流量该上送到哪块板卡呢?由于第二条openflow的存在,PC1的流量肯定上送到主板卡,如果PC3访问PC1的流量没有上送到主板卡,而上送到别的板卡上去了,那么PC1此时就没法访问PC3了。
M9000作为出口网关设备割接之后,内网部分用户无法上网,外网用户无法访问内网服务器,但是从外网ping出接口的地址可以ping通。
如果NAT地址池的地址和接口地址不在同一网段,NAT地址池的地址无法响应。如果不在同一网段,要确保对端设置了NAT地址池的路由。
表10故障诊断命令
显示natoutbound设置信息
displaynatserver
显示natserver设置信息及状态
displayblade-controller-teamDefault
显示设备上那块业务板为主业务板
displayopenflowinstance
显示openflow下刷的表项
图6组网图
M9000-1和M9000-2两台防火墙设备之间建立IPsec隧道,对PC1和PC2之间访问的流量进行IPsec保护
配置描述:
·M9000-1上,ike的local-address为:9.9.9.9,remote-address为:9.9.9.19,安全acl规则为:
rule0permitipsource151.1.0.00.0.255.255destination152.2.0.00.0.255.255
·M9000-2上,ike的local-address为:9.9.9.19,remote-address为:9.9.9.9,安全acl规则为:
rule0permitipsource152.2.0.00.0.255.255destination151.1.0.00.0.255.255
ikesa和ipsecsa都可以建立,但是PC1和PC2互相ping,均不能ping通。
查看ikesa:
[h3c]disikesa
Connection-IDRemoteFlagDOI
------------------------------------------------------------------
19.9.9.9RDIPsec
Flags:
RD--READYRL--REPLACEDFD-FADINGRK-REKEY
查看ipsecsa:
[h3c]disipsecsa
-------------------------------
Interface:Ten-GigabitEthernet8/2/20
-----------------------------
IPsecpolicy:ipsec
Sequencenumber:1
Mode:ISAKMP
Flowtablestatus:Active
Tunnelid:0
Encapsulationmode:tunnel
PerfectForwardSecrecy:
InsideVPN:
ExtendedSequenceNumbersenable:N
TrafficFlowConfidentialityenable:N
PathMTU:1428
Tunnel:
localaddress:9.9.9.19
remoteaddress:9.9.9.9
Flow:
souraddr:152.2.0.0/255.255.0.0port:0protocol:ip
destaddr:151.1.0.0/255.255.0.0port:0protocol:ip
[InboundESPSAs]
SPI:42602698(0x028a10ca)
ConnectionID:4294967296
Transformset:ESP-ENCRYPT-AES-CBC-128ESP-AUTH-SHA1
SAidletime:86400
SAduration(kilobytes/sec):1843200/3600
SAremainingduration(kilobytes/sec):1843199/3154
Maxreceivedsequence-number:4
Anti-replaycheckenable:Y
Anti-replaywindowsize:64
UDPencapsulationusedforNATtraversal:N
Status:Active
[OutboundESPSAs]
SPI:3182510800(0xbdb142d0)
ConnectionID:4294967297
Maxsentsequence-number:4
[h3c-probe]displaysysteminternalopenflowinstanceinner-redirectflow-tab
le
Instance4097flowtableinformation:
Flowentry41information:
cookie:0x0,priority:8102,hardtime:0,idletime:0,flags:check_overlap
IPprotocol:50
IPv4sourceaddress:9.9.9.19,mask:255.255.255.255
IPv4destinationaddress:9.9.9.9,mask:255.255.255.255
Group:4026531873
Flowentry42information:
cookie:0x0,priority:8300,hardtime:0,idletime:0,flags:check_overlap
IPv4sourceaddress:151.1.0.0,mask:255.255.0.0
IPv4destinationaddress:152.2.0.0,mask:255.255.0.0
IPsecopenflow是在一阶段、二阶段后协商成功后才会下发,会下发两条规则,所下的规则如下:
(1)对于解密方向,只能看到隧道头中的地址,所以要用隧道的源地址和目的地址来下引流规则:
接口索引+隧道源地址+隧道目的地址。
(2)对于加密方向,由于是明文,可以知道流的源地址和目的地址,所以用ACL流信息来下引流规则。
如果IPSecSA正常建立,但是IPSecopenflow没有正常下发,就会出现ping不通的现象。
[h3c-probe]displaysysteminternalopenflowinstanceinnerflow-table
Instance4096flowtableinformation:
Flowentry21information:
Flowentry22information:
图7组网图
M9000设备M9000-1和M9000-2组成主备堆叠设备,M9000-1为Master。防火墙FW和堆叠设备建立IPsec隧道,保护PC1和PC2之间的交互流量。
IPsec加密流量主要走IRF主设备M9000-1,但当M9000-1出故障down掉后,发现PC1和PC2不能再ping通。
displaysysteminternalopenflowinstanceinner-redirectflow-tab
displaysysteminternalopenflowinstanceinnerflow-table
如果出现如下信息:
可以看出,IPsecSA虽然没有建立起来,但是,IPsecopenflow表项仍存在。说明存在openflow表项存在异常。信息中,Group:4026531873表明SA的出端口仍为已经down掉的M9000-1上的端口,说明openflow表项没有随着主设备的down掉而删除,导致无法建立正常的SA。
(2)对主备切换,如果处理IPsec业务的业务板或者堆叠主机down掉,IPsecSA会重新建立。需要确认当前存在的IPsecSA是否是重新建立的。
(3)如果SA已经成功建立,并且openflow表项正确下了。可以尝试resetipsecsa、resetikesa命令,尝试重新建立IPsecSA。
表11故障诊断命令
displayikesa
显示ikesa的信息
displayipsecsa
显示ipsecsa的信息
显示openflow表项信息
resetikesa
清除ikesa
resetipsecsa
清除ipsecsa
客户端可以ping通sslvpn网关,但是无法打开sslvpn页面。
(1)首先查看SSL策略视图下是否未引用PKI域,通过以下命令查看,ssl策略下需要引用PKI域
[H3C]sslserver-policyXXX
[H3C-ssl-server-policy-XXX]disthis
sslserver-policyXXX
pki-domainssl
return
如果pki-domainssl命令不存在,需要添加。
(2)查看是否在该PKI域下导入了CA证书,LOCAL证书。并且保证LOCAL证书是CA服务器颁发给服务器的证书,而不是客户端证书,通过以下命令查看
displaypkicertificatedomainXXXXca
displaypkicertificatedomainXXXXlocal
(3)可能是在SSLgateway的serviceenable之后,再进行了导入证书的操作,只要导入了证书或者SSL策略进行了配置变化,就必须在sslgatewayXXX里面进行undoserviceenable,然后再serviceenable一下便可,证书和配置才能生效
表12故障诊断命令
sslserver-policypolicy-name
创建SSL服务器端策略,并进入SSL服务器端策略视图
pki-domaindomain-name
配置SSL服务器端策略所使用的PKI域
displaypkicertificatedomaindomain-name{ca|local}
显示证书内容
sslvpngatewaygateway-name
创建SSLVPN网关,并进入SSLVPN网关视图
serviceenable
开启当前的SSLVPN网关
图8组网图
三台物理服务器ServerA、ServerB和ServerC均可提供FTP服务,且这三台服务器的硬件配置顺次降低。通过配置负载均衡,在考虑硬件性能的前提下让这三台服务器联合提供FTP服务,并通过健康检测来监控这些服务器是否可达。
(1)配置实服务组
#创建ICMP类型的NQA模板t1。
#
nqatemplateicmpt1
#创建实服务组sf,配置其调度算法为加权轮转算法,并指定其健康检测方法为t1。
server-farmsf
probet1
(2)配置实服务器
#创建实服务器rs1,配置其IPv4地址为192.168.1.1、权值为150,并加入实服务组sf。
real-serverrs1
ipaddress192.168.1.1
weight150
#创建实服务器rs2,配置其IPv4地址为192.168.1.2、权值为120,并加入实服务组sf。
real-serverrs2
ipaddress192.168.1.2
weight120
#创建实服务器rs3,配置其IPv4地址为192.168.1.3、权值为80,并加入实服务组sf。
real-serverrs3
ipaddress192.168.1.3
weight80
(3)配置虚服务器
#创建TCP类型的虚服务器vs,配置其VSIP为61.159.4.100,指定其默认实服务组为sf,并开启此虚服务。
virtual-servervstypetcp
virtualipaddress61.159.4.100
defaultserver-farmsf
虚服务vs和实服务rs1、rs2、rs3都处于active状态,但是host访问虚服务地址不能成功。
如果虚服务没有统计,则客户端到LB设备不可达,确保客户端和LB设备可达后再查看是否正常;如果虚服务有统计且有丢包统计,开启LB的debug或者在客户端抓包分析。
查看虚服务vs统计:
[LB]displayvirtual-serverstatisticsnamevs
Slot1:
Virtualserver:vs
Totalconnections:10
Activeconnections:3
Maxconnections:3
Connectionspersecond:0
Maxconnectionspersecond:1
Clientinput:3210bytes
Clientoutput:14074bytes
Throughput:0bytes/s
Maxthroughput:7554bytes/s
Receivedpackets:1365
Sentpackets:2796
Droppedpackets:0
如果实服务器有丢包统计,开启LB的debug或者在响应服务器端抓包分析,以确定相应实服务器和LB设备之间的链路是否可达,相应实服务器的服务或者服务端口是否开启。
查看实服务统计:
[LB]displayreal-serverstatisticsnamers1
Realserver:rs1
Totalconnections:5
Activeconnections:1
Maxconnections:1
Serverinput:307462bytes
Serveroutput:27460bytes
Maxthroughput:316457bytes/s
Receivedpackets:319
Sentpackets:236
Receivedrequests:0
Droppedrequests:0
Sentresponses:0
Droppedresponses:0
[LB]displayreal-serverstatisticsnamers2
Realserver:rs2
Totalconnections:2
Serverinput:870147bytes
Serveroutput:45163bytes
Maxthroughput:580348bytes/s
Receivedpackets:748
Sentpackets:511
[LB]displayreal-serverstatisticsnamers3
Realserver:rs3
Receivedpackets:178
Sentpackets:311
CPU高,内存高,哪些负载均衡的功能会造成哪些影响。
displayvirtual-serverstatistics
显示虚服务器的统计信息
displayreal-serverstatistics
显示实服务器的统计信息
debugginglball
开启LB的所有调试信息
debugginglberror
开启LB的错误调试信息
debugginglbevent
开启LB的事件调试信息
debugginglbfsm
开启LB的状态机调试信息
debugginglbpacket
开启LB的报文调试信息
发现负载均衡分担不均匀时,如何排查并进行优化。
(1)可以查看各个实服务的统计信息是否均匀。如果想让各个服务器均匀的分担一般用轮转的调度算法,将客户端请求均匀分担到多个实服务。
(2)LB插卡是多核CPU系统,每个核单独按照自己的表项进行轮转,所以全局来看,有可能出现每个实服务分到的连接数不均衡的问题。请考虑修改调度算法为最小连接或者随机等观察一下。
(3)源地址HASH算法流量不均匀,请确认源地址个数是否足够。
(4)通过配置负载均衡策略,进行更精细的分类,将请求进行分类送给哪些服务器,尽量满足用户实际需求:对于特殊业务,服务器的状态,需要依据实际环境进行调整。
配置
displayreal-serverstatistics[namereal-server-name]
displayvirtual-serverstatistics[namevirtual-server-name]
清除实服务器的统计信息
resetreal-serverstatistics[real-server-name]
清除虚服务器的统计信息
resetvirtual-serverstatistics[virtual-server-name]
图9组网图
局域网内PC通过防火墙访问Internet,防火墙上开启IPS业务,保护内外网用户免遭受攻击。
域间策略中开启ips检测。
app-profile3_5_54752_IPv4
ipsapplypolicydefaultmodeprotect
object-policyipTrust-Untrust
rule54752inspect3_5_54752_IPv4
zone-pairsecuritysourceTrustdestinationUntrust
object-policyapplyipTrust-Untrust
内网用户发起的正常业务流量访问不成功,设备上报ips攻击日志。
(1)首先查看设备上报的IPS攻击日志,源目的IP端口是否为客户端、服务器的IP端口,如果是则记录IPS日志中对应的AttackID。
(2)创建IPS策略,将报攻击的IPS特征关闭或者将动作设置为permit加log,并在域间策略中引用。
(3)抓取客户端访问业务的报文并反馈给研发进行分析,确认是否为误报,如果为误报则修改对应特征,如果非误报则对用户进行解释并在配置中对该条特征进行放行。
ipspolicypolicy-name
缺省情况下,存在一个缺省IPS策略,名称为default,且不能被修改和删除
signatureoverride{pre-defined|user-defined}signature-id{{disable|enable}[{block-source|drop|permit|redirect|reset}|capture|logging]*}
缺省情况下,预定义IPS特征使用系统预定义的状态和动作,自定义IPS特征的动作和状态在管理员导入的特征库文件中定义。
缺省IPS策略中的IPS特征的动作属性和生效状态属性不能被修改
设备CPU占用率持续在60%以上,下发命令时设备反应很慢。
Chassis1Slot0CPU0CPUusage:
1%inlast5seconds
2%inlast1minute
2%inlast5minutes
Chassis1Slot4CPU0CPUusage:
4%inlast1minute
4%inlast5minutes
Chassis1Slot7CPU0CPUusage:
84%inlast5seconds
27%inlast1minute
27%inlast5minutes
Chassis1Slot8CPU0CPUusage:
3%inlast5seconds
6%inlast1minute
6%inlast5minutes
Chassis1Slot9CPU0CPUusage:
Chassis2Slot4CPU0CPUusage:
Chassis2Slot6CPU0CPUusage:
Chassis2Slot7CPU0CPUusage:
Chassis2Slot8CPU0CPUusage:
15%inlast5seconds
Chassis2Slot9CPU0CPUusage:
这里,是在IRF环境下,查询的CPU利用率信息。Chassis1和Chassis2别表示堆叠的框1和框2。该命令显示的是每个框上每个槽位的CPU利用率。
100%|
95%|
90%|
85%|
80%|
75%|
70%|
65%|
60%|
55%|
50%|
45%|
40%|
35%|
30%|
25%|
20%|
15%|
10%|
5%|#
------------------------------------------------------------
102030405060(minutes)
cpu-usage(CPU0)last60minutes(SYSTEM)
CPU占用率高的原因通常有:
·路由振荡。
·配置过多的路由策略。
·报文攻击。
·链路环路。
·报文没有走快转。
·接口没有加入安全域或者没有安全策略,大量报文在设备上丢弃。
·是否打开了debugging命令。
通过displayroute-policy命令可以查看设备配置的路由策略,请检查配置的路由策略是否过多,导致CPU处理的负担增加。
Route-policy:policy1
permit:1
if-matchcost10
continue:nextnode11
applycomm-listadelete
链路成环时,网络振荡,大量的协议报文上送CPU处理也可能导致CPU占用率升高。存在环路时流量成环,可能会出现广播,设备很多端口的流量会变得很大,端口使用率达到90%以上:
Ten-GigabitEthernet6/0/11
Description:Ten-GigabitEthernet6/0/11Interface
Bandwidth:10000000kbps
Maximumtransmissionunit:1500
Allowjumboframestopass
Broadcastmax-ratio:100%
Multicastmax-ratio:100%
Unicastmax-ratio:100%
Internetprotocolprocessing:Disabled
IPpacketframetype:EthernetII,hardwareaddress:1234-660e-0012
IPv6packetframetype:EthernetII,hardwareaddress:1234-660e-0012
Mediatypeisopticalfiber,Porthardwaretypeis10G_BASE_SR_SFP
Outputqueue-Urgentqueuing:Size/Length/Discards0/1024/0
Outputqueue-Protocolqueuing:Size/Length/Discards0/500/0
Outputqueue-FIFOqueuing:Size/Length/Discards0/75/0
10Gbps-speedmode,Full-duplexmode
Linkspeedtypeisautonegotiation,linkduplextypeisautonegotiation
Flow-controlisnotenabled
TheMaximumFrameLengthis9216
Lastlinkflapping:1hours31minutes7seconds
Lastclearingofcounters:09:48:08Mon12/28/2020
Currentsystemtime:2020-12-2811:06:14Beijing+08:00:00
Lasttimewhenphysicalstatechangedtoup:2020-12-2809:35:07Beijing+08:00:00
Lasttimewhenphysicalstatechangedtodown:2020-12-2809:34:55Beijing+08:00:00
Peakinputrate:29bytes/sec,at2020-12-2809:54:00
Peakoutputrate:373bytes/sec,at2020-12-2810:40:17
Last300secondinput:0packets/sec24bytes/sec0%
Last300secondoutput:2packets/sec212bytes/sec0%
Input(total):785packets,116898bytes
5unicasts,0broadcasts,780multicasts,0pauses
Input(normal):785packets,-bytes
Input:0inputerrors,0runts,0giants,0throttles
0CRC,0frame,-overruns,0aborts
Output(total):10296packets,1119042bytes
772unicasts,0broadcasts,9524multicasts,0pauses
Output(normal):10296packets,-bytes
Output:0outputerrors,-underruns,-bufferfailures
0aborts,0deferred,0collisions,0latecollisions
如链路出现环路:
·排查链路连接、端口配置是否正确。
·设备对接的交换机是否使能STP协议,配置是否正确。
·设备路由是否设置正确,是否存在路由环路。
可以通过displayipfast-forwardingcache命令来确定报文是否走快转,如果cache表项中不存在某条流,说明报文没有走快转。
Totalnumberoffast-forwardingentries:10
SIPSPortDIPDPortProInput_IfOutput_IfFlg
192.168.96.39162192.168.210.201158617M-GE1/0/0/0InLoop01
192.168.96.18162192.168.210.201158517M-GE1/0/0/0InLoop01
192.168.96.16162192.168.210.201158417M-GE1/0/0/0InLoop01
12.1.1.1378412.1.1.24921617N/AInLoop01
192.168.210.2011585192.168.96.1816217InLoop0M-GE1/0/0/01
192.168.210.2011584192.168.96.1616217InLoop0M-GE1/0/0/01
192.168.210.2011586192.168.96.3916217InLoop0M-GE1/0/0/01
12.1.1.24921612.1.1.1378417InLoop0N/A1
192.168.96.4050356192.168.210.20236M-GE1/0/0/0InLoop01
192.168.210.2023192.168.96.40503566InLoop0M-GE1/0/0/01
可以根据某一个地址进行确认以该地址为源或目的IP报文是否走快转,命令如下:
Totalnumberoffast-forwardingentries:2
12.1.1.1378412.1.1.24921617RAGG5.3101InLoop01
多次查看单板内存占用率,发现内存占用率持续偏高,始终处于70%以上(未使用的内存占用率低于30%)。Total表示总的内存,Used表示当前使用的内存,FreeRatio表示未使用的内存占用率。
MemorystatisticsaremeasuredinKB:
Chassis1Slot2:
TotalUsedFreeSharedBuffersCachedFreeRatio
Mem:984640313232671408002656868.2%
-/+Buffers/Cache:286664697976
Swap:000
Chassis1Slot2CPU1:
Mem:14834944334237611492568060012450077.5%
-/+Buffers/Cache:321727611617668
这类问题通常为软件问题引起,如内存泄露,也可能是由于会话数目、路由数目过多导致。请按照下面步骤进一步搜集信息发送给H3C技术支持人员分析。
通过displayprocessmemory命令多次查询单板各进程的内存使用信息。Dynamic类型的内存为设备动态申请的,在内存出现泄露时会变得很大,通过前后比较观察可以确认哪个进程的内存占用持续增加。如果持续增加,说明该进程可能发生了泄露,请记录下进程的JID。下面以查询JID为78的diagd进程为例说明。
JIDTextDataStackDynamicName
11686042464scmd
20000[kthreadd]
30000[ksoftirqd/0]
78112936812320diagd
7976104088mdcagentd
801168860816fsd
8114099216212dbmd
8372496820syslogd
84168419801644drvdiagd
85172171121612devd
9411288641212edev
再进一步确认JID为78的diagd进程的哪种字节大小的内存块发生泄露。如下命令所示,Size表示内存块的字节大小,Total表示总的申请个数,Used表示使用数目,Free表示未使用的数目,FreeRatio表示未使用的内存块百分比。通过多次查询并比较查询值可以看出哪个Size的内存块Used个数持续增加。查询完毕后,请将搜集到的信息发送H3C给技术支持人员分析。
Heapusage:
SizeFreeUsedTotalFreeRatio
1603853850.0%
24249513.9%
32013130.0%
400770.0%
6404114110.0%
720440.0%
80101100.0%
96101100.0%
1040880.0%
1360880.0%
1520990.0%
1840110.0%
3680880.0%
30800110.0%
8200101100.0%
29376101100.0%
LargeMemoryUsage:
UsedBlocks:24
UsedMemory(inbytes):2031616
FreeBlocks:0
FreeMemory(inbytes):0
Summary:
Totalvirtualmemoryheapspace(inbytes):2113536
Totalphysicalmemoryheapspace(inbytes):454656
Totalallocatedmemory(inbytes):2075736
表13故障诊断命令
displaycpu-usage
显示CPU利用率的统计信息,用于查询CPU占用率高的任务
displaycpu-usagehistory
以图形方式显示CPU利用率统计历史信息
显示指定接口的信息,检查接口的流量是否正常
displaymemory
显示单板内存占用率
displayprocessmemory
显示单板各进程的内存使用信息,通过多次查询,发现可能存在内存泄露的进程
displayprocessmemoryheap
显示Dynamic类型内存的详细信息,确认哪种字节大小的内存块发生了泄露
displayroute-policy
显示设备配置的路由策略,检查配置的路由策略是否过多,导致CPU处理的负担增加
13.1对象策略加速使得CPU升高
升级策略加速优化版本,支持对象策略延迟加速功能,即等连续几条对象策略配置下发完成后再进行一次加速,可以避免当前刷配置导致cpu高的现象。
延迟加速功能版本支持情况:
D032SP版本支持情况:D032SP26及后续版本;
D045SP版本支持情况:D045SP07及后续版本。
13.2安全策略自动加速
流量下,安全策略不支持加速的时候走满匹配,多策略配置会消耗cpu。
升级安全策略加速功能版本,并支持安全策略自动加速功能,即新建和更改策略项配置时2秒后(策略不大于100条时)进行策略加速,或20秒后(策略总数大于100条)进行策略加速。
安全策略加速功能版本支持情况:
D032SP版本支持情况:都支持;
D045SP版本支持情况:都支持。
图10组网图
两台Device上下行分别接入二层交换机,Device的上下行接口工作在三层模式。
两台Device之间建立一条RBM通道。
两台Device上下行分别配置两个VRRP备份组,并与RBM关联,具体如下:
DeviceA上下行业务接口的VRRP备份组1和3加入Activegroup;DeviceA上下行业务接口的VRRP备份组2和4加入Standbygroup。
DeviceB上下行业务接口的VRRP备份组1和3加入Standbygroup;DeviceB上下行业务接口的VRRP备份组2和4加入Activegroup。
两台Device上需要将去往Internet路由的下一跳指定为Router连接Device的接口IP地址(此示例中为2.1.1.15)。
Router上需要将去往HostA路由的下一跳指定为VRRP备份组1的虚拟IP地址(此示例中为2.1.1.3)。
Router上需要将去往HostB路由的下一跳指定为VRRP备份组2的虚拟IP地址(此示例中为2.1.1.4)。
HostA上需要设置默认网关IP地址为VRRP备份组3的虚拟IP地址(此示例中为10.1.1.3)。
HostB上需要设置默认网关IP地址为VRRP备份组4的虚拟IP地址(此示例中为10.1.1.4)。
SwitchA需要将连接Device和Router的接口加入相同的VLAN。
SwitchB需要将连接Device和Host的接口加入相同的VLAN。
观察发现,两台防火墙的VRRP状态都为Backup。
(1)检查RBM控制通道连接是否正常,使用命令行displayremote-backup-groupstatus
RBM_P[M9012_1]disremote-backup-groupstatus
Remotebackupgroupinformation:
Backupmode:Dual-active
Devicemanagementrole:Primary
Devicerunningstatus:Active
Datachannelinterface:Route-Aggregation1023
LocalIP:30.24.0.1
RemoteIP:30.24.0.2Destinationport:60164
Controlchannelstatus:Connected
Keepaliveinterval:1s
Keepalivecount:10
Configurationconsistencycheckinterval:1hour
Configurationconsistencycheckresult:Consistent(2020-12-1710:55:15)
Configurationbackupstatus:Autosyncenabled
Sessionbackupstatus:Hotbackupenabled
Delay-time:1min
Controlchannelstatus如果显示为Connected则表示正常。如果显示未disconnected,则表示状态断连,需要检查RBM控制通道使用的接口的物料状态。
(2)检查业务板是否为选中状态,使用命令行displaylink-aggregationverboseBlade-Aggregation
RBM_P[M9012_1]dislink-aggregationverboseBlade-Aggregation
LoadsharingType:Shar--Loadsharing,NonS--Non-Loadsharing
PortStatus:S--Selected,U--Unselected,I--Individual
Port:A--Autoport
Flags:A--LACP_Activity,B--LACP_Timeout,C--Aggregation,
D--Synchronization,E--Collecting,F--Distributing,
G--Defaulted,H--Expired
AggregateInterface:Blade-Aggregation1
AggregationMode:Static
LoadsharingType:Shar
PortStatusPriorityOper-Key
--------------------------------------------------------------------------------
Blade4/0/1S327684
Blade7/0/1S327684
AggregateInterface:Blade-Aggregation257
Blade4/0/2S327685
Blade7/0/2S327685
Blade引擎口状态为S则表示正常。如果所有引擎口状态都为U,或者无引擎口显示,请排查业务引擎版状态。
(3)如果上述都没有发现问题,但是两台防火墙的VRRP状态都为BackUP,请联系技术支持人员。
图11组网图
外网设备通过防火墙访问sever,防火墙上开启攻击防范业务,保护内网server免受攻击。
配置攻击防范策略,对fin的泛洪进行检测
attack-defensepolicy1
fin-flooddetectnon-specific
fin-floodactionloggingdropclient-verify
在入方向安全域下应用攻击防范策略
security-zonenameUntrust
attack-defenseapplypolicy1
外网用户向server发起fin的泛洪攻击,防火墙设备没有报日志,流量也没有转发出去。
(1)首先排查配置问题,攻击防范策略是否配置在入方向的安全域上,对于fin的攻击是否进行配置。
(2)使用命令行displayattack-defensemalformed-packetstatistics排查是否是畸形报文丢包了。(fin是畸形报文的一种)
(3)检查流量进来的目的地址是否唯一,对于唯一的目的地址的阈值是否达到阈值门限
(4)如果上述都没有发现问题,请联系技术支持人员。
displayattack-defensepolicy{name}
显示攻击防范配置
displayattack-defensestatisticssecurity-zone{zone}
显示攻击防范丢包统计
displayblacklist{ip|ipv6}
显示黑名单统计
图12组网图
PC访问Internet的流量由PC---Switch---Internet进行转发,T9012-S旁挂在交换机上并接收镜像流量做IPS处理,这种组网为最常见的旁挂部署方式。
配置交换机镜像组和镜像源目的接口;
配置IDS设备inline黑洞模式的Bridge实例并添加接口;
配置安全域并添加接口;
安全策略中引用IPS策略;
displaysessiontableipv4verbose
查看设备是否存在会话,以及会话是否正常,主要从会话状态,应用,以及是否是单向流判断。
SourceIP/port:8:7:6:5:4:3:2:2/6158
DestinationIP/port:1:2:3:4:5:6:7:7/110
VPNinstance/VLANID/InlineID:-/-/-
Inboundinterface:Ten-GigabitEthernet2/2/0/10
Sourcesecurityzone:Untrust
SourceIP/port:1:2:3:4:5:6:7:7/110
DestinationIP/port:8:7:6:5:4:3:2:2/6158
Inboundinterface:Ten-GigabitEthernet2/2/0/9
Sourcesecurityzone:Trust
State:TCP_ESTABLISHED//如果状态有问题,三次握手不全,无法检测,无法产生ips日志
Application:POP3//如果应用不识别,无法产生ips日志
RuleID:0
Rulename:v6
Starttime:2018-12-2718:49:14TTL:1199s
Initiator->Responder:5packets406bytes
Responder->Initiator:4packets303bytes
//如果是单向流,特征不完全,检测失败,无法产生ips日志
displaycountersrateinboundinterface
判断相应接口是否有流量被镜像过来,如果没有,需检查交换机镜像配置。
displaysysteminternalippacket-dropstatistics
displaysysteminternalaspfstatisticszone-pairipv4
有些环境因为配置等问题,报文还未走到DPI模块就被丢弃了,自然无法产生IPS日志。
这种情况多数为交换机镜像过来的正反向报文没有从同一个物理口或逻辑口进入设备,需要注意黑洞模式的接口对配置。
会话正常的情况下,查看license和特征库版本,displaysecurity-policyip,查看安全策略配置,确认内容安全是否引用了ips策略,以及安全策略的命中情况,以确保流量是命中了开启内容安全的那条安全策略。
displayinspectstatus
查看是否处于bypass状态,当处于bypass状态时,设备不做dpi检测。
disinspectstatus
Chassis1Slot0:
Runningstatus:normal
displaysysteminternalinspecthit-statistics
确认报文是否经过DPI检测,如下所示,设备进行了DPI检测,但是报文仅仅命中部分AC,没有完整命中特征,所以不会产生日志。Rulehits下不为0时,表示有报文命中了规则。
RuleIDModuleRulehitsAChitsPCREtryPCREhits
1855IPS0100
FW设备上行或下行接口故障,但是流量仍然上送到本设备,RBM未进行切换。
分别登陆两台设备查看RBM详细配置,RBM默认会检测本框中业务板的个数,但是接口类故障需要手工配置track检测。
配置主:
track1interfaceRoute-Aggregation1
track2interfaceRoute-Aggregation11
RBM_P[M9016_1-remote-backup-group]displaythis
remote-backupgroup
backup-modedual-active
data-channelinterfaceRoute-Aggregation1000
delay-time1
adjust-costbgpenableabsolute10000
adjust-costospfenableabsolute10000
adjust-costospfv3enableabsolute10000
track1
track2
local-ip192.168.195.9
remote-ip192.168.195.10
device-roleprimary
配置备:
RBM_S[M9016_2-remote-backup-group]displaythis
local-ip192.168.195.10
remote-ip192.168.195.9
device-rolesecondary
RBM检测track的状态(通过displaytrackall命令查询),当track的结果为positive时,RBM认为本机状态正常;当track结果为negative时,RBM模块认为本机异常触发RBM切换,进而调整相应的路由开销,引导流量全部走到另外一台FW设备。
初始开局时,确保两台FW的RBM中绑定track,并增加路由开销联动。RBM中的配置不会同步,每台FW需分别手动添加。
RBM_P[M9016_1]%Dec1714:25:43:1912020M9016_1RBM/6/RBM_CFG_COMPARE_START:Startedconfigurationconsistencycheck.
%Dec1714:25:44:7752020M9016_1RBM/6/RBM_CFG_COMPARE_RESULT:Thefollowingmoduleshaveinconsistentconfiguration:acl.
%Dec1714:25:44:7752020M9016_1RBM/6/RBM_CFG_COMPARE_FINISH:Finishedconfigurationconsistencycheck.
首先根据告警提示信息检查对应模块不一致的地方,例如系统检测到acl模块存在差异,建议比对当前两台FW的acl配置,存在2种情况:
配置备上存在acl3000,配置主上没有,
1)若确认acl3000需要保留,直接在配置主上增加acl3000,系统自动进行配置同步,然后保存2台设备的配置
2)若确认acl3000无需保留,在配置主上执行configurationmanual-sync命令,系统自动进行配置同步,配置备acl3000自动删除,然后保存2台设备的配置
配置主上存在acl3000,配置备上没有
1)若确认acl3000需要保留,在配置主上执行configurationmanual-sync命令,系统自动进行配置同步,然后保存2台设备的配置
2)若确认acl3000无需保留,在配置主上删除acl3000,并执行configurationmanual-sync命令,系统自动进行配置同步,然后保存2台设备的配置
PC1访问PC2。在M9000上,通过IPv4到IPv6源地址静态转换策略,为目的IPv4地址指定一个对应的IPv6地址23::1。PC1访问该IPv6地址便可以访问PC2。
对于PC1,通过IPv6到IPv4的源地址动态转换策略,将IPv6发送过来的IPV6报文源地址转换为IPv4地址30.30.40.100。
aclipv6number2000
rule0permitsource1:1::1/128
aftaddress-group0
address30.30.40.10030.30.40.100
aftv6tov4sourceaclipv6number2000address-group0
aftv4tov6source1.1.1.123::1
interfaceRoute-Aggregation10.900
aftenable
interfaceRoute-Aggregation10.901
AFT不能正常转换或者AFT转换的报文不能正常转发。
Displayaftconfiguration查看设备上AFT的配置。在M9000上,流量入接口和出接口都需要开启aft功能(aftenable)。
[H3C]disaftconfiguration
AFTALG:
DNS:Enabled
FTP:Enabled
HTTP:Enabled
ICMP-ERROR:Enabled
RTSP:Enabled
SIP:Enabled
Dec1615:08:22:6972020H3CAFT/7/COMMON:-Slot=6.1;
PACKET:(Route-Aggregation10.900)Protocol:UDP
1.1.1.1/69-30.30.40.100/1128(VPN:0)------>
23::1/69–1:1::1/35017(VPN:0)
或
Dec1615:09:13:6962020H3CAFT/7/COMMON:-Slot=6.1;
PACKET:(Route-Aggregation10.901)Protocol:UDP
1:1::1/6677-23::1/5060(VPN:0)------>
30.30.40.100/1149-1.1.1.1/5060(VPN:0)
注:如果以上信息,表示IPv4和IPv6已经进行了AFT转换。
[H3C-probe]dissysteminternalopenflowinstanceinner-redirectflow-table
Flowentry3305information:
cookie:0x0,priority:5045,hardtime:0,idletime:0,flags:check_overlap
Inputinterface:RAGG10
VLANID:900,mask:0xfff
IPRange:IPv4destinationaddressfrom30.30.40.100to30.30.40.100
Group:4026531857
Flowentry3306information:
VLANID:4094,mask:0xfff
Flowentry3307information:
cookie:0x0,priority:5080,hardtime:0,idletime:0,flags:check_overlap
IPv4sourceaddress:1.1.1.1,mask:255.255.255.255
Group:4026531865
Flowentry3308information:
cookie:0x0,priority:5085,hardtime:0,idletime:0,flags:check_overlap
IPv4destinationaddress:1.1.1.1,mask:255.255.255.255
Flowentry3309information:
cookie:0x0,priority:7085,hardtime:0,idletime:0,flags:check_overlap
IPv6destinationaddress:23::1
IPv6destinationaddressmask:FFFF:FFFF:FFFF:FFFF:FFFF:FFFF:FFFF:FFFF
Flowentry3310information:
图13组网图
单板出现异常重启或者下电
查看diagfile.log日志
查看设备diagfile.log日志,如果有单板间的hg口故障日志,表明单板间的内联口出现故障,而裁决单板重启,若单板重启后,内联口恢复正常,将日志发给技术支持人员进行分析。
%@12527^Dec1916:10:56:9062020M9kDRV/3/HG_MONITOR_PORT_ERROR:-Chassis=1-Slot=10;Chassis1Slot10Unit0Port3toChassis1Slot3Unit0Port1:Thesourceportwentdown.
%@12528^Dec1916:10:56:6402020M9kDRV/3/HG_MONITOR_PORT_ERROR:-Chassis=1-Slot=13;Chassis1Slot13Unit0Port3toChassis1Slot3Unit0Port8:Thesourceportwentdown.
%@12529^Dec1916:10:57:3762020M9kDRV/3/HG_MONITOR_PORT_ERROR:-Chassis=1-Slot=11;Chassis1Slot11Unit0Port3toChassis1Slot3Unit0Port3:Thesourceportwentdown.
%@12530^Dec1916:10:56:7402020M9kDRV/3/HG_MONITOR_PORT_ERROR:-Chassis=1-Slot=12;Chassis1Slot12Unit0Port3toChassis1Slot3Unit0Port6:Thesourceportwentdown.
%@12554^Dec1916:11:11:9592020M9kDRV/3/FAULT_MONITOR_BITMAP:
FaultPhySlotList:3
FaultReasonBitMap:
slot:01234567891011121314151617
-----------------------------------------------------
Fabric1:555255555555555555
Fabric2:555255555555555555
Fabric3:555255555555555555
Fabric4:555255555555555555
IOboard:555555555555555555
FaultReason:0-RFCS,1-RERPKT,2-DOWN,3-UNRESP,4-1bit,5-NORMAL
%@12555^Dec1916:11:11:9602020M9kDRV/3/FAULT_MONITOR_REBOOT:Chassis1Slot3:Thecardwillberestartedduetoahardwarefailure.
查看logfile.log日志
查看设备logfile.log日志,如果有单板间的hg口故障日志,表明单板间的内联口出现故障,而裁决单板重启,若单板重启后,内联口恢复正常,将日志发给技术支持人员进行分析。
%@4387931%Dec1916:10:56:9062020M9kDRV/3/HG_MONITOR_PORT_ERROR:-Chassis=1-Slot=10;Chassis1Slot10Unit0Port3toChassis1Slot3Unit0Port1:Theconnectivityoftheinternalportfailed.
%@4387932%Dec1916:10:56:6402020M9kDRV/3/HG_MONITOR_PORT_ERROR:-Chassis=1-Slot=13;Chassis1Slot13Unit0Port3toChassis1Slot3Unit0Port8:Theconnectivityoftheinternalportfailed.
%@4387933%Dec1916:10:57:3762020M9kDRV/3/HG_MONITOR_PORT_ERROR:-Chassis=1-Slot=11;Chassis1Slot11Unit0Port3toChassis1Slot3Unit0Port3:Theconnectivityoftheinternalportfailed.
%@4387934%Dec1916:10:56:7402020M9kDRV/3/HG_MONITOR_PORT_ERROR:-Chassis=1-Slot=12;Chassis1Slot12Unit0Port3toChassis1Slot3Unit0Port6:Theconnectivityoftheinternalportfailed.
%@4387947%Dec1916:11:11:9602020M9kDRV/3/FAULT_MONITOR_REBOOT:Chassis1Slot3:Thecardwillberestartedduetoahardwarefailure.
%@4387948%Dec1916:11:12:1512020M9kDEV/2/BOARD_STATE_FAULT:BoardstatechangedtoFaultonchassis1slot3,typeisNSQM1FWEFGA0.
查看设备diagfile.log日志,如果半小时内出现3次单板间的hg口故障而导致到重启,最后出现“Thecardwillbeisolatedduetoahardwarefailure”日志时,表明单板间的内联口出现故障并且无法通过重启恢复,而裁决单板下电隔离,此时可查看日志将hg口故障涉及到单板进行更换,并将日志发给技术支持人员进行分析。
%@12574^Dec1917:15:53:0912020M9kDRV/3/HG_MONITOR_PORT_ERROR:-Chassis=1-Slot=10;Chassis1Slot10Unit0Port3toChassis1Slot3Unit0Port1:Thesourceportwentdown.
%@12584^Dec1917:23:57:0022020M9kDRV/3/HG_MONITOR_PORT_ERROR:-Chassis=1-Slot=10;Chassis1Slot10Unit0Port3toChassis1Slot3Unit0Port1:Thesourceportwentdown.
%@12605^Dec1917:32:34:0012020M9kDRV/3/HG_MONITOR_PORT_ERROR:-Chassis=1-Slot=10;Chassis1Slot10Unit0Port3toChassis1Slot3Unit0Port1:Thesourceportwentdown.
%@12615^Dec1917:32:54:9962020M9kDRV/3/FAULT_MONITOR_BITMAP:
FaultPhySlotList:10
Fabric2:555555555555555555
Fabric3:555555555555555555
Fabric4:555555555555555555
%@12616^Dec1917:32:54:9962020M9kDRV/3/FAULT_MONITOR_ISOLATE:Chassis1Slot10:Thecardwillbeisolatedduetoahardwarefailure.
查看设备logfile.log日志,如果半小时内出现3次单板间的hg口故障而导致到重启,最后出现“Thecardwillbeisolatedduetoahardwarefailure”日志时,表明单板间的内联口出现故障并且无法通过重启恢复,而裁决单板下电隔离,此时可查看日志将hg口故障涉及到单板进行更换,并将日志发给技术支持人员进行分析。
%@4388208%Dec1917:15:40:3452020M9kDRV/3/HG_MONITOR_PORT_ERROR:-Chassis=1-Slot=10;Chassis1Slot10Unit0Port3toChassis1Slot3Unit0Port1:Theconnectivityoftheinternalportfailed.
%@4388291%Dec1917:23:57:0022020M9kDRV/3/HG_MONITOR_PORT_ERROR:-Chassis=1-Slot=10;Chassis1Slot10Unit0Port3toChassis1Slot3Unit0Port1:Theconnectivityoftheinternalportfailed.
%@4388385%Dec1917:32:34:0012020M9kDRV/3/HG_MONITOR_PORT_ERROR:-Chassis=1-Slot=10;Chassis1Slot10Unit0Port3toChassis1Slot3Unit0Port1:Theconnectivityoftheinternalportfailed.
%@4388389%Dec1917:32:54:9962020M9kDRV/3/FAULT_MONITOR_ISOLATE:Chassis1Slot10:Thecardwillbeisolatedduetoahardwarefailure.
(1)如果是主备倒换导致电子标签丢失,因为主备倒换需要重启设备,可以通过locallogbuf(locallogbuffer是驱动记录的底层信息)日志查看异常情况。
[B-probe]locallogbuffer10display查看到异常打印信息
举例说明,日志异常打印:
Sep08202016:54:36:488937:
LINE:152-TASK:ofpd-FUNC:BSP_E2PROM_Read_OnSelec:
getI2CMutexSem1fail.
Sep08202016:54:36:596761:
LINE:2077-TASK:TEMP-FUNC:drv_sysm_get_power_size_75X:
Sep08202016:54:37:489907:
LINE:5780-TASK:ofpd-FUNC:DRV_SYSM_SysGetManufactureInfo:
Infunction:BSP_E2PROM_Read_OnSelec,Readmanualinfoerror
Sep08202016:54:37:489967:
LINE:6089-TASK:ofpd-FUNC:DRV_SYSM_ManuInfoResolve:
ReadmanufactureinformationFail!
Sep08202016:54:37:490005:
LINE:12303-TASK:ofpd-FUNC:DRV_DEVM_GetManuInfo:
getchassismanuinfofailed!
在电子标签读取失败的情况下,查询上述日志信息后,请将搜集到的信息发送给H3C技术支持人员分析。
#显示设备的电子标签信息。(分布式设备-独立运行模式)(集中式IRF设备)
Slot1CPU0:
DEVICE_NAME:XXXX
DEVICE_SERIAL_NUMBER:XXXXXXXXXXXXXXXXXXXX
MAC_ADDRESS:XXXX-XXXX-XXXX
MANUFACTURING_DATE:XXXX-XX-XX
VENDOR_NAME:H3C
PRODUCTID:XX-XXXX-XX
Subslot1:
Fan1:
DEVICE_SERIAL_NUMBER:XXXXXXXXXX
Fan2:
Power1:
表14表1-9displaydevicemanuinfo命令信息显示描述表
表示设备的电子标签信息,包括:
·DEVICE_NAME:表示设备的名称
·DEVICE_SERIAL_NUMBER:表示设备的序列号
·MAC_ADDRESS:表示设备出厂MAC地址
·MANUFACTURING_DATE:表示设备的调测日期
·VENDOR_NAME:表示设备制造商的名称
·PRODUCTID:表示产品代码
表示子卡的电子标签信息
表示风扇的电子标签信息
表示电源的电子标签信息
高端防火墙设备M9000系列可以通过任一视图下displaydevice、disversion和probe视图下displaysysteminternalversion查看状态正常的设备的版本情况。
设备的主控版本、业务版本都应该取自相同的版本路径。否则会导致主控、业务板卡版本不一致,使得业务板卡fault状态(比如主控取45SP分支版本,业务板取32SP分支版本,业务板会fault启动不了)
如果主控、业务板卡取的分支不同导致板卡fault,启动不了,会有两种情况。一种是板卡一直fault,板卡一直在重启状态;一种是板卡fault卡住不动。针对上述情况,bootlooder和web升级版本解决问题不在适用,只能通过bootware(Ctrl+B)方式升级版本解决板卡fault问题。板卡fault卡住不动需要插拔板卡让板卡重启,手动连续按Ctrl+B,使得板卡进入bootware升级界面,通过bootware方式升级版本解决板卡fault问题。