一、切换的定义及划分
所谓切换,就是指当移动台在通话过程中从一个基站覆盖区移动到另一个基站覆盖区,或者由于外界干扰而造成通话质量下降时,必须改变原有的语音信道而转接到一条新的空闲语音信道上去,以继续保持通话的过程。 切换根据手机和基站测出的上下行电平质量和TA 值作为最基本的测量数据,根据切换判断算法和资源分配算法来决定是否应该切换和切向哪个小区。切换是移动通信系统中一项非常重要的技术,切换失败会导致通话失败,影响网络的运行质量。因此,切换成功率(包括切入和切出)是网络考核的一项重要指标,如何提高切换成功率、降低切换失败率是网络优化的重点工作之一。
根据不同的切换判决触发条件,切换可以分为紧急切换、负荷切换等5类。
(1)紧急切换。包括TA 过大紧急切换、质量差(BQ )紧急切换、快速电平下降紧急切换、干扰切换。
●TA过大切换条件:服务小区的TA 大于等于紧急切换TA 限制。
●BQ切换条件:服务小区的上行链路质量在滤波器长度时间内平均值大于等于紧急切换上行链路质量限制;服务小区的下行链路质量在滤波器长度时间内平均值大于等于紧急切换下行链路质量限制。
●快速电平下降切换在呼叫中电平突然下降时触发,触发条件:服务小区如果Value >B (Value :一个与滤波器参数A1~A8相关的值,该值表示在一段时间内接收电平的变化趋势;B :滤波器参数)切换最后的MR6已经低于边缘切换门限,则发生切换。 ●干扰切换:也属于紧急切换,当接收电平大于一定值但传输质量又低于干扰切换质量门限时触发。
(2)负荷切换。负荷切换触发要同时满足三个条件:系统信令流量小于允许负荷切换系统流量级别门限;需要切换的小区负荷高于负荷切换启动门限;接收切换的小区的负荷低于负荷切换接收门限。
(3)正常切换。包括边缘切换、分层分级切换和PBGT 切换。
●边缘切换条件:服务小区已低于边缘切换门限;在边缘切换统计时间(如5 s)内,服务小区电平持续低于边缘切换门限(如4 s)。
●分层分级切换:在不同层或同层不同优先级之间才有层间切换,同层同级之间没有层间切换。触发条件是邻小区电平值高于层间切换门限和磁滞之和,对服务小区电平值没有要
求;邻区排在服务小区之前,且优先级比服务小区更高,邻区电平值大于等于层间切换门限和层间切换磁滞之和;满足P/N判决,如5 s内有4 s始终处于最好;边缘切换和层间切换只能选一个,它先判断是否触发边缘切换,再判断是否触发层间切换。
●PBGT切换算法是基于路径损耗的切换。PBGT 切换算法实时地寻找是否存在一个路径损耗更小并且满足一定系统要求的小区,并判断是否需要进行切换。不同层没有PBGT 切换。PBGT 切换至少带来了如下好处:解决了越区覆盖问题;减少了双频切换的次数;使话务引导和控制有更灵活的手段;始终能为用户提供当前最好的服务质量。PBGT 和其他切换算法的最大区别在于它能以路径损耗而不是接收功率作为切换的触发条件。为了避免乒乓切换,PBGT 只在同层同级的小区之间进行切换,邻近小区的路径损耗小于服务小区路径损耗一定的门限值。PBGT 切换的触发准则:邻区排在服务小区之前,在一定的统计时间内满足P/N准则。
(4)速度敏感性切换(快速移动切换)。在一定时间门限里达到快速移动小区实际个数时,认为是快速移动,就会切换到宏小区上去(第4层),并且对原有小区在惩罚时间里给予电平惩罚。
(5)同心圆切换。可以实现外圆的广覆盖和内圆的频率紧密复用,能够提高系统容量和通话质量。可以根据手机下行接收电平、质量和TA 值来区分内圆和外圆。
同心圆切换的相关参数如下:
●内外圆信号强度差异(dB ):内圆进行功率补偿的值。
●接收电平门限(dB m):与接收电平磁滞、TA 门限、TA 磁滞共同决定内外圆区域,必须大于边缘切换门限值。
●接收电平磁滞(dB ):与接收电平门限、TA 门限、TA 磁滞共同决定内外圆区域。 ●TA门限:与接收电平门限、接收电平磁滞、TA 磁滞共同决定内外圆区域,必须大于TA 紧急切换门限值。
●TA磁滞:与接收电平门限、接收电平磁滞、TA 门限共同决定内外圆区域。 ●同心圆切换统计时间(s ):同心圆切换也需要满足P/N判决,建议取5 s。 ●同心圆切换持续时间(s ):P/N判决持续时间,建议取4 s。
二、切换失败的原因分析
切换失败引起掉话的原因虽然比较复杂,但只要能对整个切换过程有一个完整的、正
确的认识,问题就不难解决了。一般,我们可以通过以下三个步骤进行分析:
(1)从MSC 、BSC 告警中获得网络不正常的信息。在因相邻小区数据配置有误或邻区的BCCH 、BCC (基站收发台色码)、LAC (位置区码)等设置不对而造成切换失败掉话时,都会在MSC 及BSC 中产生相应的告警。因此,可以应该经常查看MSC 、BSC 中的告警记录,找出问题存在的原因。
(2)对OMC 的统计信息进行分析来发现不正常的原因。基站切换失败偏高,有时在MSC 及BSC 中并无告警信息,这时可以通过对OMC 中的数据进行分析来发现问题。通过对OMC 中的数据进行分析,可以发现某些基站存在的隐性问题(如TRX 、RTX 等的隐性障碍,天线等硬件问题),从而找出问题之所在,达到网络优化的目的。
(3)借助无线场强测试仪的测试来判断切换失败的原因。在一般情况下,应该对目标小区周边进行较大范围的测试,通过实地路测,可获得基站的覆盖情况及切换情况,从而得到某些OMC 所不能提供的信息。在实测时,特别要把那些与目标小区有切换拓扑关系而拥塞率又较高的小区作为测试的重点,然后通过对测试结果的分析,判断切换失败的原因,从而找出解决问题的办法。
当失败率高涉及到切换问题时,应抓住切换及切换失败的原因作为突破点,进而找出解决问题的办法。一般而言,由于切换是在小区及基站之间发生的,因此本小区的失败有可能是因为与相邻小区之间的切换设置不合理造成的。如果是这种原因,则应及时修改切换参数,同时需要检查小区周围是否有盲区存在;如果是由于网络存在漏覆盖区或盲区而导致的切换失败,则可以通过增加新基站或扩大原有基站的覆盖范围予以解决;对于因频率设置不合理而导致的切换失败,可根据实测情况适当修改小区的频率参数;对于那些由于话务量不均衡,使忙时因目标基站无空闲信道而产生的切换失败,可以根据实际话务量的情况,通过修改或增加基站配置或者扩大原有基站的覆盖范围等办法予以解决。
下面从路测角度来分析日常工作中会遇到的切换失败的现象,并分析造成各种现象的原因以及相应的处理办法。
总的来说,在遇到切换失败事件时首先应该从HO_FAILURE消息中查找切换失败的原因解释(Cause value), 有些切换失败是可以直接查到切换失败原因的(可以详查GSM 规范)。但对于有些Cause value,如Cause value111(Protocol error,unspecified )、Cause value 3(Abnormal release,timer expired)等就无法定位具体原因。对于这些情况,我们就应该再进一步的对信令流程、多种测量参数、统计报告以及测试现场的环境等进行综合的分析,
从而进一步确定切换失败原因。下面的大部分篇幅的分析解决办法都是基于这些无法定位具体原因的Cause value。
①、连续的切换失败
测试中我们有时会遇到这样的情况:接连不断的出现切换失败,当测试工程师继续驱车向前行驶时,就可能导致拖带掉话。从系统下行发送的
Handover_Command消息中我们可以发现,目标小区都是同一个小区(或同一个基站的不同小区)。此种现象一般都和基站或传输设备的时钟故障有关,但也有可能是同频同BISC 的小区造成的。
②、单独出现的切换失败
如上所述,面对连续的切换失败时,我们的目标比较明确,而且基本上都是与时钟等硬件有关,比较容易发现问题,也比较好解决。而实际工作中,却存在着偶尔单独出现的切换失败现象。出现这种现象的原因却是多种多样,我们在这一节中将针对不同的现象分析不同的原因,值得注意的是,虽然大多数单独出现的切换失败现象很相似,但通过对信令的分析(时间、帧号、信令内容等),就会找出切换失败的具体原因。带着这个思路我们来看下面的介绍。
1)连续多个下行Physical Information,超过系统设置造成失败
实例:马家堡DCS1
现象:从Handover_Command到系统下行发第一个Physical Information正常,因此软件认为切换成功,发送HO_Complete消息。但1.05秒后又上行发送HandoverFailure 消息。
分析:首先看Handover Failure中的Cause Value=111(Protocol error,unspecified)无法证实具体失败原因。随后再对该地区的频率规划进行了核查,未发现有频率干扰。在OMC 端也未发现传输和基站硬件的告警信息。但在2层消息中我们可以看出,从Handover_Access后上行发送的SABM 消息一直没有得到UA_RSP消息的响应,造成LAPDm 信令重发T200×(N200+1)超时,致使切换失败。 Layer2&Layer3信令流程如下
FrameNO. UL/DL Layer Message Type Info in Message Time
1 2364048 DL 2 I-CMD HO_Command 14'48"10.94
2 2364049 DL 3 HO_Command 14'48"10.94
3 1946551 UL 2 RR-RSP 14'48"10.80
4 1946555 UL 3 HO_Access 14'48"10.83
5 1946580 DL 3 Physical_Info TA=1 14'48"10.94
6 1946580 UL 3 HO_Complete 14'48"10.94
7 1946582 UL 2 SABM-CMD 14'48"10.95
8 1946593 DL 3 Physical_Info TA=1 14'48"11.00
9 1946606 DL 3 Physical_Info TA=1 14'48"11.06
10 1946619 DL 3 Physical_Info TA=1 14'48"11.13
11 1946621 UL 2 SABM-CMD 14'48"11.13
12 1946632 DL 3 Physical_Info TA=1 14'48"11.19
13 1946645 DL 3 Physical_Info TA=1 14'48"11.25
14 1946658 DL 3 Physical_Info TA=1 14'48"11.31
15 1946660 UL 2 SABM-CMD 14'48"11.32
16 1946671 DL 3 Physical_Info TA=1 14'48"11.37
17 1946684 DL 3 Physical_Info TA=1 14'48"11.43
18 1946697 DL 3 Physical_Info TA=1 14'48"11.49
19 1946699 UL 2 SABM-CMD 14'48"11.50
20 1946710 DL 3 Physical_Info TA=1 14'48"11.55
21 1946723 DL 3 Physical_Info TA=1 14'48"11.61
22 1946729 DL 3 System_Infor_6 14'48"11.64
23 1946736 DL 3 Physical_Info TA=1 14'48"11.67
24 1946738 UL 2 SABM-CMD 14'48"11.68
25 1946739 UL 3 MR null 14'48"11.68
26 1946749 DL 3 Physical_Info TA=1 14'48"11.73
27 1946762 DL 3 Physical_Info TA=1 14'48"11.79
28 1946775 DL 3 Physical_Info TA=1 14'48"11.85
29 1946777 UL 2 SABM-CMD 14'48"11.86
30 1946788 DL 3 Physical_Info TA=1 14'48"11.91
31 1946801 DL 3 Physical_Info TA=1 14'48"11.97
32 2364314 UL 3 HO_Failure 14'48"11.99
33 2364323 UL 2 SABM-CMD 14'48"12.04
34 2364347 DL 2 UA-RSP 14'48"12.15
35 2364349 UL 2 I-CMD HO_Failure 14'48"12.16
我们发现该小区的呼叫成功率和切换成功率均很低,怀疑为硬件有问题。在对硬件模块和天线的驻波比等参数进行检测未发现问题后,经过更换信道盘后该问题解决。说明是CTU 中某些功能模块出现故障。 该案例说明,在实际工作中的任何时候,我们都不能忽略硬件问题,尤其是在没有发现硬件告警的情况下,更需要通过超过常规手段的新办法来发现硬件问题。这样,除了能解决眼前的问题以外,还能为发现网络深层次问题和发现问题的新思路积累经验。
2)无下行physical information
A .同站不同小区之间将Synchronized Indicator置为True;
实例:北太平庄路口DCS
现象:测试工程师在北三环自西向东行驶,占用小区31047,随着继续行驶,TA 已经达到3,这时服务小区的覆盖电平已经降到-8xdBm ,Quality 也达到4、5级,但邻区覆盖电平并不高。后系统令手机向同站的31048发出切换命令,但切换失败。
分析:首先先看Handover_failure中的CauseValue =111。再分析信令流程:从HO_Access到HO_Complete之间无任何信令,原因是同站不同小区之间我们在邻区设置时,将默认同步值设为True ,因此,在切换时系统不会下行发送Physical Information,而手机在发送HO_Acces后也不会等待下行消息,不会触发T3124。如下表:
FrameNO. UL/DL Layer Message Type Info in Message Time
1 1707367 DL 2 I-CMD HO_command 15'39"12.62
2 1707370 UL 2 RR-RSP 15'39"12.64
3 1707372 DL 3 HO_Command 15'39"12.65
4 1707387 UL 3 HO_Access 15'39"12.71
5 1707391 UL 3 HO_Complete 15'39"12.73
6 1707396 UL 2 SABM-CMD 15'39"12.76
7 1707435 UL 2 SABM-CMD 15'39"12.94
8 1707474 UL 2 SABM-CMD 15'39"13.12
9 1707514 UL 2 SABM-CMD 15'39"13.30
10 1707544 DL 2 DM-RSP SAPI=3 15'39"13.44
11 1707552 UL 2 SABM-CMD 15'39"13.48
12 1707593 UL 2 SABM-CMD 15'39"13.67
13 1707656 UL 3 HO_Failure 15'39"13.96
14 1707663 UL 2 SABM-CMD 15'39"13.99
15 1707692 DL 2 UA-RSP 15'39"14.12
16 1707694 UL 2 I-CMD HOF 15'39"14.13
17 1707718 DL 2 RR-RSP 15'39"14.24
18 1708634 DL 2 DM-RSP SAPI=3 15'39"18.47
但是为什么最后还是切换失败了呢?仔细研究2层消息,手机连续发送6条SABM 消息,等待接收UA-RSP 的连接确认消息,造成Um 接口的LAPDm 协议上的T200×(N200+1)超时是切换失败的原因。经过核查邻区关系,我们发现小区31047缺少东边一些相邻的邻区,造成只能回切至自己本站的2小区的现象,但由于距离太远,已经无法收到下行或上行的消息,造成了切换失败。
故障解决:加上适当邻区后该问题解决。
我们在下面的注解中将刚才提到的有关同步/非同步切换所涉及到的计时器介绍一下:
注:设置小区同步切换对切换流程的影响
⎫ 在邻区关系设为Non_Synchronized时,手机在发送HO_Access同时会启动T3124,在这个计时器期间未收到下行的Physical Information,便认为切换失败;收到Physical Information后T3124自动停止,这时会上行发送Layer 2 SABM消息,启动LAPDm 的T200和N200计时器,在T200×(N200+1)时间内未收到下行的UA-RSP 的确认消息就会发送切换失败消息。
⎫ 在邻区关系设为Synchronized 时,手机不会启动T3124计时器步骤,直接进入Layer2计时器阶段。
B .小区之间将Synchronized Indicator置为False;
在收到手机上报的HO_ACCESS消息后,从理论上基站是应该发出下行Physical Information的,但造成手机端未收到或未正确解码的原因有很多。这种情况下应当首先考虑硬件问题,比如信道盘、时钟、传输等。另外考虑是否有频率干扰的问题,由于干扰造成的上下行消息不能正确接受的影响范围很广,产生的原因也多种多样,所以有时不能单单从GI 分析软件(GSM Investigator,Motorola开发的优化工具)等方法中发现带内干扰,例如可能由于邻区不全造成拖带,从而造成与远处基站的干扰等等,这就要视具体情况而定。
3)三层消息中出现HO_Complete后手机再上行发送HO_Failure消息
实际上在GSM 规范中没有此类的规定,仅在用TEMS 测试中中发现此类现象。如果系统收到的手机上报的切换失败的消息后,会通知源小区进行拆线,空出原信道,这样手机切换失败后就不能回到原信道,从而造成切换掉话。但经过大量TEMS 的路测文件的分析,并没有出现上述的切换掉话现象,从这个角度说,我们可以认为这是软件问题,实际上系统并没有收到切换成功的消息。至于软件问题的具体原因,
Ericsson 公司还没有给出正面的答复。
实际我们可以参照第一种情况“连续多个下行Physical Information,超过系统设置造成失败”的解决办法。
4)其它可能出现的切换失败现象
除了以上所介绍的几种常见的切换失败的类型外,我们还可能遇到一些其它不常见的切换失败,这些都是GSM 规范中定义的切换失败类型,主要是系统设置出现问题,或手机不支持网络设置所致。
A .超过目标小区的最大服务距离,Cause: “handover impossible, timing advance out of range”(见GSM 规范04.08)
在小区设置时,可以设置小区的最大服务距离,参数以TA 为单位,最小可以设到0。该参数的目的有两个:1、控制小区用户起呼的范围,超过设置范围的用户将不能起呼;2、控制该小区的话务量,使得超过该小区设置范围的用户自动切出,另外“阻止”超过改设置范围的用户切入。
这样在Handover Failure中的Cause: "handover impossible, timing advance out of range"。在GSM 规范中规定在同步切换或预同步切换的时候,下行系统发送的HO_Command消息中包含了目标小区TA 设置为多大,由于手机会以源小区的TA 为基准向目标小区接入,当发现自己所用的TA 值超过目标小区的限制时,便会立即上行发送HO_Falure消息,并且Cause: "handover impossible, timing advance out of range"。
B . Cause: “frequency not implemented”(见GSM 规范04.08)
如果切换失败原因为Cause "frequency not implemented"时,说明有以下两种可能:一种是手机不能调谐到HANDOVER COMMAND消息中所包含的频率上,例如单频手机不能切到其他频段上,但此类现象只有在交换机上设置参数错误或出现故障时才可能发生,因为系统是会根据手机的类别来有针对性的发出切换命令的;另外一种原因是手机在收到的包含有Frenquency List的字节中包含有不同频段的频点。以上两种情况手机就会立即直接发送HANDOVER FAILURE消息,并保持使用原先的信道不变,返回系统的失败原因就是Cause "frequency not implemented"。
C .Cause: “channel mode unacceptable”
如果手机不支持HANDOVER COMMAND中提供的信道模式或者根本没有此类信道模式,手机就会立即发送HANDOVER FAILURE消息,并保持现有信道和信道模式。(详见GSM 规范04.08)
D .lower layer 信道建立失败造成切换失败
此类现象在实际工作中从未遇到过,但是规范中有此类原因的切换失败。(详见GSM 规范04.08)
E .目标小区要求加密、VGCS 等设置与源小区不同且在HO_Command中没有提及的;(见GSM 规范04.08)
5) Cause 3与Cause 111的对比
在日常工作中,我们使用的测试设备有两大类,一类是Ericsson 公司的TEMS 系列,这其中包括TEMS98,TEMS-Investigation2.0/3.0,TEMS-Automatic 等;一类是NEMO 公司的
NEMO-TOM/SAM系列。由于双方软件设计的一些不同,一些方面需要引起大家注意。最主要的在于信令流程中的差异。TEMS 中三层消息较全,另外还有二层消息,对于分析问题更加便利。相比而言TOM 的三层消息就比较少,有些重复发送的例如系统消息和测量报告就不会纪录下来,另外还没有二层消息。另外,我们发现在Ho_Failure中的Cause Value中也有这不同的判断,这一般体现在不明原因的切换失败上,在TEMS 中均为Cause111(Protocol error,unspecified),而在TOM 中则多为Cause3(timer expired )。因此,前文中Cause Value不明原因的切换失败是基于TEMS 的Cause111的,但在用TOM 测试的分析中,遇到的Cause Value3也同样适用。
一、切换的定义及划分
所谓切换,就是指当移动台在通话过程中从一个基站覆盖区移动到另一个基站覆盖区,或者由于外界干扰而造成通话质量下降时,必须改变原有的语音信道而转接到一条新的空闲语音信道上去,以继续保持通话的过程。 切换根据手机和基站测出的上下行电平质量和TA 值作为最基本的测量数据,根据切换判断算法和资源分配算法来决定是否应该切换和切向哪个小区。切换是移动通信系统中一项非常重要的技术,切换失败会导致通话失败,影响网络的运行质量。因此,切换成功率(包括切入和切出)是网络考核的一项重要指标,如何提高切换成功率、降低切换失败率是网络优化的重点工作之一。
根据不同的切换判决触发条件,切换可以分为紧急切换、负荷切换等5类。
(1)紧急切换。包括TA 过大紧急切换、质量差(BQ )紧急切换、快速电平下降紧急切换、干扰切换。
●TA过大切换条件:服务小区的TA 大于等于紧急切换TA 限制。
●BQ切换条件:服务小区的上行链路质量在滤波器长度时间内平均值大于等于紧急切换上行链路质量限制;服务小区的下行链路质量在滤波器长度时间内平均值大于等于紧急切换下行链路质量限制。
●快速电平下降切换在呼叫中电平突然下降时触发,触发条件:服务小区如果Value >B (Value :一个与滤波器参数A1~A8相关的值,该值表示在一段时间内接收电平的变化趋势;B :滤波器参数)切换最后的MR6已经低于边缘切换门限,则发生切换。 ●干扰切换:也属于紧急切换,当接收电平大于一定值但传输质量又低于干扰切换质量门限时触发。
(2)负荷切换。负荷切换触发要同时满足三个条件:系统信令流量小于允许负荷切换系统流量级别门限;需要切换的小区负荷高于负荷切换启动门限;接收切换的小区的负荷低于负荷切换接收门限。
(3)正常切换。包括边缘切换、分层分级切换和PBGT 切换。
●边缘切换条件:服务小区已低于边缘切换门限;在边缘切换统计时间(如5 s)内,服务小区电平持续低于边缘切换门限(如4 s)。
●分层分级切换:在不同层或同层不同优先级之间才有层间切换,同层同级之间没有层间切换。触发条件是邻小区电平值高于层间切换门限和磁滞之和,对服务小区电平值没有要
求;邻区排在服务小区之前,且优先级比服务小区更高,邻区电平值大于等于层间切换门限和层间切换磁滞之和;满足P/N判决,如5 s内有4 s始终处于最好;边缘切换和层间切换只能选一个,它先判断是否触发边缘切换,再判断是否触发层间切换。
●PBGT切换算法是基于路径损耗的切换。PBGT 切换算法实时地寻找是否存在一个路径损耗更小并且满足一定系统要求的小区,并判断是否需要进行切换。不同层没有PBGT 切换。PBGT 切换至少带来了如下好处:解决了越区覆盖问题;减少了双频切换的次数;使话务引导和控制有更灵活的手段;始终能为用户提供当前最好的服务质量。PBGT 和其他切换算法的最大区别在于它能以路径损耗而不是接收功率作为切换的触发条件。为了避免乒乓切换,PBGT 只在同层同级的小区之间进行切换,邻近小区的路径损耗小于服务小区路径损耗一定的门限值。PBGT 切换的触发准则:邻区排在服务小区之前,在一定的统计时间内满足P/N准则。
(4)速度敏感性切换(快速移动切换)。在一定时间门限里达到快速移动小区实际个数时,认为是快速移动,就会切换到宏小区上去(第4层),并且对原有小区在惩罚时间里给予电平惩罚。
(5)同心圆切换。可以实现外圆的广覆盖和内圆的频率紧密复用,能够提高系统容量和通话质量。可以根据手机下行接收电平、质量和TA 值来区分内圆和外圆。
同心圆切换的相关参数如下:
●内外圆信号强度差异(dB ):内圆进行功率补偿的值。
●接收电平门限(dB m):与接收电平磁滞、TA 门限、TA 磁滞共同决定内外圆区域,必须大于边缘切换门限值。
●接收电平磁滞(dB ):与接收电平门限、TA 门限、TA 磁滞共同决定内外圆区域。 ●TA门限:与接收电平门限、接收电平磁滞、TA 磁滞共同决定内外圆区域,必须大于TA 紧急切换门限值。
●TA磁滞:与接收电平门限、接收电平磁滞、TA 门限共同决定内外圆区域。 ●同心圆切换统计时间(s ):同心圆切换也需要满足P/N判决,建议取5 s。 ●同心圆切换持续时间(s ):P/N判决持续时间,建议取4 s。
二、切换失败的原因分析
切换失败引起掉话的原因虽然比较复杂,但只要能对整个切换过程有一个完整的、正
确的认识,问题就不难解决了。一般,我们可以通过以下三个步骤进行分析:
(1)从MSC 、BSC 告警中获得网络不正常的信息。在因相邻小区数据配置有误或邻区的BCCH 、BCC (基站收发台色码)、LAC (位置区码)等设置不对而造成切换失败掉话时,都会在MSC 及BSC 中产生相应的告警。因此,可以应该经常查看MSC 、BSC 中的告警记录,找出问题存在的原因。
(2)对OMC 的统计信息进行分析来发现不正常的原因。基站切换失败偏高,有时在MSC 及BSC 中并无告警信息,这时可以通过对OMC 中的数据进行分析来发现问题。通过对OMC 中的数据进行分析,可以发现某些基站存在的隐性问题(如TRX 、RTX 等的隐性障碍,天线等硬件问题),从而找出问题之所在,达到网络优化的目的。
(3)借助无线场强测试仪的测试来判断切换失败的原因。在一般情况下,应该对目标小区周边进行较大范围的测试,通过实地路测,可获得基站的覆盖情况及切换情况,从而得到某些OMC 所不能提供的信息。在实测时,特别要把那些与目标小区有切换拓扑关系而拥塞率又较高的小区作为测试的重点,然后通过对测试结果的分析,判断切换失败的原因,从而找出解决问题的办法。
当失败率高涉及到切换问题时,应抓住切换及切换失败的原因作为突破点,进而找出解决问题的办法。一般而言,由于切换是在小区及基站之间发生的,因此本小区的失败有可能是因为与相邻小区之间的切换设置不合理造成的。如果是这种原因,则应及时修改切换参数,同时需要检查小区周围是否有盲区存在;如果是由于网络存在漏覆盖区或盲区而导致的切换失败,则可以通过增加新基站或扩大原有基站的覆盖范围予以解决;对于因频率设置不合理而导致的切换失败,可根据实测情况适当修改小区的频率参数;对于那些由于话务量不均衡,使忙时因目标基站无空闲信道而产生的切换失败,可以根据实际话务量的情况,通过修改或增加基站配置或者扩大原有基站的覆盖范围等办法予以解决。
下面从路测角度来分析日常工作中会遇到的切换失败的现象,并分析造成各种现象的原因以及相应的处理办法。
总的来说,在遇到切换失败事件时首先应该从HO_FAILURE消息中查找切换失败的原因解释(Cause value), 有些切换失败是可以直接查到切换失败原因的(可以详查GSM 规范)。但对于有些Cause value,如Cause value111(Protocol error,unspecified )、Cause value 3(Abnormal release,timer expired)等就无法定位具体原因。对于这些情况,我们就应该再进一步的对信令流程、多种测量参数、统计报告以及测试现场的环境等进行综合的分析,
从而进一步确定切换失败原因。下面的大部分篇幅的分析解决办法都是基于这些无法定位具体原因的Cause value。
①、连续的切换失败
测试中我们有时会遇到这样的情况:接连不断的出现切换失败,当测试工程师继续驱车向前行驶时,就可能导致拖带掉话。从系统下行发送的
Handover_Command消息中我们可以发现,目标小区都是同一个小区(或同一个基站的不同小区)。此种现象一般都和基站或传输设备的时钟故障有关,但也有可能是同频同BISC 的小区造成的。
②、单独出现的切换失败
如上所述,面对连续的切换失败时,我们的目标比较明确,而且基本上都是与时钟等硬件有关,比较容易发现问题,也比较好解决。而实际工作中,却存在着偶尔单独出现的切换失败现象。出现这种现象的原因却是多种多样,我们在这一节中将针对不同的现象分析不同的原因,值得注意的是,虽然大多数单独出现的切换失败现象很相似,但通过对信令的分析(时间、帧号、信令内容等),就会找出切换失败的具体原因。带着这个思路我们来看下面的介绍。
1)连续多个下行Physical Information,超过系统设置造成失败
实例:马家堡DCS1
现象:从Handover_Command到系统下行发第一个Physical Information正常,因此软件认为切换成功,发送HO_Complete消息。但1.05秒后又上行发送HandoverFailure 消息。
分析:首先看Handover Failure中的Cause Value=111(Protocol error,unspecified)无法证实具体失败原因。随后再对该地区的频率规划进行了核查,未发现有频率干扰。在OMC 端也未发现传输和基站硬件的告警信息。但在2层消息中我们可以看出,从Handover_Access后上行发送的SABM 消息一直没有得到UA_RSP消息的响应,造成LAPDm 信令重发T200×(N200+1)超时,致使切换失败。 Layer2&Layer3信令流程如下
FrameNO. UL/DL Layer Message Type Info in Message Time
1 2364048 DL 2 I-CMD HO_Command 14'48"10.94
2 2364049 DL 3 HO_Command 14'48"10.94
3 1946551 UL 2 RR-RSP 14'48"10.80
4 1946555 UL 3 HO_Access 14'48"10.83
5 1946580 DL 3 Physical_Info TA=1 14'48"10.94
6 1946580 UL 3 HO_Complete 14'48"10.94
7 1946582 UL 2 SABM-CMD 14'48"10.95
8 1946593 DL 3 Physical_Info TA=1 14'48"11.00
9 1946606 DL 3 Physical_Info TA=1 14'48"11.06
10 1946619 DL 3 Physical_Info TA=1 14'48"11.13
11 1946621 UL 2 SABM-CMD 14'48"11.13
12 1946632 DL 3 Physical_Info TA=1 14'48"11.19
13 1946645 DL 3 Physical_Info TA=1 14'48"11.25
14 1946658 DL 3 Physical_Info TA=1 14'48"11.31
15 1946660 UL 2 SABM-CMD 14'48"11.32
16 1946671 DL 3 Physical_Info TA=1 14'48"11.37
17 1946684 DL 3 Physical_Info TA=1 14'48"11.43
18 1946697 DL 3 Physical_Info TA=1 14'48"11.49
19 1946699 UL 2 SABM-CMD 14'48"11.50
20 1946710 DL 3 Physical_Info TA=1 14'48"11.55
21 1946723 DL 3 Physical_Info TA=1 14'48"11.61
22 1946729 DL 3 System_Infor_6 14'48"11.64
23 1946736 DL 3 Physical_Info TA=1 14'48"11.67
24 1946738 UL 2 SABM-CMD 14'48"11.68
25 1946739 UL 3 MR null 14'48"11.68
26 1946749 DL 3 Physical_Info TA=1 14'48"11.73
27 1946762 DL 3 Physical_Info TA=1 14'48"11.79
28 1946775 DL 3 Physical_Info TA=1 14'48"11.85
29 1946777 UL 2 SABM-CMD 14'48"11.86
30 1946788 DL 3 Physical_Info TA=1 14'48"11.91
31 1946801 DL 3 Physical_Info TA=1 14'48"11.97
32 2364314 UL 3 HO_Failure 14'48"11.99
33 2364323 UL 2 SABM-CMD 14'48"12.04
34 2364347 DL 2 UA-RSP 14'48"12.15
35 2364349 UL 2 I-CMD HO_Failure 14'48"12.16
我们发现该小区的呼叫成功率和切换成功率均很低,怀疑为硬件有问题。在对硬件模块和天线的驻波比等参数进行检测未发现问题后,经过更换信道盘后该问题解决。说明是CTU 中某些功能模块出现故障。 该案例说明,在实际工作中的任何时候,我们都不能忽略硬件问题,尤其是在没有发现硬件告警的情况下,更需要通过超过常规手段的新办法来发现硬件问题。这样,除了能解决眼前的问题以外,还能为发现网络深层次问题和发现问题的新思路积累经验。
2)无下行physical information
A .同站不同小区之间将Synchronized Indicator置为True;
实例:北太平庄路口DCS
现象:测试工程师在北三环自西向东行驶,占用小区31047,随着继续行驶,TA 已经达到3,这时服务小区的覆盖电平已经降到-8xdBm ,Quality 也达到4、5级,但邻区覆盖电平并不高。后系统令手机向同站的31048发出切换命令,但切换失败。
分析:首先先看Handover_failure中的CauseValue =111。再分析信令流程:从HO_Access到HO_Complete之间无任何信令,原因是同站不同小区之间我们在邻区设置时,将默认同步值设为True ,因此,在切换时系统不会下行发送Physical Information,而手机在发送HO_Acces后也不会等待下行消息,不会触发T3124。如下表:
FrameNO. UL/DL Layer Message Type Info in Message Time
1 1707367 DL 2 I-CMD HO_command 15'39"12.62
2 1707370 UL 2 RR-RSP 15'39"12.64
3 1707372 DL 3 HO_Command 15'39"12.65
4 1707387 UL 3 HO_Access 15'39"12.71
5 1707391 UL 3 HO_Complete 15'39"12.73
6 1707396 UL 2 SABM-CMD 15'39"12.76
7 1707435 UL 2 SABM-CMD 15'39"12.94
8 1707474 UL 2 SABM-CMD 15'39"13.12
9 1707514 UL 2 SABM-CMD 15'39"13.30
10 1707544 DL 2 DM-RSP SAPI=3 15'39"13.44
11 1707552 UL 2 SABM-CMD 15'39"13.48
12 1707593 UL 2 SABM-CMD 15'39"13.67
13 1707656 UL 3 HO_Failure 15'39"13.96
14 1707663 UL 2 SABM-CMD 15'39"13.99
15 1707692 DL 2 UA-RSP 15'39"14.12
16 1707694 UL 2 I-CMD HOF 15'39"14.13
17 1707718 DL 2 RR-RSP 15'39"14.24
18 1708634 DL 2 DM-RSP SAPI=3 15'39"18.47
但是为什么最后还是切换失败了呢?仔细研究2层消息,手机连续发送6条SABM 消息,等待接收UA-RSP 的连接确认消息,造成Um 接口的LAPDm 协议上的T200×(N200+1)超时是切换失败的原因。经过核查邻区关系,我们发现小区31047缺少东边一些相邻的邻区,造成只能回切至自己本站的2小区的现象,但由于距离太远,已经无法收到下行或上行的消息,造成了切换失败。
故障解决:加上适当邻区后该问题解决。
我们在下面的注解中将刚才提到的有关同步/非同步切换所涉及到的计时器介绍一下:
注:设置小区同步切换对切换流程的影响
⎫ 在邻区关系设为Non_Synchronized时,手机在发送HO_Access同时会启动T3124,在这个计时器期间未收到下行的Physical Information,便认为切换失败;收到Physical Information后T3124自动停止,这时会上行发送Layer 2 SABM消息,启动LAPDm 的T200和N200计时器,在T200×(N200+1)时间内未收到下行的UA-RSP 的确认消息就会发送切换失败消息。
⎫ 在邻区关系设为Synchronized 时,手机不会启动T3124计时器步骤,直接进入Layer2计时器阶段。
B .小区之间将Synchronized Indicator置为False;
在收到手机上报的HO_ACCESS消息后,从理论上基站是应该发出下行Physical Information的,但造成手机端未收到或未正确解码的原因有很多。这种情况下应当首先考虑硬件问题,比如信道盘、时钟、传输等。另外考虑是否有频率干扰的问题,由于干扰造成的上下行消息不能正确接受的影响范围很广,产生的原因也多种多样,所以有时不能单单从GI 分析软件(GSM Investigator,Motorola开发的优化工具)等方法中发现带内干扰,例如可能由于邻区不全造成拖带,从而造成与远处基站的干扰等等,这就要视具体情况而定。
3)三层消息中出现HO_Complete后手机再上行发送HO_Failure消息
实际上在GSM 规范中没有此类的规定,仅在用TEMS 测试中中发现此类现象。如果系统收到的手机上报的切换失败的消息后,会通知源小区进行拆线,空出原信道,这样手机切换失败后就不能回到原信道,从而造成切换掉话。但经过大量TEMS 的路测文件的分析,并没有出现上述的切换掉话现象,从这个角度说,我们可以认为这是软件问题,实际上系统并没有收到切换成功的消息。至于软件问题的具体原因,
Ericsson 公司还没有给出正面的答复。
实际我们可以参照第一种情况“连续多个下行Physical Information,超过系统设置造成失败”的解决办法。
4)其它可能出现的切换失败现象
除了以上所介绍的几种常见的切换失败的类型外,我们还可能遇到一些其它不常见的切换失败,这些都是GSM 规范中定义的切换失败类型,主要是系统设置出现问题,或手机不支持网络设置所致。
A .超过目标小区的最大服务距离,Cause: “handover impossible, timing advance out of range”(见GSM 规范04.08)
在小区设置时,可以设置小区的最大服务距离,参数以TA 为单位,最小可以设到0。该参数的目的有两个:1、控制小区用户起呼的范围,超过设置范围的用户将不能起呼;2、控制该小区的话务量,使得超过该小区设置范围的用户自动切出,另外“阻止”超过改设置范围的用户切入。
这样在Handover Failure中的Cause: "handover impossible, timing advance out of range"。在GSM 规范中规定在同步切换或预同步切换的时候,下行系统发送的HO_Command消息中包含了目标小区TA 设置为多大,由于手机会以源小区的TA 为基准向目标小区接入,当发现自己所用的TA 值超过目标小区的限制时,便会立即上行发送HO_Falure消息,并且Cause: "handover impossible, timing advance out of range"。
B . Cause: “frequency not implemented”(见GSM 规范04.08)
如果切换失败原因为Cause "frequency not implemented"时,说明有以下两种可能:一种是手机不能调谐到HANDOVER COMMAND消息中所包含的频率上,例如单频手机不能切到其他频段上,但此类现象只有在交换机上设置参数错误或出现故障时才可能发生,因为系统是会根据手机的类别来有针对性的发出切换命令的;另外一种原因是手机在收到的包含有Frenquency List的字节中包含有不同频段的频点。以上两种情况手机就会立即直接发送HANDOVER FAILURE消息,并保持使用原先的信道不变,返回系统的失败原因就是Cause "frequency not implemented"。
C .Cause: “channel mode unacceptable”
如果手机不支持HANDOVER COMMAND中提供的信道模式或者根本没有此类信道模式,手机就会立即发送HANDOVER FAILURE消息,并保持现有信道和信道模式。(详见GSM 规范04.08)
D .lower layer 信道建立失败造成切换失败
此类现象在实际工作中从未遇到过,但是规范中有此类原因的切换失败。(详见GSM 规范04.08)
E .目标小区要求加密、VGCS 等设置与源小区不同且在HO_Command中没有提及的;(见GSM 规范04.08)
5) Cause 3与Cause 111的对比
在日常工作中,我们使用的测试设备有两大类,一类是Ericsson 公司的TEMS 系列,这其中包括TEMS98,TEMS-Investigation2.0/3.0,TEMS-Automatic 等;一类是NEMO 公司的
NEMO-TOM/SAM系列。由于双方软件设计的一些不同,一些方面需要引起大家注意。最主要的在于信令流程中的差异。TEMS 中三层消息较全,另外还有二层消息,对于分析问题更加便利。相比而言TOM 的三层消息就比较少,有些重复发送的例如系统消息和测量报告就不会纪录下来,另外还没有二层消息。另外,我们发现在Ho_Failure中的Cause Value中也有这不同的判断,这一般体现在不明原因的切换失败上,在TEMS 中均为Cause111(Protocol error,unspecified),而在TOM 中则多为Cause3(timer expired )。因此,前文中Cause Value不明原因的切换失败是基于TEMS 的Cause111的,但在用TOM 测试的分析中,遇到的Cause Value3也同样适用。