北方民族大学结业论
文
课程名称: 矩阵计算
院(部) 名 称: 信息与计算科学学院 学号: 20093419 姓名: 司委 班级: 09级信计三班
设 计 时 间: 2011.12.13----2011.12.5
矩阵的认识及其在二次型中的应用
先谈谈对线形空间和矩阵的几个核心概念的理解。首先说说空(space),从拓扑空间开始,一步步往上加定义,可以形成很多空间。线形空间其实还是比较初级的,如果在里面定义了范数,就成了赋范线性空间。赋范线性空间满足完备性,就成了巴那赫空间;赋范线性空间中定义角度,就有了内积空间,内积空间再满足完备性,就得到希尔伯特空间。
我们一般人最熟悉的空间,毫无疑问就是我们生活在其中的(按照牛顿的绝对时空观)的三维空间,从数学上说,这是一个三维的欧几里德空间,我们先不管那么多,先看看我们熟悉的这样一个空间有些什么最基本的特点。仔细想想我们就会知道,这个三维的空间:1. 由很多(实际上是无穷多个)位置点组成;2. 这些点之间存在相对的关系;3. 可以在空间中定义长度、角度;4. 这个空间可以容纳运动,这里我们所说的运动是从一个点到另一个点的移动(变换),而不是微积分意义上的“连续”性的运动。凡是讨论数学问题,都得有一个集合,大多数还得在这个集合上定义一些结构(关系),并不是说有了这些就算是空间。容纳运动是空间的本质特征。
我们就可以把我们关于三维空间的认识扩展到其他的空间。事实上,不管是什么空间,都必须容纳和支持在其中发生的符合规则的运动(变换)。你会发现,在某种空间中往往会存在一种相对应的变换,比如拓扑空间中有拓扑变换,线性空间中有线性变换,仿射空间中有仿射变换,其实这些变换都只不过是对应空间中允许的运动形式而已。因此只要知道,“空间”是容纳运动的一个对象集合,而变换则规定了对应空间的运动 下面我们来看看线性空间。线性空间中的任何一个对象,通过选取基和坐标的办法,都可以表达为向量的形式。通常的向量空间我就不说了,举两个不那么平凡的例子: L1. 最高次项不大于n 次的多项式的全体构成一个线性空间,也就是说,这个线性空间中的每一个对象是一个多项式。如果我们以x0, x1, ..., xn为基,那么任何一个这样的多项式都可以表达为一组n+1维向量,其中的每一个分量ai 其实就是多项式中x(i-1)项的系数。值得说明的是,基的选取有多种办法,只要所选取的那一组基线性无关就可以。这要用到后面提到的概念了,所以这里先不说,提一下而已。 L2. 闭区间[a, b]上的n 阶连续可微函数的全体,构成一个线性空间。也就是说,这个线性空间的每一个对象是一个连续函数。对于其中任何一个连续函数,根据魏尔斯特拉斯定理,一定可以找到最高次项不大于n 的多项式函数,使之与该连续函数的差为0,也就是说,完全相等。这样就把问题归结为L1了。后面就不用再重复了所以说,只要你找到合适的基,用向量可以表示线性空间里任何一个对象。向量表面上只是一列数,但是其实由于它的有序性,所以除了这些数本身携带的信息之外,还可以在每个数的对应位置上携带信息。为什么在程序设计中数组最简单,却又威力无穷呢?根本原因就在于此。
线性空间中的运动,被称为线性变换。在线性空间中选定基之后,向量刻画对象,矩阵刻画对象的运动,用矩阵与向量的乘法施加运动。矩阵的本质是运动的描述。向量本身不是也可以看成是n x 1矩阵吗?这实在是很奇妙,一个空间中的对象和运动竟然可以用相类同的方式表示。接着理解矩阵。在这个文章里,“运动”的概念不是微积分中的连续性的运动,而是瞬间发生的变化。比如这个时刻在A 点,经过一个“运动”,一下子就“跃迁”到了B 点,其中不需要经过A 点与B 点之间的任何一个点。这样的“运动”,或者说“跃迁”,是违反我们日常的经验的。不过了解一点量子物理常识的人,就会立刻指出,量子(例如电子)在不同的能量级轨道上跳跃,就是瞬间发生的,具有这样一种跃迁行为。所以说,自然界中并不是没有这种运动现象,只不过宏观上我们观察不到。但是不管怎么说,“运动”这个词用在这里,还是容易产生歧义的,说得更确
切些,应该是“跃迁”。因此这句话可以改成:“矩阵是线性空间里跃迁的描述”。 所谓变换,其实就是空间里从一个点(元素/对象)到另一个点(元素/对象)的跃迁。比如说,拓扑变换,就是在拓扑空间里从一个点到另一个点的跃迁。再比如说,仿射变换,就是在仿射空间里从一个点到另一个点的跃迁, 实际上是在仿射空间而不是向量空间中进行的。想想看,在向量空间里相一个向量平行移动以后仍是相同的那个向量,而现实世界等长的两个平行线段当然不能被认为同一个东西,所以计算机图形学的生存空间实际上是仿射空间。而仿射变换的矩阵表示根本就是4 x 4的。矩阵的定义:“矩阵是线性空间里的变换的描述。”
在一个线性空间V 里的一个线性变换T ,当选定一组基之后,就可以表示为矩阵。线性变换的定义是很简单的,设有一种变换T ,使得对于线性空间V 中间任何两个不相同的对象x 和y ,以及任意实数a 和b ,有:
T(ax + by) = aT(x) + bT(y),那么就称T 为线性变换。 矩阵的定义完善如下:
“矩阵是线性空间中的线性变换的一个描述。在一个线性空间中,只要我们选定一组基,那么对于任何一个线性变换,都能够用一个确定的矩阵来加以描述。” 同一个线性变换的矩阵的一个性质:
若矩阵A 与B 是同一个线性变换的两个不同的描述(之所以会不同,是因为选定了不同的基,也就是选定了不同的坐标系),则一定能找到一个非奇异矩阵P ,使得A 、B 之间满足这样的关系:A = P-1BP。所谓相似矩阵,就是同一个线性变换的不同的描述矩阵。而在上面式子里那个矩阵P ,其实就是A 矩阵所基于的基与B 矩阵所基于的基这两组基之间的一个变换关系。矩阵的相似变换可以把一个比较丑的矩阵变成一个比较美的矩阵,而保证这两个矩阵都是描述了同一个线性变换。
我们首先回顾《高等代数》中关于二次型的一般理论. 设P 是一个数域, a ij ∈P , n 个文字x 1, x 2, , x n 的二次齐次多项式
f (x 1, x 2, , x n ) =a 11x 12+2a 12x 1x 2+2a 13x 1x 3+ +2a 1n x 1x n
2
+a 22x 2+2a 23x 2x 3+ +2a 2n x 2x n
+
2
+a nn x n
n
n
=∑∑a ij x i x j (a ij =a ji , i , j =1,2, , n )
i =1j =1
称为数域P 上的一个n 元二次型, 简称二次型. 当a ij 为实数时, 称f 为实二次型. 当
a ij 为复数时, 称f 为复二次型. 如果二次型中只含有文字的平方项, 即
22
f (x 1, x 2, , x n ) =d 1x 12++d 2x 2+ +d n x n
称f 为标准型.
定义1.1 二次型f =(x 1, x 2, , x n ) 可唯一的表示成
f (x 1, x 2, , x n ) =x 'Ax
其中, x =(x 1, x 2, , x n ) ', A =(a ij ) n ⨯n 为对称矩阵, 称上式二次型的矩阵形式, 称A 为二次型的矩阵(都是对称矩阵), 称A 的秩为二次型f 的秩.
定义1.2 设P 是一个数域, c ij ∈P , 两组文字x 1, x 2, , x n ; y 1, y 2, , y n 的关系式
⎧x 1=c 11y 1+c 12y 2+ +c 1n y n , ⎪x =c y +c y + +c y , ⎪22112222n n
⎨
⎪ ⎪⎩x n =c n 1y 1+c n 2y 2+ +c nn y n .
称为由x 1, x 2, , x n 到y 1, y 2, , y n 的一个线性替换. 用矩阵形式可写为x =Cy ,
其中x =(x 1, x 2, , x n ) ', C =(c ij ) n ⨯n , y =(y 1, y 2, , y n ) '当C ≠0时称线性替换是非退化的(或可逆的, 或满秩的).
定义1.3 设是A , B 是数域P 上的n ⨯n 矩阵, 如果存在数域P 上的可逆n ⨯n 矩阵C . 使B =C 'AC , 则称A 与B 合同.
定义1.4 设Q (X ) 是n 元实二次型. 如果对R n 中所有的X ≠0都有Q (X ) >0, 就称
Q 是正定的, 如果R n 中所有的X ≠0都有Q (X )
有的X ≠0都有Q (X ) ≥0, 就称Q 是半正定的, 如果对R n 中所有的X ≠0都有
Q (X ) ≤0就称Q 是半负定的.
定理1.1 n 元实二次型f =X 'TX (A 是实对称矩阵, X =(x 1, x 2, , x n ) ') 可以经过变量的正交变换X =QY (Q 为正交阵), 化为f =λ1y 1+ +λn y n , 这里
2
2
λi (i =1, 2, , n ) 是矩阵A 的全部特征值.
定理 1.2 设n 元实二次型f =X 'TX , 则f 在条件∑x i 2=1下的最大(小)值恰为矩
i =1n
阵A 的最大(小)特征值.
定理1.3 设A 为n 阶正定矩阵, X =(x 1, x 2, , x n ) '与α=(c 1, c 2, c n ) '是实向量, β为实数, 则实函数f (X ) =X 'AX +2α'X +β当X =-A -1α时, 取得最小值β-α'A -1α.
⎡A α⎤⎡X ⎤-1
A A 证明 f (X ) =[X '1]⎢, 因正定, 所以存在(对称); 而 ⎥⎢⎥'⎣αβ⎦⎣1⎦
0⎤0⎤0⎤⎡A α⎤⎡E n 0⎤⎡A 0⎡E n ⎡E n ⎤⎡E n
=, =⎢α'A -11⎥, ⎢-α'A -11⎥⎢α'β⎥⎢-α'A -11⎥⎢0β-α'A -1α⎥⎢-α'A -11⎥⎦⎣⎦⎣⎦⎣⎦⎣⎦⎣⎦⎣
-1
因此
0⎤⎡A 0⎡E ⎤⎡E n
f (X ) =[X '1]⎢n -1
⎢-1⎥⎢1⎥⎣α'A ⎦⎣0β-α'A α⎦⎣0
A -1α⎤⎡X ⎤
⎥⎢⎥ 1⎦⎣1⎦
=⎡⎣X '+α'A
-1
0⎡A ⎤⎡X +A -1α⎤
1⎤⎥ ⎦⎢0β-α'A -1α⎥⎢1⎣⎦⎣⎦
= (X +A -1α) 'A (X +A -1α) +β-α'A -1α =Y 'AY +(β-α'A -1α)
其中Y =X +A -1α, 因A 正定, 故当且仅当Y =0时, Y 'AY 取最小值0, 从而当且仅当
X =-A -1α, f (x ) 取得最小值β-α'A -1α.
2.1 一般的n 元二次式的最值的判定与求法
一般的n 元二次多项式的形式为
∑∑a ij x i y j +2∑b i x i +c
i =1j =1
i =1
n
n
n
(2.1.1)
而(2.1.1)存在最值的充要条件为
∑∑a ij x i y j +2∑b i x i
i =1j =1
i =1
n
n
n
(2.1.2)
存在最值(上式中a ij =a ji ), 故只需要对(2.1.2)进行讨论.
定理2.1 实n 元多项式(2.1.2), 它的矩阵为A , 秩为r , 对(2.1.2)作非退化的线性替换, X =PY , 其中
⎡E s
P 'AP =⎢⎢0
⎢⎣0
0-E r -s
0⎤0⎥⎥, 0⎥⎦
那么, (i) 当A 半正定时;
1 若r =n , 则(2.1.2)存在最小值;
2 若r
3 若r >n , 一次项所含新变数至少一个不在平方项中出现, 则(2.1.2)不存在最
值.
(ii) 当A 半负定时:
1 若r =n , 则(2.1.2)存在最大值;
2 若r
3 若r >n , 一次项所含新变数至少一个不在平方项中出现, 则(2.1.2)不存在最值.
(iii)A 不定, 则(2.1.2)不存在最值.
证明 (i) 令X =(x 1, x 2, x n ) ', A =(a ij ) n ⨯n , B =(b 1, b 2, , b n ) 则(2.1.2)改写为:
X 'AX +2BX
(2.1.3)
⎡E
因A 半正定, 故存在可逆矩阵P , 使P 'AP =⎢r
⎣0变为
0⎤
, 对(3)作非退化线性替换X =PY , ⎥0⎦
Y 'P 'APY +2BPY
(2.1.4)
其中Y =(y 1, y 2, , y n ) , 而2BPY =2c 1y 1+2c 2y 2+ +2c n y n , 其中c i =∑b j p ji .
j =1n
(1) 若r =n , P 'AP =E n , 这时(2.1.4)变成,
22
y 12+y 2+ +y n +2c 1y 1+2c 2y 2+ +2c n y n
n
n
=(y 1+c 1) +(y 2+c 2) + +(y n +c n ) -∑c i ≥-∑c i 2.
2
2
2
2i =1
i =1
等号成立当且仅当y i =-c i (i =1, 2,3, , n ) 时取得, 此时将y i =-c i 代入X =PY 得唯一一组X 的解, 此即取最值的点.
(2) 若r
⎡E r
'P AP =⎢
⎣00⎤
, 在非退化线性替换X =PY 下, (2.1.4)式变为, ⎥0⎦
0⎤22
Y +2BY =y 12+y 2+ +y n +2c 1y 1+2c 2y 2+ +2c n y n . ⎥0⎦
(2.1.5)
⎡E
Y '⎢r
⎣0
若一次项所含新字母均在平方项中出现, 即至少有c r +1=c r +2= =c n =0,(2.1.5)可变为r 个数的完全平方加一个常数, 故存在最小值.
(3)一次项所含新字母至少一个不在平方项中出现, 即c r +1, c r +2, , c n 中至少一个不为零, 不妨设c r +1>0, 此时(2.1.5)变为,
(y 1+c 1) 2+(y 2+c 2) 2+ +(y n +c n ) 2+2c 1y 1+2c 2y 2+ +2c n y n .
令y 1= =y r =y r +2= =y n =0, y r +1取绝对值很大的负值, 则上式的值会很小, 故不存在最小值; 又若y r +1取绝对值很大的正值, 则上式的值将会很大, 故不存在最大值. 因此不存在最值.
(ii)A 半负定, 则-A =(-a ij ) n 半正定, 利用(i)可得(ii)的结论成立.
⎡E r
(iii)A 不定, 则存在可逆矩阵P , 使P 'AP =⎢⎢0
⎢⎣0
0-E s
0⎤0⎥⎥, 其中r , s 均不为零. 0⎥⎦
否则s =0, 则A 半正定; r =0则A 半负定, 则都与A 不定矛盾. 这时(2.1.5)式变为
y + +y -y
2
12r 2r +1
- -y
2r +s
+2∑c i y i ,
i =1
n
令y 2= =y n =0, 而y 1取任意的数, 可以知道上式的值大于任何给的正数, 故不存在最大值. 令y 1= =y r =y r +2= =y n =0, 而y r +1取任意大的数, 则上式的值小于任何预先给定的负数, 故不存在最小值.
例 1 讨论
222
x 12+3x 2+2x 3+3x 4+2x 1x 2+2x 1x 3+2x 1x 4+2x 2x 4+2x 3x 4+2x 1+2x 2-x 3-2x 4+3
是否有最值.
解 将上式的矩阵A 写出, 对A 作合同变换得到
3⎡
1-1-⎢2⎢
1⎢01-P =⎢
2
⎢001⎢⎢0⎣00⎤
2⎥⎡1⎤
⎢2⎥⎥
⎢⎥
-1⎥, 它使P 'AP =⎢⎥ 1⎥
⎢⎥⎥2-2⎥⎢⎥
0⎥⎢⎣⎦1⎥⎦
主对角线上有一零, 故知r =3
矩阵, 是否存在极值还应看替换后的情形才能定. 作线性替换X =PY , 原多项式的二
2y 3
次齐次项部分变为, y +2y +, 一次项部分为
2
21
22
2(y 1-y 2-
y 3
y 3+2y 4) +4(y 2+3-y 4) -(y 3-2y 4) -2y 4=2y 1+2y 2-2y 3. 22
所含字母y 1, y 2, y 3均在平方中出现, 属于定理(2.1.1)中的情况, 存在最小值. 对变换
后的多项式配方, 得
2y 312(y 3-2) 212
y +2y ++2y 1+2y 2-2y 3+3=(y 1+1) +2(y 2+) +-
22222
1
22
11
故当y 1=1, y 2=-, y 3=2时, 上式有最小值-.
22
71
将y 1, y 2, y 3代入X =PY 中, 当x 1=-+2y 4, x 2=-y 4, x 3=2-y 4, x 4=y 4(y 4为任意
22
1
常数) 时, 原式有最小值-.
2
例2 已知实数x ,y 满足x 2+y 2=1, 求f (x , y ) =x 2+2y 2-2xy 的最大值和最小值. 解 f (x , y ) 的矩阵为
λE -A =
λ-1
1
11
由定理可知, f (x , y ) 在x 2+y 2=
1下的最大值为(3+,
最小值为(3-.
22
定义2.1
1) 矩阵A 的k 阶子式: 在一个s ⨯n 矩阵A 中任意选定k 行k 列, 位于这些选定的
行和列的交点上的k 2个元素按原来的次序所组成的k 阶行列式, 称为A 的一个k 阶子式;
2) 矩阵的k 阶主子式: 就是指行指标和列指标相同的k 阶子式. 定理2.2 设n 元二次型为
22
F (x 1, x 2, , x n ) =a 11x 12+a 22x 2+ +a nn x n +2a 12x 1x 2+2a 1n x 1x n + +2a n -1, n x n -1x n
⎛1-1⎫
A = ⎪.
⎝-12⎭
111
=λ2-3λ+1, 因此,
特征值λ1=(3+,λ2=(3-. 于是,
22λ-2
(2.2.1)
则n 元二次型的特征方程是
λ-a 11
-a 21 -a n 1
-a 12 -a n 2
-a 13-a 23
=λn -I 1λn -1+I 2λn -2+ +(-1) n -1I n -1λ+(-1) n I n =0,
λ-a 11
λ-a nn
其中I i (i =1,2, , n ) 是n 元二次型的矩阵A 的一切i 阶主子式之和. 证明 根据行列式的性质, 将行列式
λ-a 11
-a 21 -a n 1
-a 12 λ-a 11 -a n 2
-a 1n -a 2n
λ-a nn
拆成2n -1个行列式之和, 将其中的一个行列式
λ0 00λ 0
0 λ
设为B, 其余2n -1个行列式可依次有行列式A 的第i 列(1≤i ≤n ) 乘以-1代换B 的第i 列, 行列式A 的第i 列和第j 列(1≤i
A 的第i 、j 、k 列(1≤i
λ-a 11
-a 21 -a n 1
-a 12 -a n 2
-a 13-a 23
=
λ-a 22
λ0 00λ 0
0 λ
λ+
1≤i ≤n
∑
0 -a 1i 00λ -a 2i 0 0
0 -a ni λ-a 12
-a 13
-a 22 -a 23-a n 2 -a nn
λ-a nn 0 -a 1i
λ+
1≤i ≤j ≤n
∑
0λ -a 2i 0
0 -a ni
-a 1j 0 -a 2j 0
-a nj λ
-a 11
+ +
-a 21 -a n 1
=λn -I 1λn -1+I 2λn -2+ +(-1) n -1I n -1λ+(-1) n I n =0,
其中I i (i =1,2, , n ) 是n 元二次型(2.2.1)的矩阵A 的一切i 阶主子式之和. 定理证毕.
例3 求三元二次型F (x , y , z ) =3x 2+y 2+3z 2-2xy -2xz -2yz 的特征方程. 解 三元二次型的矩阵为
⎡3-1-1⎤
⎥, A =⎢-11-1⎢⎥
⎢⎣-1-13⎥⎦
根据上述定理可知,
λ-3
11
111
=λ3-7λ2+12λ=0.
λ-1
1
λ-3
例4 求四元二次型
22
F (x 1, x 2, x 3, x 4) =x 12+2x 2+x 4+4x 1x 2+4x 1x 3+2x 1x 4+2x 2x 3+2x 2x 4+2x 3x 4
的特征方程.
解 四元二次型的矩阵为
⎡1⎢2A =⎢
⎢2⎢⎣1
根据上述定理可知 I 1=1+2+0+1=4,
22112101
1⎤1⎥⎥, 1⎥⎥1⎦
[1**********]I 2=+++++=-7,
[1**********]
122210
121111
121111
211111
I 3=221+221+201+101=-4,
12212211I 4==0.
21011111
所以, 四元二次型的特征方程为
λ-1
-2-2-1
-2-1-1
-2-1
λ-2-1
-1
=λ4-4λ3-7λ2+4λ=0.
0-1-1λ-1
定理2.3 二次型半正定的充分必要条件是它的标准型的所有系数都是非负的.
22
证明 充分性 设f (x 1, x 2, , x n ) =a 1x 12+a 2x 2. 若a 1, a 2, , a n ≥0, + +a n x n
则f (x 1, x 2, , x n ) ≥0, 即二次型是半正定的.
必要性 若二次型是半正定的, 而对于某个i 有a i
, ηn =0这时可以找到变量x 1, x 2, , x n 的一组适当值x 1', x 2', , x n ', 使得
f (x 1', x 2', , x n ') =a i
则与此假设矛盾, 所以a i ≥0, i =1,2, , n .
定理2.4 设实二次型f (x 1, x 2, , x n ) =X T AX , 若P 为实可逆方阵
g (y 1, y 2, , y n ) =Y T (P T AP ) Y
则f (x 1, x 2, , x n ) =X T AX 半正定等价于g (y 1, y 2, , y n ) =Y T (P T AP ) Y 半正定; 换句话说, 经过非退化线性变换后, 半正定的二次型仍然是半正定的.
证明 由X =PY 有Y =P -1X , 并且易知X ≠0等价于Y ≠0, 于是, 对任意的Y ≠0, 则X ≠0, 因此
Y T (P T AP ) Y =(P -1X ) T (P T AP )(P -1X ) =X T AX ≥0
则g (y 1, y 2, , y n ) 半正定.
反之, ∀X ≠0, Y =P -1X ≠0, 因此, X T AX =(RY ) T A (RY ) =Y T (P T AP ) Y ≥0. 则g (x 1, x 2, , x n ) 半正定.
定义2.2 形如子式
a i 1i 1
P k =
a i 2i 1 a i k i 1
a i 1i 2a i 2i 2 a i k i 2
a i 1i k a i 2i k a i k i k
的K 级子式称为矩阵A =(a ij ) n ⨯n 的K 级主子式, 其中1≤i 1≤i 2≤ ≤i k ≤n .
定理2.5 实二次型f (x 1, x 2, , x n ) =∑∑a ij x i x j =X T AX 半正定的充要条件是矩阵
i =1j =1n
n
A 的一切K 级主子式非负.
证明 必要性 设二次型f (x 1, x 2, , x n ) =∑∑a ij x i x j 是半正定的, 则存在对角矩阵
i =1j =1
n n
D =C T AC . 其中C 是变二次型的标准型的变量变换矩阵, D =diag (a 1, a 2, , a n ) . 再
由定理1知, a i ≥0. 因此, det A =det B T det D det B =(a 1, a 2, , a n )(detB ) 2≥0. 又已知其中B =C -1, 同时, 若二次型f (x 1, x 2, , x n ) 是半正定的, 则所有二次型
f k (x i 1, , x i k ) =f (0,0,x i k ,0, x i 1, 0,0) 都是半正定的, 因此所有k 级主子式非负.
充分性 已知A 的一切k 级主子式非负, 设A 1为A 的I 级顺序主子式, 则对于任意正实数ε, 有
a 11+ε
a 12 a l 2
a 1l a 2l
a 21 a l 1
a 22+ε
A 1+εE =
a ll +ε
(2.4.1)
=εn +a 1εn -1+ +a l (1≤l ≤n )
其中a k (1≤k ≤l ) . 由(2.4.1)式知, A l +εE >0, 又1≤k ≤n , 所以矩阵A +εE 的一切顺序主子式全都大于零, 所以矩阵A +εE 是正定矩阵.
设λ为A 的特征值, 则A -λE =0, 所以A +εE -(λ+ε) E =0, 所以, λ+ε是矩阵A +εE 的特征值, 因为矩阵A +εE 是正定矩阵, 所以, λ+ε>0, 取δ为任意小的正数, 则λ≥0, 再根据定理: 矩阵A 是半正定的充要条件是A 的特征值非负. 所以, A 为半正定矩阵.
其证明思路是: 首先构造二次型, 然后利用二次型半正定性的定义或等价条件, 判断该二次型(矩阵)为半正定, 从而得到不等式.
例 5(Cauchy 不等式)设a i , b i (i =1,2, , n ) 为任意实数, 则
(∑a i b i ) ≤(∑a ) ⨯(∑b i 2) .
2
2i
i =1
i =1
i =1
n n n
2
证明 记f (x 1, x 2) =∑(a i x 1+b i x 2) =(∑a ) x +2(∑a i b i ) x 1x 2+(∑b i 2) x 2
2
i
21
i =1
i =1
i =1
i =1
n
2
n n n
因为对于任意x 1, x 2, 都有f (x 1, x 2) ≥0, 故关于x 1, x 2的二次型f (x 1, x 2) 是半正定的. 因而定理1知, 该二次型矩阵的行列式大于或等于0, 即
n
n
∑a
i =1n i =1
2i
∑a b
i =1n 2b ∑i i =1
i i
≥0.
∑a i b i
故得(∑a i b i ) ≤(∑a ) ⨯(∑b i 2) .
2
2
i
i =1
i =1
i =1
n
n
n
例6 证明 n ∑x ≥(∑x i ) 2
2i i =1
i =1
n n
证明 记f (x 1, x 2, , x n ) =n ∑x -(∑x i ) 2=X 'AX , 其中
2
i i =1
i =1
n n
⎛n -1-1
-1n -1 'X =(x 1, x 2, , x n ) , A =
-1⎝-1
⎛0-1
0n A ~
⎝00
-1⎫
⎪
-1⎪
⎪
⎪
n -1⎭
将矩阵A 的第2,3, „, n 列分别加到第一列, 再将第2,3, „, n 行减去第1行, 得
-1⎫
⎪ 0⎪
,
⎪
⎪ n ⎭
于是A 的特征值为0, n , , n , 由定理可知, A 为半正定矩阵, 即二次型是半正定的, 从而得f (x 1, x 2, , x n ) ≥0, 即
n ∑x ≥(∑x i ) 2
2i i =1
i =1
n n
结论得证.
例7 设α, β, γ是一个三角形的三个内角, 证明对任意实数x , y , z , 都有
x 2+y 2+z 2≥2xy cos α+2xz cos β+2yz cos γ.
证明 记f (X ) =X 'AX =x 2+y 2+z 2-2xy cos α-2xz cos β-2yz cos γ,
⎡1其中X =(x , y , z ) ', A =⎢⎢-cos α
⎢⎣-cos β
-cos α1-cos γ
-cos β⎤
-cos γ⎥⎥, α+β+γ=π,cos γ=-cos(α+β) 1⎥⎦-cos β⎤
A -sin β⎥⎥, 于是的特征值为0, 1, sin α, 从
0⎥⎦
⎡1-cos α
对A 做初等行变换得: A ~⎢⎢0sin α
⎢0⎣0
而得二次型f (X ) 是半正定的, 即对于任意实数x , y , z , f (X ) ≥0, 得证.
例8 设A 为n 阶半正定矩阵, 且A ≠0, 证明A +E >1.
证明 设A 的全部特征值为λi (i =1,2, , n ) , 则A +E 的全部特征值为
λi +1(i =1,2, , n ) . 因为A +E 为实对称矩阵, 所以存在正交矩阵T , 使得
⎡λ1+1⎤⎢⎥λ+12⎥T A +E =T -1⎢⎢⎥ ⎢⎥
λ+1n ⎣⎦
由于A 为半正定矩阵, 且A ≠0, 则A +E 是半正定的, 且其中至少有一个λi 0>0, 同时至少有一个等于零. 故A +E =∏(λi +1) ≥λi 0+1>1, 结论得证.
i =1n
以上是根据不等式的要求证明该二次型为半正定二次型, 从而证明不等式. 使用
这种方法简单, 方便.
定理2.6 一个实二次型可以分解成两个实系数的一次齐次多项式乘积的充分必要条件是: 它的秩为2和符号差为0, 或秩等于1.
证明 必要性 设
f (x 1, x 2, , x n ) =(a 1x 1+a 2x 2+ +a n x n )(b 1x 1+b 2x 2+ +b n x n )
1) 若两个一次多项式的系数成比例, 即b i =ka i (i =1,2, , n ). 不妨设a 1≠0, 令
⎧y 1=a 1x 1+a 2x 2+ +a n x n , ⎪y =x , ⎪22
⎨
⎪ ⎪⎩y n =x n .
则f (x 1, x 2, , x n ) =ky 12, 即二次型f (x 1, x 2, , x n ) 的秩为1.
2) 若两个一次多项式的系数不成比例, 不妨设
a 1a 2
≠, 令 b 1b 2
⎧y 1=a 1x 1+a 2x 2+ +a n x n , ⎪y =b x +b x + +b x , 21122n n ⎪⎪
⎨y 3=x 3,
⎪ ⎪⎪⎩y n =x n .
则f (x 1, x 2, , x n ) =y 1y 2. 再令
⎧y 1=z 1+z 2,
⎪y =z -z , 212⎪⎪
⎨y 3=z 3,
⎪ ⎪⎪⎩y n =z n .
2
则f (x 1, x 2, , x n )(x 1, x 2, , x n ) =y 1y 2=z 12-z 2, 故二次型f (x 1, x 2, , x n ) 的秩为2, 符号
差为0.
充分性1) 若f (x 1, x 2, , x n ) 的秩为1, 则经非退化线性替换使f (x 1, x 2, , x n ) =ky 12,其中y 1=a 1x 1+a 2x 2+ +a n x n . 故
f (x 1, x 2, , x n ) =k (a 1x 1+a 2x 2+ +a 2n x n )
2) 若f (x 1, x 2, , x n ) 的秩为2, 符号差为零, 则可经非退化线性替换使
f (x , x 2
1, x 2, n ) =y 21-y 2=(y 1+y 2)(y 1-y 2)
其中y 1, y 2均为x 1, x 2, , x n 的一次齐次多项式, 即
y 1=a 1x 1+a 2x 2+ +a n x n y 2=b 1x 1+b 2x 2+ +b n x n
故f (x 1, x 2, , x n ) 可表示成两个一次齐次多项式的乘积.
例9 多因式f (x x 22
1, 2) =x 1-3x 2-2x 1x 2+2x 1-6x 2在R 上能否分解, 若能, 解.
解 考虑二次型g (x 221, x 2, x 3) =x 1-3x 2-2x 1x 2+2x 1x 3-6x 2x 3, 则
g (x 1, x 2, x 3) 的矩阵为
⎛1-1A = 1⎫
-1-3-3⎪⎝1-30⎪,
⎪⎭
对A 施行合同变换, 求得可逆矩阵
⎛ 11-3⎫ 2⎪P = 01-1⎪
⎪⎛, 且P ' AP 1⎫⎪
2⎪= -4 0⎪. ⎪ 001⎪⎪⎝⎭⎝⎪
⎭
显然, A 的秩为2且符号差为0, 由定理2.6知, g (x 1, x 2, x 3) 可以分解. 经非退化线性替换
将其分
3⎫⎛
11- ⎪2⎛x 1⎫ ⎪⎛y 1⎫
1⎪ ⎪ ⎪
x =01-y , 2⎪ ⎪ 2⎪2 x ⎪ ⎪⎝3⎭001⎪⎝y 3⎭
⎪ ⎪⎝⎭
2
化为g (x 1, x 2, x 3) =y 12-4y 2=(y 1+2y 2)(y 1-2y 2) . 由Y =P -1X , 得y 1=x 1-x 2+x 3,
y 2=x 2+
1
x 3, y 3=x 3. 于是g (x 1, x 2, x 3) =(x 1+x 2+2x 3)(x 1-3x 2) . 2
故f (x 1, x 2) =g (x 1, x 2,1) =(x 1+x 2+2)(x 1-3x 2) .
2
例10
多项式f (x 1, x 2) =x 12+2x 2-1x 2+6x 1-2+9在R 上能否分解? 如果
能, 将其分解.
22解
考虑二次型g (x 1, x 2, x 3) =x 12+2x 2+9x 3-1x 2+6x 1x 3-2x 3, 其矩阵为
⎛1
A = 3⎝
2-3⎫⎛13⎫ ⎪-→ 000⎪
000⎪9⎪⎝⎭⎭
则秩rankA =1, 由定理2.6知, g (x 1, x 2, x 3) 能在R 上分解, 则f (x 1, x 2) =g (x 1, x 2,1) 也能在R 上分解. 易得
f (x 1, x 2) =g (x 1, x 2,1) =(x 12+3) 2.
北方民族大学结业论
文
课程名称: 矩阵计算
院(部) 名 称: 信息与计算科学学院 学号: 20093419 姓名: 司委 班级: 09级信计三班
设 计 时 间: 2011.12.13----2011.12.5
矩阵的认识及其在二次型中的应用
先谈谈对线形空间和矩阵的几个核心概念的理解。首先说说空(space),从拓扑空间开始,一步步往上加定义,可以形成很多空间。线形空间其实还是比较初级的,如果在里面定义了范数,就成了赋范线性空间。赋范线性空间满足完备性,就成了巴那赫空间;赋范线性空间中定义角度,就有了内积空间,内积空间再满足完备性,就得到希尔伯特空间。
我们一般人最熟悉的空间,毫无疑问就是我们生活在其中的(按照牛顿的绝对时空观)的三维空间,从数学上说,这是一个三维的欧几里德空间,我们先不管那么多,先看看我们熟悉的这样一个空间有些什么最基本的特点。仔细想想我们就会知道,这个三维的空间:1. 由很多(实际上是无穷多个)位置点组成;2. 这些点之间存在相对的关系;3. 可以在空间中定义长度、角度;4. 这个空间可以容纳运动,这里我们所说的运动是从一个点到另一个点的移动(变换),而不是微积分意义上的“连续”性的运动。凡是讨论数学问题,都得有一个集合,大多数还得在这个集合上定义一些结构(关系),并不是说有了这些就算是空间。容纳运动是空间的本质特征。
我们就可以把我们关于三维空间的认识扩展到其他的空间。事实上,不管是什么空间,都必须容纳和支持在其中发生的符合规则的运动(变换)。你会发现,在某种空间中往往会存在一种相对应的变换,比如拓扑空间中有拓扑变换,线性空间中有线性变换,仿射空间中有仿射变换,其实这些变换都只不过是对应空间中允许的运动形式而已。因此只要知道,“空间”是容纳运动的一个对象集合,而变换则规定了对应空间的运动 下面我们来看看线性空间。线性空间中的任何一个对象,通过选取基和坐标的办法,都可以表达为向量的形式。通常的向量空间我就不说了,举两个不那么平凡的例子: L1. 最高次项不大于n 次的多项式的全体构成一个线性空间,也就是说,这个线性空间中的每一个对象是一个多项式。如果我们以x0, x1, ..., xn为基,那么任何一个这样的多项式都可以表达为一组n+1维向量,其中的每一个分量ai 其实就是多项式中x(i-1)项的系数。值得说明的是,基的选取有多种办法,只要所选取的那一组基线性无关就可以。这要用到后面提到的概念了,所以这里先不说,提一下而已。 L2. 闭区间[a, b]上的n 阶连续可微函数的全体,构成一个线性空间。也就是说,这个线性空间的每一个对象是一个连续函数。对于其中任何一个连续函数,根据魏尔斯特拉斯定理,一定可以找到最高次项不大于n 的多项式函数,使之与该连续函数的差为0,也就是说,完全相等。这样就把问题归结为L1了。后面就不用再重复了所以说,只要你找到合适的基,用向量可以表示线性空间里任何一个对象。向量表面上只是一列数,但是其实由于它的有序性,所以除了这些数本身携带的信息之外,还可以在每个数的对应位置上携带信息。为什么在程序设计中数组最简单,却又威力无穷呢?根本原因就在于此。
线性空间中的运动,被称为线性变换。在线性空间中选定基之后,向量刻画对象,矩阵刻画对象的运动,用矩阵与向量的乘法施加运动。矩阵的本质是运动的描述。向量本身不是也可以看成是n x 1矩阵吗?这实在是很奇妙,一个空间中的对象和运动竟然可以用相类同的方式表示。接着理解矩阵。在这个文章里,“运动”的概念不是微积分中的连续性的运动,而是瞬间发生的变化。比如这个时刻在A 点,经过一个“运动”,一下子就“跃迁”到了B 点,其中不需要经过A 点与B 点之间的任何一个点。这样的“运动”,或者说“跃迁”,是违反我们日常的经验的。不过了解一点量子物理常识的人,就会立刻指出,量子(例如电子)在不同的能量级轨道上跳跃,就是瞬间发生的,具有这样一种跃迁行为。所以说,自然界中并不是没有这种运动现象,只不过宏观上我们观察不到。但是不管怎么说,“运动”这个词用在这里,还是容易产生歧义的,说得更确
切些,应该是“跃迁”。因此这句话可以改成:“矩阵是线性空间里跃迁的描述”。 所谓变换,其实就是空间里从一个点(元素/对象)到另一个点(元素/对象)的跃迁。比如说,拓扑变换,就是在拓扑空间里从一个点到另一个点的跃迁。再比如说,仿射变换,就是在仿射空间里从一个点到另一个点的跃迁, 实际上是在仿射空间而不是向量空间中进行的。想想看,在向量空间里相一个向量平行移动以后仍是相同的那个向量,而现实世界等长的两个平行线段当然不能被认为同一个东西,所以计算机图形学的生存空间实际上是仿射空间。而仿射变换的矩阵表示根本就是4 x 4的。矩阵的定义:“矩阵是线性空间里的变换的描述。”
在一个线性空间V 里的一个线性变换T ,当选定一组基之后,就可以表示为矩阵。线性变换的定义是很简单的,设有一种变换T ,使得对于线性空间V 中间任何两个不相同的对象x 和y ,以及任意实数a 和b ,有:
T(ax + by) = aT(x) + bT(y),那么就称T 为线性变换。 矩阵的定义完善如下:
“矩阵是线性空间中的线性变换的一个描述。在一个线性空间中,只要我们选定一组基,那么对于任何一个线性变换,都能够用一个确定的矩阵来加以描述。” 同一个线性变换的矩阵的一个性质:
若矩阵A 与B 是同一个线性变换的两个不同的描述(之所以会不同,是因为选定了不同的基,也就是选定了不同的坐标系),则一定能找到一个非奇异矩阵P ,使得A 、B 之间满足这样的关系:A = P-1BP。所谓相似矩阵,就是同一个线性变换的不同的描述矩阵。而在上面式子里那个矩阵P ,其实就是A 矩阵所基于的基与B 矩阵所基于的基这两组基之间的一个变换关系。矩阵的相似变换可以把一个比较丑的矩阵变成一个比较美的矩阵,而保证这两个矩阵都是描述了同一个线性变换。
我们首先回顾《高等代数》中关于二次型的一般理论. 设P 是一个数域, a ij ∈P , n 个文字x 1, x 2, , x n 的二次齐次多项式
f (x 1, x 2, , x n ) =a 11x 12+2a 12x 1x 2+2a 13x 1x 3+ +2a 1n x 1x n
2
+a 22x 2+2a 23x 2x 3+ +2a 2n x 2x n
+
2
+a nn x n
n
n
=∑∑a ij x i x j (a ij =a ji , i , j =1,2, , n )
i =1j =1
称为数域P 上的一个n 元二次型, 简称二次型. 当a ij 为实数时, 称f 为实二次型. 当
a ij 为复数时, 称f 为复二次型. 如果二次型中只含有文字的平方项, 即
22
f (x 1, x 2, , x n ) =d 1x 12++d 2x 2+ +d n x n
称f 为标准型.
定义1.1 二次型f =(x 1, x 2, , x n ) 可唯一的表示成
f (x 1, x 2, , x n ) =x 'Ax
其中, x =(x 1, x 2, , x n ) ', A =(a ij ) n ⨯n 为对称矩阵, 称上式二次型的矩阵形式, 称A 为二次型的矩阵(都是对称矩阵), 称A 的秩为二次型f 的秩.
定义1.2 设P 是一个数域, c ij ∈P , 两组文字x 1, x 2, , x n ; y 1, y 2, , y n 的关系式
⎧x 1=c 11y 1+c 12y 2+ +c 1n y n , ⎪x =c y +c y + +c y , ⎪22112222n n
⎨
⎪ ⎪⎩x n =c n 1y 1+c n 2y 2+ +c nn y n .
称为由x 1, x 2, , x n 到y 1, y 2, , y n 的一个线性替换. 用矩阵形式可写为x =Cy ,
其中x =(x 1, x 2, , x n ) ', C =(c ij ) n ⨯n , y =(y 1, y 2, , y n ) '当C ≠0时称线性替换是非退化的(或可逆的, 或满秩的).
定义1.3 设是A , B 是数域P 上的n ⨯n 矩阵, 如果存在数域P 上的可逆n ⨯n 矩阵C . 使B =C 'AC , 则称A 与B 合同.
定义1.4 设Q (X ) 是n 元实二次型. 如果对R n 中所有的X ≠0都有Q (X ) >0, 就称
Q 是正定的, 如果R n 中所有的X ≠0都有Q (X )
有的X ≠0都有Q (X ) ≥0, 就称Q 是半正定的, 如果对R n 中所有的X ≠0都有
Q (X ) ≤0就称Q 是半负定的.
定理1.1 n 元实二次型f =X 'TX (A 是实对称矩阵, X =(x 1, x 2, , x n ) ') 可以经过变量的正交变换X =QY (Q 为正交阵), 化为f =λ1y 1+ +λn y n , 这里
2
2
λi (i =1, 2, , n ) 是矩阵A 的全部特征值.
定理 1.2 设n 元实二次型f =X 'TX , 则f 在条件∑x i 2=1下的最大(小)值恰为矩
i =1n
阵A 的最大(小)特征值.
定理1.3 设A 为n 阶正定矩阵, X =(x 1, x 2, , x n ) '与α=(c 1, c 2, c n ) '是实向量, β为实数, 则实函数f (X ) =X 'AX +2α'X +β当X =-A -1α时, 取得最小值β-α'A -1α.
⎡A α⎤⎡X ⎤-1
A A 证明 f (X ) =[X '1]⎢, 因正定, 所以存在(对称); 而 ⎥⎢⎥'⎣αβ⎦⎣1⎦
0⎤0⎤0⎤⎡A α⎤⎡E n 0⎤⎡A 0⎡E n ⎡E n ⎤⎡E n
=, =⎢α'A -11⎥, ⎢-α'A -11⎥⎢α'β⎥⎢-α'A -11⎥⎢0β-α'A -1α⎥⎢-α'A -11⎥⎦⎣⎦⎣⎦⎣⎦⎣⎦⎣⎦⎣
-1
因此
0⎤⎡A 0⎡E ⎤⎡E n
f (X ) =[X '1]⎢n -1
⎢-1⎥⎢1⎥⎣α'A ⎦⎣0β-α'A α⎦⎣0
A -1α⎤⎡X ⎤
⎥⎢⎥ 1⎦⎣1⎦
=⎡⎣X '+α'A
-1
0⎡A ⎤⎡X +A -1α⎤
1⎤⎥ ⎦⎢0β-α'A -1α⎥⎢1⎣⎦⎣⎦
= (X +A -1α) 'A (X +A -1α) +β-α'A -1α =Y 'AY +(β-α'A -1α)
其中Y =X +A -1α, 因A 正定, 故当且仅当Y =0时, Y 'AY 取最小值0, 从而当且仅当
X =-A -1α, f (x ) 取得最小值β-α'A -1α.
2.1 一般的n 元二次式的最值的判定与求法
一般的n 元二次多项式的形式为
∑∑a ij x i y j +2∑b i x i +c
i =1j =1
i =1
n
n
n
(2.1.1)
而(2.1.1)存在最值的充要条件为
∑∑a ij x i y j +2∑b i x i
i =1j =1
i =1
n
n
n
(2.1.2)
存在最值(上式中a ij =a ji ), 故只需要对(2.1.2)进行讨论.
定理2.1 实n 元多项式(2.1.2), 它的矩阵为A , 秩为r , 对(2.1.2)作非退化的线性替换, X =PY , 其中
⎡E s
P 'AP =⎢⎢0
⎢⎣0
0-E r -s
0⎤0⎥⎥, 0⎥⎦
那么, (i) 当A 半正定时;
1 若r =n , 则(2.1.2)存在最小值;
2 若r
3 若r >n , 一次项所含新变数至少一个不在平方项中出现, 则(2.1.2)不存在最
值.
(ii) 当A 半负定时:
1 若r =n , 则(2.1.2)存在最大值;
2 若r
3 若r >n , 一次项所含新变数至少一个不在平方项中出现, 则(2.1.2)不存在最值.
(iii)A 不定, 则(2.1.2)不存在最值.
证明 (i) 令X =(x 1, x 2, x n ) ', A =(a ij ) n ⨯n , B =(b 1, b 2, , b n ) 则(2.1.2)改写为:
X 'AX +2BX
(2.1.3)
⎡E
因A 半正定, 故存在可逆矩阵P , 使P 'AP =⎢r
⎣0变为
0⎤
, 对(3)作非退化线性替换X =PY , ⎥0⎦
Y 'P 'APY +2BPY
(2.1.4)
其中Y =(y 1, y 2, , y n ) , 而2BPY =2c 1y 1+2c 2y 2+ +2c n y n , 其中c i =∑b j p ji .
j =1n
(1) 若r =n , P 'AP =E n , 这时(2.1.4)变成,
22
y 12+y 2+ +y n +2c 1y 1+2c 2y 2+ +2c n y n
n
n
=(y 1+c 1) +(y 2+c 2) + +(y n +c n ) -∑c i ≥-∑c i 2.
2
2
2
2i =1
i =1
等号成立当且仅当y i =-c i (i =1, 2,3, , n ) 时取得, 此时将y i =-c i 代入X =PY 得唯一一组X 的解, 此即取最值的点.
(2) 若r
⎡E r
'P AP =⎢
⎣00⎤
, 在非退化线性替换X =PY 下, (2.1.4)式变为, ⎥0⎦
0⎤22
Y +2BY =y 12+y 2+ +y n +2c 1y 1+2c 2y 2+ +2c n y n . ⎥0⎦
(2.1.5)
⎡E
Y '⎢r
⎣0
若一次项所含新字母均在平方项中出现, 即至少有c r +1=c r +2= =c n =0,(2.1.5)可变为r 个数的完全平方加一个常数, 故存在最小值.
(3)一次项所含新字母至少一个不在平方项中出现, 即c r +1, c r +2, , c n 中至少一个不为零, 不妨设c r +1>0, 此时(2.1.5)变为,
(y 1+c 1) 2+(y 2+c 2) 2+ +(y n +c n ) 2+2c 1y 1+2c 2y 2+ +2c n y n .
令y 1= =y r =y r +2= =y n =0, y r +1取绝对值很大的负值, 则上式的值会很小, 故不存在最小值; 又若y r +1取绝对值很大的正值, 则上式的值将会很大, 故不存在最大值. 因此不存在最值.
(ii)A 半负定, 则-A =(-a ij ) n 半正定, 利用(i)可得(ii)的结论成立.
⎡E r
(iii)A 不定, 则存在可逆矩阵P , 使P 'AP =⎢⎢0
⎢⎣0
0-E s
0⎤0⎥⎥, 其中r , s 均不为零. 0⎥⎦
否则s =0, 则A 半正定; r =0则A 半负定, 则都与A 不定矛盾. 这时(2.1.5)式变为
y + +y -y
2
12r 2r +1
- -y
2r +s
+2∑c i y i ,
i =1
n
令y 2= =y n =0, 而y 1取任意的数, 可以知道上式的值大于任何给的正数, 故不存在最大值. 令y 1= =y r =y r +2= =y n =0, 而y r +1取任意大的数, 则上式的值小于任何预先给定的负数, 故不存在最小值.
例 1 讨论
222
x 12+3x 2+2x 3+3x 4+2x 1x 2+2x 1x 3+2x 1x 4+2x 2x 4+2x 3x 4+2x 1+2x 2-x 3-2x 4+3
是否有最值.
解 将上式的矩阵A 写出, 对A 作合同变换得到
3⎡
1-1-⎢2⎢
1⎢01-P =⎢
2
⎢001⎢⎢0⎣00⎤
2⎥⎡1⎤
⎢2⎥⎥
⎢⎥
-1⎥, 它使P 'AP =⎢⎥ 1⎥
⎢⎥⎥2-2⎥⎢⎥
0⎥⎢⎣⎦1⎥⎦
主对角线上有一零, 故知r =3
矩阵, 是否存在极值还应看替换后的情形才能定. 作线性替换X =PY , 原多项式的二
2y 3
次齐次项部分变为, y +2y +, 一次项部分为
2
21
22
2(y 1-y 2-
y 3
y 3+2y 4) +4(y 2+3-y 4) -(y 3-2y 4) -2y 4=2y 1+2y 2-2y 3. 22
所含字母y 1, y 2, y 3均在平方中出现, 属于定理(2.1.1)中的情况, 存在最小值. 对变换
后的多项式配方, 得
2y 312(y 3-2) 212
y +2y ++2y 1+2y 2-2y 3+3=(y 1+1) +2(y 2+) +-
22222
1
22
11
故当y 1=1, y 2=-, y 3=2时, 上式有最小值-.
22
71
将y 1, y 2, y 3代入X =PY 中, 当x 1=-+2y 4, x 2=-y 4, x 3=2-y 4, x 4=y 4(y 4为任意
22
1
常数) 时, 原式有最小值-.
2
例2 已知实数x ,y 满足x 2+y 2=1, 求f (x , y ) =x 2+2y 2-2xy 的最大值和最小值. 解 f (x , y ) 的矩阵为
λE -A =
λ-1
1
11
由定理可知, f (x , y ) 在x 2+y 2=
1下的最大值为(3+,
最小值为(3-.
22
定义2.1
1) 矩阵A 的k 阶子式: 在一个s ⨯n 矩阵A 中任意选定k 行k 列, 位于这些选定的
行和列的交点上的k 2个元素按原来的次序所组成的k 阶行列式, 称为A 的一个k 阶子式;
2) 矩阵的k 阶主子式: 就是指行指标和列指标相同的k 阶子式. 定理2.2 设n 元二次型为
22
F (x 1, x 2, , x n ) =a 11x 12+a 22x 2+ +a nn x n +2a 12x 1x 2+2a 1n x 1x n + +2a n -1, n x n -1x n
⎛1-1⎫
A = ⎪.
⎝-12⎭
111
=λ2-3λ+1, 因此,
特征值λ1=(3+,λ2=(3-. 于是,
22λ-2
(2.2.1)
则n 元二次型的特征方程是
λ-a 11
-a 21 -a n 1
-a 12 -a n 2
-a 13-a 23
=λn -I 1λn -1+I 2λn -2+ +(-1) n -1I n -1λ+(-1) n I n =0,
λ-a 11
λ-a nn
其中I i (i =1,2, , n ) 是n 元二次型的矩阵A 的一切i 阶主子式之和. 证明 根据行列式的性质, 将行列式
λ-a 11
-a 21 -a n 1
-a 12 λ-a 11 -a n 2
-a 1n -a 2n
λ-a nn
拆成2n -1个行列式之和, 将其中的一个行列式
λ0 00λ 0
0 λ
设为B, 其余2n -1个行列式可依次有行列式A 的第i 列(1≤i ≤n ) 乘以-1代换B 的第i 列, 行列式A 的第i 列和第j 列(1≤i
A 的第i 、j 、k 列(1≤i
λ-a 11
-a 21 -a n 1
-a 12 -a n 2
-a 13-a 23
=
λ-a 22
λ0 00λ 0
0 λ
λ+
1≤i ≤n
∑
0 -a 1i 00λ -a 2i 0 0
0 -a ni λ-a 12
-a 13
-a 22 -a 23-a n 2 -a nn
λ-a nn 0 -a 1i
λ+
1≤i ≤j ≤n
∑
0λ -a 2i 0
0 -a ni
-a 1j 0 -a 2j 0
-a nj λ
-a 11
+ +
-a 21 -a n 1
=λn -I 1λn -1+I 2λn -2+ +(-1) n -1I n -1λ+(-1) n I n =0,
其中I i (i =1,2, , n ) 是n 元二次型(2.2.1)的矩阵A 的一切i 阶主子式之和. 定理证毕.
例3 求三元二次型F (x , y , z ) =3x 2+y 2+3z 2-2xy -2xz -2yz 的特征方程. 解 三元二次型的矩阵为
⎡3-1-1⎤
⎥, A =⎢-11-1⎢⎥
⎢⎣-1-13⎥⎦
根据上述定理可知,
λ-3
11
111
=λ3-7λ2+12λ=0.
λ-1
1
λ-3
例4 求四元二次型
22
F (x 1, x 2, x 3, x 4) =x 12+2x 2+x 4+4x 1x 2+4x 1x 3+2x 1x 4+2x 2x 3+2x 2x 4+2x 3x 4
的特征方程.
解 四元二次型的矩阵为
⎡1⎢2A =⎢
⎢2⎢⎣1
根据上述定理可知 I 1=1+2+0+1=4,
22112101
1⎤1⎥⎥, 1⎥⎥1⎦
[1**********]I 2=+++++=-7,
[1**********]
122210
121111
121111
211111
I 3=221+221+201+101=-4,
12212211I 4==0.
21011111
所以, 四元二次型的特征方程为
λ-1
-2-2-1
-2-1-1
-2-1
λ-2-1
-1
=λ4-4λ3-7λ2+4λ=0.
0-1-1λ-1
定理2.3 二次型半正定的充分必要条件是它的标准型的所有系数都是非负的.
22
证明 充分性 设f (x 1, x 2, , x n ) =a 1x 12+a 2x 2. 若a 1, a 2, , a n ≥0, + +a n x n
则f (x 1, x 2, , x n ) ≥0, 即二次型是半正定的.
必要性 若二次型是半正定的, 而对于某个i 有a i
, ηn =0这时可以找到变量x 1, x 2, , x n 的一组适当值x 1', x 2', , x n ', 使得
f (x 1', x 2', , x n ') =a i
则与此假设矛盾, 所以a i ≥0, i =1,2, , n .
定理2.4 设实二次型f (x 1, x 2, , x n ) =X T AX , 若P 为实可逆方阵
g (y 1, y 2, , y n ) =Y T (P T AP ) Y
则f (x 1, x 2, , x n ) =X T AX 半正定等价于g (y 1, y 2, , y n ) =Y T (P T AP ) Y 半正定; 换句话说, 经过非退化线性变换后, 半正定的二次型仍然是半正定的.
证明 由X =PY 有Y =P -1X , 并且易知X ≠0等价于Y ≠0, 于是, 对任意的Y ≠0, 则X ≠0, 因此
Y T (P T AP ) Y =(P -1X ) T (P T AP )(P -1X ) =X T AX ≥0
则g (y 1, y 2, , y n ) 半正定.
反之, ∀X ≠0, Y =P -1X ≠0, 因此, X T AX =(RY ) T A (RY ) =Y T (P T AP ) Y ≥0. 则g (x 1, x 2, , x n ) 半正定.
定义2.2 形如子式
a i 1i 1
P k =
a i 2i 1 a i k i 1
a i 1i 2a i 2i 2 a i k i 2
a i 1i k a i 2i k a i k i k
的K 级子式称为矩阵A =(a ij ) n ⨯n 的K 级主子式, 其中1≤i 1≤i 2≤ ≤i k ≤n .
定理2.5 实二次型f (x 1, x 2, , x n ) =∑∑a ij x i x j =X T AX 半正定的充要条件是矩阵
i =1j =1n
n
A 的一切K 级主子式非负.
证明 必要性 设二次型f (x 1, x 2, , x n ) =∑∑a ij x i x j 是半正定的, 则存在对角矩阵
i =1j =1
n n
D =C T AC . 其中C 是变二次型的标准型的变量变换矩阵, D =diag (a 1, a 2, , a n ) . 再
由定理1知, a i ≥0. 因此, det A =det B T det D det B =(a 1, a 2, , a n )(detB ) 2≥0. 又已知其中B =C -1, 同时, 若二次型f (x 1, x 2, , x n ) 是半正定的, 则所有二次型
f k (x i 1, , x i k ) =f (0,0,x i k ,0, x i 1, 0,0) 都是半正定的, 因此所有k 级主子式非负.
充分性 已知A 的一切k 级主子式非负, 设A 1为A 的I 级顺序主子式, 则对于任意正实数ε, 有
a 11+ε
a 12 a l 2
a 1l a 2l
a 21 a l 1
a 22+ε
A 1+εE =
a ll +ε
(2.4.1)
=εn +a 1εn -1+ +a l (1≤l ≤n )
其中a k (1≤k ≤l ) . 由(2.4.1)式知, A l +εE >0, 又1≤k ≤n , 所以矩阵A +εE 的一切顺序主子式全都大于零, 所以矩阵A +εE 是正定矩阵.
设λ为A 的特征值, 则A -λE =0, 所以A +εE -(λ+ε) E =0, 所以, λ+ε是矩阵A +εE 的特征值, 因为矩阵A +εE 是正定矩阵, 所以, λ+ε>0, 取δ为任意小的正数, 则λ≥0, 再根据定理: 矩阵A 是半正定的充要条件是A 的特征值非负. 所以, A 为半正定矩阵.
其证明思路是: 首先构造二次型, 然后利用二次型半正定性的定义或等价条件, 判断该二次型(矩阵)为半正定, 从而得到不等式.
例 5(Cauchy 不等式)设a i , b i (i =1,2, , n ) 为任意实数, 则
(∑a i b i ) ≤(∑a ) ⨯(∑b i 2) .
2
2i
i =1
i =1
i =1
n n n
2
证明 记f (x 1, x 2) =∑(a i x 1+b i x 2) =(∑a ) x +2(∑a i b i ) x 1x 2+(∑b i 2) x 2
2
i
21
i =1
i =1
i =1
i =1
n
2
n n n
因为对于任意x 1, x 2, 都有f (x 1, x 2) ≥0, 故关于x 1, x 2的二次型f (x 1, x 2) 是半正定的. 因而定理1知, 该二次型矩阵的行列式大于或等于0, 即
n
n
∑a
i =1n i =1
2i
∑a b
i =1n 2b ∑i i =1
i i
≥0.
∑a i b i
故得(∑a i b i ) ≤(∑a ) ⨯(∑b i 2) .
2
2
i
i =1
i =1
i =1
n
n
n
例6 证明 n ∑x ≥(∑x i ) 2
2i i =1
i =1
n n
证明 记f (x 1, x 2, , x n ) =n ∑x -(∑x i ) 2=X 'AX , 其中
2
i i =1
i =1
n n
⎛n -1-1
-1n -1 'X =(x 1, x 2, , x n ) , A =
-1⎝-1
⎛0-1
0n A ~
⎝00
-1⎫
⎪
-1⎪
⎪
⎪
n -1⎭
将矩阵A 的第2,3, „, n 列分别加到第一列, 再将第2,3, „, n 行减去第1行, 得
-1⎫
⎪ 0⎪
,
⎪
⎪ n ⎭
于是A 的特征值为0, n , , n , 由定理可知, A 为半正定矩阵, 即二次型是半正定的, 从而得f (x 1, x 2, , x n ) ≥0, 即
n ∑x ≥(∑x i ) 2
2i i =1
i =1
n n
结论得证.
例7 设α, β, γ是一个三角形的三个内角, 证明对任意实数x , y , z , 都有
x 2+y 2+z 2≥2xy cos α+2xz cos β+2yz cos γ.
证明 记f (X ) =X 'AX =x 2+y 2+z 2-2xy cos α-2xz cos β-2yz cos γ,
⎡1其中X =(x , y , z ) ', A =⎢⎢-cos α
⎢⎣-cos β
-cos α1-cos γ
-cos β⎤
-cos γ⎥⎥, α+β+γ=π,cos γ=-cos(α+β) 1⎥⎦-cos β⎤
A -sin β⎥⎥, 于是的特征值为0, 1, sin α, 从
0⎥⎦
⎡1-cos α
对A 做初等行变换得: A ~⎢⎢0sin α
⎢0⎣0
而得二次型f (X ) 是半正定的, 即对于任意实数x , y , z , f (X ) ≥0, 得证.
例8 设A 为n 阶半正定矩阵, 且A ≠0, 证明A +E >1.
证明 设A 的全部特征值为λi (i =1,2, , n ) , 则A +E 的全部特征值为
λi +1(i =1,2, , n ) . 因为A +E 为实对称矩阵, 所以存在正交矩阵T , 使得
⎡λ1+1⎤⎢⎥λ+12⎥T A +E =T -1⎢⎢⎥ ⎢⎥
λ+1n ⎣⎦
由于A 为半正定矩阵, 且A ≠0, 则A +E 是半正定的, 且其中至少有一个λi 0>0, 同时至少有一个等于零. 故A +E =∏(λi +1) ≥λi 0+1>1, 结论得证.
i =1n
以上是根据不等式的要求证明该二次型为半正定二次型, 从而证明不等式. 使用
这种方法简单, 方便.
定理2.6 一个实二次型可以分解成两个实系数的一次齐次多项式乘积的充分必要条件是: 它的秩为2和符号差为0, 或秩等于1.
证明 必要性 设
f (x 1, x 2, , x n ) =(a 1x 1+a 2x 2+ +a n x n )(b 1x 1+b 2x 2+ +b n x n )
1) 若两个一次多项式的系数成比例, 即b i =ka i (i =1,2, , n ). 不妨设a 1≠0, 令
⎧y 1=a 1x 1+a 2x 2+ +a n x n , ⎪y =x , ⎪22
⎨
⎪ ⎪⎩y n =x n .
则f (x 1, x 2, , x n ) =ky 12, 即二次型f (x 1, x 2, , x n ) 的秩为1.
2) 若两个一次多项式的系数不成比例, 不妨设
a 1a 2
≠, 令 b 1b 2
⎧y 1=a 1x 1+a 2x 2+ +a n x n , ⎪y =b x +b x + +b x , 21122n n ⎪⎪
⎨y 3=x 3,
⎪ ⎪⎪⎩y n =x n .
则f (x 1, x 2, , x n ) =y 1y 2. 再令
⎧y 1=z 1+z 2,
⎪y =z -z , 212⎪⎪
⎨y 3=z 3,
⎪ ⎪⎪⎩y n =z n .
2
则f (x 1, x 2, , x n )(x 1, x 2, , x n ) =y 1y 2=z 12-z 2, 故二次型f (x 1, x 2, , x n ) 的秩为2, 符号
差为0.
充分性1) 若f (x 1, x 2, , x n ) 的秩为1, 则经非退化线性替换使f (x 1, x 2, , x n ) =ky 12,其中y 1=a 1x 1+a 2x 2+ +a n x n . 故
f (x 1, x 2, , x n ) =k (a 1x 1+a 2x 2+ +a 2n x n )
2) 若f (x 1, x 2, , x n ) 的秩为2, 符号差为零, 则可经非退化线性替换使
f (x , x 2
1, x 2, n ) =y 21-y 2=(y 1+y 2)(y 1-y 2)
其中y 1, y 2均为x 1, x 2, , x n 的一次齐次多项式, 即
y 1=a 1x 1+a 2x 2+ +a n x n y 2=b 1x 1+b 2x 2+ +b n x n
故f (x 1, x 2, , x n ) 可表示成两个一次齐次多项式的乘积.
例9 多因式f (x x 22
1, 2) =x 1-3x 2-2x 1x 2+2x 1-6x 2在R 上能否分解, 若能, 解.
解 考虑二次型g (x 221, x 2, x 3) =x 1-3x 2-2x 1x 2+2x 1x 3-6x 2x 3, 则
g (x 1, x 2, x 3) 的矩阵为
⎛1-1A = 1⎫
-1-3-3⎪⎝1-30⎪,
⎪⎭
对A 施行合同变换, 求得可逆矩阵
⎛ 11-3⎫ 2⎪P = 01-1⎪
⎪⎛, 且P ' AP 1⎫⎪
2⎪= -4 0⎪. ⎪ 001⎪⎪⎝⎭⎝⎪
⎭
显然, A 的秩为2且符号差为0, 由定理2.6知, g (x 1, x 2, x 3) 可以分解. 经非退化线性替换
将其分
3⎫⎛
11- ⎪2⎛x 1⎫ ⎪⎛y 1⎫
1⎪ ⎪ ⎪
x =01-y , 2⎪ ⎪ 2⎪2 x ⎪ ⎪⎝3⎭001⎪⎝y 3⎭
⎪ ⎪⎝⎭
2
化为g (x 1, x 2, x 3) =y 12-4y 2=(y 1+2y 2)(y 1-2y 2) . 由Y =P -1X , 得y 1=x 1-x 2+x 3,
y 2=x 2+
1
x 3, y 3=x 3. 于是g (x 1, x 2, x 3) =(x 1+x 2+2x 3)(x 1-3x 2) . 2
故f (x 1, x 2) =g (x 1, x 2,1) =(x 1+x 2+2)(x 1-3x 2) .
2
例10
多项式f (x 1, x 2) =x 12+2x 2-1x 2+6x 1-2+9在R 上能否分解? 如果
能, 将其分解.
22解
考虑二次型g (x 1, x 2, x 3) =x 12+2x 2+9x 3-1x 2+6x 1x 3-2x 3, 其矩阵为
⎛1
A = 3⎝
2-3⎫⎛13⎫ ⎪-→ 000⎪
000⎪9⎪⎝⎭⎭
则秩rankA =1, 由定理2.6知, g (x 1, x 2, x 3) 能在R 上分解, 则f (x 1, x 2) =g (x 1, x 2,1) 也能在R 上分解. 易得
f (x 1, x 2) =g (x 1, x 2,1) =(x 12+3) 2.