二次型讲义

二次型是线性代数的重要内容之一, 二次型的理论起源于解析几何学中二次曲线方程和二次曲面方程化为标准形问题的研究. 二次型理论与域的特征有关, 现在二次型的理论不仅在几何而且在数学的其他分支物理、力学、工程技术中也常常用到. 二次型应用的领域很广, 在以前的学习中求一元或多元函数的最值的方法通常有利用图象法或微分理论, 通过矩阵乘法将二次型与对称矩阵联系起来, 从而一方面使得二次型的问题可以用矩阵的理论和方法来研究, 另一方面也可将对称矩阵的问题转化为用二次型的方法来解决. 所以正确写出二次型的矩阵是研究二次型的基础. 本文在对二次型性质研究的基础上, 介绍了正定矩阵的性质, 简单的举了一些实例来阐述实矩阵正定性的应用, 并对二次型的理论进行了推广, 讨论了二次型的应用.

如二次型f =−2x x 2+2x 1x 3+2x 2x 3, 经过正交变换后可以化

222为标准型f =−2y 1+y2+y 3, 所以f 的图形是一个旋转单页双曲面。

由此可知，任意一个n 元二次型代表n 维空间上的图形。

1、二次型的定义

含有n 个变量x 1, x 2, , x n 的二次齐次多项式（即每次都是二次的多

项式：f (x 1, , x n ) =∑a ij x i x j

i , j =1n ，a ij =a ji 称为n 元二次型，令

X =(x 1, x 2, , x n ) T ，A=（a ij ），则二次型可用矩阵表示为：

⎛a 11 a f (x 1, x 2, , x n ) =(x 1, x 2, , x n ) 21

a ⎝n 1a 12 a 1n ⎫⎛x 1⎫⎪ ⎪a 22 a 2n ⎪ x 2⎪T =X AX ⎪ ⎪⎪ ⎪ ⎪a 2 a nn ⎪⎭⎝x n ⎭

其中A 是n 阶实对称矩阵（A T =A），称A 为二次型f (x 1, , x n ) 的矩阵，矩阵A 的秩即为二次型f 的秩。

二次型与非零对称矩阵一一对应. 即, 给定一个二次型, 则确定了一个非零的对称矩阵作为其系数矩阵; 反之, 给定一个非零的对称矩阵, 则确定了一个二次型以给定的对称矩阵为其系数矩阵. 二次型从本质上来说仍然是一个关于n 个变量的函数，只不过是

一个比较特殊的二次其次函数，在表达式中除了平方项就是交叉项，没有一次项或常数项，只是希望利用矩阵的理论来研究二次型时才将二次型写为f =X T AX 。

注: 一个二次型的矩阵之所以要求是对称矩阵, 原因之一是使得二次型矩阵是唯一确定的.

2、研究问题

对于二次型，我们讨论的主要问题就是寻求可逆的线性变换 ⎧x 1=c 11y 1+c 12y 2+ +c 1n y n ， ⎪x =c y +c y + +c y ，⎪22112222n n ⎨⎪

⎪⎩x n =c n 1y 1+c n 2y 2+ +c nn y n .

使二次型只含有平方项。用矩阵形式可写为X =CY , 使得

f =k 1y 1+k 2y 2+ +k r y r 222

这种只含有平方项的二次型称为二次型的标准型，若标准型的系数只在1,0，-1三个数中取值，那我们称这种标准型为二次型的规范型。

3、化二次型为标准型的方法

（1）坐标变换很显然，当所选的坐标不同时，二次型的标准型

也不同。

（2）正交变换

4、正交矩阵

如果n 阶矩阵A 满足A T A=E（即A -1=AT ）那么称A 为正交矩阵。 A 为正交矩阵的充分必要条件是A 的列向量都是单位矩阵且两两正交。（见P116）

正交矩阵的性质：

若A 为正交阵，则A -1=AT 也是正交阵，且|A|=1或-1.

若A 和B 都是正交阵，则AB 也是正交阵。

定义若P 为正交阵，则线性变换y=Px称为正交变换。则有： ||y||= y =||x||

由于||||表示向量的长度，相当于线段的长度，经过正交变换线段的长度保持不变。

这里，由于二次型规范型和标准型比较容易得到，所以我们不准备讲具体算法，而是把重点放在正定二次型的性质和应用上。

5、正定二次型

T f (x ) =x Ax , 若对任何x ≠0, 都有f (x ) >0, 则定义设有实二次型

称f 为正定二次型, 并称对称矩阵A 是正定矩阵; 若对任给x ≠0, 都有f (x )

定理3 n 元实二次型f (x ) =x Ax 为正定的充要条件是它的标准形中的n 个系数全为正. ，即它的规范型的n 个系数全为1，它的正惯性指数为n ；

证明p133

推论实对称矩阵A 为正定的充要条件是A 的特征值全为正. 定理4 (霍尔维茨定理) 实对称矩阵A 为正定的充分必要条件是: A 的各阶顺序主子式

a 11 a 1n T

a 11a 12

a 11>0, a 21a 22>0, , >0a n 1 a nn ;

实对称矩阵A 为负定的充要条件是: A 的奇数阶主子式为负, 而

a 11 a 1r

(-1) r >0

偶数阶主子式为正, 即

6、矩阵的应用 a r 1 a rr (r =1, 2, , n ) .

矩阵运算和文本处理中的分类问题

我在大学学习线性代数时，实在想不出它除了告诉我们如何解线性方程外，还能有什么别的用途。关于矩阵的许多概念，比如特征值等等，更是脱离日常生活。后来在数值分析中又学了很多矩阵的近似算法，还是看不到可以应用的地方。当时选这些课，完全是为了混学分的学位。我想，很多同学都多多少少有过类似的经历。直到后来长期做自然语言处理的研究，我才发现数学家们提出那些矩阵的概念和算法，是有实际应用的意义的。

在自然语言处理中，最常见的两类的分类问题分别是，将文本按主题归类（比如将所有介绍亚运会的新闻归到体育类）和将词汇表中的字词按意思归类（比如将各种体育运动的名称个归成一类）。这两种分类问题都可用通过矩阵运算来圆满地、同时解决。

分类的关键是计算相关性。我们首先对两个文本计算出它们的内容词，或者说实词的向量，然后求这两个向量的夹角。当这两个向量夹角为零时，新闻就相关；当它们垂直或者说正交时，新闻则无关。当然，夹角的余弦等同于向量的内积。从理论上讲，这种算法非常好。但是计算时间特别长。通常，我们要处理的文章的数量都很大，至少在百万篇以上，二次回标有非常长，比如说有五十万个词（包括人名地名产品名称等等）。如果想通过对一百万篇文章两篇两篇地成对比较，来找出所有共同主题的文章，就要比较五千亿对文章。现在的计算机一秒钟最多可以比较一千对文章，完成这一百万篇文章相关性比较就需要十五年时间。注意，要真正完成文章的分类还要反复重复上述计算。

在文本分类中，另一种办法是利用矩阵运算中的奇异值分解（Singular Value Decomposition ，简称 SVD) 。现在让我们来看看奇异值分解是怎么回事。首先，我们可以用一个大矩阵A 来描述这一百万篇文章和五十万词的关联性。这个矩阵中，每一行对应一篇文章，每一列对应一个词。

在上面的图中，M=1,000,000，N=500,000。第 i 行，第 j 列的元素，是字典中第 j 个词在第 i

篇文章中出现的加权词频（比如，

TF/IDF

) 。读者可能已经注意到了，这个矩阵非常大，有一百万乘以五十万，即五千亿个元素。

奇异值分解就是把上面这样一个大矩阵，分解成三个小矩阵相乘，如下图所示。比如把上面的例子中的矩阵分解成一个一百万乘以一百的矩阵X ，一个一百乘以一百的矩阵B ，和一个一百乘以五十万的矩阵Y 。这三个矩阵的元素总数加起来也不过1.5亿，仅仅是原来的三千分之一。相应的存储量和计算量都会小三个数量级以上。

三个矩阵有非常清楚的物理含义。第一个矩阵X 中的每一行表示意思相关的一类词，其中的每个非零元素表示这类词中每个词的重要性（或者说相关性），数值越大越相关。最后一个矩阵Y 中的每一列表示同一主题一类文章，其中每个元素表示这类文章中每篇文章的相关性。中间的矩阵则表示类词和文章之间的相关性。因此，我们只要对关联矩阵A 进行一次奇异值分解，w 我们就可以同时完成了近义词分类和文章的分类。（同时得到每类文章和每类词的相关性）。

如何用计算机进行奇异值分解。这时，线性代数中的许多概念，比如矩阵的特征值等等，以及数值分析的各种算法就统统用上了。

奇异值分解直观解释：

在矩阵M 的奇异值分解中