年中国 生卫计统学年会论 集文
1
基1 遗传算于法的 机随林模型
赵森发
林△
用 于 特征 ,基 因筛 选2
AG
)
涛
。
李康
张
2
特
基征因 筛选 基 是 组 因 研 学 究的主要 目之的 一 量 变对 本 进 样行 有效分 类t
r e
, ,a
特 征
因 筛选基不 仅要求 能 够 通筛 过选到 的 特 征
d
si
ce 而
且 要保 证 筛 选 得到 的 特 征变 集有量较 小的假 发现 率( lf sa,
o v
e
。r
y
FDR
)
否,则 将极 大增 加 生 物 验证 学的 工作量 o r
机森随 (林a n dm f eor
浪费大量 资源
,
至 甚 法无实 生 物现 学验
证
近年来
,
st
s,
盯)
被
泛广 用应 于维数高 据 析 中分并 取得 良好 的 了效果
aib (v r e alr
i m po t
。
可盯 以在 样本 对分类 的同时 给 出 量 变要重 性评 分筛
的选依 据有
较 大 影
响
。e
n ac
ems a r eus
“
”
,
I v
s
)M作 为特
征但当 变 量个 数 非 常 时多
,
其
中 含 包大 量的 对分 无 类作 的用噪 声 变量 对 分类 效 仍果
会,
使
。V
I
s
不稳M 定
,
真
对正分 类 有作 的 变 用量很可 能 在筛选 得到 变的 量子集 中排序 靠
o
后甚 至
无 被选法 入
遗传算 法 ( egn i t e
l
at r i og
,h
m,
AG)
按 是照随机搜 索 略策进行特 征筛 的选
,
可以
”由
不 同的 染 色 体 提 供 多样化 的特 征 筛 结 选 果用 采适 当 的 G A与
盯
相结 合将 可 有 能低
降 GA
“
声 噪筛对选 ,
结果 的 影响
,
同
时 低 降 FD 水R平
。。
研本 期 望究 给出一 种 基
于
V
的 盯 搜索 策
, ,
略
A
G F
R用于 高维
据 的 数 征特筛选 分对 类 的 响
影,
AG
,盯
在
遗 传过 程中加 入基 于
Pe
I M
s
的发 式启 变量搜 索 方 法
能
降低够噪 声变 量 既 够 避能 免 人为。
并采
用基 于
r m
t
a u iton
方的 确法 最定 入终 模选型 的变 量 筛选 值界
确
定 筛 选界 值 的 主 性
观
同 能时 够 解 单 纯决 用采 变多量 启 式发 搜 策 略索 在存的 变 量 争竞问 题
原理与 方法
.
1
随机森 林基 本的原理
Be r
随
森机 林 由L c o
n
n a l i
(
20 10
)提出
,
它通过 自助 法 (bo s
ta
P r
重 )采 技 样
,
,
术
原 从始 练样
训集 N 本中有放 回 地重 复 随机 取抽 b 个样 生 本成新 的 训 自练助 本样集合
个 分 类组 成树随机 森
林
, 然后 根 自据样 助本集生 成 b。
新 数据 的分类 结 按 分 类果 投树 票 多 少 形成的 分 数 定而
,随机
森 林 的 主 特要,
是 点在处 理 高维数 据 时 会 产 不 生拟 合过现 象
,分
分在类 的同 时 能够 给出 变量 的 重 性要 评
l分
依 据该 评。
以 筛选 可 出 对 分类 起 重
要作用 的 变 量 l , 2
[
2.
传遗 算 的基 本原法理
gi,
遗传 算 法 由 Mic h
n 大学
的a
.
J H l
oa
n d
于19 7
5年 出
,
提是一 种 借鉴 物 界 自然生选 择和 生 物体遗
。
传
机制 的 随 搜 机算法索码
技术表 示 复杂结 构(
mu t at o i) n ,
其本 基原理 是 进 化 机制 和 自然选 择法 则3 ,I
e4并 通 编 码 的对 遗 传 作操 一复 制 r(p r o ud c,
]
传遗算 法 的 点特是 采 用简 单
、编
t
i )no
交叉。 ( cro
s
ov
r) 和 变 异e
产 生 择备 集
通解 过 胜劣 优汰的 选择 机 制进行 导向 性 搜 进索化 法 不 算需要 了 解题问
。
全部的 征特
.
,
可就 通以过 现体 进化 机 的 制进化过程 成 完问题 解
3求
G
A
盯
算法的 基 本原理
:A
G盯
用采
盯 模 型
对 变 在 量样本 分 中类的 作 用 进 行评
价。
,
以
e P
r
m
tu
t o ia n方法 确定特 征 筛 界
,
选,
值
作 最为终确定 特 征 量 变的依
据由 G A 算 选 取 法的分 部 量变,
为减
少 噪声变 量
对盯
量变 评 价结 果 的 扰 干 个每盯 型模 仅 包 含
,
并 且在遗 传过 程中 入 了 加量筛变选 步 骤 进 一以 步低 降 噪声变量 响
。
影尽 量减 盯少模 过型拟 合的可
从能 而 增强 盯 评价 结果 的稳定 性
备 较 的强多样性
,
A
;
G
算 法启 的发 特性使 分 对 作用 类 较 的强 变 量有更 多 的机会被 评 价
,同时
AG
法算的 变异 过 程 使 索搜 结 果向 一 定方 向 收 敛 同的 时
。具
“
”
使 类分作 用 较弱 变的量 也 可 以 获 一得定的 被 评 价机会
G
A
算 法 的上 两 述 点特
性州师杭 范大 学 药医 卫 管 生理学 院 (31 0 30 6) ) 哈滨尔 医 科大 学 卫 统 计 生教学 研 (室 巧。 0 8 1ali n h@ z n eu du△ 通讯 作者 发赵林E m a i l z h ao f
`
:,
,
:
..
c n
年 中 国
卫生 计学年会 统论文 集
既 保
了证 对变 量 评 的价 度
深
,
也 顾 了兼 评 的广价 度,
。
遗 传
过 内的 变程量 筛 中选
,
采
用
e
tP mur 。
a
io n
t
方法获 组得 间无 差 变量 重要 性异评 分 的 验 分经布
根 据
该经 分 验 布适自应 确 定 量变 筛 界选 值
选 择
编方式
码.
.) 采
用包含 全部 量 变的1
F 模型 变量 排对序R 产
生 初始 种
启 群式发初 种 始群
;
:I
…)
根 变据 量 排 序 确定 变 2
被量选 个 体入的概 始 种率
群5 %0
,
) 根
所得 概据率 产 生 初
3的个
体
;
.) 另 4
5 %0个体随 机 产生
, . j
遗传
作
操 ù勺 」
:
…
)…1
:
1r
,复制 交
叉2
) 眨o t 获n得 于基P 。比 un 样a 本 数 据 间组 无 差 变 量 的 异要重 性评 分
分
布
;量变 筛选
r.` 。
;确
定变量选界筛 值) 筛 选变 量产 新 生的 3子 代 群
,种
。
l…
: 综)合 各 代评 优结
1 确定
“
果
优
最”
解
保 留
每一 遗代 传操作 中童变x 的重 要性; 评 分 中数 位 罗M2 )以M 罗 的 中位 数 作变为 x量 全的局重 要 ;性 评 分 位 中数 M罗
根
据 即P
u
n tia t
o
n获
得 的
变量 筛选 界 “值确 定 最 优
”
解
.基本 遗 算传
法
图
G . AR
于
,算法
IGA
盯
算 过法 程 流程 图变
个数量为 m ,
4
GA
F算 法实 现R
A,
:
设
据数 分为
和
两类B
,
样
本量 为N
,
遗 传
法算 一 每代 群 包种 含M 染色 条
体
,
,
采
用 进 二 制编码 方式
突变为
(l
1
)遗
传 过程 中保 留最优 染 色体 的 概 设为 率几,
变
率设 为异 瑞
,
变
异中基 因 由
:
0
的r 概 为 率
ot
lo
算 法 收 的敛条件 传代 为达 到
,数
G
代
则
F AR G
k,
算
法步 骤如 下列
矩的阵 。
采用 二 进制 编 码 方 式
每
一 代 种群均 为 由
,O1 构 成的
,
行
,
M0
。表
对 应位 置 的示
基
因不 表达( 变量未 被 选入 模型)
( 2 ) 生产 混合 初始种
群。
1
示表对 应位置 的 基 因 表 达 ( 量变被 选 模入型 ) 人刃2
初
始 种群
中条染 体色 机随 产 生
另
M2 据根随 森林机 给 出 的 变
/
2
011
年
中 国 卫 统生计 学年论会文 集
,
量 重
性 要评 分 基 于伽马分布 函 启 数式发产 生
包
含
证 对 分保类 作 用 较大 的变 量 入选 概 的率也 较大
。
行
每
福
个。’ l
“
,
其 位余 均为置’0
“
。
(3 以 每 条)染 色 中 包 含体的 量 变建 随机 立森 模林型
,获取 变 量重 要 性评 作 分 为自适 降应 噪
的依
据
(4) 自适 应 降噪
:
① 算计每 条染 色 体中包含 基 的 个 数
因,
;
② 据根 染色 体 中 因基个数 自 适应 选择;
相 的应变量 重 要 性 分评筛 选 界值剔 除 变量 重 性要评 分于小该 界 的 值变
量( 5 ) 对降噪 后的 色染体 进 评 价行
:③
形 成降 噪 的 后新种 群
,
。
①用新 群 中种 的 色染体 建 随 机 森 林模 立型
.
获取 森 林对袋 外 R
OC
数 分据类 的 票投结 果
动gA
。
② 基;于 随 机 森 林 对 外袋数 的投据 票计 算 型 判 模别结 果的
.
曲线
下面 积
A C乙I
值在
0 5
1一 0
之.
,间
l 一以〔I C 作为 对染值色 体 的 评 价数
函,
。
(
6)获 取 降 噪 后随 机 林 森 模 型 变 量对的评 价 结果
作 为最 终 识 特别 征变 量 的 据
依
。
。
对变 量在整
r
个
种群中获得 变 量重的要 性评 分求 中 位
次数评 价
,
,
作为 变 量在 一 这 代获得 评 价 的结果,
如
某变 量共获得 。
则 对这
r
个变 量 重 要 性评 分 中位求数
如
该 变量 在 这果一 未 获得代 价 评则 此处 记 为 缺 失,
( 7
) 据评 价 根函数 值由 小到大 的顺 序 对 染 色 体进 行 排序
按
设 的 定比例将 排 序 靠 前的部 分色
。
染
直体 复接 到子制 代种群 中
(8)
,
进 不 任行何 交 叉 和 异
变。
子
代的其中 染余色体 经由 交 和 叉变 异产 生
,
根 据 染 色评体 价函 数排 序 定 确父 代中 的每 染色 条 被选 中参体与 叉 交 作 操概的率
。
证 评 保
价函
数 较优的 色体 染 有 高更的概 率 被选 中 其与他 染色 体 进 行叉
(9交)
交叉
:
父由代 中按 一 定 概 率选 取 两条染色 体
,
,
记
为
q
和q 并 1从一,
m
整的 数中随机 抽取 一
整个数 m c 作交 叉点
当m为 l =c
时以 q 作为 新产生 的色 染
体当m
c
=
时以
m
q 作。为 产 生新 的
染色
体
,
当
1(10 )
c
m:
m
时 新染 色体 1的
一
c
m
位来 q自
,c
m,
+
l 一m 位来 q
自变异
对由交 叉 生产 的 染 新色体 行进 变 异 操作
如染果色 体 中 的基 因 值取 为,
0
,
则从 O~
的
均匀 分布 中随 产 机生一 数个
踢
,
与预 先定 的设突 变 率瑞 比
,
如果
较饰
则 该瑞 因基不 发生0
变异
,
保
留原取 值
1( )
1
0
不变
,
如果
踢 七
则该 瑞基 因发 生 变 异
的 作操
,
取其值 按 预 先 设 定 的概 率由,
为变
h
将 步 (骤7 ) 步骤与 ( ) 8 一步 骤 ()1 0
生 的产 染 色合体
并 产生子 代种
群。
。
1 2( 重复 上 述) 骤步 ( 3 )一 骤步( 1 1 )
循 至环 第G 停代
止
(,1 3 ) 将每 代 中一步骤 (6
获) 得 的变量评 结价 取果中位
数作为 G
A
F 特
征 筛 选 方 法对变量 的 R
最 终
价评
,
为
记
叹
。朗
。
(
14 确)定最 终 筛选 界 值
,识
别特 征 变
量 作为 e Ptm ru
,
:
① 计 算最 后一 代 群种中每 染色 条体中 包 含的基 因 个 抽
样 参数
;
;数
②
其取 均值平 为 峡助记,
。
,
t
oi an
动个 量 ③变 从 数据 集中随机 取 抽刀云
。
,
将 分
类标签 随机 打乱2 0
00
建 立 随机森 模 型
林
;
录 变记量 重性 要评分
重 复,进行 ,
200 /
助 云对次 共 获
得
。
个变 量 重, 要性评
分,
④
以 上述
0 002
个 变 量
重 要性评 的 分百 数位 尸 9或。
99
尸作为
AG
盯
算法特
征
筛 选 值界
如
叽
。
朋
。
于大 该 界值 则 将该 量变 别识为 征 特 变量
(1 5 结束
)2
10 1
年 中国 卫
生 统计 学 年会文论集
实例应
.用
1
数
据 来源
实例 分
中析G
A
,
采用 对 未知分 类样 本的 别 判 果效作 为 特 征 选筛结果 的评 价指 标
,
。
本
研究先
首用
,
好
方法 对 实基真因 芯 片 数 据 行进 特 征筛
选
。采 用特 征 选筛结果 建 立 随机 森 林 分类 模型
并
直
接与 用使 随机森林 模 型的结 进果行 对 比 病基 因 芯片数
,据
研
究中分 析 的 基 因芯片 据数 有前 列腺癌 基 因 片数据芯和 糖尿
数 据 。由公 开 数 库据获 得,
对数据 的判 别 效 果 用
采1
0f d o l
一
交
验叉证 评 价 前 列 腺 癌
。。
分 为 有病 (A 组)和 无 病 ( B 组) 两 类
糖尿病 分 为 空 血腹糖 正 常组。
( 组A ) 糖和 尿组 病(B 组 )
比
较 中采用 的 高 组 维学实验 数 据的基 本 息信如 表 1
数表 据名 称 列前腺 癌( 基因 芯片) 糖 尿病 基(因 芯 片
).
1基
因 芯 片数 的样据 分本 布况
情样本
10 数
2 基数因
目036
2232 3
8
A
病
理检 查B 组
组 数来 源据
2
分
析结
由表果 2可 见,
经过
,
GA
RF
特 征
筛
,
选
RF
模
的型 判别能力 增强
。
。
虑 考实到 际经中常采 单变 量用
法进 行方变 量预 选筛我 们 同时 采 用了 于 t 检 验基的 筛选预 方
首先 根法 据t 验 检 统计 量绝对 大值 小 排
GA
序
,
取绝 对值 大较 前
G的
A 00
2个变
量
然, 分后 别 采 随 机森用林
20
、0
灯法 进 行 析分
。。
结果显 示采 用全
部
变 量 进
行 盯 征 筛特 选的效 果要 优 于筛 选预之 后 的
,
。
变 量 个的 分析 果结 为 考 察各种 法方是 ,
会否产 生过 拟合 现
象我
们 还将 前 列腺 癌 数据的 类 标 分 签打 乱
产
生 新 的 实际 上不 包含分 类 信息
,的
数 集
据
,采
用 上 述 法 方 对该 数据集 进行 分
析。
析 分结 果显 各示 方 种法类分结 果均很
没差 有出现 过
拟 现象合
表
2
随
机森 林及R
G A
际实数 据 糖 病 前尿列 癌腺前 列腺癌 ( 乱排 序列 )注
:
助
05 59
.
.
盯 六个 对数据集 分 的 结 析果即 A R 助G
. .
.0
52
.9 ·
04 7 (710 6 0 ).
,
.
.
0
0 9
·
0 80 8
9 00 781(8 11 5)
7
·
.
,
.
5002”
0
395
0
5 3 (9 014 9 o
。
·
)
·
0 ,23(49 18 0) 0 0 5(29 992 4 )0 o490 1( 7 9 15
.
)
.
盯以.
,
.
,
.
·.
,
·
随机 森为林模 型 缀 后’,P表示 采用 基 于 检验 统t计量对 数据 进 行筛预 后再选 采用 相应模 型 析分括 号为内 交叉验 证 过程 中分 类 模型 包 含的 量变个数 的均数 和位中 数随机 森林 模 采型 用全部 变 量建 模基 于预 筛选的 随机 林 模 森采 用与型 选得 筛到的 20 0 个变 量 模建
灯
,
;
,。
模拟
实验.
1模 拟实验 条件 设置 模 拟数 据A
1
:(
l
)=
该 部
分模 数据拟用 于 考 察
nG,
A
F R
特征
筛选 后的判 别 效果
)
。3
设 定 训 练样 本 N
为两类各 5 0例 ,
。
06
,
其
5
中;
类样 本 例数
=
3
0
,
B
样类本例 数
n
。=
10 例 测 试本样
0,
样
.
本 中含有
A UC = .
0个
有 差 异的变量 两 类 间的真 区实 度 分用
P 表示变量 间 相的关 数
20系00
, ,
,
ROC
=
曲线 下 面
积
05 .;
A 乙 j〔 ) 衡
量分别 设 A 习亡 0导8 5
5、 9
研
究中设定P
差。异 变 量 和 无 差异 变 均量服 从 正 态分
,。
布
;
无 差异
量变 的个数 为
()
2服
从 标准 正 态 布分
拟 实验 数模 重据 复 生产形 成 1 0 个 随样 机本
拟 模数据
2
:
该 分部 模拟数据 用于考 察 AG=
F
R法对 预设 差的 异 变量的识 别能 力 n,
。
设定 每
一个模 数 据 样 拟本 N
为。
6
0,
中其两 分类 样的 本 数例分 为
别
=
3
0和
n N
=
30,
差异 变量和 无差
=
.
异
变量均 从 服正态 分布 两类 间 总 真的 区 实分 度用 样
本 中含
有5
o
,R
c曲线下 积面0 衡 量
,
,
分 设别e
0
8
5
、
e
=
.
05
9
;
个
差 异 有的 量
,
变分别
用 戈
,弋
戈 戈 表示
戈3 0
9,
,
其戈 和
中
戈 两个变量 的相 关
2系
0年中国 卫 生 统 学计 年 论会 文集二
数
口’
,
.
0
,
其
余
,3
变个量 的相 P关系 P数1
2 34,
,
,,
0
。
为简单起 见
,
各 变
量 的方 差 均和 数设 为 同相
。,
方差
=
9
=
l
数 均尸i (
二
则根 据)e 值 编用制 的 程 求 序 出在此 础基 上5,
,
加入
0 200
个 无 差异
变量
。
无 差 异量变 来 自实 际基 因 芯 片 据数
同 时随机 抽 2 0取0 个变 量
.
即
由 前 列 癌腺基 因 芯 片数 据 的 两分个类 中 随 机 抽取3 0 样
例。
本
,
,
打乱样 本分 类 签标
模拟 验实数 据重 复 产生 形 成1 0 个随机 本
样
,
。
模2拟 验 实结 果
G
A
1()
盯 特征 筛选 后的判 别效
,果
由
表 3可
进见行 特 征 筛选 后
,
,
机 森林随模 只型 用需 少 量的 变量 能达到 很就好 的 别判效 果
;
;
尽
,
管设
定 的类 间 区 分度不 同 “
但 分
类 型 模 对据数判 别分 呈 现类 的 趋 势 一致”
。
设 定
的 类 区 间 分度 越 值
高
特则 征筛 选 后获 得 的最 优 分 类 模型的 判 别 效果 越 接 实近际 区 分度
表
.
e3
A
G盯
特征 筛 方法选及 机随 森林 模对 拟 据数 的 分 析结果差
变 异
( 量p
=
0 5
) .
随
机 森林
’
GA
模拟 次
10数0
变量
个数
A
.c
u
.
变量
个数
20 5
A0
.
cu
变. 量个
△
数R
法 F
算A〔 C
.
/0 85
0
8 21 0 935:
。
0
27
265 /2 5 /52
,
0
77 1
.0
59,
.
00
12005
0 915
0 9 3
1判别
型模A U C 估 计 的 中位 数 △ 线前 斜为 设定的 差 异 变量被 识 为特别
征 量 的变个数 的 中 位数 为 特 征 变量 的 变量 个 数 的 中 位数
斜 线后 被 为 识
。
别
分 图 析 和比
,较
2
和图
3给
出了 变 量 选 筛前后
R OC
曲
线下 积面
,AUC
估计
值 的 数频分 布 情 况
A CU
为便
于
同时 出给了 在 不包 含无差 异 变 干量 扰 的 况情
,下
随机 森林算
;法
估
计 值的频数 分
A布 U
C况
情。
结果
显示
GA
盯
特 征筛 选后
,
R
C
曲 O线 下 积面均 有 显明的 改
A善 CU
当 设定的
值
较 时
大,
,变
量 筛选 的后
A
CU。
频 数分 布与理想 情 况下 仅 (含 包差异变 量 )的 G
A频
数分 几 乎重 合
。布
到得
了常非理 想的结 果
使
用F
算法进行 变量 选筛R B=
8 0
.5
,
利 于 简化有 判 别 型和模 强 增测预 效
果,
P
= 05
A
UC
V
己 IU
图e2
变 筛量选 前 后 及仅 含 差 异 变量 的A
C
U
数频变 化情 况 (
e
二
0 .
5
8
,
p=
0
) 5.
2
1 1 0 年 中卫国 统计生 学年 论会 文集
B=
09
5
.
,= 0 5
Pu 匕aJ 珍 a br
. .O
实真区 分
度口
. .
变筛 选 前 量 变量 筛选后
UCA
V
三! U
e图
3
量变 选筛前 后 及 仅 含差 变 量 异 的A
c
u频
数 化变情 (
况o
二
.
0
59
p,
=
05
.
)
( 2) A G 差 异 好 量变的 识 别结
对 变果量 的排序 结果 显
示,
与
盯
模型相 比 =
.
AG R 能F 将预先 设定 的差异 变 排量在 更 靠 的前 位
置。
便在即组 间 异差较 小 情的况 下( 0
0
5
)8
,
预设的差 异 变被量排 在 前 0 位2 累 的积频 也率接近 0
=5
0
%。
表
4
各差异 变量 频在数招 邓 乃 抖92
F
和RG A 分盯析 结 中果 的 序排 分 布
RF
.0( 85
)
变量 个
l数 5 ~~6 1 101 2~0 12~ 033 1~ 5 0 5 1~ 1 0 0
001
G ~AR
F 累 百 积分率 (%)
旧小 屯 或 引了 么 3 0) 9 . 6 L 46
0
数
粼频 2 :1今 引 4绍6 [29 8 1 24 1
累
积百分 (率 %
.)
3
521
一0.
2
560 .
5 40
43 670
.
.
5
6 40.
60
8
.0
70
40
合
50计
010
0
50 0
表
5
各 差异变 量 在
数
频屯 泊创 Z厂 )U 3 75 2
1F
R G和
AR卫
FR
分 析
结果 的中排序 分布 ( 数
创频自 沦引 工 U 男2 6 3 81
e
=
0 .
5
)9
变
量 个数
1~ 5
G A RF
累
积百 率 ( % 分
兮)侧 大 不 (.创6 L ) 069 04
累 积 百 分率 %()
争 仅侧 别 旧 :g.3 9. .7 59 . 4 )0
6
1~0
11~2 0
21~ 3 0
8 04 一 0.
26 0 8 . 一0
3
1~ 505
1 ~ 1 00 100~
80
50010 0
合计
5
0
01
0
200
年 中
卫 生 统国计 年学 会 论 文
集
讨
尽 管随 机 林 森具有较 强的 噪声抗 能力 大影 响
,,
论
)
。
但基
因芯 片 数据 中 的 高 噪声 仍对 其 判别 结 果产生 较
通
过
G
A
盯方
法进 行 特 筛 选 后征
,
根据
筛 结 选 建 立 的果判 别 模
型判别 能 力有 较大提 升
,
(
2 对) 基 前于列 腺癌 基因 芯 片 数 据 生产的 类分标 签 乱序数 据分的析 结果 表 明
即。
模
型本 身
良好 的防止 有过拟 合 能
力(3 )
AG
,
同
于 基于属
模 盯 迭代算型法
的,
AG
盯
法 也没 有出 现 拟过合
t
灯
征特筛 选 方无 需 法行进预 筛
选
。,
采用 部 变量全进 行 特征 筛 选 效 果 更的 理 想检
、
验。
筛预
选主 的 作要 用是 减少变量个 数 能 不现体变 量间 的相 作 互用(
4)
通
常预 选筛 采 单用变 量 分 析 方法( 如
S
AM
法等
)
,
筛选 果结
本 究 研没 中直有接 考
,
察GA
盯
特 征筛 方选 法
的DRF
,
但
过 通较比
A
G,
盯
与 随森机林对 预
设 差 异
变量 的 排序 结 果见
可,
GA
F R
能
够将 预设的 差异 量 变排在 更靠 的前 置
FD 位R
。
即也如 果采用 同
,相
的 选筛 值界G 盯 特A 筛征 结 选更 有果可 能 获 较 得 的小如果 研 的究主要 目是的生 标 志物物 提
取,
D F
R
的 控制在 生 物 学研 中究十分 重要
。
使
用
G
A盯 算法 更是有 效 的
参
考 文献
u Ct ler A ,
,
S
t v
.
e
e n
.s
J
R
Raf n d m oo
re
st
sf
or
mi e r刊o
T ra
ys
.
Mth
e.
o
s d En砂 o l 2m0 0 64 11 :4 22 3 2,
,
,
一
武.晓岩 李 康 因基 达数表 据 别 分析判的随机 林森法方王
小 平遗传 算 法一 理 论
丫切g J H
D i az一
,
.
国卫中 生 计
,统
00 2
6
, 06,
:
4 9
一
1
一9 44
.
、
应 用
软与件 实现 S
ub se tS eel et oi
s.
.
2
00 2
,
西安 西 安通交大 学出版 社 G
ne e tie A l g or tih m.
.4
el nt
o
n r .VF e at ava
u re
n
U
sing
a
IE E E I n te ll i
g
y Sst e m s a
u
ins
,
9198
r
,
3 1( 2): 4 44
r9e
s一
.
U
i
r rt
ae
民 d
e
,
A sn,
de
r
7:
5 3A
.
e G
n
see le e t ion
n d
a
e
la s
s
i fie
t
i ao
n
o
f
mie
r
o
yr aa
vo
.
d
t
ag
o na od mf
t
.
B
MC
B
oi i nfo
r
mV K
e
it e
a,
20
60e
n
t oM o
e h oor
a
L i
d g r
nCM
,
i Er s k idnh
os n
K
只et a l dia b
.
GP C al IPh a er
.
一
Posn svie
,
g
e en
s一
i
n
lv
e
i d
no x
d iat i
v
e Po hst io n ar hP o ry al
e
d
i an t
l
y od
e r nw
g u l ta
e
n
mau
e ets
aNt G
n ee七
00 3 34 23() 2: 67 7
3
年中国 生卫计统学年会论 集文
1
基1 遗传算于法的 机随林模型
赵森发
林△
用 于 特征 ,基 因筛 选2
AG
)
涛
。
李康
张
2
特
基征因 筛选 基 是 组 因 研 学 究的主要 目之的 一 量 变对 本 进 样行 有效分 类t
r e
, ,a
特 征
因 筛选基不 仅要求 能 够 通筛 过选到 的 特 征
d
si
ce 而
且 要保 证 筛 选 得到 的 特 征变 集有量较 小的假 发现 率( lf sa,
o v
e
。r
y
FDR
)
否,则 将极 大增 加 生 物 验证 学的 工作量 o r
机森随 (林a n dm f eor
浪费大量 资源
,
至 甚 法无实 生 物现 学验
证
近年来
,
st
s,
盯)
被
泛广 用应 于维数高 据 析 中分并 取得 良好 的 了效果
aib (v r e alr
i m po t
。
可盯 以在 样本 对分类 的同时 给 出 量 变要重 性评 分筛
的选依 据有
较 大 影
响
。e
n ac
ems a r eus
“
”
,
I v
s
)M作 为特
征但当 变 量个 数 非 常 时多
,
其
中 含 包大 量的 对分 无 类作 的用噪 声 变量 对 分类 效 仍果
会,
使
。V
I
s
不稳M 定
,
真
对正分 类 有作 的 变 用量很可 能 在筛选 得到 变的 量子集 中排序 靠
o
后甚 至
无 被选法 入
遗传算 法 ( egn i t e
l
at r i og
,h
m,
AG)
按 是照随机搜 索 略策进行特 征筛 的选
,
可以
”由
不 同的 染 色 体 提 供 多样化 的特 征 筛 结 选 果用 采适 当 的 G A与
盯
相结 合将 可 有 能低
降 GA
“
声 噪筛对选 ,
结果 的 影响
,
同
时 低 降 FD 水R平
。。
研本 期 望究 给出一 种 基
于
V
的 盯 搜索 策
, ,
略
A
G F
R用于 高维
据 的 数 征特筛选 分对 类 的 响
影,
AG
,盯
在
遗 传过 程中加 入基 于
Pe
I M
s
的发 式启 变量搜 索 方 法
能
降低够噪 声变 量 既 够 避能 免 人为。
并采
用基 于
r m
t
a u iton
方的 确法 最定 入终 模选型 的变 量 筛选 值界
确
定 筛 选界 值 的 主 性
观
同 能时 够 解 单 纯决 用采 变多量 启 式发 搜 策 略索 在存的 变 量 争竞问 题
原理与 方法
.
1
随机森 林基 本的原理
Be r
随
森机 林 由L c o
n
n a l i
(
20 10
)提出
,
它通过 自助 法 (bo s
ta
P r
重 )采 技 样
,
,
术
原 从始 练样
训集 N 本中有放 回 地重 复 随机 取抽 b 个样 生 本成新 的 训 自练助 本样集合
个 分 类组 成树随机 森
林
, 然后 根 自据样 助本集生 成 b。
新 数据 的分类 结 按 分 类果 投树 票 多 少 形成的 分 数 定而
,随机
森 林 的 主 特要,
是 点在处 理 高维数 据 时 会 产 不 生拟 合过现 象
,分
分在类 的同 时 能够 给出 变量 的 重 性要 评
l分
依 据该 评。
以 筛选 可 出 对 分类 起 重
要作用 的 变 量 l , 2
[
2.
传遗 算 的基 本原法理
gi,
遗传 算 法 由 Mic h
n 大学
的a
.
J H l
oa
n d
于19 7
5年 出
,
提是一 种 借鉴 物 界 自然生选 择和 生 物体遗
。
传
机制 的 随 搜 机算法索码
技术表 示 复杂结 构(
mu t at o i) n ,
其本 基原理 是 进 化 机制 和 自然选 择法 则3 ,I
e4并 通 编 码 的对 遗 传 作操 一复 制 r(p r o ud c,
]
传遗算 法 的 点特是 采 用简 单
、编
t
i )no
交叉。 ( cro
s
ov
r) 和 变 异e
产 生 择备 集
通解 过 胜劣 优汰的 选择 机 制进行 导向 性 搜 进索化 法 不 算需要 了 解题问
。
全部的 征特
.
,
可就 通以过 现体 进化 机 的 制进化过程 成 完问题 解
3求
G
A
盯
算法的 基 本原理
:A
G盯
用采
盯 模 型
对 变 在 量样本 分 中类的 作 用 进 行评
价。
,
以
e P
r
m
tu
t o ia n方法 确定特 征 筛 界
,
选,
值
作 最为终确定 特 征 量 变的依
据由 G A 算 选 取 法的分 部 量变,
为减
少 噪声变 量
对盯
量变 评 价结 果 的 扰 干 个每盯 型模 仅 包 含
,
并 且在遗 传过 程中 入 了 加量筛变选 步 骤 进 一以 步低 降 噪声变量 响
。
影尽 量减 盯少模 过型拟 合的可
从能 而 增强 盯 评价 结果 的稳定 性
备 较 的强多样性
,
A
;
G
算 法启 的发 特性使 分 对 作用 类 较 的强 变 量有更 多 的机会被 评 价
,同时
AG
法算的 变异 过 程 使 索搜 结 果向 一 定方 向 收 敛 同的 时
。具
“
”
使 类分作 用 较弱 变的量 也 可 以 获 一得定的 被 评 价机会
G
A
算 法 的上 两 述 点特
性州师杭 范大 学 药医 卫 管 生理学 院 (31 0 30 6) ) 哈滨尔 医 科大 学 卫 统 计 生教学 研 (室 巧。 0 8 1ali n h@ z n eu du△ 通讯 作者 发赵林E m a i l z h ao f
`
:,
,
:
..
c n
年 中 国
卫生 计学年会 统论文 集
既 保
了证 对变 量 评 的价 度
深
,
也 顾 了兼 评 的广价 度,
。
遗 传
过 内的 变程量 筛 中选
,
采
用
e
tP mur 。
a
io n
t
方法获 组得 间无 差 变量 重要 性异评 分 的 验 分经布
根 据
该经 分 验 布适自应 确 定 量变 筛 界选 值
选 择
编方式
码.
.) 采
用包含 全部 量 变的1
F 模型 变量 排对序R 产
生 初始 种
启 群式发初 种 始群
;
:I
…)
根 变据 量 排 序 确定 变 2
被量选 个 体入的概 始 种率
群5 %0
,
) 根
所得 概据率 产 生 初
3的个
体
;
.) 另 4
5 %0个体随 机 产生
, . j
遗传
作
操 ù勺 」
:
…
)…1
:
1r
,复制 交
叉2
) 眨o t 获n得 于基P 。比 un 样a 本 数 据 间组 无 差 变 量 的 异要重 性评 分
分
布
;量变 筛选
r.` 。
;确
定变量选界筛 值) 筛 选变 量产 新 生的 3子 代 群
,种
。
l…
: 综)合 各 代评 优结
1 确定
“
果
优
最”
解
保 留
每一 遗代 传操作 中童变x 的重 要性; 评 分 中数 位 罗M2 )以M 罗 的 中位 数 作变为 x量 全的局重 要 ;性 评 分 位 中数 M罗
根
据 即P
u
n tia t
o
n获
得 的
变量 筛选 界 “值确 定 最 优
”
解
.基本 遗 算传
法
图
G . AR
于
,算法
IGA
盯
算 过法 程 流程 图变
个数量为 m ,
4
GA
F算 法实 现R
A,
:
设
据数 分为
和
两类B
,
样
本量 为N
,
遗 传
法算 一 每代 群 包种 含M 染色 条
体
,
,
采
用 进 二 制编码 方式
突变为
(l
1
)遗
传 过程 中保 留最优 染 色体 的 概 设为 率几,
变
率设 为异 瑞
,
变
异中基 因 由
:
0
的r 概 为 率
ot
lo
算 法 收 的敛条件 传代 为达 到
,数
G
代
则
F AR G
k,
算
法步 骤如 下列
矩的阵 。
采用 二 进制 编 码 方 式
每
一 代 种群均 为 由
,O1 构 成的
,
行
,
M0
。表
对 应位 置 的示
基
因不 表达( 变量未 被 选入 模型)
( 2 ) 生产 混合 初始种
群。
1
示表对 应位置 的 基 因 表 达 ( 量变被 选 模入型 ) 人刃2
初
始 种群
中条染 体色 机随 产 生
另
M2 据根随 森林机 给 出 的 变
/
2
011
年
中 国 卫 统生计 学年论会文 集
,
量 重
性 要评 分 基 于伽马分布 函 启 数式发产 生
包
含
证 对 分保类 作 用 较大 的变 量 入选 概 的率也 较大
。
行
每
福
个。’ l
“
,
其 位余 均为置’0
“
。
(3 以 每 条)染 色 中 包 含体的 量 变建 随机 立森 模林型
,获取 变 量重 要 性评 作 分 为自适 降应 噪
的依
据
(4) 自适 应 降噪
:
① 算计每 条染 色 体中包含 基 的 个 数
因,
;
② 据根 染色 体 中 因基个数 自 适应 选择;
相 的应变量 重 要 性 分评筛 选 界值剔 除 变量 重 性要评 分于小该 界 的 值变
量( 5 ) 对降噪 后的 色染体 进 评 价行
:③
形 成降 噪 的 后新种 群
,
。
①用新 群 中种 的 色染体 建 随 机 森 林模 立型
.
获取 森 林对袋 外 R
OC
数 分据类 的 票投结 果
动gA
。
② 基;于 随 机 森 林 对 外袋数 的投据 票计 算 型 判 模别结 果的
.
曲线
下面 积
A C乙I
值在
0 5
1一 0
之.
,间
l 一以〔I C 作为 对染值色 体 的 评 价数
函,
。
(
6)获 取 降 噪 后随 机 林 森 模 型 变 量对的评 价 结果
作 为最 终 识 特别 征变 量 的 据
依
。
。
对变 量在整
r
个
种群中获得 变 量重的要 性评 分求 中 位
次数评 价
,
,
作为 变 量在 一 这 代获得 评 价 的结果,
如
某变 量共获得 。
则 对这
r
个变 量 重 要 性评 分 中位求数
如
该 变量 在 这果一 未 获得代 价 评则 此处 记 为 缺 失,
( 7
) 据评 价 根函数 值由 小到大 的顺 序 对 染 色 体进 行 排序
按
设 的 定比例将 排 序 靠 前的部 分色
。
染
直体 复接 到子制 代种群 中
(8)
,
进 不 任行何 交 叉 和 异
变。
子
代的其中 染余色体 经由 交 和 叉变 异产 生
,
根 据 染 色评体 价函 数排 序 定 确父 代中 的每 染色 条 被选 中参体与 叉 交 作 操概的率
。
证 评 保
价函
数 较优的 色体 染 有 高更的概 率 被选 中 其与他 染色 体 进 行叉
(9交)
交叉
:
父由代 中按 一 定 概 率选 取 两条染色 体
,
,
记
为
q
和q 并 1从一,
m
整的 数中随机 抽取 一
整个数 m c 作交 叉点
当m为 l =c
时以 q 作为 新产生 的色 染
体当m
c
=
时以
m
q 作。为 产 生新 的
染色
体
,
当
1(10 )
c
m:
m
时 新染 色体 1的
一
c
m
位来 q自
,c
m,
+
l 一m 位来 q
自变异
对由交 叉 生产 的 染 新色体 行进 变 异 操作
如染果色 体 中 的基 因 值取 为,
0
,
则从 O~
的
均匀 分布 中随 产 机生一 数个
踢
,
与预 先定 的设突 变 率瑞 比
,
如果
较饰
则 该瑞 因基不 发生0
变异
,
保
留原取 值
1( )
1
0
不变
,
如果
踢 七
则该 瑞基 因发 生 变 异
的 作操
,
取其值 按 预 先 设 定 的概 率由,
为变
h
将 步 (骤7 ) 步骤与 ( ) 8 一步 骤 ()1 0
生 的产 染 色合体
并 产生子 代种
群。
。
1 2( 重复 上 述) 骤步 ( 3 )一 骤步( 1 1 )
循 至环 第G 停代
止
(,1 3 ) 将每 代 中一步骤 (6
获) 得 的变量评 结价 取果中位
数作为 G
A
F 特
征 筛 选 方 法对变量 的 R
最 终
价评
,
为
记
叹
。朗
。
(
14 确)定最 终 筛选 界 值
,识
别特 征 变
量 作为 e Ptm ru
,
:
① 计 算最 后一 代 群种中每 染色 条体中 包 含的基 因 个 抽
样 参数
;
;数
②
其取 均值平 为 峡助记,
。
,
t
oi an
动个 量 ③变 从 数据 集中随机 取 抽刀云
。
,
将 分
类标签 随机 打乱2 0
00
建 立 随机森 模 型
林
;
录 变记量 重性 要评分
重 复,进行 ,
200 /
助 云对次 共 获
得
。
个变 量 重, 要性评
分,
④
以 上述
0 002
个 变 量
重 要性评 的 分百 数位 尸 9或。
99
尸作为
AG
盯
算法特
征
筛 选 值界
如
叽
。
朋
。
于大 该 界值 则 将该 量变 别识为 征 特 变量
(1 5 结束
)2
10 1
年 中国 卫
生 统计 学 年会文论集
实例应
.用
1
数
据 来源
实例 分
中析G
A
,
采用 对 未知分 类样 本的 别 判 果效作 为 特 征 选筛结果 的评 价指 标
,
。
本
研究先
首用
,
好
方法 对 实基真因 芯 片 数 据 行进 特 征筛
选
。采 用特 征 选筛结果 建 立 随机 森 林 分类 模型
并
直
接与 用使 随机森林 模 型的结 进果行 对 比 病基 因 芯片数
,据
研
究中分 析 的 基 因芯片 据数 有前 列腺癌 基 因 片数据芯和 糖尿
数 据 。由公 开 数 库据获 得,
对数据 的判 别 效 果 用
采1
0f d o l
一
交
验叉证 评 价 前 列 腺 癌
。。
分 为 有病 (A 组)和 无 病 ( B 组) 两 类
糖尿病 分 为 空 血腹糖 正 常组。
( 组A ) 糖和 尿组 病(B 组 )
比
较 中采用 的 高 组 维学实验 数 据的基 本 息信如 表 1
数表 据名 称 列前腺 癌( 基因 芯片) 糖 尿病 基(因 芯 片
).
1基
因 芯 片数 的样据 分本 布况
情样本
10 数
2 基数因
目036
2232 3
8
A
病
理检 查B 组
组 数来 源据
2
分
析结
由表果 2可 见,
经过
,
GA
RF
特 征
筛
,
选
RF
模
的型 判别能力 增强
。
。
虑 考实到 际经中常采 单变 量用
法进 行方变 量预 选筛我 们 同时 采 用了 于 t 检 验基的 筛选预 方
首先 根法 据t 验 检 统计 量绝对 大值 小 排
GA
序
,
取绝 对值 大较 前
G的
A 00
2个变
量
然, 分后 别 采 随 机森用林
20
、0
灯法 进 行 析分
。。
结果显 示采 用全
部
变 量 进
行 盯 征 筛特 选的效 果要 优 于筛 选预之 后 的
,
。
变 量 个的 分析 果结 为 考 察各种 法方是 ,
会否产 生过 拟合 现
象我
们 还将 前 列腺 癌 数据的 类 标 分 签打 乱
产
生 新 的 实际 上不 包含分 类 信息
,的
数 集
据
,采
用 上 述 法 方 对该 数据集 进行 分
析。
析 分结 果显 各示 方 种法类分结 果均很
没差 有出现 过
拟 现象合
表
2
随
机森 林及R
G A
际实数 据 糖 病 前尿列 癌腺前 列腺癌 ( 乱排 序列 )注
:
助
05 59
.
.
盯 六个 对数据集 分 的 结 析果即 A R 助G
. .
.0
52
.9 ·
04 7 (710 6 0 ).
,
.
.
0
0 9
·
0 80 8
9 00 781(8 11 5)
7
·
.
,
.
5002”
0
395
0
5 3 (9 014 9 o
。
·
)
·
0 ,23(49 18 0) 0 0 5(29 992 4 )0 o490 1( 7 9 15
.
)
.
盯以.
,
.
,
.
·.
,
·
随机 森为林模 型 缀 后’,P表示 采用 基 于 检验 统t计量对 数据 进 行筛预 后再选 采用 相应模 型 析分括 号为内 交叉验 证 过程 中分 类 模型 包 含的 量变个数 的均数 和位中 数随机 森林 模 采型 用全部 变 量建 模基 于预 筛选的 随机 林 模 森采 用与型 选得 筛到的 20 0 个变 量 模建
灯
,
;
,。
模拟
实验.
1模 拟实验 条件 设置 模 拟数 据A
1
:(
l
)=
该 部
分模 数据拟用 于 考 察
nG,
A
F R
特征
筛选 后的判 别 效果
)
。3
设 定 训 练样 本 N
为两类各 5 0例 ,
。
06
,
其
5
中;
类样 本 例数
=
3
0
,
B
样类本例 数
n
。=
10 例 测 试本样
0,
样
.
本 中含有
A UC = .
0个
有 差 异的变量 两 类 间的真 区实 度 分用
P 表示变量 间 相的关 数
20系00
, ,
,
ROC
=
曲线 下 面
积
05 .;
A 乙 j〔 ) 衡
量分别 设 A 习亡 0导8 5
5、 9
研
究中设定P
差。异 变 量 和 无 差异 变 均量服 从 正 态分
,。
布
;
无 差异
量变 的个数 为
()
2服
从 标准 正 态 布分
拟 实验 数模 重据 复 生产形 成 1 0 个 随样 机本
拟 模数据
2
:
该 分部 模拟数据 用于考 察 AG=
F
R法对 预设 差的 异 变量的识 别能 力 n,
。
设定 每
一个模 数 据 样 拟本 N
为。
6
0,
中其两 分类 样的 本 数例分 为
别
=
3
0和
n N
=
30,
差异 变量和 无差
=
.
异
变量均 从 服正态 分布 两类 间 总 真的 区 实分 度用 样
本 中含
有5
o
,R
c曲线下 积面0 衡 量
,
,
分 设别e
0
8
5
、
e
=
.
05
9
;
个
差 异 有的 量
,
变分别
用 戈
,弋
戈 戈 表示
戈3 0
9,
,
其戈 和
中
戈 两个变量 的相 关
2系
0年中国 卫 生 统 学计 年 论会 文集二
数
口’
,
.
0
,
其
余
,3
变个量 的相 P关系 P数1
2 34,
,
,,
0
。
为简单起 见
,
各 变
量 的方 差 均和 数设 为 同相
。,
方差
=
9
=
l
数 均尸i (
二
则根 据)e 值 编用制 的 程 求 序 出在此 础基 上5,
,
加入
0 200
个 无 差异
变量
。
无 差 异量变 来 自实 际基 因 芯 片 据数
同 时随机 抽 2 0取0 个变 量
.
即
由 前 列 癌腺基 因 芯 片数 据 的 两分个类 中 随 机 抽取3 0 样
例。
本
,
,
打乱样 本分 类 签标
模拟 验实数 据重 复 产生 形 成1 0 个随机 本
样
,
。
模2拟 验 实结 果
G
A
1()
盯 特征 筛选 后的判 别效
,果
由
表 3可
进见行 特 征 筛选 后
,
,
机 森林随模 只型 用需 少 量的 变量 能达到 很就好 的 别判效 果
;
;
尽
,
管设
定 的类 间 区 分度不 同 “
但 分
类 型 模 对据数判 别分 呈 现类 的 趋 势 一致”
。
设 定
的 类 区 间 分度 越 值
高
特则 征筛 选 后获 得 的最 优 分 类 模型的 判 别 效果 越 接 实近际 区 分度
表
.
e3
A
G盯
特征 筛 方法选及 机随 森林 模对 拟 据数 的 分 析结果差
变 异
( 量p
=
0 5
) .
随
机 森林
’
GA
模拟 次
10数0
变量
个数
A
.c
u
.
变量
个数
20 5
A0
.
cu
变. 量个
△
数R
法 F
算A〔 C
.
/0 85
0
8 21 0 935:
。
0
27
265 /2 5 /52
,
0
77 1
.0
59,
.
00
12005
0 915
0 9 3
1判别
型模A U C 估 计 的 中位 数 △ 线前 斜为 设定的 差 异 变量被 识 为特别
征 量 的变个数 的 中 位数 为 特 征 变量 的 变量 个 数 的 中 位数
斜 线后 被 为 识
。
别
分 图 析 和比
,较
2
和图
3给
出了 变 量 选 筛前后
R OC
曲
线下 积面
,AUC
估计
值 的 数频分 布 情 况
A CU
为便
于
同时 出给了 在 不包 含无差 异 变 干量 扰 的 况情
,下
随机 森林算
;法
估
计 值的频数 分
A布 U
C况
情。
结果
显示
GA
盯
特 征筛 选后
,
R
C
曲 O线 下 积面均 有 显明的 改
A善 CU
当 设定的
值
较 时
大,
,变
量 筛选 的后
A
CU。
频 数分 布与理想 情 况下 仅 (含 包差异变 量 )的 G
A频
数分 几 乎重 合
。布
到得
了常非理 想的结 果
使
用F
算法进行 变量 选筛R B=
8 0
.5
,
利 于 简化有 判 别 型和模 强 增测预 效
果,
P
= 05
A
UC
V
己 IU
图e2
变 筛量选 前 后 及仅 含 差 异 变量 的A
C
U
数频变 化情 况 (
e
二
0 .
5
8
,
p=
0
) 5.
2
1 1 0 年 中卫国 统计生 学年 论会 文集
B=
09
5
.
,= 0 5
Pu 匕aJ 珍 a br
. .O
实真区 分
度口
. .
变筛 选 前 量 变量 筛选后
UCA
V
三! U
e图
3
量变 选筛前 后 及 仅 含差 变 量 异 的A
c
u频
数 化变情 (
况o
二
.
0
59
p,
=
05
.
)
( 2) A G 差 异 好 量变的 识 别结
对 变果量 的排序 结果 显
示,
与
盯
模型相 比 =
.
AG R 能F 将预先 设定 的差异 变 排量在 更 靠 的前 位
置。
便在即组 间 异差较 小 情的况 下( 0
0
5
)8
,
预设的差 异 变被量排 在 前 0 位2 累 的积频 也率接近 0
=5
0
%。
表
4
各差异 变量 频在数招 邓 乃 抖92
F
和RG A 分盯析 结 中果 的 序排 分 布
RF
.0( 85
)
变量 个
l数 5 ~~6 1 101 2~0 12~ 033 1~ 5 0 5 1~ 1 0 0
001
G ~AR
F 累 百 积分率 (%)
旧小 屯 或 引了 么 3 0) 9 . 6 L 46
0
数
粼频 2 :1今 引 4绍6 [29 8 1 24 1
累
积百分 (率 %
.)
3
521
一0.
2
560 .
5 40
43 670
.
.
5
6 40.
60
8
.0
70
40
合
50计
010
0
50 0
表
5
各 差异变 量 在
数
频屯 泊创 Z厂 )U 3 75 2
1F
R G和
AR卫
FR
分 析
结果 的中排序 分布 ( 数
创频自 沦引 工 U 男2 6 3 81
e
=
0 .
5
)9
变
量 个数
1~ 5
G A RF
累
积百 率 ( % 分
兮)侧 大 不 (.创6 L ) 069 04
累 积 百 分率 %()
争 仅侧 别 旧 :g.3 9. .7 59 . 4 )0
6
1~0
11~2 0
21~ 3 0
8 04 一 0.
26 0 8 . 一0
3
1~ 505
1 ~ 1 00 100~
80
50010 0
合计
5
0
01
0
200
年 中
卫 生 统国计 年学 会 论 文
集
讨
尽 管随 机 林 森具有较 强的 噪声抗 能力 大影 响
,,
论
)
。
但基
因芯 片 数据 中 的 高 噪声 仍对 其 判别 结 果产生 较
通
过
G
A
盯方
法进 行 特 筛 选 后征
,
根据
筛 结 选 建 立 的果判 别 模
型判别 能 力有 较大提 升
,
(
2 对) 基 前于列 腺癌 基因 芯 片 数 据 生产的 类分标 签 乱序数 据分的析 结果 表 明
即。
模
型本 身
良好 的防止 有过拟 合 能
力(3 )
AG
,
同
于 基于属
模 盯 迭代算型法
的,
AG
盯
法 也没 有出 现 拟过合
t
灯
征特筛 选 方无 需 法行进预 筛
选
。,
采用 部 变量全进 行 特征 筛 选 效 果 更的 理 想检
、
验。
筛预
选主 的 作要 用是 减少变量个 数 能 不现体变 量间 的相 作 互用(
4)
通
常预 选筛 采 单用变 量 分 析 方法( 如
S
AM
法等
)
,
筛选 果结
本 究 研没 中直有接 考
,
察GA
盯
特 征筛 方选 法
的DRF
,
但
过 通较比
A
G,
盯
与 随森机林对 预
设 差 异
变量 的 排序 结 果见
可,
GA
F R
能
够将 预设的 差异 量 变排在 更靠 的前 置
FD 位R
。
即也如 果采用 同
,相
的 选筛 值界G 盯 特A 筛征 结 选更 有果可 能 获 较 得 的小如果 研 的究主要 目是的生 标 志物物 提
取,
D F
R
的 控制在 生 物 学研 中究十分 重要
。
使
用
G
A盯 算法 更是有 效 的
参
考 文献
u Ct ler A ,
,
S
t v
.
e
e n
.s
J
R
Raf n d m oo
re
st
sf
or
mi e r刊o
T ra
ys
.
Mth
e.
o
s d En砂 o l 2m0 0 64 11 :4 22 3 2,
,
,
一
武.晓岩 李 康 因基 达数表 据 别 分析判的随机 林森法方王
小 平遗传 算 法一 理 论
丫切g J H
D i az一
,
.
国卫中 生 计
,统
00 2
6
, 06,
:
4 9
一
1
一9 44
.
、
应 用
软与件 实现 S
ub se tS eel et oi
s.
.
2
00 2
,
西安 西 安通交大 学出版 社 G
ne e tie A l g or tih m.
.4
el nt
o
n r .VF e at ava
u re
n
U
sing
a
IE E E I n te ll i
g
y Sst e m s a
u
ins
,
9198
r
,
3 1( 2): 4 44
r9e
s一
.
U
i
r rt
ae
民 d
e
,
A sn,
de
r
7:
5 3A
.
e G
n
see le e t ion
n d
a
e
la s
s
i fie
t
i ao
n
o
f
mie
r
o
yr aa
vo
.
d
t
ag
o na od mf
t
.
B
MC
B
oi i nfo
r
mV K
e
it e
a,
20
60e
n
t oM o
e h oor
a
L i
d g r
nCM
,
i Er s k idnh
os n
K
只et a l dia b
.
GP C al IPh a er
.
一
Posn svie
,
g
e en
s一
i
n
lv
e
i d
no x
d iat i
v
e Po hst io n ar hP o ry al
e
d
i an t
l
y od
e r nw
g u l ta
e
n
mau
e ets
aNt G
n ee七
00 3 34 23() 2: 67 7
3