基于遗传算法的随机森林模型GARF用于特征基因筛选

年中国 生卫计统学年会论 集文

1

基1 遗传算于法的 机随林模型

赵森发

林△

用 于 特征 ,基 因筛 选2

AG

)

李康

2

基征因 筛选 基 是 组 因 研 学 究的主要 目之的 一 量 变对 本 进 样行 有效分 类t

r e

, ,a

特 征

因 筛选基不 仅要求 能 够 通筛 过选到 的 特 征

d

si

ce 而

且 要保 证 筛 选 得到 的 特 征变 集有量较 小的假 发现 率( lf sa,

o v

e

。r

y

FDR

)

否,则 将极 大增 加 生 物 验证 学的 工作量 o r

机森随 (林a n dm f eor

浪费大量 资源

,

至 甚 法无实 生 物现 学验

近年来

,

st

s,

盯)

泛广 用应 于维数高 据 析 中分并 取得 良好 的 了效果

aib (v r e alr

i m po t

可盯 以在 样本 对分类 的同时 给 出 量 变要重 性评 分筛

的选依 据有

较 大 影

。e

n ac

ems a r eus

,

I v

s

)M作 为特

征但当 变 量个 数 非 常 时多

,

中 含 包大 量的 对分 无 类作 的用噪 声 变量 对 分类 效 仍果

会,

使

。V

I

s

不稳M 定

,

对正分 类 有作 的 变 用量很可 能 在筛选 得到 变的 量子集 中排序 靠

o

后甚 至

无 被选法 入

遗传算 法 ( egn i t e

l

at r i og

,h

m,

AG)

按 是照随机搜 索 略策进行特 征筛 的选

,

可以

”由

不 同的 染 色 体 提 供 多样化 的特 征 筛 结 选 果用 采适 当 的 G A与

相结 合将 可 有 能低

降 GA

声 噪筛对选 ,

结果 的 影响

,

时 低 降 FD 水R平

。。

研本 期 望究 给出一 种 基

V

的 盯 搜索 策

, ,

A

G F

R用于 高维

据 的 数 征特筛选 分对 类 的 响

影,

AG

,盯

遗 传过 程中加 入基 于

Pe

I M

s

的发 式启 变量搜 索 方 法

降低够噪 声变 量 既 够 避能 免 人为。

并采

用基 于

r m

t

a u iton

方的 确法 最定 入终 模选型 的变 量 筛选 值界

定 筛 选界 值 的 主 性

同 能时 够 解 单 纯决 用采 变多量 启 式发 搜 策 略索 在存的 变 量 争竞问 题

原理与 方法

.

1

随机森 林基 本的原理

Be r

森机 林 由L c o

n

n a l i

(

20 10

)提出

,

它通过 自助 法 (bo s

ta

P r

重 )采 技 样

,

,

原 从始 练样

训集 N 本中有放 回 地重 复 随机 取抽 b 个样 生 本成新 的 训 自练助 本样集合

个 分 类组 成树随机 森

, 然后 根 自据样 助本集生 成 b。

新 数据 的分类 结 按 分 类果 投树 票 多 少 形成的 分 数 定而

,随机

森 林 的 主 特要,

是 点在处 理 高维数 据 时 会 产 不 生拟 合过现 象

,分

分在类 的同 时 能够 给出 变量 的 重 性要 评

l分

依 据该 评。

以 筛选 可 出 对 分类 起 重

要作用 的 变 量 l , 2

[

2.

传遗 算 的基 本原法理

gi,

遗传 算 法 由 Mic h

n 大学

的a

.

J H l

oa

n d

于19 7

5年 出

,

提是一 种 借鉴 物 界 自然生选 择和 生 物体遗

机制 的 随 搜 机算法索码

技术表 示 复杂结 构(

mu t at o i) n ,

其本 基原理 是 进 化 机制 和 自然选 择法 则3 ,I

e4并 通 编 码 的对 遗 传 作操 一复 制 r(p r o ud c,

]

传遗算 法 的 点特是 采 用简 单

、编

t

i )no

交叉。 ( cro

s

ov

r) 和 变 异e

产 生 择备 集

通解 过 胜劣 优汰的 选择 机 制进行 导向 性 搜 进索化 法 不 算需要 了 解题问

全部的 征特

.

,

可就 通以过 现体 进化 机 的 制进化过程 成 完问题 解

3求

G

A

算法的 基 本原理

:A

G盯

用采

盯 模 型

对 变 在 量样本 分 中类的 作 用 进 行评

价。

,

e P

r

m

tu

t o ia n方法 确定特 征 筛 界

,

选,

作 最为终确定 特 征 量 变的依

据由 G A 算 选 取 法的分 部 量变,

为减

少 噪声变 量

对盯

量变 评 价结 果 的 扰 干 个每盯 型模 仅 包 含

,

并 且在遗 传过 程中 入 了 加量筛变选 步 骤 进 一以 步低 降 噪声变量 响

影尽 量减 盯少模 过型拟 合的可

从能 而 增强 盯 评价 结果 的稳定 性

备 较 的强多样性

,

A

;

G

算 法启 的发 特性使 分 对 作用 类 较 的强 变 量有更 多 的机会被 评 价

,同时

AG

法算的 变异 过 程 使 索搜 结 果向 一 定方 向 收 敛 同的 时

。具

使 类分作 用 较弱 变的量 也 可 以 获 一得定的 被 评 价机会

G

A

算 法 的上 两 述 点特

性州师杭 范大 学 药医 卫 管 生理学 院 (31 0 30 6) ) 哈滨尔 医 科大 学 卫 统 计 生教学 研 (室 巧。 0 8 1ali n h@ z n eu du△ 通讯 作者 发赵林E m a i l z h ao f

`

:,

,

:

..

c n

年 中 国

卫生 计学年会 统论文 集

既 保

了证 对变 量 评 的价 度

,

也 顾 了兼 评 的广价 度,

遗 传

过 内的 变程量 筛 中选

,

e

tP mur 。

a

io n

t

方法获 组得 间无 差 变量 重要 性异评 分 的 验 分经布

根 据

该经 分 验 布适自应 确 定 量变 筛 界选 值

选 择

编方式

码.

.) 采

用包含 全部 量 变的1

F 模型 变量 排对序R 产

生 初始 种

启 群式发初 种 始群

;

:I

…)

根 变据 量 排 序 确定 变 2

被量选 个 体入的概 始 种率

群5 %0

,

) 根

所得 概据率 产 生 初

3的个

;

.) 另 4

5 %0个体随 机 产生

, . j

遗传

操 ù勺 」

:

)…1

:

1r

,复制 交

叉2

) 眨o t 获n得 于基P 。比 un 样a 本 数 据 间组 无 差 变 量 的 异要重 性评 分

;量变 筛选

r.` 。

;确

定变量选界筛 值) 筛 选变 量产 新 生的 3子 代 群

,种

l…

: 综)合 各 代评 优结

1 确定

最”

保 留

每一 遗代 传操作 中童变x 的重 要性; 评 分 中数 位 罗M2 )以M 罗 的 中位 数 作变为 x量 全的局重 要 ;性 评 分 位 中数 M罗

据 即P

u

n tia t

o

n获

得 的

变量 筛选 界 “值确 定 最 优

.基本 遗 算传

G . AR

,算法

IGA

算 过法 程 流程 图变

个数量为 m ,

4

GA

F算 法实 现R

A,

:

据数 分为

两类B

,

本量 为N

,

遗 传

法算 一 每代 群 包种 含M 染色 条

,

,

用 进 二 制编码 方式

突变为

(l

1

)遗

传 过程 中保 留最优 染 色体 的 概 设为 率几,

率设 为异 瑞

,

异中基 因 由

:

0

的r 概 为 率

ot

lo

算 法 收 的敛条件 传代 为达 到

,数

G

F AR G

k,

法步 骤如 下列

矩的阵 。

采用 二 进制 编 码 方 式

一 代 种群均 为 由

,O1 构 成的

,

,

M0

。表

对 应位 置 的示

因不 表达( 变量未 被 选入 模型)

( 2 ) 生产 混合 初始种

群。

1

示表对 应位置 的 基 因 表 达 ( 量变被 选 模入型 ) 人刃2

始 种群

中条染 体色 机随 产 生

M2 据根随 森林机 给 出 的 变

/

2

011

中 国 卫 统生计 学年论会文 集

,

量 重

性 要评 分 基 于伽马分布 函 启 数式发产 生

证 对 分保类 作 用 较大 的变 量 入选 概 的率也 较大

个。’ l

,

其 位余 均为置’0

(3 以 每 条)染 色 中 包 含体的 量 变建 随机 立森 模林型

,获取 变 量重 要 性评 作 分 为自适 降应 噪

的依

(4) 自适 应 降噪

:

① 算计每 条染 色 体中包含 基 的 个 数

因,

;

② 据根 染色 体 中 因基个数 自 适应 选择;

相 的应变量 重 要 性 分评筛 选 界值剔 除 变量 重 性要评 分于小该 界 的 值变

量( 5 ) 对降噪 后的 色染体 进 评 价行

:③

形 成降 噪 的 后新种 群

,

①用新 群 中种 的 色染体 建 随 机 森 林模 立型

.

获取 森 林对袋 外 R

OC

数 分据类 的 票投结 果

动gA

② 基;于 随 机 森 林 对 外袋数 的投据 票计 算 型 判 模别结 果的

.

曲线

下面 积

A C乙I

值在

0 5

1一 0

之.

,间

l 一以〔I C 作为 对染值色 体 的 评 价数

函,

(

6)获 取 降 噪 后随 机 林 森 模 型 变 量对的评 价 结果

作 为最 终 识 特别 征变 量 的 据

对变 量在整

r

种群中获得 变 量重的要 性评 分求 中 位

次数评 价

,

,

作为 变 量在 一 这 代获得 评 价 的结果,

某变 量共获得 。

则 对这

r

个变 量 重 要 性评 分 中位求数

该 变量 在 这果一 未 获得代 价 评则 此处 记 为 缺 失,

( 7

) 据评 价 根函数 值由 小到大 的顺 序 对 染 色 体进 行 排序

设 的 定比例将 排 序 靠 前的部 分色

直体 复接 到子制 代种群 中

(8)

,

进 不 任行何 交 叉 和 异

变。

代的其中 染余色体 经由 交 和 叉变 异产 生

,

根 据 染 色评体 价函 数排 序 定 确父 代中 的每 染色 条 被选 中参体与 叉 交 作 操概的率

证 评 保

价函

数 较优的 色体 染 有 高更的概 率 被选 中 其与他 染色 体 进 行叉

(9交)

交叉

:

父由代 中按 一 定 概 率选 取 两条染色 体

,

,

q

和q 并 1从一,

m

整的 数中随机 抽取 一

整个数 m c 作交 叉点

当m为 l =c

时以 q 作为 新产生 的色 染

体当m

c

=

时以

m

q 作。为 产 生新 的

染色

,

1(10 )

c

m:

m

时 新染 色体 1的

c

m

位来 q自

,c

m,

+

l 一m 位来 q

自变异

对由交 叉 生产 的 染 新色体 行进 变 异 操作

如染果色 体 中 的基 因 值取 为,

0

,

则从 O~

均匀 分布 中随 产 机生一 数个

,

与预 先定 的设突 变 率瑞 比

,

如果

较饰

则 该瑞 因基不 发生0

变异

,

留原取 值

1( )

1

0

不变

,

如果

踢 七

则该 瑞基 因发 生 变 异

的 作操

,

取其值 按 预 先 设 定 的概 率由,

为变

h

将 步 (骤7 ) 步骤与 ( ) 8 一步 骤 ()1 0

生 的产 染 色合体

并 产生子 代种

群。

1 2( 重复 上 述) 骤步 ( 3 )一 骤步( 1 1 )

循 至环 第G 停代

(,1 3 ) 将每 代 中一步骤 (6

获) 得 的变量评 结价 取果中位

数作为 G

A

F 特

征 筛 选 方 法对变量 的 R

最 终

价评

,

。朗

(

14 确)定最 终 筛选 界 值

,识

别特 征 变

量 作为 e Ptm ru

,

:

① 计 算最 后一 代 群种中每 染色 条体中 包 含的基 因 个 抽

样 参数

;

;数

其取 均值平 为 峡助记,

,

t

oi an

动个 量 ③变 从 数据 集中随机 取 抽刀云

,

将 分

类标签 随机 打乱2 0

00

建 立 随机森 模 型

;

录 变记量 重性 要评分

重 复,进行 ,

200 /

助 云对次 共 获

个变 量 重, 要性评

分,

以 上述

0 002

个 变 量

重 要性评 的 分百 数位 尸 9或。

99

尸作为

AG

算法特

筛 选 值界

于大 该 界值 则 将该 量变 别识为 征 特 变量

(1 5 结束

)2

10 1

年 中国 卫

生 统计 学 年会文论集

实例应

.用

1

据 来源

实例 分

中析G

A

,

采用 对 未知分 类样 本的 别 判 果效作 为 特 征 选筛结果 的评 价指 标

,

研究先

首用

,

方法 对 实基真因 芯 片 数 据 行进 特 征筛

。采 用特 征 选筛结果 建 立 随机 森 林 分类 模型

接与 用使 随机森林 模 型的结 进果行 对 比 病基 因 芯片数

,据

究中分 析 的 基 因芯片 据数 有前 列腺癌 基 因 片数据芯和 糖尿

数 据 。由公 开 数 库据获 得,

对数据 的判 别 效 果 用

采1

0f d o l

验叉证 评 价 前 列 腺 癌

。。

分 为 有病 (A 组)和 无 病 ( B 组) 两 类

糖尿病 分 为 空 血腹糖 正 常组。

( 组A ) 糖和 尿组 病(B 组 )

较 中采用 的 高 组 维学实验 数 据的基 本 息信如 表 1

数表 据名 称 列前腺 癌( 基因 芯片) 糖 尿病 基(因 芯 片

).

1基

因 芯 片数 的样据 分本 布况

情样本

10 数

2 基数因

目036

2232 3

8

A

理检 查B 组

组 数来 源据

2

析结

由表果 2可 见,

经过

,

GA

RF

特 征

,

RF

的型 判别能力 增强

虑 考实到 际经中常采 单变 量用

法进 行方变 量预 选筛我 们 同时 采 用了 于 t 检 验基的 筛选预 方

首先 根法 据t 验 检 统计 量绝对 大值 小 排

GA

,

取绝 对值 大较 前

G的

A 00

2个变

然, 分后 别 采 随 机森用林

20

、0

灯法 进 行 析分

。。

结果显 示采 用全

变 量 进

行 盯 征 筛特 选的效 果要 优 于筛 选预之 后 的

,

变 量 个的 分析 果结 为 考 察各种 法方是 ,

会否产 生过 拟合 现

象我

们 还将 前 列腺 癌 数据的 类 标 分 签打 乱

生 新 的 实际 上不 包含分 类 信息

,的

数 集

,采

用 上 述 法 方 对该 数据集 进行 分

析。

析 分结 果显 各示 方 种法类分结 果均很

没差 有出现 过

拟 现象合

2

机森 林及R

G A

际实数 据 糖 病 前尿列 癌腺前 列腺癌 ( 乱排 序列 )注

:

05 59

.

.

盯 六个 对数据集 分 的 结 析果即 A R 助G

. .

.0

52

.9 ·

04 7 (710 6 0 ).

,

.

.

0

0 9

·

0 80 8

9 00 781(8 11 5)

7

·

.

,

.

5002”

0

395

0

5 3 (9 014 9 o

·

)

·

0 ,23(49 18 0) 0 0 5(29 992 4 )0 o490 1( 7 9 15

.

)

.

盯以.

,

.

,

.

·.

,

·

随机 森为林模 型 缀 后’,P表示 采用 基 于 检验 统t计量对 数据 进 行筛预 后再选 采用 相应模 型 析分括 号为内 交叉验 证 过程 中分 类 模型 包 含的 量变个数 的均数 和位中 数随机 森林 模 采型 用全部 变 量建 模基 于预 筛选的 随机 林 模 森采 用与型 选得 筛到的 20 0 个变 量 模建

,

;

,。

模拟

实验.

1模 拟实验 条件 设置 模 拟数 据A

1

:(

l

)=

该 部

分模 数据拟用 于 考 察

nG,

A

F R

特征

筛选 后的判 别 效果

)

。3

设 定 训 练样 本 N

为两类各 5 0例 ,

06

,

5

中;

类样 本 例数

=

3

0

,

B

样类本例 数

n

。=

10 例 测 试本样

0,

.

本 中含有

A UC = .

0个

有 差 异的变量 两 类 间的真 区实 度 分用

P 表示变量 间 相的关 数

20系00

, ,

,

ROC

=

曲线 下 面

05 .;

A 乙 j〔 ) 衡

量分别 设 A 习亡 0导8 5

5、 9

究中设定P

差。异 变 量 和 无 差异 变 均量服 从 正 态分

,。

;

无 差异

量变 的个数 为

()

2服

从 标准 正 态 布分

拟 实验 数模 重据 复 生产形 成 1 0 个 随样 机本

拟 模数据

2

:

该 分部 模拟数据 用于考 察 AG=

F

R法对 预设 差的 异 变量的识 别能 力 n,

设定 每

一个模 数 据 样 拟本 N

为。

6

0,

中其两 分类 样的 本 数例分 为

=

3

0和

n N

=

30,

差异 变量和 无差

=

.

变量均 从 服正态 分布 两类 间 总 真的 区 实分 度用 样

本 中含

有5

o

,R

c曲线下 积面0 衡 量

,

,

分 设别e

0

8

5

e

=

.

05

9

;

差 异 有的 量

,

变分别

用 戈

,弋

戈 戈 表示

戈3 0

9,

,

其戈 和

戈 两个变量 的相 关

2系

0年中国 卫 生 统 学计 年 论会 文集二

口’

,

.

0

,

,3

变个量 的相 P关系 P数1

2 34,

,

,,

0

为简单起 见

,

各 变

量 的方 差 均和 数设 为 同相

。,

方差

=

9

=

l

数 均尸i (

则根 据)e 值 编用制 的 程 求 序 出在此 础基 上5,

,

加入

0 200

个 无 差异

变量

无 差 异量变 来 自实 际基 因 芯 片 据数

同 时随机 抽 2 0取0 个变 量

.

由 前 列 癌腺基 因 芯 片数 据 的 两分个类 中 随 机 抽取3 0 样

例。

,

,

打乱样 本分 类 签标

模拟 验实数 据重 复 产生 形 成1 0 个随机 本

,

模2拟 验 实结 果

G

A

1()

盯 特征 筛选 后的判 别效

,果

表 3可

进见行 特 征 筛选 后

,

,

机 森林随模 只型 用需 少 量的 变量 能达到 很就好 的 别判效 果

;

;

,

管设

定 的类 间 区 分度不 同 “

但 分

类 型 模 对据数判 别分 呈 现类 的 趋 势 一致”

设 定

的 类 区 间 分度 越 值

特则 征筛 选 后获 得 的最 优 分 类 模型的 判 别 效果 越 接 实近际 区 分度

.

e3

A

G盯

特征 筛 方法选及 机随 森林 模对 拟 据数 的 分 析结果差

变 异

( 量p

=

0 5

) .

机 森林

GA

模拟 次

10数0

变量

个数

A

.c

u

.

变量

个数

20 5

A0

.

cu

变. 量个

数R

法 F

算A〔 C

.

/0 85

0

8 21 0 935:

0

27

265 /2 5 /52

,

0

77 1

.0

59,

.

00

12005

0 915

0 9 3

1判别

型模A U C 估 计 的 中位 数 △ 线前 斜为 设定的 差 异 变量被 识 为特别

征 量 的变个数 的 中 位数 为 特 征 变量 的 变量 个 数 的 中 位数

斜 线后 被 为 识

分 图 析 和比

,较

2

和图

3给

出了 变 量 选 筛前后

R OC

线下 积面

,AUC

估计

值 的 数频分 布 情 况

A CU

为便

同时 出给了 在 不包 含无差 异 变 干量 扰 的 况情

,下

随机 森林算

;法

计 值的频数 分

A布 U

C况

情。

结果

显示

GA

特 征筛 选后

,

R

C

曲 O线 下 积面均 有 显明的 改

A善 CU

当 设定的

较 时

大,

,变

量 筛选 的后

A

CU。

频 数分 布与理想 情 况下 仅 (含 包差异变 量 )的 G

A频

数分 几 乎重 合

。布

到得

了常非理 想的结 果

使

用F

算法进行 变量 选筛R B=

8 0

.5

,

利 于 简化有 判 别 型和模 强 增测预 效

果,

P

= 05

A

UC

V

己 IU

图e2

变 筛量选 前 后 及仅 含 差 异 变量 的A

C

U

数频变 化情 况 (

e

0 .

5

8

,

p=

0

) 5.

2

1 1 0 年 中卫国 统计生 学年 论会 文集

B=

09

5

.

,= 0 5

Pu 匕aJ 珍 a br

. .O

实真区 分

度口

. .

变筛 选 前 量 变量 筛选后

UCA

V

三! U

e图

3

量变 选筛前 后 及 仅 含差 变 量 异 的A

c

u频

数 化变情 (

况o

.

0

59

p,

=

05

.

)

( 2) A G 差 异 好 量变的 识 别结

对 变果量 的排序 结果 显

示,

模型相 比 =

.

AG R 能F 将预先 设定 的差异 变 排量在 更 靠 的前 位

置。

便在即组 间 异差较 小 情的况 下( 0

0

5

)8

,

预设的差 异 变被量排 在 前 0 位2 累 的积频 也率接近 0

=5

0

%。

4

各差异 变量 频在数招 邓 乃 抖92

F

和RG A 分盯析 结 中果 的 序排 分 布

RF

.0( 85

)

变量 个

l数 5 ~~6 1 101 2~0 12~ 033 1~ 5 0 5 1~ 1 0 0

001

G ~AR

F 累 百 积分率 (%)

旧小 屯 或 引了 么 3 0) 9 . 6 L 46

0

粼频 2 :1今 引 4绍6 [29 8 1 24 1

积百分 (率 %

.)

3

521

一0.

2

560 .

5 40

43 670

.

.

5

6 40.

60

8

.0

70

40

50计

010

0

50 0

5

各 差异变 量 在

频屯 泊创 Z厂 )U 3 75 2

1F

R G和

AR卫

FR

分 析

结果 的中排序 分布 ( 数

创频自 沦引 工 U 男2 6 3 81

e

=

0 .

5

)9

量 个数

1~ 5

G A RF

积百 率 ( % 分

兮)侧 大 不 (.创6 L ) 069 04

累 积 百 分率 %()

争 仅侧 别 旧 :g.3 9. .7 59 . 4 )0

6

1~0

11~2 0

21~ 3 0

8 04 一 0.

26 0 8 . 一0

3

1~ 505

1 ~ 1 00 100~

80

50010 0

合计

5

0

01

0

200

年 中

卫 生 统国计 年学 会 论 文

尽 管随 机 林 森具有较 强的 噪声抗 能力 大影 响

,,

)

但基

因芯 片 数据 中 的 高 噪声 仍对 其 判别 结 果产生 较

G

A

盯方

法进 行 特 筛 选 后征

,

根据

筛 结 选 建 立 的果判 别 模

型判别 能 力有 较大提 升

,

(

2 对) 基 前于列 腺癌 基因 芯 片 数 据 生产的 类分标 签 乱序数 据分的析 结果 表 明

即。

型本 身

良好 的防止 有过拟 合 能

力(3 )

AG

,

于 基于属

模 盯 迭代算型法

的,

AG

法 也没 有出 现 拟过合

t

征特筛 选 方无 需 法行进预 筛

。,

采用 部 变量全进 行 特征 筛 选 效 果 更的 理 想检

验。

筛预

选主 的 作要 用是 减少变量个 数 能 不现体变 量间 的相 作 互用(

4)

常预 选筛 采 单用变 量 分 析 方法( 如

S

AM

法等

)

,

筛选 果结

本 究 研没 中直有接 考

,

察GA

特 征筛 方选 法

的DRF

,

过 通较比

A

G,

与 随森机林对 预

设 差 异

变量 的 排序 结 果见

可,

GA

F R

够将 预设的 差异 量 变排在 更靠 的前 置

FD 位R

即也如 果采用 同

,相

的 选筛 值界G 盯 特A 筛征 结 选更 有果可 能 获 较 得 的小如果 研 的究主要 目是的生 标 志物物 提

取,

D F

R

的 控制在 生 物 学研 中究十分 重要

使

G

A盯 算法 更是有 效 的

考 文献

u Ct ler A ,

,

S

t v

.

e

e n

.s

J

R

Raf n d m oo

re

st

sf

or

mi e r刊o

T ra

ys

.

Mth

e.

o

s d En砂 o l 2m0 0 64 11 :4 22 3 2,

,

,

武.晓岩 李 康 因基 达数表 据 别 分析判的随机 林森法方王

小 平遗传 算 法一 理 论

丫切g J H

D i az一

,

.

国卫中 生 计

,统

00 2

6

, 06,

:

4 9

1

一9 44

.

应 用

软与件 实现 S

ub se tS eel et oi

s.

.

2

00 2

,

西安 西 安通交大 学出版 社 G

ne e tie A l g or tih m.

.4

el nt

o

n r .VF e at ava

u re

n

U

sing

a

IE E E I n te ll i

g

y Sst e m s a

u

ins

,

9198

r

,

3 1( 2): 4 44

r9e

s一

.

U

i

r rt

ae

民 d

e

,

A sn,

de

r

7:

5 3A

.

e G

n

see le e t ion

n d

a

e

la s

s

i fie

t

i ao

n

o

f

mie

r

o

yr aa

vo

.

d

t

ag

o na od mf

t

.

B

MC

B

oi i nfo

r

mV K

e

it e

a,

20

60e

n

t oM o

e h oor

a

L i

d g r

nCM

,

i Er s k idnh

os n

K

只et a l dia b

.

GP C al IPh a er

.

Posn svie

,

g

e en

s一

i

n

lv

e

i d

no x

d iat i

v

e Po hst io n ar hP o ry al

e

d

i an t

l

y od

e r nw

g u l ta

e

n

mau

e ets

aNt G

n ee七

00 3 34 23() 2: 67 7

3

年中国 生卫计统学年会论 集文

1

基1 遗传算于法的 机随林模型

赵森发

林△

用 于 特征 ,基 因筛 选2

AG

)

李康

2

基征因 筛选 基 是 组 因 研 学 究的主要 目之的 一 量 变对 本 进 样行 有效分 类t

r e

, ,a

特 征

因 筛选基不 仅要求 能 够 通筛 过选到 的 特 征

d

si

ce 而

且 要保 证 筛 选 得到 的 特 征变 集有量较 小的假 发现 率( lf sa,

o v

e

。r

y

FDR

)

否,则 将极 大增 加 生 物 验证 学的 工作量 o r

机森随 (林a n dm f eor

浪费大量 资源

,

至 甚 法无实 生 物现 学验

近年来

,

st

s,

盯)

泛广 用应 于维数高 据 析 中分并 取得 良好 的 了效果

aib (v r e alr

i m po t

可盯 以在 样本 对分类 的同时 给 出 量 变要重 性评 分筛

的选依 据有

较 大 影

。e

n ac

ems a r eus

,

I v

s

)M作 为特

征但当 变 量个 数 非 常 时多

,

中 含 包大 量的 对分 无 类作 的用噪 声 变量 对 分类 效 仍果

会,

使

。V

I

s

不稳M 定

,

对正分 类 有作 的 变 用量很可 能 在筛选 得到 变的 量子集 中排序 靠

o

后甚 至

无 被选法 入

遗传算 法 ( egn i t e

l

at r i og

,h

m,

AG)

按 是照随机搜 索 略策进行特 征筛 的选

,

可以

”由

不 同的 染 色 体 提 供 多样化 的特 征 筛 结 选 果用 采适 当 的 G A与

相结 合将 可 有 能低

降 GA

声 噪筛对选 ,

结果 的 影响

,

时 低 降 FD 水R平

。。

研本 期 望究 给出一 种 基

V

的 盯 搜索 策

, ,

A

G F

R用于 高维

据 的 数 征特筛选 分对 类 的 响

影,

AG

,盯

遗 传过 程中加 入基 于

Pe

I M

s

的发 式启 变量搜 索 方 法

降低够噪 声变 量 既 够 避能 免 人为。

并采

用基 于

r m

t

a u iton

方的 确法 最定 入终 模选型 的变 量 筛选 值界

定 筛 选界 值 的 主 性

同 能时 够 解 单 纯决 用采 变多量 启 式发 搜 策 略索 在存的 变 量 争竞问 题

原理与 方法

.

1

随机森 林基 本的原理

Be r

森机 林 由L c o

n

n a l i

(

20 10

)提出

,

它通过 自助 法 (bo s

ta

P r

重 )采 技 样

,

,

原 从始 练样

训集 N 本中有放 回 地重 复 随机 取抽 b 个样 生 本成新 的 训 自练助 本样集合

个 分 类组 成树随机 森

, 然后 根 自据样 助本集生 成 b。

新 数据 的分类 结 按 分 类果 投树 票 多 少 形成的 分 数 定而

,随机

森 林 的 主 特要,

是 点在处 理 高维数 据 时 会 产 不 生拟 合过现 象

,分

分在类 的同 时 能够 给出 变量 的 重 性要 评

l分

依 据该 评。

以 筛选 可 出 对 分类 起 重

要作用 的 变 量 l , 2

[

2.

传遗 算 的基 本原法理

gi,

遗传 算 法 由 Mic h

n 大学

的a

.

J H l

oa

n d

于19 7

5年 出

,

提是一 种 借鉴 物 界 自然生选 择和 生 物体遗

机制 的 随 搜 机算法索码

技术表 示 复杂结 构(

mu t at o i) n ,

其本 基原理 是 进 化 机制 和 自然选 择法 则3 ,I

e4并 通 编 码 的对 遗 传 作操 一复 制 r(p r o ud c,

]

传遗算 法 的 点特是 采 用简 单

、编

t

i )no

交叉。 ( cro

s

ov

r) 和 变 异e

产 生 择备 集

通解 过 胜劣 优汰的 选择 机 制进行 导向 性 搜 进索化 法 不 算需要 了 解题问

全部的 征特

.

,

可就 通以过 现体 进化 机 的 制进化过程 成 完问题 解

3求

G

A

算法的 基 本原理

:A

G盯

用采

盯 模 型

对 变 在 量样本 分 中类的 作 用 进 行评

价。

,

e P

r

m

tu

t o ia n方法 确定特 征 筛 界

,

选,

作 最为终确定 特 征 量 变的依

据由 G A 算 选 取 法的分 部 量变,

为减

少 噪声变 量

对盯

量变 评 价结 果 的 扰 干 个每盯 型模 仅 包 含

,

并 且在遗 传过 程中 入 了 加量筛变选 步 骤 进 一以 步低 降 噪声变量 响

影尽 量减 盯少模 过型拟 合的可

从能 而 增强 盯 评价 结果 的稳定 性

备 较 的强多样性

,

A

;

G

算 法启 的发 特性使 分 对 作用 类 较 的强 变 量有更 多 的机会被 评 价

,同时

AG

法算的 变异 过 程 使 索搜 结 果向 一 定方 向 收 敛 同的 时

。具

使 类分作 用 较弱 变的量 也 可 以 获 一得定的 被 评 价机会

G

A

算 法 的上 两 述 点特

性州师杭 范大 学 药医 卫 管 生理学 院 (31 0 30 6) ) 哈滨尔 医 科大 学 卫 统 计 生教学 研 (室 巧。 0 8 1ali n h@ z n eu du△ 通讯 作者 发赵林E m a i l z h ao f

`

:,

,

:

..

c n

年 中 国

卫生 计学年会 统论文 集

既 保

了证 对变 量 评 的价 度

,

也 顾 了兼 评 的广价 度,

遗 传

过 内的 变程量 筛 中选

,

e

tP mur 。

a

io n

t

方法获 组得 间无 差 变量 重要 性异评 分 的 验 分经布

根 据

该经 分 验 布适自应 确 定 量变 筛 界选 值

选 择

编方式

码.

.) 采

用包含 全部 量 变的1

F 模型 变量 排对序R 产

生 初始 种

启 群式发初 种 始群

;

:I

…)

根 变据 量 排 序 确定 变 2

被量选 个 体入的概 始 种率

群5 %0

,

) 根

所得 概据率 产 生 初

3的个

;

.) 另 4

5 %0个体随 机 产生

, . j

遗传

操 ù勺 」

:

)…1

:

1r

,复制 交

叉2

) 眨o t 获n得 于基P 。比 un 样a 本 数 据 间组 无 差 变 量 的 异要重 性评 分

;量变 筛选

r.` 。

;确

定变量选界筛 值) 筛 选变 量产 新 生的 3子 代 群

,种

l…

: 综)合 各 代评 优结

1 确定

最”

保 留

每一 遗代 传操作 中童变x 的重 要性; 评 分 中数 位 罗M2 )以M 罗 的 中位 数 作变为 x量 全的局重 要 ;性 评 分 位 中数 M罗

据 即P

u

n tia t

o

n获

得 的

变量 筛选 界 “值确 定 最 优

.基本 遗 算传

G . AR

,算法

IGA

算 过法 程 流程 图变

个数量为 m ,

4

GA

F算 法实 现R

A,

:

据数 分为

两类B

,

本量 为N

,

遗 传

法算 一 每代 群 包种 含M 染色 条

,

,

用 进 二 制编码 方式

突变为

(l

1

)遗

传 过程 中保 留最优 染 色体 的 概 设为 率几,

率设 为异 瑞

,

异中基 因 由

:

0

的r 概 为 率

ot

lo

算 法 收 的敛条件 传代 为达 到

,数

G

F AR G

k,

法步 骤如 下列

矩的阵 。

采用 二 进制 编 码 方 式

一 代 种群均 为 由

,O1 构 成的

,

,

M0

。表

对 应位 置 的示

因不 表达( 变量未 被 选入 模型)

( 2 ) 生产 混合 初始种

群。

1

示表对 应位置 的 基 因 表 达 ( 量变被 选 模入型 ) 人刃2

始 种群

中条染 体色 机随 产 生

M2 据根随 森林机 给 出 的 变

/

2

011

中 国 卫 统生计 学年论会文 集

,

量 重

性 要评 分 基 于伽马分布 函 启 数式发产 生

证 对 分保类 作 用 较大 的变 量 入选 概 的率也 较大

个。’ l

,

其 位余 均为置’0

(3 以 每 条)染 色 中 包 含体的 量 变建 随机 立森 模林型

,获取 变 量重 要 性评 作 分 为自适 降应 噪

的依

(4) 自适 应 降噪

:

① 算计每 条染 色 体中包含 基 的 个 数

因,

;

② 据根 染色 体 中 因基个数 自 适应 选择;

相 的应变量 重 要 性 分评筛 选 界值剔 除 变量 重 性要评 分于小该 界 的 值变

量( 5 ) 对降噪 后的 色染体 进 评 价行

:③

形 成降 噪 的 后新种 群

,

①用新 群 中种 的 色染体 建 随 机 森 林模 立型

.

获取 森 林对袋 外 R

OC

数 分据类 的 票投结 果

动gA

② 基;于 随 机 森 林 对 外袋数 的投据 票计 算 型 判 模别结 果的

.

曲线

下面 积

A C乙I

值在

0 5

1一 0

之.

,间

l 一以〔I C 作为 对染值色 体 的 评 价数

函,

(

6)获 取 降 噪 后随 机 林 森 模 型 变 量对的评 价 结果

作 为最 终 识 特别 征变 量 的 据

对变 量在整

r

种群中获得 变 量重的要 性评 分求 中 位

次数评 价

,

,

作为 变 量在 一 这 代获得 评 价 的结果,

某变 量共获得 。

则 对这

r

个变 量 重 要 性评 分 中位求数

该 变量 在 这果一 未 获得代 价 评则 此处 记 为 缺 失,

( 7

) 据评 价 根函数 值由 小到大 的顺 序 对 染 色 体进 行 排序

设 的 定比例将 排 序 靠 前的部 分色

直体 复接 到子制 代种群 中

(8)

,

进 不 任行何 交 叉 和 异

变。

代的其中 染余色体 经由 交 和 叉变 异产 生

,

根 据 染 色评体 价函 数排 序 定 确父 代中 的每 染色 条 被选 中参体与 叉 交 作 操概的率

证 评 保

价函

数 较优的 色体 染 有 高更的概 率 被选 中 其与他 染色 体 进 行叉

(9交)

交叉

:

父由代 中按 一 定 概 率选 取 两条染色 体

,

,

q

和q 并 1从一,

m

整的 数中随机 抽取 一

整个数 m c 作交 叉点

当m为 l =c

时以 q 作为 新产生 的色 染

体当m

c

=

时以

m

q 作。为 产 生新 的

染色

,

1(10 )

c

m:

m

时 新染 色体 1的

c

m

位来 q自

,c

m,

+

l 一m 位来 q

自变异

对由交 叉 生产 的 染 新色体 行进 变 异 操作

如染果色 体 中 的基 因 值取 为,

0

,

则从 O~

均匀 分布 中随 产 机生一 数个

,

与预 先定 的设突 变 率瑞 比

,

如果

较饰

则 该瑞 因基不 发生0

变异

,

留原取 值

1( )

1

0

不变

,

如果

踢 七

则该 瑞基 因发 生 变 异

的 作操

,

取其值 按 预 先 设 定 的概 率由,

为变

h

将 步 (骤7 ) 步骤与 ( ) 8 一步 骤 ()1 0

生 的产 染 色合体

并 产生子 代种

群。

1 2( 重复 上 述) 骤步 ( 3 )一 骤步( 1 1 )

循 至环 第G 停代

(,1 3 ) 将每 代 中一步骤 (6

获) 得 的变量评 结价 取果中位

数作为 G

A

F 特

征 筛 选 方 法对变量 的 R

最 终

价评

,

。朗

(

14 确)定最 终 筛选 界 值

,识

别特 征 变

量 作为 e Ptm ru

,

:

① 计 算最 后一 代 群种中每 染色 条体中 包 含的基 因 个 抽

样 参数

;

;数

其取 均值平 为 峡助记,

,

t

oi an

动个 量 ③变 从 数据 集中随机 取 抽刀云

,

将 分

类标签 随机 打乱2 0

00

建 立 随机森 模 型

;

录 变记量 重性 要评分

重 复,进行 ,

200 /

助 云对次 共 获

个变 量 重, 要性评

分,

以 上述

0 002

个 变 量

重 要性评 的 分百 数位 尸 9或。

99

尸作为

AG

算法特

筛 选 值界

于大 该 界值 则 将该 量变 别识为 征 特 变量

(1 5 结束

)2

10 1

年 中国 卫

生 统计 学 年会文论集

实例应

.用

1

据 来源

实例 分

中析G

A

,

采用 对 未知分 类样 本的 别 判 果效作 为 特 征 选筛结果 的评 价指 标

,

研究先

首用

,

方法 对 实基真因 芯 片 数 据 行进 特 征筛

。采 用特 征 选筛结果 建 立 随机 森 林 分类 模型

接与 用使 随机森林 模 型的结 进果行 对 比 病基 因 芯片数

,据

究中分 析 的 基 因芯片 据数 有前 列腺癌 基 因 片数据芯和 糖尿

数 据 。由公 开 数 库据获 得,

对数据 的判 别 效 果 用

采1

0f d o l

验叉证 评 价 前 列 腺 癌

。。

分 为 有病 (A 组)和 无 病 ( B 组) 两 类

糖尿病 分 为 空 血腹糖 正 常组。

( 组A ) 糖和 尿组 病(B 组 )

较 中采用 的 高 组 维学实验 数 据的基 本 息信如 表 1

数表 据名 称 列前腺 癌( 基因 芯片) 糖 尿病 基(因 芯 片

).

1基

因 芯 片数 的样据 分本 布况

情样本

10 数

2 基数因

目036

2232 3

8

A

理检 查B 组

组 数来 源据

2

析结

由表果 2可 见,

经过

,

GA

RF

特 征

,

RF

的型 判别能力 增强

虑 考实到 际经中常采 单变 量用

法进 行方变 量预 选筛我 们 同时 采 用了 于 t 检 验基的 筛选预 方

首先 根法 据t 验 检 统计 量绝对 大值 小 排

GA

,

取绝 对值 大较 前

G的

A 00

2个变

然, 分后 别 采 随 机森用林

20

、0

灯法 进 行 析分

。。

结果显 示采 用全

变 量 进

行 盯 征 筛特 选的效 果要 优 于筛 选预之 后 的

,

变 量 个的 分析 果结 为 考 察各种 法方是 ,

会否产 生过 拟合 现

象我

们 还将 前 列腺 癌 数据的 类 标 分 签打 乱

生 新 的 实际 上不 包含分 类 信息

,的

数 集

,采

用 上 述 法 方 对该 数据集 进行 分

析。

析 分结 果显 各示 方 种法类分结 果均很

没差 有出现 过

拟 现象合

2

机森 林及R

G A

际实数 据 糖 病 前尿列 癌腺前 列腺癌 ( 乱排 序列 )注

:

05 59

.

.

盯 六个 对数据集 分 的 结 析果即 A R 助G

. .

.0

52

.9 ·

04 7 (710 6 0 ).

,

.

.

0

0 9

·

0 80 8

9 00 781(8 11 5)

7

·

.

,

.

5002”

0

395

0

5 3 (9 014 9 o

·

)

·

0 ,23(49 18 0) 0 0 5(29 992 4 )0 o490 1( 7 9 15

.

)

.

盯以.

,

.

,

.

·.

,

·

随机 森为林模 型 缀 后’,P表示 采用 基 于 检验 统t计量对 数据 进 行筛预 后再选 采用 相应模 型 析分括 号为内 交叉验 证 过程 中分 类 模型 包 含的 量变个数 的均数 和位中 数随机 森林 模 采型 用全部 变 量建 模基 于预 筛选的 随机 林 模 森采 用与型 选得 筛到的 20 0 个变 量 模建

,

;

,。

模拟

实验.

1模 拟实验 条件 设置 模 拟数 据A

1

:(

l

)=

该 部

分模 数据拟用 于 考 察

nG,

A

F R

特征

筛选 后的判 别 效果

)

。3

设 定 训 练样 本 N

为两类各 5 0例 ,

06

,

5

中;

类样 本 例数

=

3

0

,

B

样类本例 数

n

。=

10 例 测 试本样

0,

.

本 中含有

A UC = .

0个

有 差 异的变量 两 类 间的真 区实 度 分用

P 表示变量 间 相的关 数

20系00

, ,

,

ROC

=

曲线 下 面

05 .;

A 乙 j〔 ) 衡

量分别 设 A 习亡 0导8 5

5、 9

究中设定P

差。异 变 量 和 无 差异 变 均量服 从 正 态分

,。

;

无 差异

量变 的个数 为

()

2服

从 标准 正 态 布分

拟 实验 数模 重据 复 生产形 成 1 0 个 随样 机本

拟 模数据

2

:

该 分部 模拟数据 用于考 察 AG=

F

R法对 预设 差的 异 变量的识 别能 力 n,

设定 每

一个模 数 据 样 拟本 N

为。

6

0,

中其两 分类 样的 本 数例分 为

=

3

0和

n N

=

30,

差异 变量和 无差

=

.

变量均 从 服正态 分布 两类 间 总 真的 区 实分 度用 样

本 中含

有5

o

,R

c曲线下 积面0 衡 量

,

,

分 设别e

0

8

5

e

=

.

05

9

;

差 异 有的 量

,

变分别

用 戈

,弋

戈 戈 表示

戈3 0

9,

,

其戈 和

戈 两个变量 的相 关

2系

0年中国 卫 生 统 学计 年 论会 文集二

口’

,

.

0

,

,3

变个量 的相 P关系 P数1

2 34,

,

,,

0

为简单起 见

,

各 变

量 的方 差 均和 数设 为 同相

。,

方差

=

9

=

l

数 均尸i (

则根 据)e 值 编用制 的 程 求 序 出在此 础基 上5,

,

加入

0 200

个 无 差异

变量

无 差 异量变 来 自实 际基 因 芯 片 据数

同 时随机 抽 2 0取0 个变 量

.

由 前 列 癌腺基 因 芯 片数 据 的 两分个类 中 随 机 抽取3 0 样

例。

,

,

打乱样 本分 类 签标

模拟 验实数 据重 复 产生 形 成1 0 个随机 本

,

模2拟 验 实结 果

G

A

1()

盯 特征 筛选 后的判 别效

,果

表 3可

进见行 特 征 筛选 后

,

,

机 森林随模 只型 用需 少 量的 变量 能达到 很就好 的 别判效 果

;

;

,

管设

定 的类 间 区 分度不 同 “

但 分

类 型 模 对据数判 别分 呈 现类 的 趋 势 一致”

设 定

的 类 区 间 分度 越 值

特则 征筛 选 后获 得 的最 优 分 类 模型的 判 别 效果 越 接 实近际 区 分度

.

e3

A

G盯

特征 筛 方法选及 机随 森林 模对 拟 据数 的 分 析结果差

变 异

( 量p

=

0 5

) .

机 森林

GA

模拟 次

10数0

变量

个数

A

.c

u

.

变量

个数

20 5

A0

.

cu

变. 量个

数R

法 F

算A〔 C

.

/0 85

0

8 21 0 935:

0

27

265 /2 5 /52

,

0

77 1

.0

59,

.

00

12005

0 915

0 9 3

1判别

型模A U C 估 计 的 中位 数 △ 线前 斜为 设定的 差 异 变量被 识 为特别

征 量 的变个数 的 中 位数 为 特 征 变量 的 变量 个 数 的 中 位数

斜 线后 被 为 识

分 图 析 和比

,较

2

和图

3给

出了 变 量 选 筛前后

R OC

线下 积面

,AUC

估计

值 的 数频分 布 情 况

A CU

为便

同时 出给了 在 不包 含无差 异 变 干量 扰 的 况情

,下

随机 森林算

;法

计 值的频数 分

A布 U

C况

情。

结果

显示

GA

特 征筛 选后

,

R

C

曲 O线 下 积面均 有 显明的 改

A善 CU

当 设定的

较 时

大,

,变

量 筛选 的后

A

CU。

频 数分 布与理想 情 况下 仅 (含 包差异变 量 )的 G

A频

数分 几 乎重 合

。布

到得

了常非理 想的结 果

使

用F

算法进行 变量 选筛R B=

8 0

.5

,

利 于 简化有 判 别 型和模 强 增测预 效

果,

P

= 05

A

UC

V

己 IU

图e2

变 筛量选 前 后 及仅 含 差 异 变量 的A

C

U

数频变 化情 况 (

e

0 .

5

8

,

p=

0

) 5.

2

1 1 0 年 中卫国 统计生 学年 论会 文集

B=

09

5

.

,= 0 5

Pu 匕aJ 珍 a br

. .O

实真区 分

度口

. .

变筛 选 前 量 变量 筛选后

UCA

V

三! U

e图

3

量变 选筛前 后 及 仅 含差 变 量 异 的A

c

u频

数 化变情 (

况o

.

0

59

p,

=

05

.

)

( 2) A G 差 异 好 量变的 识 别结

对 变果量 的排序 结果 显

示,

模型相 比 =

.

AG R 能F 将预先 设定 的差异 变 排量在 更 靠 的前 位

置。

便在即组 间 异差较 小 情的况 下( 0

0

5

)8

,

预设的差 异 变被量排 在 前 0 位2 累 的积频 也率接近 0

=5

0

%。

4

各差异 变量 频在数招 邓 乃 抖92

F

和RG A 分盯析 结 中果 的 序排 分 布

RF

.0( 85

)

变量 个

l数 5 ~~6 1 101 2~0 12~ 033 1~ 5 0 5 1~ 1 0 0

001

G ~AR

F 累 百 积分率 (%)

旧小 屯 或 引了 么 3 0) 9 . 6 L 46

0

粼频 2 :1今 引 4绍6 [29 8 1 24 1

积百分 (率 %

.)

3

521

一0.

2

560 .

5 40

43 670

.

.

5

6 40.

60

8

.0

70

40

50计

010

0

50 0

5

各 差异变 量 在

频屯 泊创 Z厂 )U 3 75 2

1F

R G和

AR卫

FR

分 析

结果 的中排序 分布 ( 数

创频自 沦引 工 U 男2 6 3 81

e

=

0 .

5

)9

量 个数

1~ 5

G A RF

积百 率 ( % 分

兮)侧 大 不 (.创6 L ) 069 04

累 积 百 分率 %()

争 仅侧 别 旧 :g.3 9. .7 59 . 4 )0

6

1~0

11~2 0

21~ 3 0

8 04 一 0.

26 0 8 . 一0

3

1~ 505

1 ~ 1 00 100~

80

50010 0

合计

5

0

01

0

200

年 中

卫 生 统国计 年学 会 论 文

尽 管随 机 林 森具有较 强的 噪声抗 能力 大影 响

,,

)

但基

因芯 片 数据 中 的 高 噪声 仍对 其 判别 结 果产生 较

G

A

盯方

法进 行 特 筛 选 后征

,

根据

筛 结 选 建 立 的果判 别 模

型判别 能 力有 较大提 升

,

(

2 对) 基 前于列 腺癌 基因 芯 片 数 据 生产的 类分标 签 乱序数 据分的析 结果 表 明

即。

型本 身

良好 的防止 有过拟 合 能

力(3 )

AG

,

于 基于属

模 盯 迭代算型法

的,

AG

法 也没 有出 现 拟过合

t

征特筛 选 方无 需 法行进预 筛

。,

采用 部 变量全进 行 特征 筛 选 效 果 更的 理 想检

验。

筛预

选主 的 作要 用是 减少变量个 数 能 不现体变 量间 的相 作 互用(

4)

常预 选筛 采 单用变 量 分 析 方法( 如

S

AM

法等

)

,

筛选 果结

本 究 研没 中直有接 考

,

察GA

特 征筛 方选 法

的DRF

,

过 通较比

A

G,

与 随森机林对 预

设 差 异

变量 的 排序 结 果见

可,

GA

F R

够将 预设的 差异 量 变排在 更靠 的前 置

FD 位R

即也如 果采用 同

,相

的 选筛 值界G 盯 特A 筛征 结 选更 有果可 能 获 较 得 的小如果 研 的究主要 目是的生 标 志物物 提

取,

D F

R

的 控制在 生 物 学研 中究十分 重要

使

G

A盯 算法 更是有 效 的

考 文献

u Ct ler A ,

,

S

t v

.

e

e n

.s

J

R

Raf n d m oo

re

st

sf

or

mi e r刊o

T ra

ys

.

Mth

e.

o

s d En砂 o l 2m0 0 64 11 :4 22 3 2,

,

,

武.晓岩 李 康 因基 达数表 据 别 分析判的随机 林森法方王

小 平遗传 算 法一 理 论

丫切g J H

D i az一

,

.

国卫中 生 计

,统

00 2

6

, 06,

:

4 9

1

一9 44

.

应 用

软与件 实现 S

ub se tS eel et oi

s.

.

2

00 2

,

西安 西 安通交大 学出版 社 G

ne e tie A l g or tih m.

.4

el nt

o

n r .VF e at ava

u re

n

U

sing

a

IE E E I n te ll i

g

y Sst e m s a

u

ins

,

9198

r

,

3 1( 2): 4 44

r9e

s一

.

U

i

r rt

ae

民 d

e

,

A sn,

de

r

7:

5 3A

.

e G

n

see le e t ion

n d

a

e

la s

s

i fie

t

i ao

n

o

f

mie

r

o

yr aa

vo

.

d

t

ag

o na od mf

t

.

B

MC

B

oi i nfo

r

mV K

e

it e

a,

20

60e

n

t oM o

e h oor

a

L i

d g r

nCM

,

i Er s k idnh

os n

K

只et a l dia b

.

GP C al IPh a er

.

Posn svie

,

g

e en

s一

i

n

lv

e

i d

no x

d iat i

v

e Po hst io n ar hP o ry al

e

d

i an t

l

y od

e r nw

g u l ta

e

n

mau

e ets

aNt G

n ee七

00 3 34 23() 2: 67 7

3


相关文章

  • 基因调控网络数据分析方法研究
  • 第23卷第2期 Vol.23No.2周口师范学院学报JournalofZhoukouNormalUniversity2006年3月Mar.2006 基因调控网络数据分析方法研究 曹祥红,11,2 (1.郑州轻工业学院2.华中科技大学,430 ...查看


  • 十大经典数学模型
  • 十大经典数学模型 1.蒙特卡罗算法(该算法又称随机性模拟算法,是通过计算机仿真来解决问题的算法,同时可以通过模拟来检验自己模型的正确性,是比赛时必用的方法) 2.数据拟合.参数估计.插值等数据处理算法(比赛中通常会遇到大量的数据需要处理,而 ...查看


  • 遗传算法原理与发展方向综述
  • 信息科学 遗传算法原理与发展方向综述 赵宜鹏 孟磊 彭承靖 (云南民族大学数计学院,云南昆明650031) 摘 要:遗传算法是一种基于生物自然选择与遗传机理的随机搜索与优化方法,近年来, 由于遗传算法求解复杂优化问题的巨大潜力及其在工 业工 ...查看


  • 遗传算法编码方案比较
  • 第28卷第3期2011年3月 计算机应用研究ApplicationResearchofComputers Vo.l28No.3 Mar.2011 遗传算法编码方案比较 张超群,郑建国,钱 洁 1,2 1 1 * (1.东华大学旭日工商管理学 ...查看


  • 基于遗传算法的生产调度
  • 摘 要 作业车间调度问题(Job-shop Scheduling Problem, 简称JSP) 是一类满足任务配置和顺序约束要求的资源分配问题,是一类典型的NP-hard 问题,至今没有找到可以精确求得最优解的多项式时间算法.有效地调度方 ...查看


  • 智能优化算法综述
  • Nanjing University of Science and Technology 智能优化算法的统一框架 110040692 5班 2011年6月20日 目录 1 概述................................ ...查看


  • 基于遗传算法的松质骨支架孔隙空间分布控制
  • 第2*卷 第*期 201*年*月 计算机辅助设计与图形学学报 Journal of Computer-Aided Design & Computer Graphics Vol. 2* No.* ***. 201* 基于遗传算法的松质 ...查看


  • 无限量地生产稳健的量化交易策略
  • 无限量地生产稳健的量化交易策略:Trading System Lab (TSL) 于 1985 年创立的美国<期货真相> Futures Truth 杂志,旨在服务全球股票及商品期货交易者,而其根本任务是为读者验证系统交易策略的 ...查看


  • 生物信息学名词解释
  • 一.名词解释: 1.生物信息学: 研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体.利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存.检索.处理及分析,并以生物学知识对结果进行 ...查看


热门内容