基于支持向量机与无监督聚类相结合的 中文网页分类器 李晓黎 刘继敏

基于支持向量机与无监督聚类相结合的 中文网页分类器 李晓黎 刘继敏
计
算
机
学
报
Vol. 24 No. 1
Jan. 2001
CHINESE J. COMPUTERS
!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
!
第 24 卷 第 1 期
2001 年 1 月
基于支持向量机与无监督聚类相结合的
中文网页分类器
李晓黎 刘继敏 史忠植
(中国科学院计算技术研究所
摘
要
北京 100080)
提出了一种将支持向量机与无监督聚类相结合的新分类算法,给出了一种新的网页表示方法并应用于网
页分类问题 . 该算法首先利用无监督聚类分别对训练集中正例和反例聚类,然后挑选一些例子训练 SVM 并获得
SVM 分类器 . 任何网页可以通过比较其与聚类中心的距离决定采用无监督聚类方法或 SVM 分类器进行分类 . 该算
法充分利用了 SVM 准确率高与无监督聚类速度快的优点 . 实验表明它不仅具有较高的训练效率,而且有很高的精
确度 .
关键词
支持向量机,聚类,网页分类
中图法分类号: TP391
A Chinese Web Page Classifier Based on Support
Vector Machine and Unsupervised Clustering
LI Xiao-Li
LIU Ji-Min
SHI Zhong-Zhi
( Institute of Computing Technology,Chinese Academy of Sciences,Beijing 100080)
Abstract This paper presents a new algorithm that combines Support Vector Machine( SVM)and unsupervised clustering . After analyzing the characteristics of web pages,it proposes a new vector representation of
web pages and applies it to web page classification . Given a training set,the algorithm clusters positive and
negative examples respectively by the unsupervised clustering algorithm(UC),which will produce a number of
positive and negative centers . Then,it selects only some of the examples to input to SVM according to ISUC
algorithm . At the end,it constructs a classifier through SVM learning . Any text can be classified by comparing
the distance of clustering centers or by SVM. If the text nears one cluster center of a category and far away
from all the cluster centers of other categories,UC can classify it rightly with high possibility,otherwise SVM
is employed to decide the category it belongs . The algorithm utilizes the virtues of SVM and unsupervised clustering . The experiment shows that it not only improves training efficiency,but also has good precision .
Keywords
support vector machine,clustering,text classification
日益重要的研究领域 . 传统上,网页分类是由人来完
1
引
言
成的 . 即人在分析了网页的内容后,给它一个比较合
适的类别 . 很明显,这需要大量的人力资源 . 随着网
Internet 网上海量信息使得网页分类成为一个
页信息的快速增长,特别是 Internet 上在线信息的增
收到日期:
1999-11-17 . 本课题得到国家自然科学基金(69803010)、国家“八六三”高技术研究发展计划(863-511-946-010)资助 . 李晓黎,男,
1969 年生,博士研究生,主要研究方向为数据采掘、信息检索 . 刘继敏,男,1967 年生,博士,主要研究方向为图像信息检索、人工智能 . 史
忠植,男,
1941 年生,研究员,博士生导师,主要研究方向为人工智能、知识工程 .
l期
李晓黎等:基于支持向量机与无监督聚类相结合的中文网页分类器
63
加,再靠人工的方式来处理是不切实际的 . 同时,由
速度 . 在识别阶段,分别计算待识别的网页同正例中
于分类可以在较大程度上解决目前网上信息杂乱的
心与反例中心的最短距离,若距离差较大,就直接用
现象,并方便用户准确地定位所需的信息和分流信
UC 分类,否则用 SVM 进行分类 .
本文的其余部分组织如下:在第 2 节描述了中
息 . 因此,网页自动分类已成为一项具有较大实用价
值的关键技术,是组织和管理数据的有力手段 .
目前关于文本分类的文献较多 . Apte 用决策树
技术来获取分类器[l];Yang 构造了一种近邻算法进
文网页的表示之后,第 3 节给出了一种 SVM 与无监
督聚类(UC)相结合的网页分类算法,第 4 节提供了
试验结果,第 5 节得出结论 .
行分类[2];Lewis 采用了一个线性分类器[3];Cohen设
计了一种建立在权值更新基础上休眠专家算法[4].
关于网页自动分类的文献很少,Lin Shian-Hua 通过
采掘词语关联来抽取网上文档的分类知识[5],该方
法是一种语义方法 .
用以上所提及的一些方法对网页(或文本)分类
时,首先将网页表示为向量,然后计算向量之间在向
量空间中的距离作为分类依据 . 如文献[2]先用余弦
距离计算训练集中每一向量与待分类向量的距离,
!
中文网页的表示方法
我们先来看一下一般文本的表示 .
若所有文本的全部特征总数是 n ,则构成一个
n 维的向量空间 . 其中每一个文本被表示为一个 n
维向量( !l ,!2 ,…,!n ). 向量在每一维上的分量对
应该特征在这篇文本中的权值 . 在 Salton[l0]提出的
文本表示方法中,
然后选取 K 个最近距离进行综合分类;而文献[ 3]
先构成类别向量,然后以向量的内积计算待分类向
wi =
( N / ni )
tf i > log
(
"!j tfj
2
( N / nj ))
> log
.
量与类别向量的距离 . 按照此类方法,那些处在类与
类的交界处的属于不同类的向量很容易产生分类
其中,tf i 表示该特征在给定文本中出现的次数;N
错误 .
是训练集中所含文本的总数;ni 是出现该特征的文
本数 . 该公式是经验公式,但实践表明它是特征表示
支持向量机( SVM)是一种建立在统计学习理论
基础上的机器学习方法[6,7]. 通过学习算法,SVM 可
以自动寻找那些对分类有较好区分能力的支持向
量,由此构造出的分类器可以最大化类与类的间隔,
方法中的一个简单、费用较低的工具,其效果和信息
2
增益( IG)、
( CHI)相当,优于其它方法,如互信
! - test
[ll]
息(MI)与特征增强方法( TS)
.
因而有较好的推广性能和较高的分类准确率 . SVM
在中文网页表示中,我们先用双向最大匹配法
已被用于孤立的手写体识别[8]、语音识别、人脸识
进行自动分词,然后利用数据采掘方法获取汉语的
别[9]. 但是,对网页分类这样的大规模的数据集而
词性规则[l2],进行词性标注 . 只有名词和动词等有
言,
训练例子往往很多,SVM 需要的训练时间太长,
实际意义的词才作为特征,这大大减少了特征总数 .
因而不可接受 . 一些方法使用启发式规则来简化计
毫无疑问,与文本数据不同,网页数据是一种半
算,但必须满足某些限制条件,否则,并不能减少计
结构化的数据 . 在网页表示中,对任一特征而言,有
算复杂度 .
两个因素影响特征的权值 . 一是词在 HTML 文档中
出现的词频,另一个是该词在该文档中出现的位置 .
无监督聚类(UC)是一种较简单的聚类方法 . 在
给定聚类半径后,通过分别对每类网页进行聚类并
仔细分析 HTML 文件的格式,可以发现其中有
获得若干聚类中心 . 之后,我们可以利用中心来分
一些信息是对分类无益的 . 如段落标记〈 P〉、行中断
类:即对任意网页,计算其与各类中心的距离;找到
符
〈 BR〉、文档类型〈! DOCTYPE〉等等 . 我们真正关
最近的中心后,该中心所对应的类就是网页的所属
心的是如下的标记:
类 . 该方法的特点是分类速度快但准确率低 .
〈 H2〉,…,
〈 H6〉,粗体
题头〈 TITLE〉,标题〈 Hl〉,
将 SVM 与 UC 方法结合起来,有可能既保证有
快的训练速度,又有较高的分类准确率 . 这正是本文
〈B〉,下划线〈 U〉,斜体〈 I〉,链接〈 A HREF =“…… .
〈 Meta name = “ description ” content =
HTML ”〉,
所要探讨的问题 . 我们的做法是:在训练阶段,用 UC
方法聚类后,对每一个正的聚类中心,根据中心周围
“……”〉,
〈Meta name =“ keywords”content =“……”〉
以及〈Meta name =“ classification”content =“……”〉.
的反例极有可能是支持向量的特点,仅选取部分反
根据这些标记表示的含义可知:在 TITLE 中的
内容是最重要的,它概括和总结了整个网页的内容,
例交给 SVM 学习 . 这样便大大加快了 SVM 的训练
计
64
算
机
因此在分类中起关键作用 . 其次,在 Hl,…,H6 中的
内容是网页的基本组成部分,它具体地阐述了网页
的基本构成,Hl 到 H6 的重要性依次降低 . 而 B,U,I
三种格式起强调作用,从一定侧面反映了相关内容 .
URL 中的关键字告诉用户一些相关信息和链接资
源,作用相对小一些 . 最后,Meta 中的数据也提供了
一些有用信息 . 但由于其格式不规范,而且经常不出
现,因而只起借鉴作用 .
综上所述,
为了精确表示网页的内容,定义标记
集
S = {TITLE,Hl,H2,H3,H4,H5,H6,B,U,I,
URL,Meta}.
权值集 W = {WA IA
WA X
E(
S
S },则
( N / Ii )
tfAi )X Iog
A
wi =
~
( WA X
E(E
A
,
tfA)
2
( N / I ))
X Iog
这里 WA 标记A 对应的权值,并且 W TITLE > W Hl >
W H2 > W H3 > … > W Meta . 而 tfAi 为特征 i 在标记A 中
出现的频率 .
3
SVM 与无监督聚类(UC)
相结合的网页分类
学
报
200l 年
SVM 建立在计算学习理论的结构风险最小化
原则之上 . 其主要思想是针对两类分类问题,在高维
空间中寻找一个超平面作为两类的分割,以保证最
小的分类错误率 .
用 SVM 实现分类,首先要从原始空间中抽取特
征,
将原始空间中的样本映射为高维特征空间中的
一个向量,以解决原始空间中线性不可分的问题 .
令训 练 集 E = {
( zi ,yi )I i = l,2,…,l }
,其 中
,
我们求
( w,6 )
使得 R( w,6 )=
RN ,yi {- l,+ l}
zi
l
( x,y )
达到最小 . 其中 P
( x ,y )表
f ( z)- y I dP
2 w,6
示特征向量 ! 与所属类别的联合分布密度,fw,(
6 z)
[ w・z + 6 ]. 为了求出( w ,6 )
,或者说,求出分类
= sgn
器 fw,(
,
导致求解如下的二次优化问题:
max W(O)
6 z)
l
l
,同 时 满 足 0 SOi S Y
i yiy( zi・z )
2 EOO
= EOi i =l
l
( i = l,
…,l )
与EOiyi = 0.
2,
i =l
l
在求出 O 之后,利用关系式 w = E yO
便可
i izi ,
i=l
以求出 w . 同时,必然存在 zi 使得 I fw,(
利
6 z i )I = l,
用这一等式便可以求出 6 . 最后,为了判断某个样本
x 是否属于类O,首先计算 z = G( x ),再计算如下决
策函数:
l
(
f z )= sgn [ E yO
i(
i z・ z i )+ 6 ] .
在 WEB 网页分类中,为了提高分类精度,每一
类的识别被视为一个独立的两类分类问题 . 假设所
有网页为 I 类,记为 L = {
Ol ,
O2 ,…,
OI }. 设属于类
Oi 的网页个数为 Ni ,我们可以将 I 类的分类问题转
化为两类分类问题:对任何一类 Oi 而言,训练正例
是该类所包含的全部网页;而反例是在训练集中不
属于该类的所有其它类的网页 . 即 Oi 类的正例总数
I
为 Ni ;反例总数为 E N . 由此可见,任何一类中反
= l, i
#
例数远远大于正例数 . 若分类的总数 I 与每类所含
的元素个数 Ni 较大,则两类分类问题的训练集中反
例的比例是很大的 .
对给定一个类O L ,其两类分类问题的训练集
( x l ,y l ),
( x 2 ,y 2 ),…,
( xl ,yl )},其中,!i "I
E ={
为一个网页向量,yi {+ l,- l}. 若 yi = + l 表示
同理 yi = - l 表示 xi $ O.
xi O,
对于任意的测试页 x ,问题是如何决定 x O 或
x $ O,所做出的决策应有最小的错误概率 . 显然,要
确定 x 究竟属于哪一类,在类别分布等概率的前提
I +l
下,要进行
次两类分类器的比较 . 因而,识别效
2
率较低 .
i=l
若(
f z )= l,则 x 就属于类O,否则 x 就不属于
该类 .
( x )可有三种形式,在试验中我们取高斯
z =G
(
)
x - xi H 2
,主要 由 于 它 具 有 明 显
c
的统计意义 . 我们可以看到:用 SVM 求解问题,在训
练过程中要解一个二次优化问题,因而时间复杂度
较大 .
3 . 1 UC 算法及其分类
我们设计了下述的 UC 算法,其特点是聚类速
度较快 . 在给定聚类半径 r 后,输入训练集合 Z =
{x l ,x 2 ,…,xm },!i "I . 下述的 UC 算法可以自动
实现对集合 Z 的无监督聚类(该方法本身不管 xi 是
正例还是反例),其描述如下:
核函数 exp - H
Stepl . Cl
{xl },0l
xl ,IumCluster
l,Z
{x2 ,x3 ,
…,xm }.
Step2 . 若 Z =
,则 stop.
Step3 . 选择 xi
Z ,从已有中心中寻找与 xi 最接近的
中心 0 ,即
IumCluster
0
arg min d( xi ,0I ).
I=l
则将 xi 加入类 C ,
即C
Step4. 若 (
d xi,0 )< r,
,
C {xi }
l期
李晓黎等:基于支持向量机与无监督聚类相结合的中文网页分类器
调整 c 类的中心 0 一
n X 0 + xi
,n 一 n + l,Go to Step6 .
n +l
65
差较大,所以用 UC 进行分类基本可保证正确性 .
Step5 . 增 加 一 个 新 类 . numcluster 一 numcluster + l,
cnumcluster 一{xi },0numcluster 一 xi .
Step6 . Z 一 Z - {zi },go to Step2 .
在 UC 算法中,numcluster 表示到目前为止所形
成的类数;m 为参加聚类的元素总数; cl ,c2 ,…,
cnumcluster 是结果类;0 是类 c 的中心;n 为 c 中的
元素个数 .
算法从 Step2 到 Step6 为一个循环过程 . 对于每
个元素 x(
…,m ),先寻找离它最近的中心及
i i = 2,
其它们之间的距离,然后根据该距离的大小把它归
入已有类或另建一个新类 . 算法在循环中的主要时
间耗费在寻找每个元素的最近中心上,即要把每个
中心遍历一遍 . 所以整个算法所花费的时间应该小
于 numcluster X m(在算法结束时,numcluster 即为最
终所聚成的全部类数). 因此该算法具有较高的效
率.
为了用 UC 算法解决两类分类问题,首先将类!
的正例集 " + 和反例集 " - 分别作为 UC 算法的输
入,寻找它们各自的中心 . 其中,
+
" = {xi I( xi ,yi )G E ,yi = l},
" = {xi I( xi ,yi )G E ,yi = - l}.
假设 " + 的中心为 0 l+ ,0 2+ ,…,0 u+ ," - 的中
SVM 与 UC 结合算法( ISUC 算法)
从以上讨论可见,单独使用 SVM 或 UC 并不能
以低时间耗费获取高准确率 . 而 ISUC 算法则将二者
结合起来却有可能达到低的训练代价和高的分类准
确性 .
在训练阶段,首先给定聚类半径 r 后,用 UC 发
现正例集和反例集的中心 .
接着挑选部分训练例子交给 SVM 学习 . 其原则
是:
训练集仅挑选全部正例和与正例中心接近的部
分反例 . 选择这部分反例是由于它们有更高的可能
性被选为支持向量,如图 2 所示 .
3.2
心为 0 l- ,0 2- ,…,0 1- . 接着计算网页 x 到所有正
例中心、反例中心的距离 . 并令
u
1
i=l
i=l
d +x = min d( x ,0 +i ), d -x = min d( x ,0 -i ).
这里,d( x ,y )是网页 x 与 y 的距离 . 最终,我们用
如下规则决策:
若 d x+ < d x- ,则 x G!,否则 x 奏!.
很明显,若聚类半径 r 越大,则聚类总数就越
少 . 这将导致用 UC 算法分类时在训练阶段和识别
阶段的高效率 . 但就准确率而言,实验证明 UC 方法
要明显低于 SVM.
在图 l 中,假设待识别的向量为 ! ,距离 ! 最近
的正例反例中心分别为 0 + ,0 - ,一个给定的决策
阈值为#
(# > 0),则当 ! 在区域 \ d x+ - d x- \ <# 中时
(点划线区域,图中的曲线是双曲线),由于该区域
为正反例混杂度较高的区域,因而用 UC 方法对 !
进行分类出错的概率较高,这也是 UC 同 SVM 相比
有较低正确率的原因 . 相反,若 ! 在区域 \ d x+ - d x- \
># 中,则进行进一步判断 . 若 d x+ < d x- ,则 ! 离某
正例中心 0 + 较近而离所有的反例中心均较远,所
以 ! G!,否则 ! 奏!. 此时,由于 ! 距正反例的距离
严格地说,
对于一个给定的切割半径 R( R > r )
,
SVM 的训练集可缩小为
k
+
+ }
B(
.
" U {x I x G " 八 x GU
R 0i )
i=l
+
其中,B(
是以 0 i+ 为圆心,R 为半径的球 .
R 0i )
图 2 仅以一个正例中心为例说明 . 设某正例中
心为\,则以切割半径 R 为半径的圆中的反例可分
为两部分 . 一部分是在内圆中(半径为 r ),这部分反
例尽管很少(由于与正例中心较近),但由于它们与
正例混杂,所以极有可能成为支持向量;另一部分在
圆环中,这部分的反例相对较多,它们与正例接近程
度高 . 也有可能成为支持向量 . 而在以 R 为半径的
圆外,由于它们距正例中心较远,成为支持向量的可
能性很小,因此,没有必要将它们交给 SVM 去训练 .
计
66
算
机
学
报
200l 年
Step5 . 若 (
f !)= l,则 ! G#,否则 ! 奏#.
这将大大减少训练集的规模和训练时间 .
训练阶段的 ISUC 算法可描述为
Step6 . go to Step8 .
Stepl . i 一l,ST 一① .
Step2 . 若 i > u ,则 go to Step6( u 为正例集的聚类中心
Step7 . 若 d x+ < d x- ,则 ! G#,否则 ! 奏#.
Step8 . T 一 T - {!},go to Stepl .
个数).
Step3 . 对于中心
+
i
,
寻找所有满足 d( xj ,
+
i
)< R(其
4
试验结果
-
中 j = l,…, )的向量 !l ,!2 ,…,! G! .
下载了 l3548 个中文网页后,我们通过人工方
Step4 . ST 一 ST U{!l ,!2 ,…,! }.
Step5 . i 一 i + l,go to Step2 .
Step6 . 令 ST 一 ST U! + ,将 ST 交给 SVM 进行训练,最
终获得 SVM 分类器 .
的向量 ! 与决策阈值",首先计算 d x+ 与 d x- ,然后判
(见图 l). 若是,则表明 ! 离
断是否 I d x+ - d x- I >"
最接近正反例中心的距离差较大,这时我们直接用
UC 方法对 ! 分类 . 具体分两种情况,一种是向量 !
接近某个正例中心而远离所有的反例中心(即满足
d x+ < min d( ! ,
i=l
律条例、农田水利、体育、医疗卫生、工业、科技教育、
旅游交通、文化生活、宗教种族、天文地理 . 仍然有
在测试阶段(或者说识别阶段),对于任意给定
U
式将其分为 l3 类 . 即政治、军事公安、商业经济、法
i
),它表明 ! G#);另一种是向量
! 接近懦个反例中心而远离所有的正例中心( ! 奏
#). 在这两种情况下,用 UC 方法对 ! 分类具有相当
283 篇文档无法按此分类体系归类 . 如网页“蛇岛蝮
蛇增多”找不到对应类,而网页“部队驻地办事处不
得办公司”、
“法国组成世界杯赛医疗队”、
“中国科学
家揭开乙肝病毒在人肝中持续存在之迷”则可分到
两类甚至三类中 .
将剩余的 l3265 篇文档分成两个集合 . 其一是
训练集,它包含了 9000 篇文档,另一个是测试集,包
含 4265 篇文档 . 然后将各个网页表示成向量 .
本试验检查了三种不同的分类技术的性能 . 表
大的把握 . 同时由于向量 ! 仅与一些聚类中心求距
离,所以分类效率较高 . 否则,由于分类界限模糊,用
l 示出了 UC 与 SVM 各自的分类性能 . 这里我们只
给出了体育、政治、经济三种有代表性的领域 . 原因
UC 方法分类难于抉择 . 此时我们调用 SVM 作决策,
充分利用其在两类边界处具有高区分能力的特点,
是:体育类是人工分类中最好分的类,有较少的分类
从而也可获得高的准确率 . 由以上分析可见,决策阈
党政及突发性事件,有时难以和经济、工业、科技教
值" 是决定在 ISUC 算法中采用哪种方法进行分类
的关键 .
假设测试集为 T ,则测试阶段的 ISUC 算法可描
育、
农业等其它领域相区别 . 如国家领导人接见经
歧义;而政治类包括了较多的子领域,如外交、时事、
济、
企业等领域的代表团 . 经济类的情况与政治类
相似 .
在表 l 中,无论采用 SVM 或者 UC 方法,体育类
述如下:
的正确率均高于其余两类 . 这说明在向量空间中该
Stepl . 若 T = ①,则算法结束,否则取 ! G T .
u
Step2 . 计算 d x+ 一 min d( ! ,
i=l
+
i
U
),d x- 一 min d( ! ,
i=l
i
类向量与其它类较远,界限较清晰 . 同时,对三类领
).
域而言 SVM 的准确率均要高于 UC 的分类准确率 .
这表明 SVM 在处理接近的不同类向量时确有其较
Step3 . 若 I d x+ - d x- I >",则 go to Step7 .
l
xi )+ b ]
Step4 . 调用 SVM分类器(
f !)= sgn [ 】}#
i(
i !・
精确的区分能力 .
i =l
进行分类 .
表1
体育
方法
政治
准确度( % ) 正中心数
SVM
( r = 0 . 3)
UC
三种领域的 SVM 与 UC 算法的性能比较
反中心数
准确度( % ) 正中心数
98 . 60
经济
反中心数
90 . 97
准确度( % ) 正中心数
反中心数
90 . 9l
90 . 97
327
3239
89 . 32
56l
3009
89 . 48
495
307l
( r = 0 . 7)
UC
( r = l . 0)
UC
96 . 23
268
2696
89 . 53
49l
253l
89 . 53
424
2596
96 . 83
l94
l8l7
89 . 48
3l4
l760
88 . 68
306
l766
( r = l . 2)
UC
( r = l . 4)
UC
96 . 5l
l05
706
87 . 67
79
483
83 . 95
88
495
92 . 82
l
l
74 . 23
l
l
67 . 59
l
l
2
2
2
注:对任意两个已正规化的向量 ",#,I " - # I = I " I + I # I - 2 I " I I # I = 2 - 2 I " I I # I 三2,故 $ 三 I " - # I 三。2 .
1期
李晓黎等:基于支持向量机与无监督聚类相结合的中文网页分类器
对 UC 的聚类半径 ! 而言,其大小对识别正确
67
效率 "
率的影响不是太大,仅当 ! = 1 " 4 时 UC 的正确率有
表 2 给出了 ISUC 算法识别时的详细情况 " 这里
较大下降 " 正反例的聚类中心数随 ! 增加而有较大
针对参数 ! ,# 不同的取值比较了该算法的性能 " 我
减少 " 在我们的分类器中取 ! = 1 " 2 " 此时,正反例中
们取决策阈值! = 0 " 3,该值决定了对一个向量究竟
应采用 UC 还是 SVM 进行分类 "
心数分别 为 105 及 706 个,可 保 证 有 较 高 的 识 别
表2
类别
体育
政治
经济
ISUC 算法的性能
!
#
# NexampIecut
# CaIISVM
# SV
(%)
PrecisionSVM
(%)
ISUCprecision
0"3
0"5 $
7820
1553
$ 112
10 " 03
74 " 90
0"3
1"0
6008
1553
678
83 " 25
95 " 12
0"3
1"3
2351
1553
937
97 " 1
98 " 81
1"2
1 " 25
4450
2561
543
96 " 72
99 " 19
1"2
1"3
2132
2561
651
97 " 54
98 " 57
1"2
1"4
1023
2561
709
97 " 66
98 " 62
0"3
0"5 $
8251
2195
$ 120
21 " 10
70 " 09
0"3
1"0
5422
2195
835
68 " 22
88 " 20
0"3
1"3
2198
2195
1323
83 " 97
91 " 86
1"2
1 " 25
5321
3094
1425
83 " 29
91 " 25
1"2
1"3
3800
3094
1672
87 " 10
91 " 42
1"2
1"4
1923
3094
1714
87 " 56
91 " 42
0"3
0"5 $
7693
2093
$ 342
26 " 11
70 " 51
0"3
1"0
5017
2093
625
59 " 68
80 " 55
0"3
1"3
1296
2093
1389
82 " 78
91 " 80
1"2
1 " 25
5982
3290
1322
87 " 78
91 " 27
1"2
1"3
4336
3290
1481
87 " 97
91 " 34
1"2
1"4
1295
3290
1481
87 " 97
91 " 34
表 2 说明:对某领域的分类问题,在 ! 相同时,
调用 SVM 的总数( # CaIISVM)不变 " 其原因是聚类中
5
结
论
心是由 ! 决定的 " 保持 ! 不变,随 # 的增加,被删除
的反例数( NexampIecut )减少,从而导致了调用 SVM
的准确率( PrecisionSVM)与 ISUC 总准确率( ISUCprecision)均有提高 . 这主要是由于 SVM 有了更大的训
将 SVM 与 UC 方法结合起来是一种有效的分类
方法 . 它通过减少部分反例,降低了 SVM 的运行时
间复杂度,从而部分解决了 SVM 在训练中高耗费的
练集,产生了更多的支持向量( # SV)" 同时它花费
问题 . 而这一点是将 SVM 用于实践的关键所在 . 此
外,当待分类向量在初始向量空间易于分类时,它应
了较长的训练时间 "
用了 UC 方法在识别过程中的高效性与准确性,否
当 ! = 1 " 2 且 # ![1 " 25,1 " 4]时,随着 # 的增
加,
支持向量的个数 # SV 的增加速度减缓,甚至不
则,它利用 SVM 的较好的区分性能获得高的分类准
确性 . 因此,该方法充分利用了两种方法的优点,既
变 . 同时 ISUCprecision 变化很小,但超过了单独使用
获得了高的训练速度,又加快了识别速度同时保证
SVM 时的准确率 . 对此现象的解释是:SVM 有可能
了较高的识别准确率 . 该方法在中文网页分类中获
将极少量低维空间可分的向量经映射到高维空间
得了较为成功的应用 . 作者进一步的工作,一是在
后,变成不可分的向量 "
可以注意到 ! = 1 " 2 且 # = 1 " 25 时,ISUC 的聚
类数相 对 较 小 同 时 又 删 除 了 较 多 的 反 例(平 均 约
网页表示中考虑词的语义信息,即特征间的关系;
二是如何在 ISUC 算法中自适应地选择参数,如聚
类半径 ! 、切割半径 # 及决策阈值! 的选择 .
1 / 3). 这将加快 UC 的识别效率和 SVM 的训练速度 "
参
考
文
献
更为重要的是其分类正确率很高 "
其它领域的实验结果也支持以上的结论 "
1
Apte C,Damerau F,Weiss S . Automated Iearning of decision
68
计
算
机
学
ruies for text categorization . ACM Transactions on Information System,
(3):
1994,12
233 - 251
2
7
Vapnik V. Estimation of Dependences Based on Empiricai Data. New
8
Bernhard Schoikopf,Sung Kah-Kay et al . Comparing support vector
York:Springer-Veriag,1982
ternationai ACM SIGIR Conference on Research and Deveiopment in In-
machines with gaussian kerneis to radicai basis function ciassifiers.
(11):
2758 - 2765
IEEE Transactions on Signai Processing,1997,45
formation Retrievai,Dubiin,1994 . 13 - 22
3
Lewis D D,Schapore R E,Caiian J P,Papka R. Training aigorithms
9
for iinear text ciassifiers. In:Proc Nineteenth Internationai ACM SIGIR
4
5
Saiton. Introduction to Modern Information Retrievai . New York:McGraw-hiii Book Company,1983
11
Yang Yi-Ming,Jan O Pederson . A comparative study on feature seiection
on Research and Deveiopment in Information Retrievai,Zurich,1996 .
in text categorization . In:Proc 14th Internationai Conference on Ma-
307 - 315
chine Learning,Nashviiie,1997 . 412 - 420
Lin Shian-hua. Extracting ciassification knowiedge of internet docu-
12
Li Xiao-Li,Shi Zhong-Zhi . A data mining method appiying to acguire
ments with mining term associations:A sementic approach . In:Proc
part of speech ruies in Chinese text . Computer Research and Deveiop-
Internationai ACM SIGIR Conference on Research and Deveiopment in
( in Chinese)
ment,Accepted
Information Retrievai,Meibourne,1998 . 241 - 249
6
on Computer Vision and Pattern Recognition,Puerto,1997 . 130 - 136
10
Cohen W W,Singer Y. Context-sensitive iearning methods for text categorization . In:Proc Nineteenth Internationai ACM SIGIR Conference
Edgar Osuna,Robert Freund,Federico Girosi . Training support vector
machines:An appiication to face detection . In:Proc IEEE Conference
Conference on Research and Deveiopment in Information Retrievai,
Zurich,1996 . 298 - 306
2001 年
Springer-Veriag,1995
Yang Y. Expert network:Effective and efficient iearning from human
decisions in text categorization and retrievai . In:Proc Seventeenth In-
报
Vapnik V. The Nature of Statisticai Learning Theory. New York:
(李晓黎,史忠植 . 用数据采掘方法获取汉语词性规则 . 计算机
研究与发展,已录用)
Was this manual useful for you? yes no
Thank you for your participation!

* Your assessment is very important for improving the work of artificial intelligence, which forms the content of this project

Download PDF

advertisement