menu:topRightMenu

文本挖掘中若干关键问题研究

文本挖掘中若干关键问题研究
文本挖掘中若干关键问题研究
作者:陆旭(著)

图书详细信息:
ISBN:978-7-312-02280-7
定价:20.00元
版本:1
装帧:平装
出版年月:200812
丛书名称:博士论丛

图书简介:

  本书介绍了文本分类和偏最小二乘回归,提出了基于变量投影重要性指标的文本分类特征选择方法,论述了偏最小二乘Logistic文本分类模型,阐述了CHTC层次文本分类模型的研究工作,本书可供相关领域科研工作者、大学高年级学生和研究生阅读.
 

前言:

  随着计算机网络的迅猛发展和日益普及,因特网(Internet)和企业内部网(Intranet)上的Web信息呈指数级增长.人们在获得越来越多信息的同时,也面临着无法有效、快速获取所需要的、有价值的信息的困境.如何挖掘隐藏在这些数据后的有用信息和潜在模式,如何快速有效地获取、管理和使用这些数据,已经成为当前迫切需要解决的重要问题.Web内容挖掘旨在对Web页面的内容进行挖掘,发现有用的模式和规律.在Web内容挖掘中,文本挖掘是其中的一项重要研究内容,主要包括文本分类和文本聚类.作为处理和组织大量文本信息的关键技术之一,自动文本分类(Automated Text Categorization)技术得到了空前的发展,在信息检索、信息过滤、邮件分类与垃圾邮件过滤、话题跟踪、词义辨析和流派识别等领域具有广阔的应用前景.
  自动文本分类是将自然文本文件根据内容自动分为预先定义的一个或几个类别的过程,基于统计学习、机器学习的文本分类技术已经成为主流技术.本书对基于统计学习的文本分类及其相关技术进行了研究.为解决文本分类的稀疏性和高维性问题,基于偏最小二乘理论(Partial Least Square,PLS),提出一种新的维数约简算法.从提高文本分类性能和准确性出发,运用偏最小二乘的最新理论成果,提出了一种能较好提取潜在语义的新文本分类模型.对于数量庞大的文档类别,传统的平坦(Flat)文本分类的性能受到很大的制约,层次文本分类是一种有效的解决方法,由此提出了一种新的层次文本分类模型.全书共分为7章,主要研究内容和研究成果概括如下:第1章为导论,对文本分类技术进行了综述性的介绍,简述了文本分类技术的研究背景、研究目的和发展历史,综合分析了文本分类中的维数约简技术、文本分类器和层次文本分类技术.第2章给出了文本分类的形式化定义、特点及组成,按照文本分类系统的几个主要阶段进行较为全面而详细的概述.第3章简单介绍了偏最小二乘回归的发展历史、基本原理、基本思想、数学原理和理论算法.第4章提出了基于变量投影重要性指标(Variable Importance in Projection,VIP)的文本分类特征选择方法.第5章论述了偏最小二乘Logistic文本分类模型.第6章阐述了GHTC(Generalized Hierarchical Text Classification)层次文本分类模型的研究工作.第7章为全书做了全面的总结,并对进一步的工作提出了展望.
  本书的研究成果和创新工作主要包括如下几点:
  1.基于变量投影重要性指标的特征选择方法研究
  在文本分类中,有效的维数约简可以提高学习任务的效率和分类性能,节省存储空间.特征选择和特征抽取是维数约简常用的两种方法.特征选择的优点是所选择的特征都有很好的语义解释,但在文本分类中效果不够理想.特征抽取能够较好地处理多义词、同义词问题,但是不能给出降维后所得到特征的语义解释.为了有效地提取特征所在类别的语义信息,本书提出了基于变量投影重要性指标的特征选择两步法:运用偏最小二乘方法进行特征抽取,引入变量投影重要性指标重新度量各特征的重要性,根据特征的VIP值进行特征选择.
        一方面,新方法运用偏最小二乘方法降维时,提取了特征的潜在语义信息,是一种融合特征抽取的特征选择方法.另一方面,使用VIP值度量各特征的重要程度后,能够很好地反映各类别的结构信息,被选择的特征子集可以很好地表达各个类别的领域知识.在Reuters21578和复旦大学中文文本分类语料库上的实验表明运用新方法进行特征选择能很好地表示类别的语义信息,在一些经典模型上文本分类性能有较大提高.
  2.偏最小二乘Logistic文本分类模型研究
  在文本分类领域,Logistic回归模型是一种使用较为广泛的模型,可以很好地解决离散型因变量的问题.但文本分类中的高维特征、同义词和近义词等产生的高共线性问题,会导致Logistic回归模型产生回归系数不显著和模型拟合优度(Goodness of Fit)较差等一系列问题,最为严重的情况是出现参数估计不能完成.偏最小二乘回归模型是一种强有力的数据分析工具,基于该理论的潜在语义分类模型可以较好地提取文档的潜在语义和类别特征,具有良好的文本分类性能.在二元文本分类任务中,因变量是离散变量,偏最小二乘回归模型只能处理和分析连续型因变量,并不能解决伯努利数据等产生的模型异方差问题.偏最小二乘Logistic回归模型可以很好地处理这些问题,它综合了偏最小二乘回归方法和Logistic回归方法的优点.
        在Reuters21578和20 Newsgroups语料库上的实验显示,和普通的Logistic回归文本分类模型相比,新模型的文本分类性能有明显的提高;和经典的SVMlight、SMO、C4.5和kNN四种文本分类模型相比,模型也具有良好的分类性能.
  3.GHTC层次文本分类模型研究
  平坦的文本分类技术已经广泛使用,但平坦分类器没有充分考虑类别之间的关系,假设类别相互独立.对于文本类别数量庞大和特征维数巨大的情况,平坦分类的性能会受到很大制约.本质上,文档内容存在着层次结构关系,我们按照分层次的方式进行组织和检索,更能体现文档之间的语义关系.
  层次文本分类是在预先给定一个类别层次结构的情况下,将文档划分到层次结构中任意非根节点所对应的类别.在使用广泛的自顶向下层次分类中,面临着一个普遍的问题:较高层次的误分文档具有不可恢复性.节点距离根节点越近,该节点分类器的错误划分文档对整个层次分类器的影响越大,所受惩罚越大.为解决这个问题,我们在层次分类器中使用补偿因子弥补各节点误分文档造成的分类性能损失,补偿因子和节点高度成正比,层次越高,受到的补偿越小,反之越大;按照阈值策略优先选择中间子节点,从而整体提高层次文本的性能.由此提出一种新颖的层次文本分类模型.
  在层次文本分类语料库20 Newsgroups和OSHMUED上,选用支持向量机SVM作为层次分类器,和平坦的SVM分类器相比较,文本分类性能明显提高;和普通的层次SVM分类器相比,也具有一定的优势.
  本书参考和引用了国内外许多学者的相关文献,吸收了同行们的劳动成果,他们的辛勤工作使笔者受到了很大的教益和启发,在此谨向各位学者表示衷心的感谢!
  本书的出版得到了江西财经大学博士论文文库出版资助项目的资助;部分研究工作得到了国家自然科学基金资助项目(60663007)和江西省自然科学基金资助项目(2007GZS2168)的支持.

                        陆 旭
                       2008年5月

目录:

前 言

第1章 导论
1.1 研究背景
1.2 文本分类综述
1.3 本书的内容结构
1.4 本书的创新工作

第2章 文本分类概述
2.1 文本分类的数学定义
2.2 文本分类任务的特点
2.3 文本分类系统的组成
2.4 文档预处理
2.5 文档的表示
2.6 常用文本分类模型
2.7 文本分类器学习、测试和评价

第3章 偏最小二乘回归方法的基本理论
3.1 偏最小二乘回归的发展历史
3.2 偏最小二乘回归的基本原理
3.3 偏最小二乘回归的基本思想
3.4 数学原理
3.5 偏最小二乘回归的理论算法
3.6 成分数的确定

第4章 基于变量投影重要性指标的特征选择方法研究
4.1 维数约简技术
4.2 符号约定
4.3 常用的特征选择方法
4.4 常用的特征抽取方法
4.5 基于变量投影重要性指标的特征选择方法
4.6 实验结果和分析

第5章 偏最小二乘Logistic文本分类模型研究
5.1 Logistic回归模型
5.2 偏最小二乘Logistic回归模型
5.3 偏最小二乘Logistic文本分类模型
5.4 实验结果和分析

第6章 GHTC层次文本分类模型研究
6.1 层次分类概述
6.2 层次特征选择
6.3 GHTC层次文本分类模型
6.4 实验结果和分析

第7章 总结与展望
7.1 总结
7.2 研究展望

附录1 REUTERS-21578前10个常见类和前10个稀有类的前20个特征VIP值

附录2 复旦文本分类语料库部分类别的前20个特征VIP值

附录3 OHSUMED语料库层次结构

附录4 20 Newsgroups语料库各节点各特征维数的微平均F1值和宏平均F1值变化情况

参考文献

后记



Copyright 2011 中国科学技术大学出版社
合肥市金寨路96号