一、基于遗传算法的文本聚类特征选择(论文文献综述)
王琛,董永权[1](2021)在《基于二进制灰狼优化的特征选择及文本聚类》文中指出提出基于二进制灰狼优化的特征选择与文本聚类算法。为得到最佳聚类结果,将文本数据表达为矢量空间模型;利用二进制灰狼优化算法对文本特征进行选择,得到初选特征子集;对前一阶段中不同特征相关分值计算方法得到的初选特征子集进行合并与交叉操作,进一步计算最优特征子集;在新特征子集基础上,利用同步考虑余弦相似度和欧氏距离指标的多目标优化K均值算法完成文本聚类,得到最优文本聚类解。实验结果表明,在多数数据集上,该算法可以有效降低特征维度,聚类指标表现更好。
杨俊闯[2](2021)在《基于密度峰值的聚类算法研究与应用》文中提出随着互联网在日常生活中的普及,信息传播速度不断加快,各行各业产生了海量的数据信息。如何从纷繁复杂的数据中挖掘出有价值的信息,成为亟待解决的问题。聚类作为一种无监督机器学习方法,常用于数据分析和数据挖掘等领域。时至今日,国内外学者针对不同的实践应用场景提出了多种聚类方法,聚类技术的相关研究依旧蓬勃发展。在日常生活中,聚类技术早已被成功地应用于多个领域,包括客户细分、目标识别、自然语言处理、图像检索、生物学与安全等。本文研究了密度峰值聚类算法(Density Peaks Clustering,DPC),并对其优缺点展开详细分析之后提出新的聚类算法,将其应用到新闻文本聚类中。本文主要的研究内容如下:(1)针对DPC算法中截断距离的选取受人为因素影响的问题,提出基于信息熵优化的近邻密度峰值聚类算法—IKDPC算法。该算法首先引入影响因子,根据信息熵函数图像确定最优截断距离。其次为了克服DPC算法中局部密度计算的复杂度较高的缺点,基于K近邻算法的思想提出了近邻局部密度的计算公式。最后根据决策图选取聚类簇数和聚类中心完成聚类。实验结果表明,IKDPC算法能较为准确地确定聚类中心和聚类簇数,相较于DPC算法有更好的聚类效果。(2)针对传统聚类算法随机选取初始聚类中心造成聚类结果不稳定和对离群点敏感的问题,同时为了解决IKDPC算法在簇分配时可能出现簇误差传播的问题,将IKDPC算法与K-Means算法结合,提出基于近邻密度峰值优化的K-Means聚类算法—IKDKM算法。该算法首先使用IKDPC算法生成的决策图确定聚类簇数和聚类中心,然后在迭代聚类过程中,计算各个簇的簇间平均距离,将簇中数据对象划分为核心点和离群点,核心点参与新聚类中心的计算,归为离群点的数据对象采用投票方式重新进行簇分配。实验结果表明,IKDKM算法有更高的聚类准确率。(3)为了检验算法的实用性和有效性,将本文所提的IKDKM算法应用到新闻文本数据集的聚类中。首先对新闻文本数据集使用“结巴”分词工具进行分词和停用词过滤,其次采用基于加权Word2vec的文本向量计算方法将新闻文本转换为文本向量,并在聚类算法上进行文本聚类,最后针对IKDKM算法的聚类结果添加聚类标签。在新闻文本数据集上的实验结果表明,IKDKM算法具有更好的实际应用性。
张斌[3](2021)在《基于增强灰狼优化算法的雷灾文本聚类及预测方法研究》文中进行了进一步梳理环境气象与我们的生产和生活息息相关,气象在给我们带来便利的同时,也带了一些负面影响,如雷暴灾害。雷暴灾害作为对我们生活影响最广泛的气象灾害之一,时刻威胁着人们的生命和财产安全。因此,如何合理利用历史的雷暴灾害数据,来发现气象数据中蕴含的潜在信息,并根据合适的气象因子进行准确的雷灾预测已然成为科学研究的重点。目前,雷灾文本聚类方法仍然存在着由于聚类结果不可靠而导致无法从中挖掘出更深层次信息的问题;且雷灾预测方法存在预测准确度低和预测算法时间复杂性高等问题。因此,针对以上问题,本文开展了基于增强灰狼优化算法的雷灾文本聚类与预测的相关研究,课题主要研究内容如下:(1)针对雷灾文本聚类问题,提出了基于增强灰狼优化算法的K-Means雷灾文本聚类算法,该算法对雷灾类型进行类别划分并提出有效处理策略,克服了传统K-Means算法聚类结果不准确的缺点。首先将雷灾文本数据通过文本向量化操作转换为数值型数据;其次利用免疫克隆操作从灰狼种群中选出精英个体以组成精英种群,并对该种群执行变异操作以丰富精英灰狼个体特征,减少增强灰狼优化算法过早收敛的可能;然后在精英灰狼个体位置调整中融入粒子群位置更新思想来考虑单个精英灰狼个体的位置信息;最后用增强灰狼优化算法来寻找K-Means算法的最优聚类中心进行文本聚类分析。仿真表明,所提算法与已有算法相比具有更好的聚类准确度、召回率和F值,文本聚类效果更具有参考性。因此,利用该算法进行雷灾文本聚类的研究,可以更好的发现雷灾文本中蕴含的信息。(2)针对雷灾预测问题,提出了基于增强灰狼优化算法优化BP神经网络的雷灾预测模型,解决了传统雷灾预测方法预测结果不准确的问题。首先,初始化BP神经网络的权值及阈值,并将该权值和阈值设定为灰狼种群中的每个灰狼个体;其次,规定增强灰狼优化算法的适应度函数为BP神经网络的均方差,并利用增强灰狼优化算法对灰狼个体进行寻优以得到最适合的权值和阈值;最后,用该权值和阈值构建网络模型进行网络训练,并用经典的UCI数据集对增强灰狼优化算法优化BP神经网络模型的算法性能进行评估。仿真表明,较原BP算法及常见改进的BP算法,本文所提算法收敛速度更快,同时该算法准确性较高、稳定性较好;最后利用真实的雷灾数据在该算法基础上进行雷灾预测,结果表明所提算法有更高的雷灾预测准确率和更低的空报率。
田夏利,熊莹[4](2021)在《融入新的特征选择机制的文本数据聚类算法》文中指出文本信息中包括许多无用特征,这种噪声特征会影响文本聚类效果,为此提出一种基于粒子群优化的文本特征选择算法。利用词频逆文本频率指数为目标函数评估每个文档的文本特征,从初始文档数据集中求解新的有用特征最优子集;以该最优有用特征子集作为K均值聚类的输入进行文本聚类,得到最优文本聚类结果。利用文档数据集进行聚类测试,其结果表明,在多项评估指标上算法表现得更加优秀,在特征选择规模上降低了初始文档特征规模。
赵成[5](2020)在《基于萤火虫算法和改进K近邻的文本分类研究》文中研究指明近年来,随着信息技术的飞速发展,如今的网络用户不仅仅是信息的消费者,更是信息的生产者。网络上充斥着大量以文本形式存在且杂乱无章的信息,面对海量数据,用户很难从中发掘出对自己有价值的信息。文本分类是解决这一问题的关键技术,能够高效地组织和管理网络上的文本数据。但目前的文本分类技术存在特征子集精度低而维度高、分类效率低等问题,为有效解决上述问题,本文主要从以下两方面进行改进研究:1.针对传统特征选择方法得到的特征子集精度不高的问题,提出一种基于信息增益和萤火虫算法的文本特征选择模型。首先采用信息增益选取所有特征词中信息增益值较大的词组成特征预选集合,然后利用萤火虫算法的较强寻优能力在该集合上搜索更优的特征子集。为改善萤火虫算法收敛速度慢和易陷入局部最优的问题,引入动态更新的步长因子。在算法搜索初期,步长相对较大,能够进行良好的全局搜索;在后期,步长随着迭代次数的增加而逐渐减小,能保证算法局部搜索性能较好并快速到达最优解。实验结果表明,改进后的萤火虫算法结合信息增益选择的特征子集精度比原始萤火虫算法和信息增益更高,该特征选择模型可以有效提升文本分类的准确率。2.针对K近邻算法在面临训练样本数量较多时分类效率低的问题,提出一种基于聚类和中心向量的快速K近邻分类算法。首先采用聚类方法对每个类别的训练文本聚成簇,然后将各类别的文本划分为类内区域和类边界区域并计算中心向量,根据类内区域的所有文本向量和中心向量得到类内平均距离。在对待测文本分类时,根据它离中心向量的距离和类内平均距离判断能否快速做出决策,若不能则计算待测文本离各簇心的距离,由距离较近的簇中所有文本组成训练样本子集,最后在该子集上利用K近邻算法做分类决策。实验结果表明,改进后算法的各项分类性能指标与传统K近邻算法相近,但分类耗时显着减少,可有效提升文本分类效率。
卜秋瑾[6](2019)在《基于密度峰值的聚类算法研究及其在文本聚类中的应用》文中指出无监督学习可以在缺乏足够先验知识的情况下,从海量数据中挖掘出有价值的信息。聚类算法作为一种典型的无监督算法,在信息检索、入侵检测、模式识别、心理学等领域中有着重要的应用价值。密度峰值聚类(CFSFDP)算法是一种新型的聚类算法,具有参数数量少,能处理任意形状的簇等优点。但CFSFDP存在以下不足:(1)样本局部密度易受截断距离影响;(2)依靠人工经验选取簇中心的方法易造成簇的误划分。针对以上问题,本文提出了一种改进的CFSFDP算法。该算法基于k个近邻的分布信息计算样本局部密度,然后找出CFSFDP的可能簇中心,再使用改进的遗传k均值实现最优簇中心的自动选取。该算法在聚类中心选取的准确性上优于原CFSFDP算法,能有效处理存在多密度峰值或簇间密度差异较大的数据集。在UCI数据集上进行实验,并将改进算法与CFSFDP、GKA、k-means算法的实验结果进行对比;最后,将改进算法应用到文本聚类中,采用搜狗文本语料库进行实验,以上实验对比结果均验证了改进的CFSFDP算法的聚类有效性。本文主要做出如下改进:(1)基于k个近邻重新定义样本局部密度。将密度计算时的样本参考范围缩减为k,并将k个近邻的距离均值引入计算,避免截断距离对样本局部密度的影响。(2)结合遗传k均值实现簇中心的自动选取。利用遗传k均值的全局搜索能力自动地从CFSFDP求得的可能簇中心中搜索出最优簇中心,解决CFSFDP簇中心选取不合适的问题。(3)结合种群进化代数及收敛情况提出自适应交叉概率,避免遗传k均值迭代过程中的早熟问题。
程杨[7](2016)在《中文短文本聚类算法的研究》文中研究指明随着互联网的高速发展,我国已经进入数字化和信息化时代,各行各业中信息的传递和交流都依赖于先进的文本挖掘技术,文本聚类是文本挖掘中的重要分支,是一种无监督的机器学习,它可以自动检测文本之间的关联程度,并将关联程度最高的文本划分进同一类聚簇。近年来,文本聚类不再满足于单一的文本形式,短文本在即时通讯、在线聊天日志、电子布告栏系统标题、网络日志评论、网络新闻评论、短讯服务、微博等领域都得到了广泛应用。短文本具有高度精炼、词汇稀疏、领域广泛、数量庞大等特点,传统文本聚类往往无法达到令人满意的效果,如何对短文本进行高效和可靠的聚类,是文本聚类领域的主要挑战。目前,已经有许多聚类算法用于处理短文本的聚类,其中CHIR-TCFS(CHIR-Text Clustering with Feature Selection)算法是一种对卡方检验进行改进,同时解决特征选择算法应用于短文本聚类监督问题的短文本聚类算法。本文针对CHIR算法低频特征的问题,结合特征出现的次数提出一种CHIR算法的改进算法CHIRF;针对TCFS算法中随机选择初始聚簇的问题,提出一种基于基点的初始聚簇中心选择算法ICCP(Initial Cluster Center with Points);结合CHIR和ICCP提出一种短文本聚类算法CHIRF-NTCFS(CHIRF-New Text Clustering with Feature Selection),完成了参数取值实验和对比试验,实验结果表明该算法的聚类效果优于k-means算法和CHIR-TCFS算法。本文的主要工作有:1)阐述短文本聚类的研究背景和意义、短文本的主要特点和短文本聚类的难点以及当前短文本聚类领域的国内外研究现状,简要介绍短文本聚类中文本的预处理方法,包括中文文本分词、去停用词和短文本特征选择。2)介绍了几种传统的短文本聚类算法,包括K-means算法、K-medoids算法、BIRCH算法和EM算法,算法的优点和存在的问题进行评价。3)详细介绍了一种对卡方检验算法进行改进的特征选择算法CHIR和一种基于CHIR的短文本聚类算法CHIR-TCFS,CHIR算法解决了卡方检验无法识别特征与类别之间关联正负的问题,CHIR-TCFS算法解决了将特征选择算法应用于短文本聚类的监督问题。4)针对CHIR算法存在的低频词影响的问题,结合特征出现的次数提出一种CHIR算法的改进算法CHIRF,实现了短文本聚类特征选择算法的优化,针对TCFS算法存在的随机选择初始聚簇中心的问题,提出一种基于基点的初始聚簇中心选择算法ICCP,结合CHIRF算法和ICCP算法提出一种短文本聚类算法CHIRF-NTCFS,解决了将CHIRF算法应用在短文本聚类算法中的监督问题。5)基于matlab编程环境实现了k-means算法、CHIR-TCFS算法和CHIRF-NTCFS算法,通过CHIRF算法的参数取值实验,得到了该算法的最优参数。将最优参数代入CHIRF-NTCFS算法中,针对文本的规模和聚类的个数设计并完成了两个对比实验,实验结果表明CHIRF-NTCFS算法聚类效果优于其他两种算法。
李兆钧[8](2016)在《因素空间理论在文本挖掘中的应用》文中进行了进一步梳理随着大数据时代的到来,基于因素空间的知识表示及其应用也引起人们的关注。目前,基于因素空间理论的文本挖掘应用是一个热点的研究方向,其中文本分类与文本聚类作为文本挖掘的最热门课题得到了广泛的应用,本文着重研究基于因素空间理论的文本分类算法与文本聚类算法的构建与应用问题,取得的主要结果如下:本文首先利用因素空间及其知识表示的理论,分别建立基于因素空间的文本分类算法与基于因素空间的文本聚类算法。对于基于因素空间理论的文本分类算法,从基于因素分析表的文本表示开始,使用基于遗传算法优化的因素特征提取算法进行文本特征选择,使用因素分析法进行文本分类规则的学习,最后使用改进的因素分析法推理模型进行文本分类,并以搜狗实验室新闻分类语料库和互联网电商平台评论数据进行文本分类实验,其中本文的文本分类算法的准确率达到82.33%,而常用的文本分类算法的准确率只有74.67%—79.16%,实验结果验证了本文的文本分类算法的有效性;对于基于因素空间理论的文本聚类算法,首先借助词向量模型,将词条特征转化为向量,使用K-均值聚类算法进行文本特征聚类,建立初步因素集,通过加入人工理解及领域专业知识进一步建立基本因素集,然后在基本因素集的基础上建立文本之间的因素相似度及因素距离,最后使用层次聚类算法进行文本聚类,对于衡量聚类算法与数据分类结构相似度的ClassF值,本文的文本聚类算法达到0.701,而常用的文本聚类K-均值算法只有0.308。实验结果表明,本文提出的算法是有效,因素空间理论为文本挖掘研究提供了可行的新研究思路。
邓高超[9](2014)在《基于TFIDF-GA特征选择的文本模糊聚类方法研究》文中研究指明文本聚类是在没有文本类别标记的情况下对文本进行分类,使同类别的文本间相似度尽可能大,不同类别的文本间相似度尽可能小。而今,随着信息的爆炸式增长以及学科类别间的交叉渗透,文本日益大量化和多样化,文本的类别隶属度界限越来越不明确。于是,文本模糊聚类渐渐成为文本聚类的另一个研究方向。本文从特征选择和模糊C均值算法两个方面对文本模糊聚类进行研究:1、无监督特征选择方法。特征选择方法主要有过滤式、封装式和嵌入式三种,本文结合过滤式和封装式方法,即词频-反文档频率(Term Frequency-InverseDocument Frequency,TFIDF)算法和遗传算法(Genetic Algorithm,GA)相结合,提出基于TFIDF-GA的无监督特征选择方法。该方法通过改进后的TFIDF公式计算特征权重,然后根据选择规则得到初始特征子集,将该特征子集作为遗传算法的初始种群进行迭代搜索。初始特征子集能够为遗传算法提供较好的搜索起点,加快搜索速度,同时遗传算法的自适应全局搜索能力能够启发式搜索到具有很强分类能力却没有包含在初始特征子集中的特征。2、模糊C均值聚类算法。模糊C均值聚类算法(Fuzzy C-Means,FCM)在基于目标的模糊聚类算法中应用最为广泛。本文对FCM算法进行改进,使用密度参数初始化聚类中心,能在一定程度上降低由于初始聚类中心选取的随机性对算法产生的误差;在FCM算法的约束条件中引入信息熵,更好地描述数据的实际分布情况。本文从特征选择和FCM算法出发,提出基于TFIDF-GA和改进的FCM算法的模糊聚类算法,实验结果表明该算法可以得到较高质量的聚类结果。
马力[10](2012)在《基于聚类分析的网络用户兴趣挖掘方法研究》文中研究表明网络应用的深入发展使网络信息服务系统的服务模式从集中统一的被动型向分布式个性化的主动型演进。实现这种服务模式转换的一个前提条件是对网络用户需求规律的深入理解,进而依据这些规律指导信息服务系统的信息资源组织与调整,使用户的需求信息与系统提供的尽可能一致。网络用户兴趣作为网络用户信息需求规律的一种形态,是构造新一代信息服务系统中资源组织自适应机制的工作基础。本文围绕用户兴趣模式提取这一目标,以用户访问的网页中文文本信息为对象,利用复杂网络理论、图论、随机过程理论、人工免疫网络原理及中文语义计算等方法与技术,较为深入的研究基于文本聚类的用户兴趣挖掘算法及相关问题,以期在降低聚类算法的计算复杂度,实现软聚类及探索新的处理方法等方面进行有益的尝试。主要研究内容包括下述四个方面:(1)用户兴趣挖掘模型。网络用户兴趣模式是用户个体和用户群体使用网络行为规律的描述,网络兴趣挖掘模型则是获取用户兴趣模式的一组规范处理流程。针对Web用户访问Web站点的行为过程,本文依据全信息理论中的信息过程模型,提出了一种网络用户兴趣挖掘概念模型,其核心是从信息认知角度描述挖掘用户兴趣模式的处理过程,这种信息认知是由语法认识和语义认知二个层次来描述。该挖掘模型的重要特点是将多层次多角度的用户兴趣处理过程统一到一个框架中。为了具体指导网络用户兴趣挖掘工作,文本给出基于聚类分析的用户兴趣模式及迁移模式的挖掘模型。应用实践表明所提出两个模型是合理的。(2)文本聚类中的降维处理算法。针对文本特征集维数较大这一典型问题,利用小世界网络模型具有描述自然界和人造系统的动态属性和结构特征之间关系的特点,本文采用K-最近邻耦合方式构造文本词语网络图,该文本词语网络中的节点表示文本中的词语,边表示词语间的某种空间距离上的相邻关系。引入词语聚类系数变化量和平均最短路径变化量度量词语的重要性。通过计算词语的这两个变化量来确定词语是否存在小世界特征,进而实现特证词的选择。该方法的特点从基于空间距离的文本组织结构中选择特征词。实验结果表明该方法是有效的,为文本特征提取提供一条新的解决途径。(3)文本聚类算法研究。虽然已有许多成熟聚类方法较好地实现文本聚类分析,但由于词语的多义性,文本特征的稀疏性以及文本类别分布的多样性,使得聚类结果很难保证生成文本类别与人们所期望的类保持高度一致。为此,仍需从多种技术途径研究聚类算法。鉴于传统基于优化方法的聚类算法普遍存在需要事先知道聚类类别数,对类边界不清晰的数据处理不当及易陷入局部极大等问题,将人工免疫系统(ArtificalImmune System,AIS)方法引入到文本聚类处理之中,提出自适应多克隆聚类算法,其主要处理环节是引入重组算子来增加抗体种群中个体的多样性,以扩大解的搜索范围,避免过早出现早熟现象;引入非一致变异算子增强局部求解的自适应性,优化局部求解性能,加快解的收敛速度;用亲和度函数调节聚类类别。另外,利用Markov链证明算法的收敛性。针对文本数据,对上述算法进行适当的裁剪,提出基于人工免疫网络的文本聚类算法,实验结果表明算法聚类的有效性高。现实生活中许多事物都可以用一个复杂的网络来描述,在这些实际网络中都存在着一个共同的性质:社团结构。复杂网络中的社团结构发现本质上就是网络上节点的聚类处理,本文将复杂网络理论中的方法引入到文本聚类分析中,提出基于社团结构发现的文本聚类算法,利用知网(Hownet)语义相似度计算公式,定义文本相似性度量方法,依据文本相似性构造文本关联图,利用称为Newman聚类算法实现文本的聚类分析。这种方法的特点是可处理大规模问题。针对目前的大多数文本聚类算法都将文本进行严格归为一类和计算复杂度高的问题,考虑后缀树模型能有效的表示特征词间的关系、具有增量式更新以及遍历时间短等特点,本文将后缀树模型引入文本聚类中,提出了基于语义计算的后缀树聚类算法,该算法通过对特征词语义相似度和权重的判断构建后缀树,选择基类节点构造基类连通图,求解树连通性以便实现聚类处理。为了降低算法的时间和空间复杂度,进一步提出基于语义后缀网的聚类算法,本算法的改进之处是:通过计算特征词间的语义相似度来构建后缀网,使后缀网的节点数和分支数减小,并通过特征词的权重判断来选择基类。实验结果表明这两种算法都能实现文本的软聚类,时间复杂度小,且聚类的类簇标识可读性强。(4)网络用户兴趣模式及变迁模式发现。用户兴趣模式实际形式是用一组有显着类别的特征词集合组成。本文通过计算文本簇中的大部分文本中出现同一个词语或者出现一类词义相似的词语的词频来选择生成用户兴趣模式的。用户兴趣的迁移模式是用户兴趣模式随时间动态变化的一种描述。针对文本存在多主题性这一问题,提出了一种基于隐马尔可夫原理的用户兴趣序列获取方法,该方法以用户访问序列和用户兴趣为对象,建立基于用户兴趣序列的隐马尔可夫模型,采用其解码问题相关算法实现用户最优兴趣序列的获取。采用序列模式挖掘算法获得用户兴趣序列的频繁模式。这些频繁模式就是用户兴趣的迁移模式,其本质是一种具有顺序特征的用户兴趣关联规则。为了提高挖掘效率,采用基于频繁链表-存取树(FlaAT)结构的挖掘算法获取频繁模式,该算法的优点是处理速度快且能通过更新FlaAT结构实现序列的增量式挖掘。实验表明所提方法是可行的,挖掘出的用户兴趣迁移模式不仅能够表现出用户兴趣的变化,也能够反映出用户兴趣之间的关联和变化规律。
二、基于遗传算法的文本聚类特征选择(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、基于遗传算法的文本聚类特征选择(论文提纲范文)
(1)基于二进制灰狼优化的特征选择及文本聚类(论文提纲范文)
0 引言 |
1 相关研究 |
2 算法设计 |
2.1 基于矢量空间模型VSM的文本数据表达 |
2.2 基于二进制灰狼优化算法的特征选择策略 |
2.2.1 特征选择模型 |
2.2.2 特征选择解编码 |
2.2.3 解的更新机制 |
2.2.4 特征相关性分值计算 |
2.3 特征子集归并 |
2.3.1 特征合并 |
2.3.2 特征交叉 |
2.3.3 改进特征合并 |
2.4 基于多目标优化的K均值聚类 |
2.4.1 聚类目标定义 |
2.4.2 聚类过程 |
3 实验分析 |
3.1 测试文本 |
3.2 测试算法及相关参数 |
3.3 评估指标 |
3.4 实验分析 |
4 结束语 |
(2)基于密度峰值的聚类算法研究与应用(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.2.1 密度峰值聚类算法研究现状 |
1.2.2 K-Means算法研究现状 |
1.2.3 文本聚类研究现状 |
1.3 论文研究内容及结构 |
1.3.1 论文研究内容 |
1.3.2 论文结构 |
1.4 本章小结 |
第2章 基础理论与技术 |
2.1 相关算法简介 |
2.2 聚类算法评估标准 |
2.2.1 误差平方和 |
2.2.2 F度量值 |
2.2.3 调整兰德系数 |
2.2.4 调整互信息 |
2.3 文本处理 |
2.3.1 文本分词 |
2.3.2 停用词过滤 |
2.3.3 文本表示模型 |
2.3.4 文本特征选择方法 |
2.3.5 文本相似度计算 |
2.4 本章小结 |
第3章 基于信息熵优化的近邻密度峰值聚类算法 |
3.1 密度峰值聚类算法简介 |
3.1.1 算法思想 |
3.1.2 算法分析 |
3.2 基于信息熵优化的近邻密度峰值聚类算法 |
3.2.1 最优截断距离 |
3.2.2 近邻局部密度 |
3.2.3 IKDPC算法流程 |
3.3 实验分析 |
3.3.1 人工数据集的实验结果及分析 |
3.3.2 UCI真实数据集的实验结果及分析 |
3.3.3 算法复杂度分析 |
3.4 本章小结 |
第4章 基于近邻密度峰值优化的K-Means聚类算法 |
4.1 算法分析 |
4.1.1 IKDPC算法缺点分析 |
4.1.2 K-Means算法缺点分析 |
4.2 基于近邻密度峰值优化的K-Means聚类算法 |
4.2.1 IKDKM算法相关定义 |
4.2.2 IKDKM算法流程 |
4.3 实验分析 |
4.3.1 UCI真实数据集的实验结果及分析 |
4.3.2 算法复杂度分析 |
4.4 本章小结 |
第5章 IKDKM算法在新闻文本聚类中的应用 |
5.1 新闻文本数据来源 |
5.2 新闻文本数据预处理 |
5.2.1 文本分词 |
5.2.2 词性标注 |
5.2.3 停用词过滤 |
5.2.4 特征词提取及权重计算 |
5.2.5 基于加权Word2vec的文本向量计算 |
5.3 文本聚类流程 |
5.4 实验分析 |
5.4.1 聚类度量指标分析 |
5.4.2 类簇特征词描述 |
5.5 本章小结 |
结论 |
参考文献 |
攻读硕士学位期间发表论文和科研成果 |
致谢 |
作者简介 |
(3)基于增强灰狼优化算法的雷灾文本聚类及预测方法研究(论文提纲范文)
摘要 |
Abstract |
1 绪论 |
1.1 研究背景与意义 |
1.2 国内外研究现状 |
1.2.1 灰狼优化算法的研究现状 |
1.2.2 雷灾文本聚类问题的研究现状 |
1.2.3 雷灾预测问题的研究现状 |
1.3 主要研究内容 |
1.4 论文组织架构 |
2 雷灾文本聚类及预测的理论基础 |
2.1 群体智能优化算法 |
2.1.1 灰狼优化算法 |
2.1.2 粒子群优化算法 |
2.2 经典机器学习算法 |
2.2.1 K-Means聚类算法 |
2.2.2 神经网络分类方法 |
2.3 相关算法评价测度 |
2.3.1 K-Means聚类算法评价测度 |
2.3.2 神经网络分类方法评价测度 |
2.4 本章小结 |
3 基于增强灰狼优化算法的K-Means雷灾文本聚类研究 |
3.1 增强灰狼优化算法 |
3.1.1 免疫克隆操作 |
3.1.2 粒子群位置更新思想 |
3.1.3 增强灰狼优化(IPSGWO)算法 |
3.2 IPSGWO算法与K-Means算法结合的聚类算法(IPSGWO-KM) |
3.3 IPSGWO-KM文本聚类算法 |
3.4 实验仿真与分析 |
3.4.1 IPSGWO算法性能分析 |
3.4.2 IPSGWO-KM算法聚类性能分析 |
3.4.3 IPSGWO-KM算法的文本聚类性能分析 |
3.4.4 IPSGWO-KM算法雷灾文本聚类结果分析 |
3.5 本章小结 |
4 基于增强灰狼优化算法优化BP神经网络的雷灾预测研究 |
4.1 BP神经网络结构构建 |
4.2 IPSGWO优化BP神经网络模型 |
4.3 仿真结果分析 |
4.3.1 IPSGWO优化BP神经网络算法性能分析 |
4.3.2 IPSGWO优化BP神经网络雷灾预测仿真结果分析 |
4.4 本章小节 |
结论 |
参考文献 |
攻读硕士学位期间发表学术论文情况 |
致谢 |
(4)融入新的特征选择机制的文本数据聚类算法(论文提纲范文)
0 引言 |
1 相关研究 |
2 算法详细设计 |
2.1 文本预处理 |
(1)词语切分 |
(2)终止词移除 |
(3)词干提取 |
(4)词条权重计算 |
2.2 基于粒子群优化的特征选择机制 |
(1)特征选择模型 |
(2)解的表示 |
(3)适应度函数 |
2.3 粒子群优化算法PSO |
2.4 文本聚类 |
(1)文本聚类模型 |
(2)聚类质心计算 |
(3)相似性度量 |
(4)K均值聚类算法 |
3 性能评测 |
3.1 测试文本数据集 |
3.2 评估标准 |
3.3 结果对比 |
4 结束语 |
(5)基于萤火虫算法和改进K近邻的文本分类研究(论文提纲范文)
摘要 |
abstract |
注释表 |
第1章 绪论 |
1.1 研究背景及意义 |
1.2 研究现状 |
1.2.1 国外研究现状 |
1.2.2 国内研究现状 |
1.3 论文的主要工作及组织结构 |
1.3.1 论文的主要工作 |
1.3.2 论文的结构安排 |
第2章 文本分类相关理论与技术 |
2.1 文本分类描述 |
2.2 文本预处理 |
2.2.1 中文分词 |
2.2.2 去停用词 |
2.3 特征工程 |
2.3.1 特征选择 |
2.3.2 特征加权 |
2.4 文本表示 |
2.4.1 布尔模型 |
2.4.2 向量空间模型 |
2.4.3 概率模型 |
2.5 分类算法 |
2.5.1 K近邻算法 |
2.5.2 朴素贝叶斯算法 |
2.5.3 支持向量机算法 |
2.6 评估指标 |
2.7 本章小结 |
第3章 结合信息增益和萤火虫算法的特征选择 |
3.1 引言 |
3.2 萤火虫算法的原理及应用 |
3.2.1 萤火虫算法的基本原理 |
3.2.2 萤火虫算法的应用领域 |
3.3 改进萤火虫算法的特征选择 |
3.3.1 萤火虫算法的离散化 |
3.3.2 个体编码与初始化 |
3.3.3 步长因子的改进 |
3.3.4 适应度函数 |
3.4 IG-IFA特性选择流程 |
3.5 实验设计与分析 |
3.5.1 实验数据集 |
3.5.2 实验环境与参数 |
3.5.3 分类流程 |
3.5.4 参数选择实验 |
3.5.5 仿真结果分析 |
3.6 本章小结 |
第4章 基于聚类和中心向量的快速KNN分类算法 |
4.1 引言 |
4.2 算法及定义介绍 |
4.2.1 K-Means算法原理 |
4.2.2 相关概念和定义 |
4.3 结合聚类和中心向量的KNN分类 |
4.4 CCV-KNN算法的分类流程 |
4.5 实验设计与分析 |
4.5.1 实验数据集 |
4.5.2 实验环境 |
4.5.3 参数选择实验 |
4.5.4 仿真结果分析 |
4.6 本章小结 |
第5章 总结与展望 |
5.1 全文总结 |
5.2 未来工作展望 |
参考文献 |
致谢 |
攻读硕士学位期间从事的科研工作及取得的成果 |
(6)基于密度峰值的聚类算法研究及其在文本聚类中的应用(论文提纲范文)
摘要 |
abstract |
第1章 绪论 |
1.1 研究意义 |
1.2 国内外研究现状 |
1.3 本文研究内容 |
1.4 本文组织结构 |
第2章 相关理论介绍 |
2.1 CFSFDP算法介绍 |
2.1.1 算法思想 |
2.1.2 算法描述 |
2.2 遗传k均值算法介绍 |
2.3 文本聚类相关理论介绍 |
2.3.1 文本预处理 |
2.3.2 文本特征降维 |
2.3.3 文本表示 |
2.3.4 文本相似度计算 |
2.3.5 聚类算法 |
2.3.6 聚类评价指标 |
2.4 本章小结 |
第3章 改进的CFSFDP算法设计与实现 |
3.1 样本局部密度优化 |
3.2 聚类中心的自动选取 |
3.2.1 改进的遗传k均值算法 |
3.2.2 自动选取聚类中心 |
3.3 算法实现 |
3.4 实验与结果分析 |
3.5 本章小结 |
第4章 改进的CFSFDP算法在文本聚类中的应用 |
4.1 数据来源 |
4.2 文本聚类的设计 |
4.2.1 文本数据预处理 |
4.2.2 文本聚类算法的设计 |
4.3 实验与结果分析 |
4.4 本章小结 |
第5章 总结与展望 |
5.1 总结 |
5.2 展望 |
致谢 |
参考文献 |
攻读学位期间的研究成果 |
(7)中文短文本聚类算法的研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 短文本聚类的背景和意义 |
1.2 短文本聚类的特点 |
1.3 国内外研究现状 |
1.4 本文的主要工作及结构安排 |
第2章 相关技术介绍 |
2.1 文本预处理 |
2.2 传统的短文本聚类算法 |
2.2.1 K-means算法 |
2.2.2 K-medoids算法 |
2.2.3 BIRCH算法 |
2.2.4 EM算法 |
2.3 CHIR算法和CHIR-TCFS算法 |
2.4 本章小结 |
第3章 短文本聚类算法研究 |
3.1 CHIR算法存在问题及改进思路 |
3.2 CHIR算法的改进 |
3.3 对TCFS算法初始聚类中心选择的改进 |
3.4 CHIRF-NTCFS算法 |
3.5 本章小结 |
第4章 短文本聚类算法的实验及结果分析 |
4.1 实验相关工作 |
4.1.1 实验环境 |
4.1.2 实验数据 |
4.1.3 文本预处理 |
4.1.4 文本相似度计算 |
4.1.5 算法的性能评估依据 |
4.2 CHIRF-NTCFS算法的最优参数实验 |
4.3 对比实验结果与分析 |
4.3.1 基于文本规模的三种算法聚类效果的对比实验 |
4.3.2 基于聚簇数目的三种算法聚类效果的对比实验 |
4.4 本章小结 |
第5章 总结与展望 |
5.1 本文工作总结 |
5.2 对未来的展望 |
参考文献 |
致谢 |
(8)因素空间理论在文本挖掘中的应用(论文提纲范文)
摘要 |
Abstract |
第一章 引言 |
1.1 研究背景 |
1.2 研究现状 |
1.3 论文的主要内容 |
第二章 基于因素空间的知识表示理论分析 |
2.1 因素空间相关理论分析 |
2.1.1 因素与状态空间 |
2.1.2 因素的运算及关系 |
2.1.3 因素空间 |
2.2 因素特征提取 |
2.3 因素空间的因素分析法 |
2.3.1 因素分析法 |
2.3.2 改进的因素分析法 |
2.3.3 因素分析法的推理模型 |
2.4 小结 |
第三章 文本数据挖掘相关机制分析 |
3.1 文本数据挖掘机制概述 |
3.2 文本数据预处理机制分析 |
3.2.1 中文文本分词 |
3.2.2 文本表示 |
3.2.3 文本特征选择 |
3.3 文本分类机制分析 |
3.3.1 文本分类概述 |
3.3.2 KNN算法 |
3.3.3 朴素贝叶斯算法 |
3.3.4 决策树方法 |
3.3.5 支持向量机 |
3.4 文本聚类机制分析 |
3.4.1 文本聚类概述 |
3.4.2 层次聚类算法 |
3.4.3 K-均值聚类算法 |
3.5 小结 |
第四章 基于因素空间的文本分类算法应用与研究 |
4.1 基于因素分析表的文本表示 |
4.2 基于遗传算法的因素特征提取算法 |
4.2.1 遗传算法概述 |
4.2.2 基于遗传算法的因素特征提取算法 |
4.2.3 因素特征提取结果 |
4.3 基于因素空间的文本分类算法 |
4.3.1 因素分析法推理模型的改进 |
4.3.2 基于因素空间的文本分类算法流程 |
4.4 实验结果分析 |
4.4.1 实验说明 |
4.4.2 实验结果及分析 |
4.5 基于因素空间的文本分类算法在电商评论情感分析中的应用 |
4.6 小结 |
第五章 基于因素空间的文本聚类算法应用与研究 |
5.1 基于词向量文本特征聚类的初步因素集构建 |
5.1.1 词向量模型概述 |
5.1.2 基于词向量模型的文本特征聚类 |
5.2 基于因素空间的文本聚类算法 |
5.2.1 确定基本因素集 |
5.2.2 计算文本因素相似度 |
5.2.3 基于因素空间的文本聚类算法流程 |
5.3 实验结果分析 |
5.3.1 实验说明 |
5.3.2 实验结果及分析 |
5.4 小结 |
第六章 总结与展望 |
6.1 总结 |
6.2 应用展望 |
参考文献 |
攻读硕士学位期间发表的论文和参与的项目 |
致谢 |
(9)基于TFIDF-GA特征选择的文本模糊聚类方法研究(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 选题背景与研究意义 |
1.1.1 选题背景 |
1.1.2 研究意义 |
1.2 文本聚类研究概况 |
1.2.1 文本硬性聚类研究概况 |
1.2.2 文本模糊聚类研究概况 |
1.3 本文的研究工作 |
1.4 本文的组织结构 |
第2章 文本聚类理论基础 |
2.1 文本聚类的概述 |
2.2 文本聚类的过程 |
2.2.1 文本分词 |
2.2.2 特征选择 |
2.2.3 权重计算 |
2.2.4 文本表示 |
2.3 文本聚类算法的分类 |
2.3.1 基于划分的聚类方法 |
2.3.2 基于层次的聚类方法 |
2.3.3 基于密度的聚类方法 |
2.3.4 基于网格的聚类方法 |
2.3.5 基于模型的聚类方法 |
2.4 文本聚类的评价 |
2.5 本章小结 |
第3章 基于 TFIDF-GA 的特征选择方法 |
3.1 特征选择 |
3.1.1 特征选择的定义 |
3.1.2 特征选择的步骤 |
3.1.3 特征选择的分类 |
3.2 常用的无监督特征选择方法 |
3.2.1 文档频率 |
3.2.2 单词权 |
3.2.3 单词熵 |
3.2.4 单词贡献度 |
3.3 TFIDF 特征选择方法 |
3.3.1 TFIDF 的概述 |
3.3.2 TFIDF 的改进 |
3.4 遗传算法 |
3.4.1 遗传算法的概述 |
3.4.2 遗传算法的过程 |
3.4.3 遗传算法的特点 |
3.5 基于 TFIDF-GA 的特征选择方法 |
3.5.1 TFIDF-GA 算法的概述 |
3.5.2 TFIDF-GA 算法的过程 |
3.5.3 实验结果 |
3.6 本章小结 |
第4章 改进的模糊 C 均值聚类算法 |
4.1 模糊 C 均值算法 |
4.1.1 模糊 C 均值算法的概述 |
4.1.2 模糊 C 均值算法的过程 |
4.1.3 模糊 C 均值算法的难点 |
4.2 初始聚类中心的选取 |
4.3 聚类目标函数 |
4.4 改进的模糊 C 均值算法 |
4.4.1 算法描述 |
4.4.2 实验结果 |
4.5 本章小结 |
第5章 基于 TFIDF-GA 与 FCM 的文本模糊聚类研究 |
5.1 实验环境 |
5.2 体系结构 |
5.3 实验结果与分析 |
5.4 本章小结 |
第6章 总结与展望 |
6.1 总结 |
6.2 展望 |
致谢 |
参考文献 |
(10)基于聚类分析的网络用户兴趣挖掘方法研究(论文提纲范文)
作者简介 |
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 课题研究背景与意义 |
1.2 国内外研究现状与分析 |
1.3 本文的研究内容 |
1.4 本文的内容安排 |
第二章 网络用户兴趣挖掘模型研究 |
2.1 网络用户兴趣模式描述 |
2.2 基于全信息理论的信息处理模型 |
2.3 网络用户兴趣挖掘概念模型 |
2.4 基于聚类分析的网络用户兴趣挖掘模型 |
第三章 基于小世界网络模型的关键词提取方法研究 |
3.1 引言 |
3.2 小世界网络模型 |
3.3 文档关键词提取的理论依据 |
3.4 复合关键词提取算法 |
3.5 实验分析 |
3.6 本章小结 |
第四章 基于网络社团结构的用户兴趣聚类算法研究 |
4.1 引言 |
4.2 网络社团结构发现算法 |
4.3 文本特征选择与表示 |
4.4 词语语义相似度计算 |
4.5 基于 Newman 算法的文本聚类算法 |
4.6 用户兴趣生成算法 |
4.7 实验与分析 |
4.8 本章小结 |
第五章 基于人工免疫网络的文本聚类算法研究 |
5.1 引言 |
5.2 免疫网络与克隆选择仿生学原理 |
5.3 自适应多克隆聚类算法与实验分析 |
5.4 自适应多克隆聚文本聚类算法与实验分析 |
5.5 本章小结 |
第六章 基于后缀树和语义后缀网的聚类算法研究 |
6.1 引言 |
6.2 基于后缀树的聚类算法 |
6.3 基于后缀树的中文文本聚类算法与实验分析 |
6.4 基于语义计算的中文后缀树聚类树算法与实验分析 |
6.5 基于语义后缀网的中文文本聚类算法与实验分析 |
6.6 本章小结 |
第七章 网络用户兴趣迁移模式的挖掘研究 |
7.1 引言 |
7.2 隐马尔可夫模型 |
7.3 基于隐马尔可夫模型的用户兴趣序列提取 |
7.4 用户兴趣迁移模式挖掘 |
7.5 实验与分析 |
7.6 本章小结 |
总结 |
致谢 |
参考文献 |
攻读博士学位期间的研究成果 |
学术论文 |
参加研究的科研项目 |
四、基于遗传算法的文本聚类特征选择(论文参考文献)
- [1]基于二进制灰狼优化的特征选择及文本聚类[J]. 王琛,董永权. 计算机工程与设计, 2021(09)
- [2]基于密度峰值的聚类算法研究与应用[D]. 杨俊闯. 河北工程大学, 2021(08)
- [3]基于增强灰狼优化算法的雷灾文本聚类及预测方法研究[D]. 张斌. 大连大学, 2021(01)
- [4]融入新的特征选择机制的文本数据聚类算法[J]. 田夏利,熊莹. 计算机工程与设计, 2021(03)
- [5]基于萤火虫算法和改进K近邻的文本分类研究[D]. 赵成. 重庆邮电大学, 2020(02)
- [6]基于密度峰值的聚类算法研究及其在文本聚类中的应用[D]. 卜秋瑾. 南昌大学, 2019(02)
- [7]中文短文本聚类算法的研究[D]. 程杨. 吉林大学, 2016(12)
- [8]因素空间理论在文本挖掘中的应用[D]. 李兆钧. 广州大学, 2016(03)
- [9]基于TFIDF-GA特征选择的文本模糊聚类方法研究[D]. 邓高超. 南昌大学, 2014(02)
- [10]基于聚类分析的网络用户兴趣挖掘方法研究[D]. 马力. 西安电子科技大学, 2012(12)