一种检测相似重复记录的有效方法

一种检测相似重复记录的有效方法

一、一种高效的检测相似重复记录的方法(论文文献综述)

李荅群[1](2021)在《复杂场景下基于深度特征匹配的目标跟踪算法研究》文中认为作为图像处理、计算机视觉领域中重要的研究方向之一,目标跟踪在诸如智能交通、视频监控、视觉导航、国防侦查和军事观测等应用领域具有很高的应用价值。尽管在之前几十年的研究中目标跟踪已经取得较好的发展,但是其仍然面临很多难题。一方面,在跟踪过程中目标经常会发生较为复杂的变化,比如光照变化、形变、遮挡等问题,这使得稳定且准确地跟踪目标变得尤为困难。另一方面,如何全面且有效地对目标外观表征模型、目标定位方法及模板更新策略等重要环节进行提升,也时刻困扰着国内外众多学者。近年来,基于深度学习的目标跟踪算法相比于其它目标跟踪算法展现出更加优异的性能,其在大数据的驱动下利用端到端学习不仅能够高效、便捷地训练模型,还极大地提升了算法的鲁棒性与准确性。其中,基于深度特征匹配的目标跟踪算法以其均衡的准确性、鲁棒性和实时性获得了较多的关注。虽然这类算法在很多方面表现优异,但由于网络结构中缺少层级间的自适应特征融合、模板更新策略不够完善、缺少再检测机制等原因,其在复杂场景下的鲁棒性与准确性都会明显降低。因此,本论文在研究大量国内外目标跟踪算法的基础上,针对复杂场景下基于深度特征匹配的目标跟踪算法的局限性进行一定的改进。本论文主要开展可见光单目标跟踪算法的研究,主要研究内容和创新性成果如下:1、针对基于深度特征匹配的目标跟踪算法在复杂场景下准确性及鲁棒性降低且模板更新策略不够完善的问题,提出一种结合再检测机制与自适应模板更新的孪生卷积神经网络目标跟踪算法。在跟踪过程中,当背景中出现相似干扰时,基于深度特征匹配的目标跟踪算法生成的响应图中易出现多个波峰,从而造成跟踪框不稳定甚至跟踪目标丢失的情况。本文利用一种高效且准确的再检测孪生卷积神经网络作为再检测机制来应对响应图中的多波峰。再检测网络在出现的各个波峰周围采样并进行实时、准确的匹配计算,从而实现对干扰的筛选与排除。另外,为了应对跟踪过程中遮挡、形变等复杂因素带来的影响,本文提出一种基于生成式模型的自适应模板更新方法。该方法将评估过的可靠跟踪结果进行特征提取与概率统计,利用统计结果与已有的目标模板特征进行自适应融合,从而实现模板的自适应更新。仿真实验结果表明,该算法能较好地应对相似背景干扰、遮挡、目标形变等难题,有效提升复杂场景下的跟踪精度与鲁棒性。2、针对基于深度特征匹配的目标跟踪算法网络结构较浅且缺少层级间的自适应特征融合的问题,提出一种结合深层特征与鲁棒特征融合的孪生卷积神经网络目标跟踪算法。虽然,基于深度特征匹配的目标跟踪算法利用浅层卷积神经网络和离线训练能够在一些低复杂度的场景取得不错的跟踪效果。但是,由于缺少丰富的语义特征,其在应对复杂场景下一些具有挑战性的难题时,跟踪效果将会明显下降。本文利用一种改进的残差网络来替代传统的浅层网络,从而提取出具有丰富语义信息的深层特征。与此同时,本文提出一种高效的自适应多层特征融合策略,有效提升了响应图的质量,减少了在复杂场景下相似背景干扰所带来的影响。另外,本文利用一种自适应特征信息融合方法来实现模板的更新,从而有效克服遮挡、目标形变等难题。仿真实验结果表明,该算法能够有效提升跟踪效果,并且在准确性与鲁棒性等方面表现良好。3、针对基于深度特征匹配的目标跟踪算法前景信息利用不充分,跟踪过程中在语义背景下易丢失目标的问题,提出一种前景信息引导的孪生卷积神经网络目标跟踪算法。考虑到现有的基于深度特征匹配的目标跟踪算法在离线训练时正样本对包含的挑战因素较少,在目标遇到遮挡或较严重形变时跟踪效果下降的问题,本文采用一种相对简单的采样策略来扩充离线训练时正样本对中的挑战因素,从而有效增强算法的鲁棒性。并且,为了进一步提升算法在语义背景下的识别能力,本文将背景信息进行填充遮挡,从而增强前景信息的显着性。与此同时,将处理后的数据输入到基于卷积神经网络的引导分支中,并运用一种填充损失计算方式来改进算法的损失函数,有效提升算法在语义背景下的识别能力。此外,本文采用一种改进的特征信息融合方法来实现模板的更新,进一步应对目标的外观变化。仿真实验结果表明,该算法在多种干扰因素下取得了较好的跟踪效果,优于所对比的其它多个先进的跟踪算法。

徐国文[2](2020)在《新型网络环境下数据安全的核心技术研究》文中研究表明随着云计算(Cloud Computing)和群智感知(Crowdsensing)等新型网络环境的发展,这些新型架构已经成为承载各类应用的关键基础设施。然而,新型网络环境下数据安全与隐私威胁日趋多样化、复杂化和规模化。这对数据的安全采集、存储与使用带来了严峻挑战。具体来说,在数据的安全采集阶段,现有的研究成果大多需要用户与服务器在线交互,无法满足在异常网络下支持用户离线的数据采集;在数据的安全存储阶段,现有的研究成果大多基于文本类型的数据存取,对于空间数据和DNA数据的安全检索方案较少,且存在效率低、访问控制弱以及查询功能单一等问题;在数据的安全使用阶段,尤其在基于大规模数据集的深度神经网络训练方面,现有的训练技术未考虑训练过程中计算结果的可验证性和用户数据质量的不一致性问题。针对上述挑战,本文研究新型网络环境(聚焦于云计算和群智感知)下数据在采集、存储和使用方面存在的安全问题。具体的研究内容如下:1.数据采集阶段安全的真值发现技术:(1)提出一种在单云配置下安全且支持用户离线的真值发现方案EPTD。该方案可实现在单服务器环境下支持用户离线的真值发现。除此之外,我们设计了一种双重数据混淆机制,其可以保证在真值发现过程中用户原始数据和权重的隐私性。(2)提出一种安全高效且支持结果验证的真值发现方案V-PATD。该方案可以高效地验证服务器聚合结果的完整性。除此之外,所设计的可验证方案满足公开可验证性、支持多数据源性、支持非固定的外包函数以及易扩展性。另一方面,我们设计了一种基于本地差分隐私的数据扰动方案,其不仅可保证单个数据的隐私性,同时保留了混淆数据和原始数据在统计性质上的不变性。2.数据存储阶段的可搜索加密技术:(1)提出一种支持任意几何区域内细粒度访问控制的范围搜索方案EGRQ。与现有方案相比,该方案可以显着降低索引和陷门生成过程中的本地存储开销。除此之外,我们构造了基于多项式的访问控制策略,其可以实现密文环境下对搜索用户细粒度的访问控制,从而保证每个用户只能访问其被授权的数据。(2)提出一种高效且支持细粒度访问控制和布尔查询的DNA相似度查询方案EFSS。在EFSS中,我们首次设计出一种安全的近似算法,其可将密文环境下DNA序列之间的编辑距离计算问题转化为二者的集合对称差计算问题。这可以显着减少密文下需要匹配的元素数量。此外,我们构造了一种高效的基于多项式的访问控制策略,其可以实现密文环境下对搜索用户细粒度的访问控制。我们设计了一种新的布尔搜索方法来实现复杂的布尔查询,如对基因进行“AND”和“NO”的混合查询。3.数据使用阶段安全的深度学习技术:(1)提出一种安全且支持对服务器计算结果可验证的方案Verify Net。该方案可实现在用户可接受的计算开销下验证服务器返回结果的正确性。除此之外,我们提出了一种对本地梯度的双重混淆方案,其可以保证在分布式学习过程中用户本地梯度的机密性。除此之外,该方案支持部分用户在协议执行过程中的异常退出,并保证在用户离线的情况下依旧可执行密文下的梯度聚合。(2)提出一种不规则用户下安全高效的深度学习训练方案PPFDL。该方案可实现对用户的梯度、可靠性以及聚合结果的隐私保护。此外,我们设计了一种新的策略去实现对每一个用户的权重(即可靠性)分配。对于权重低的用户,降低其生成的梯度在聚合运算中的比例,从而降低不规则用户对训练的负面影响。PPFDL同样支持部分用户在训练过程中的异常退出,并保证在一定量用户退出的前提下协议的顺利执行。对于上述的所有方案,我们都进行了充分的安全性分析,并证明了上述方案在已定义的威胁模型下的安全性。除此之外,通过大量的实验分析以及与现有方案的对比,论证了我们提出的方案在性能方面的优势。

周华羿[3](2020)在《面向下一代移动通信系统的高效极化码解码算法设计与实现》文中提出极化码作为目前唯一可以被证明在二进制对称离散无记忆信道达到Shannon极限的信道编码方案,已经被第五代移动通信系统(5G)中增强移动宽带(enhanced mobile broadband,e MBB)控制信道的标准所采纳。极化码最基本的解码方式为串行抵消(successive cancellation,SC)解码,其纠错性能在编码码长为有限值时离Shannon极限有较大的差距。SC解码的纠错性能优化版本为循环冗余校验(CRC)辅助的列表串行抵消(CRC-aided SC list,CA-SCL)解码。CA-SCL算法的CRC比特分布不够合理,导致其解码的时间复杂度有降低的空间。球型译码(sphere decoding,SD)是一种仅适用于较短码长的最大似然译码,其穷举的方式导致解码的时间复杂度太高。列表球型译码(list SD,LSD)减小了SD的搜索空间,但是在中低码率下LSD解码的纠错性能损失极大。本文对SC体系的解码算法、SD体系的解码算法和LSD体系的解码算法分别进行优化。在SC解码体系下,本文通过在各个分段信息序列的末尾放置CRC比特来引入提前退出机制,从而降低了CA-SCL解码的时间复杂度。本文通过替换部分CRC检错码为BCH纠错码,并根据分段信息序列的长度和可信度放置不等长的CRC比特,提升了CA-SCL解码的纠错性能。本文将CA-SCL的列表式数据结构替换为栈式和堆式数据结构,降低了解码的时间复杂度。在SD解码体系下,本文通过将比特划分至数个集合,使得同一个集合内比特的欧式距离可以被及时的最早计算(称该方案为同步确定策略),从而简化了解码流程,降低了SD解码的时间复杂度。本文提出了一种利用信道软信息辅助的SD解码算法,进一步降低了解码的时间复杂度。在LSD解码体系下,本文通过应用同步确定策略,提高了解码路径评估的精确度,从而增大了每一层路径筛选中保留正确路径的概率,在低码率下提升了LSD解码的纠错性能(最大性能提升可达2 d B)。本文通过引入路径删除机制,降低了LSD解码的时间复杂度。本文将LSD的列表式数据结构替换为栈式数据结构,在高信噪比区域降低了LSD解码的时间复杂度。本文提出了一种基于双线程的SCL和LSD联合译码器,降低了解码的时延。本文提出了快速收敛式的遗传算法极化码构造方法,可显着减少重复计算次数。本文提出了适用于LSD解码的新型极化码构造算法,其时间复杂度与编码码长线性相关,在低码率条件下可明显提升LSD解码的纠错性能,其性能增益最大可超过2 d B。本文对极化码的三种解码体系和极化码构造方法分别进行了优化。未来的研究方向是各个解码体系下的进一步算法优化和对应的实现工作。

付茜雯[4](2020)在《计算机科技论文摘要的机翻错误类型及译后编辑》文中提出科研论文在知识传播过程中作用重大,推动国际范围内的知识共享。摘要是科研论文中必不可少的一部分,既是对论文的概括性总结,也是读者发现和探寻相关领域知识的快捷途径。然而,目前英文摘要的机器翻译质量在精确性和专业性方面都不尽人意,需要通过后期编辑和人工校对才能产出高质量的中文翻译文本。本文以计算机科学论文摘要为例,对谷歌机器翻译的300篇计算机英文论文摘要的中文版本进行了翻译错误类型分析并归类,并提出相应的译后编辑策略。首先在赖斯文本类型理论翻译策略指导下,对机器翻译系统生成的译文进行译后编辑,再邀请计算机专业以及翻译专业的专业人士进行确认。之后以DQF-MQM错误类型分类框架为依据,对机器翻译系统生成的译文中的错误进行分类。研究发现,机器翻译的计算机英文论文摘要的中文版本中存在七大类翻译错误,其中不符合中文表达习惯的翻译错误占比最大,其次是术语误译、误译、欠译、漏译、过译以及赘译。本论文研究发现,由于源文本的信息型学术文本特征,长难句、被动语态以及术语翻译是造成机器翻译错误的主要原因。针对源文本的逻辑缜密、语步序固定等特征,本研究针对性地对各类错误类型提出了相应译后编辑策略。建议译者在译后编辑中通过将隐性连接转换为显性连接从而保持源文逻辑性,通过增加主语以及调整语序处理被动语态保持源文的学术精准,通过恰当选取词意处理半技术词汇等。本研究采用定性和定量分析方法,系统归类了计算机科技文本摘要中机器翻译出现的错误,并提出相应译后编辑策略,为该领域的译者提供参考建议,从而提高该领域的机器翻译质量。

闫玮[5](2019)在《基于多种层次聚类的算法研究》文中研究指明近年来大数据、互联网+以及云时代等概念的提出将数据挖掘技术推向了各行各业,聚类作为数据挖掘的重要方法被广泛应用于各个领域。随着数据规模的增大以及数据类型的多样化、复杂化,传统聚类算法面临着严峻的挑战。目前大多聚类算法都存在对参数依赖性高、计算量大的问题,针对这些问题,提出了一种高效的新型层次聚类算法。其次,现有聚类算法大多采用样本间的距离作为相似性度量,该相似性度量方法存在度量不准确、受噪音点影响大等问题。针对此类问题,提出了一种基于样本分布的相似性度量方法,在该相似性度量的基础上,提出了一种基于密度聚类和层次聚类的混合型聚类算法。本文的主要工作包括以下两部分:1.提出了一种高效的新型层次聚类算法。该算法由分裂和合并两阶段组成,分裂阶段将初始数据集作为一个类,通过多次分裂得到多于实际聚类数目的子类。在合并阶段将分裂过程中多划分的子类合并为正确的类。针对多数层次聚类算法计算量大的缺点,在分裂阶段提出一种根据统计样本分布找到最佳分裂位置的方法,该方法准确、高效并且避免了重复地计算样本相似性矩阵,从而大大减少了计算量。在合并阶段提出了一种带有标记检测的合并策略,该策略通过在分裂阶段中加入分裂标记和层次标记来记录分裂过程,从而在合并阶段可以避免不必要的子类合并检测。使用该策略可以大大减小合并过程的计算量,克服了一般层次聚类算法中间结果不可重构的缺点。本章算法准确、高效并且无需任何聚类参数,实现了完全无监督聚类。2.提出了一种基于密度聚类和层次聚类的混合型聚类算法。该算法包括两个聚类阶段,分别为第一阶段的密度聚类和第二阶段的层次聚类。密度聚类阶段在快速密度峰值算法的基础上提出了一种自动确定聚类中心的方法,该方法利用快速密度峰值算法中样本密度和距离的乘积以及该乘积的变化率作为指标,自动地选择大于实际类个数的聚类中心。该方法克服了快速密度峰值算法人工选择聚类中心容易错选、漏选以及无法确定聚类中心个数的问题。在层次聚类阶段主要是将密度聚类中多划分出的子类合并,在此基础上本文算法提出了一种基于样本分布的子类间相似性度量,该度量充分考虑了样本的分布情况,并且加入了噪音点处理部分,可以更加有效的度量子类之间的相似性。该算法根据密度聚类和层次聚类的特点,有效地将两者结合,提出了一种混合聚类算法。

郑炜超[6](2019)在《高效时间序列聚类算法的研究》文中研究指明时间序列是具有时间顺序的数据点集合,是一种普遍存在的数据形态,例如心电图、股票价格的变化等大量与时间相关的数据。时间序列聚类是将相似的时间序列划分为同类,时间序列聚类分析可以从中提取出隐藏着的与时间相关的有价值的信息,帮助人们进行决策,在医疗健康、股票投资、异常监测等领域有着重要的应用价值。由于时间序列数据具有高维、不等长、时序等特性,无法直接计算时间序列之间的距离,因此,传统的静态聚类算法无法直接适用于时间序列。近十多年来,众多的研究者和技术人员致力于时间序列聚类算法的研究,主要聚焦于两个方面:可以高效降维的时间序列数据重表示方法和精准的时间序列相似性度量方法。目前虽然已经产生一些有效的时间序列聚类算法,但是还存在以下缺陷:(1)时间序列重表示算法在降低维度的同时,损失了过多的原始序列信息,造成算法精度的下降;(2)时间序列相似性度量方法无法很好的估算时间序列之间的距离,精度较低;(3)现有的较好的相似性度量方法具有较高的时间复杂度,效率较低。因此,研究新型高效的时间序列聚类算法具有十分重要的理论价值和现实意义。论文选题来源于国家自然科学基金项目。为了克服现有时间序列聚类算法的缺陷,作者深入研究目前最好的时间序列聚类算法,并针对它们的缺陷,提出了两个高效的时间序列聚类算法。论文主要工作及创新点如下:(1)提出了一种高效的时间序列重表示方法,在降低维度的同时,极大程度地保留原始序列信息,并且该方法提取了原始时间序列的形状特征,可以提高相似性度量方法的精度;(2)提出了时间序列同步位点的概念以及其判别方法。同步位点可以捕获时间序列曲线的宏观形状,基于同步位点,提出了一种高效的时间序列相似性度量方法,该方法将全局相似性与局部相似性相结合,更好地计算时间序列之间的相似度;(3)针对时间序列存在无用前缀,降低算法的精度问题,提出了一种高效无用前缀删除方法。基于上述所提出的时间序列的重表示和无用前缀删除方法,提出了一种新的高效的时间序列聚类算法TSCEFAD算法;(4)最长公共子序列算法是目前最好的时间序列相似性度量方法之一,但现有的算法具有较高的时间复杂度,效率很低,作者设计了一种更为高效的最长公共子序列算法用于计算时间序列之间的相似度,并基于所提出的高效的最长公共子序列算法,提出并设计了一种新型高效的时间序列聚类算法TSCELCS算法。在目前最权威的开源时间数据集UCR上,本文设计的两个算法分别与同类最好的算法进行了仿真实验对比。实验结果表明:本文设计的两个算法可以有效地对时间序列数据集进行聚簇,在时间和精度上优于现有的最好的时间序列聚类算法。作者今后的努力方向是进一步提高本文算法的时间和精度性能,并努力将本文提出的算法应用于多变量时间序列聚类问题中。

刘晓[7](2019)在《仿生金属有机骨架材料在仿酶及固定化酶催化中的应用》文中研究指明本论文围绕仿生金属有机骨架(MOFs)材料在催化中的应用展开研究,分别从仿酶活性的MOFs材料、功能性生物小分子修饰的MOFs材料、MOFs-天然酶复合材料和仿生配体MOFs材料这四个方面开展了工作。(1)MOFs仿酶材料:考察了最稳定的锆基MOFs材料Ui O-66及其两种衍生物Ui O-66(NH2)和Ui O-66(NO2)的仿脂肪酶活性,分别从酯水解、转酯化和酯化三种反应来考察仿酶活性。Ui O-66(NH2)展现出最高的催化活力,分析表明:Ui O-66仅由Zr6簇活性中心提供一种Lewis酸活性中心,而Ui O-66(NH2)既有Zr6簇活性中心,也有氨基呈现的Br?nsted碱活性中心,是一种酸-碱协同催化剂,能大幅提高催化速率。(2)生物小分子修饰的MOFs材料:利用高稳定性多级介孔MOFs材料HP-Ui O-66中的不饱和配位点进行脯氨酸的直接配位修饰,得到脯氨酸修饰的MOFs材料,其在不对称催化对硝基苯甲醛与环己酮的Direct-Aldol反应中具有良好的效果:dr值最高达到80:20;反式产物ee值最高达95%。进一步对这种高稳定性多级介孔MOFs材料进行含硫氨基酸(半胱氨酸和甲硫氨酸)的直接配位修饰。考察了含硫氨基酸修饰的MOFs材料对不同浓度金离子的吸附行为。材料负载低浓度金离子后展现出良好的催化4-戊炔-1-醇环化/缩酮的反应活性,Au@HP-Ui O-66-C作为催化剂,反应12 h后产率达88%,循环5次后仍达到78%;负载高浓度金离子后形成金纳米颗粒,具有很高的催化还原4-硝基苯酚的活性,Au NP@HP-Ui O-66-C作为催化剂时,k和kcat值分别达到0.178 min-1和0.0356 mg min-1。(3)MOFs-天然酶复合材料:制备了高稳定性多级介孔MOFs材料HP-DUT-5,并将其作为固定化酶载体,其固载葡萄糖氧化酶容量达到208 mg g-1,对尿酸酶的负载量达到225 mg g-1。这种固定化酶方法不仅具有较大的酶固载容量还能提高酶的热稳定性。通过在HP-DUT-5上同时固载葡萄糖氧化酶和过氧化物酶,我们构建了葡萄糖比色检测器,检测范围为0~250μM,检测限达0.2μM。采用相同方法构建了尿酸比色检测器,检测范围为0~100μM,检测限达0.8μM。在此基础上合成了具有仿过氧化物酶活性的多级介孔MOFs材料HP-PCN-224(Fe)。HP-PCN-224(Fe)不仅作为固定化酶的载体,而且是一种高效的仿过氧化物酶,可与被固载的天然酶协同催化串联反应。我们用其和葡萄糖氧化酶或尿酸酶构建了人工多酶系统,并应用于葡萄糖或尿酸的比色检测,葡萄糖检测范围为0~300μM,检测限达0.87μM;尿酸检测范围为0~100μM,检测限达1.8μM。(4)仿生配体MOFs材料的:二维片状金属卟啉仿生MOFs材料UNs-Co和g-C3N4复合后具有出色的光催化氧化5-羟甲基糠醛(HMF)制备2,5-呋喃二甲醛(DFF)的效果。相比另外两种三维金属卟啉MOFs材料PCN-222-Co和PCN-224-Co,UNs-Co具有更高的HMF转化率。以UNs-Co/g-C3N4为催化剂,在模拟太阳光下,催化10小时后HMF转化率达88.6%,DFF选择性达85.5%。

陈晓阳[8](2019)在《大规模图数据库的相似性搜索算法研究》文中指出图作为强大的数据模型,不仅能够描述目标物体的属性,还能描述各个组成之间的结构关系,已经被成功地应用到许多领域中,包含生物信息学,计算机视觉,软件工程和社交网络等。另外一方面,随着信息技术的快速发展,可获得的图数据急剧增加,有效的图管理和查询变得越来越重要。相比于图数据库中的精确搜索,图相似性搜索可以提供鲁棒的解决方案,也就是说它支持容错和允许搜索不精确定义的模式。鉴于图编辑距离(Graph edit distance,GED)的优良特性:适用于任意类型的图和能够精确地捕捉图之间的结构和标签差异,本文考虑了基于GED度量的图相似性搜索问题。具体来讲,给定查询图Q和阈值τ,在图数据库D中找到所有与Q编辑距离小于或等于τ的图。由于GED计算是NP-hard问题,目前已有的方法都基于“过滤–验证”框架。在过滤阶段,设计不同的GED下界过滤那些肯定不满足阈值条件的图;这个阶段通过特定的索引结构高效地完成。在验证阶段利用精确的GED计算方法验证剩余的图。针对已有索引方法的不足(松弛的GED下界,过大的索引空间和有限的可扩展性)和GED计算方法的缺点(巨大的搜索空间,过量的内存消耗和许多昂贵的回溯),本文提出了新的索引结构和GED计算方法,以提高图相似性搜索的性能。具体工作概括为下面四个部分:第一部分研究了解决图相似性搜索的外存索引结构。针对现有索引方法在处理大规模图数据库时具有有限的可扩展性,本文提出了一种基于q-gram表示的外存索引框架,它能够处理超大规模的图数据库。具体而言,将q-gram计数过滤器转变为稀疏矩阵向量乘(Sparse matrix-vector multiplication,SpMV)问题,并提出了基于混合布局的q-gram矩阵索引,以实现有效的查询处理。同时,将每个图转变为vertex-edge 2D空间的点,并将全局计数过滤器转变为2D查询矩形来提高查询性能;这允许只在缩小的查询区域中执行搜索,从而显着地减少查询I/O次数。在真实数据集上的实验结果表明所提外存索引能够处理包含2500万个化合物的超大数据集,并比基于q-gram的外存倒排索引需要更少的查询I/O次数。第二部分研究了解决图相似性搜索的简明索引结构。鉴于现有内存索引方法的过滤能力有限和索引空间过大的问题,本文提出了一种简明的q-gram树索引,它结合了简明数据结构和混合编码,以最小的内存空间使用来提高查询性能。具体来说,所提简明q-gram树的索引大小只有主流索引大小的5%–15%,但同时在测试数据集上实现了几倍的查询加速。此外,还提出了两个有效的GED下界(即,q-gram计数下界和度序列下界)和一种下界提升技术,以获得尽可能小的候选集。在真实和模拟数据集上的实验结果表明,所提简明q-gram树在索引大小和查询性能方面都优于主流索引方法。据我们所知,该索引是第一个能够处理包含2500万个化合物的超大数据集的内存索引。第三部分研究了GED的高效计算方法。观察到已有GED计算方法具有若干缺点:巨大的搜索空间,过量的内存消耗和许多昂贵的回溯调用,本文呈现了一种新颖的基于顶点映射的GED计算方法。该方法能够识别无效和冗余映射,从而在缩小的搜索空间中计算GED。此外,采用了波束堆栈搜索(beam-stack search),并结合了两种专门设计的启发式方法来提高GED计算,实现了内存利用和回溯调用之间的均衡。在真实和模拟数据集上的实验结果表明,所提方法在稀疏和稠密图上都优于主流GED计算方法。此外,还扩展了该方法以解决图相似性搜索问题。实验结果表明,扩展后的方法比已有的图相似性搜索方法快几十倍。第四部分研究了GED的近似计算方法。考虑到GED计算的NP-hard困难性限制了其在很多领域中的应用,本文提出了一种任何时间算法(anytime algorithm)近似计算GED。该近似算法将运行时间作为参数从而输出一系列改进的GED次最优解(suboptimal solution),以满足不同的运行时间需求。具体而言,提出了一种基于邻居偏差的贪心匹配方法,它能够在二次运行时间内快速地得到GED的初始次最优解;然后,采用结合了更有效的启发式估计的树搜索方法来提高所获得GED次最优解。该启发式函数基于扩展的分支编辑距离,理论上能够产生比标签编辑距离更加紧确的GED下界。在大的和小的运行时间设置下,相比于主流的GED近似算法,所提任何时间算法都能实现最小的偏差。

周典瑞,周莲英[9](2013)在《海量数据的相似重复记录检测算法》文中研究表明针对海量数据下相似重复记录检测算法的低查准率和低效率问题,采用综合加权法和基于字符串长度过滤法对数据集进行相似重复检测。综合加权法通过结合用户经验和数理统计法计算各属性的权重。基于字符串长度过滤法在相似检测过程中利用字符串间的长度差异提前结束编辑距离算法的计算,减少待匹配的记录数。实验结果表明,通过综合加权法计算的权重向量更加全面、准确反映出各属性的重要性,基于字符串的长度过滤法减少了记录间的比对时间,能够有效地解决海量数据的相似重复记录检测问题。

肖满生,江力,刘有势[10](2009)在《一种识别相似重复记录的模糊匹配方法》文中研究表明针对多数据源集成中存在的相似重复记录的问题,提出了一种基于用户兴趣度分组的模糊匹配识别方法。首先通过用户兴趣度方法来计算属性的权值,然后按照数据分组思想,选择权值大的属性将数据集分割成不相交的小数据集,最后在各小数据集中用模糊匹配算法进行相似重复记录的识别,为了提高识别效率,可选择余下权值大的属性进行多次分组和识别。理论和实践表明,该方法有较高的识别效率,能有效解决数据集成中相似重复记录的识别问题。

二、一种高效的检测相似重复记录的方法(论文开题报告)

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

三、一种高效的检测相似重复记录的方法(论文提纲范文)

(1)复杂场景下基于深度特征匹配的目标跟踪算法研究(论文提纲范文)

摘要
Abstract
第1章 绪论
    1.1 课题研究背景及意义
    1.2 目标跟踪算法研究现状
        1.2.1 传统目标跟踪算法
        1.2.2 基于深度学习的目标跟踪算法
    1.3 复杂场景下目标跟踪面临的挑战
    1.4 论文主要内容及结构安排
第2章 目标跟踪与深度学习基础理论
    2.1 目标跟踪概述
    2.2 深度学习基本原理
        2.2.1 深度学习基本结构
        2.2.2 卷积神经网络基本原理
        2.2.3 几种典型的卷积神经网络模型
    2.3 孪生卷积神经网络
        2.3.1 孪生卷积神经网络概述
        2.3.2 SiamFC目标跟踪算法概述
    2.4 测试数据集及评价指标
        2.4.1 OTB数据集及评价指标
        2.4.2 VOT数据集及评价指标
    2.5 本章小结
第3章 结合再检测机制与自适应模板更新的孪生卷积神经网络目标跟踪算法
    3.1 引言
    3.2 结合再检测机制与自适应模板更新的孪生卷积神经网络
        3.2.1 孪生卷积神经网络
        3.2.2 再检测机制
        3.2.3 自适应模板更新
        3.2.4 算法描述
    3.3 实验结果与分析
        3.3.1 OTB数据集实验分析
        3.3.2 VOT数据集实验分析
        3.3.3 消融实验
    3.4 本章小结
第4章 结合深层特征与鲁棒特征融合的孪生卷积神经网络目标跟踪算法
    4.1 引言
    4.2 结合深层特征与鲁棒特征融合的孪生卷积神经网络
        4.2.1 改进结构的残差网络
        4.2.2 多层特征融合
        4.2.3 基于特征信息融合的模板更新
        4.2.4 算法描述
    4.3 实验结果与分析
        4.3.1 OTB数据集实验分析
        4.3.2 VOT数据集实验分析
        4.3.3 消融实验
    4.4 本章小结
第5章 前景信息引导的孪生卷积神经网络目标跟踪算法
    5.1 引言
    5.2 前景信息引导的孪生卷积神经网络
        5.2.1 正样本对的扩充
        5.2.2 前景信息引导
        5.2.3 基于改进特征信息融合的模板更新
        5.2.4 算法描述
    5.3 实验结果与分析
        5.3.1 OTB数据集实验分析
        5.3.2 VOT数据集实验分析
        5.3.3 消融实验
    5.4 本章小结
第6章 本文算法对比实验分析
    6.1 OTB数据集对比实验分析
    6.2 VOT数据集对比实验分析
    6.3 实际应用场景对比实验分析
    6.4 运行速度分析
    6.5 本章小结
第7章 总结与展望
    7.1 论文工作总结
    7.2 研究展望
参考文献
致谢
作者简历及攻读学位期间发表的学术论文与研究成果

(2)新型网络环境下数据安全的核心技术研究(论文提纲范文)

摘要
abstract
第一章 绪论
    1.1 研究工作的背景与意义
    1.2 国内外研究现状和发展态势
        1.2.1 数据采集阶段安全的真值发现技术
        1.2.2 数据存储阶段的可搜索加密技术
        1.2.3 数据使用阶段安全的深度学习技术
        1.2.4 当前研究中存在的问题
    1.3 本文的主要贡献与创新
    1.4 本论文的结构安排
第二章 预备知识
    2.1 真值发现算法
    2.2 安全的KNN内积算法
    2.3 差分隐私技术
        2.3.1 集中式差分隐私技术
        2.3.2 本地差分隐私技术
    2.4 密码学相关知识介绍
        2.4.1 Shamir秘密分享协议
        2.4.2 Diffie-Hellman密钥协商
        2.4.3 认证加密
        2.4.4 保序加密
        2.4.5 数字签名
        2.4.6 双线性映射
        2.4.7 加法同态加密
        2.4.8 混淆电路协议
        2.4.9 算术电路
    2.5 深度学习相关知识介绍
        2.5.1 深度神经网络与梯度更新
        2.5.2 集中式与分布式神经网络训练
    2.6 本章小结
第三章 数据采集阶段安全的真值发现技术研究
    3.1 引言
    3.2 单云配置下安全且支持用户离线的真值发现方案
        3.2.1 问题描述
        3.2.2 方案描述
        3.2.3 安全性分析
        3.2.4 性能分析
    3.3 安全高效且支持可验证的真值发现方案
        3.3.1 问题描述
        3.3.2 方案描述
        3.3.3 安全性分析
        3.3.4 性能分析
    3.4 本章小结
第四章 数据存储阶段的可搜索加密技术研究
    4.1 引言
    4.2 支持任意几何区域内细粒度访问控制的范围搜索方案
        4.2.1 问题描述
        4.2.2 方案描述
        4.2.3 安全性分析
        4.2.4 性能分析
    4.3 支持细粒度访问控制和布尔查询的DNA相似度查询方案
        4.3.1 问题描述
        4.3.2 方案描述
        4.3.3 安全性分析
        4.3.4 性能分析
    4.4 本章小结
第五章 数据使用阶段安全的深度学习技术研究
    5.1 引言
    5.2 安全且支持结果可验证的分布式训练方案
        5.2.1 问题描述
        5.2.2 方案描述
        5.2.3 安全性分析
        5.2.4 性能分析
    5.3 不规则用户下安全高效的深度学习训练方案
        5.3.1 问题描述
        5.3.2 方案描述
        5.3.3 安全性分析
        5.3.4 性能分析
    5.4 本章小结
第六章 全文总结与展望
    6.1 全文总结
    6.2 后续工作展望
致谢
参考文献
攻读博士学位期间取得的成果

(3)面向下一代移动通信系统的高效极化码解码算法设计与实现(论文提纲范文)

摘要
Abstract
符号说明
英文缩略语
第一章 绪论
    1.1 背景介绍
        1.1.1 第五代及未来移动通信系统
        1.1.2 信道编码方案——极化码
    1.2 研究现状
        1.2.1 极化码的构造算法
        1.2.2 极化码的编码
        1.2.3 极化码的译码算法
    1.3 本文工作
第二章 极化码的基本原理
    2.1 信道极化
        2.1.1 信道合并
        2.1.2 信道分离
    2.2 极化码构造
        2.2.1 巴氏参数构造法
        2.2.2 Tal-Vardy构造法
        2.2.3 高斯近似构造法
        2.2.4 Beta展开构造法
        2.2.5 遗传算法构造法
    2.3 极化码编码
    2.4 极化码译码
        2.4.1 串行抵消(SC)算法
        2.4.2 球型译码(SD)算法
        2.4.3 列表球型译码(LSD)算法
    2.5 本章小结
第三章 极化码SC算法体系优化
    3.1 极化码列表串行抵消(SCL)算法的优化
        3.1.1 分段CRC辅助的SCL算法与实现
        3.1.2 BCH-CRC联合辅助的分段SCL算法与实现
        3.1.3 定制CRC辅助的SCL算法与实现
    3.2 极化码栈式串行抵消(CA-SCS)算法优化
        3.2.1 CA-SCS极化解码
        3.2.2 分段CRC辅助的CA-SCS解码
        3.2.3 性能与复杂度分析
    3.3 极化码堆式串行抵消(SCH)算法与实现
        3.3.1 一种高级数据结构——堆
        3.3.2 SCH极化解码
        3.3.3 性能与复杂度分析
    3.4 本章小结
第四章 极化码SD算法体系优化
    4.1 基于同步确定的高效极化码SD算法与实现
        4.1.1 同步确定策略
        4.1.2 基于同步确定的ESD和EMSD算法与实现
        4.1.3 性能与复杂度分析
    4.2 信道软信息辅助的极化码SD算法
        4.2.1 接收软信息的判定
        4.2.2 性能定制的判定过程
    4.3 本章小结
第五章 极化码LSD算法体系优化
    5.1 基于同步确定的极化码LSD算法与实现
        5.1.1 同步确定的极化码LSD算法
        5.1.2 拓扑排序
        5.1.3 性能和复杂度分析
    5.2 基于路径删除的极化码LSD算法与实现
        5.2.1 高效LSD解码算法
        5.2.2 性能与复杂度分析
    5.3 极化码栈式球型译码(SSD)算法与实现
        5.3.1 极化码栈式解码
        5.3.2 高效SSD算法
        5.3.3 关于CRC辅助SD的分析
        5.3.4 性能与复杂度分析
    5.4 极化码SCL和LSD联合列表译码(JLSCD)算法与实现
        5.4.1 JLSCD联合译码方案
        5.4.2 性能与复杂度分析
    5.5 本章小结
第六章 解码器定制的极化码构造方法
    6.1 快速收敛的遗传算法极化码构造方法
        6.1.1 遗传算法极化码构造方法
        6.1.2 快速收敛的遗传算法极化码构造方法
        6.1.3 快速收敛的仿真结果
    6.2 一种适用于LSD的极化码构造方法
        6.2.1 汉明距离
        6.2.2 适用于LSD的构造方案
        6.2.3 性能与复杂度分析
    6.3 本章小结
第七章 总结
    7.1 全文总结与主要贡献
    7.2 未来研究方向
参考文献
附录A 定理 4.1 的证明
附录B 定理 4.2 的证明
附录C 引理 6.1 的证明
附录D 引理 6.2 的证明
附录E 定理 6.1 的证明
作者简介
致谢

(4)计算机科技论文摘要的机翻错误类型及译后编辑(论文提纲范文)

摘要
Abstract
CHAPTER1 INTRODUCTION
    1.1 Research Background and Significance
    1.2 Aims of the Study
    1.3 Organization of the Thesis
CHAPTER2 LITERATURE REVIEW AND FRAMEWORK
    2.1 Overview on Machine Translation and Post-editing
    2.2 Previous Studies on MT Error Types and Post-Editing Strategies
    2.3 DQF-MQM Error Classification Framework
    2.4 Previous Studies on MT Error Types of Paper Abstracts
    2.5 Text Typology Theory
        2.5.1 Text Typology Theory of Reiss
        2.5.2 Previous Studies on Informative Texts and Translation Principles
CHAPTER3 METHODOLOGY
    3.1 Source Text and Text Analysis
        3.1.1 Source Text
        3.1.2 Text Analysis
    3.2 Research Method
    3.3 Translation Process
        3.3.1 Translating300 computer science abstracts with MT system
        3.3.2 Post-editing the MT-generated translation based on Text Typology Theory
        3.3.3 Conducting a semi-structured interview for ensuring post-editing quality
        3.3.4 Analyzing and summarizing the errors in300 abstracts
        3.3.5 Preliminary error classifications based on DQF-MQM Framework
        3.3.6 Conducting the2nd semi-structured interview to confirm error classifications
        3.3.7 Quantitative analysis of all MT errors in the300 abstracts
CHAPTER4 RESULTS AND DISCUSSION
    4.1 Error Types of Machine Translated English Abstracts
        4.1.1 Unidiomatic Translation Errors in MT output
        4.1.2 Terminology Mistranslation Errors in MT Output
        4.1.3 Mistranslation Errors in MT Output
        4.1.4 Under-translation Errors in MT Output
        4.1.5 Omission Translation Errors in MT Output
        4.1.6 Over-translation Errors in MT Output
        4.1.7 Errors of Addition in MT Output
    4.2 Post-editing Strategies for Machine Translated Abstracts
        4.2.1 Post-editing Strategies for Long and Complex Sentences
        4.2.2 Post-editing Strategies for Passive Voice Sentences
        4.2.3 Post-editing Strategies for Technical Terms
CHAPTER5 CONCLUSION
    5.1 Major Findings
    5.2 Limitations and Suggestions
References
Appendix Source Texts and Target Texts of300 Abstracts
    1-20 Abstracts
    21-40 Abstracts
    41-60 Abstracts
    61-80 Abstracts
    81-100 Abstracts
    101-120 Abstracts
    121-140 Abstracts
    141-160 Abstracts
    161-180 Abstracts
    181-200 Abstracts
    201-220 Abstracts
    221-240 Abstracts
    241-260 Abstracts
    261-280 Abstracts
    281-300 Abstracts
ACKNOWLEDGEMENTS

(5)基于多种层次聚类的算法研究(论文提纲范文)

摘要
ABSTRACT
符号对照表
缩略语对照表
第一章 绪论
    1.1 研究背景及意义
    1.2 国内外研究现状
    1.3 目前面临的挑战
    1.4 主要内容及组织框架
第二章 基础知识介绍
    2.1 聚类分析的基本概念
    2.2 相关度量和评价指标
        2.2.1 样本间相似性度量
        2.2.2 类相似性度量
        2.2.3 聚类评估标准
    2.3 常见聚类算法
        2.3.1 基于层次的聚类算法
        2.3.2 基于划分的聚类算法
        2.3.3 基于密度的聚类算法
        2.3.4 基于网格的聚类算法
        2.3.5 基于模型的聚类算法
    2.4 本章小结
第三章 一种高效的新型层次聚类算法
    3.1 引言
    3.2 相关概念及定义介绍
    3.3 算法分析与实验结果
        3.3.1 算法性能分析
        3.3.2 实验结果分析
    3.4 本章小结
第四章 基于密度和层次的混合型聚类算法
    4.1 引言
    4.2 基于密度和层次的混合型聚类算法
        4.2.1 基于改进快速密度峰算法的数据划分方法
        4.2.2 基于自适应聚合函数的聚合型层次聚类算法
    4.3 实验与结果分析
        4.3.1 算法时间复杂度分析
        4.3.2 实验结果分析
    4.4 本章小结
第五章 总结和展望
    5.1 本文工作总结
    5.2 未来工作展望
参考文献
致谢
作者简介

(6)高效时间序列聚类算法的研究(论文提纲范文)

摘要
ABSTRACT
符号对照表
缩略语对照表
第一章 绪论
    1.1 选题背景及意义
    1.2 国内外研究现状
    1.3 论文主要工作及创新点
    1.4 论文组织结构
第二章 基础理论与相关工作综述
    2.1 基础理论
        2.1.1 基本概念及问题定义
        2.1.2 时间序列标准化
        2.1.3 时间序列数据重表示
        2.1.4 时间序列相似性度量
        2.1.5 时间序列聚类框架
        2.1.6 最长公共子序列算法相关知识
    2.2 相关工作综述
        2.2.1 TSAP算法
        2.2.2 CATSSS算法
        2.2.3 FASMC算法
        2.2.4 VTC算法
    2.3 本章小结
第三章 TSCEFAD:一种基于增强型碎片匹配的时间序列聚类算法
    3.1 TSCEFAD算法设计动机
    3.2 TSCEFAD算法框架
    3.3 TSCEFAD算法的主要优化策略
        3.3.1 重表示方法
        3.3.2 一种基于同步位点的相似性度量方法
        3.3.3 无用前缀的去除
    3.4 TSCEFAD算法的设计与实现
        3.4.1 TSCEFAD算法的设计思想
        3.4.2 TSCEFAD算法的实现
        3.4.3 时间序列重表示方法的实现
        3.4.4 时间序列相似性度量方法的实现
        3.4.5 时空复杂度分析
    3.5仿真实验
        3.5.1 实验平台及平台介绍
        3.5.2 实验数据集介绍
        3.5.3 算法性能对比指标
        3.5.4 对比算法
        3.5.5 算法性能比较
    3.6 本章小节
第四章 TSCELCS:一种基于高效最长公共子序列的时间序列聚类算法
    4.1 TSCELCS算法设计动机
    4.2 TSCELCS算法框架
    4.3 ELCS算法的关键策略
        4.3.1 构建无冗余的最长公共子序列图
        4.3.2 正向拓扑排序
        4.3.3 反向拓扑排序
        4.3.4 图优化策略
    4.4 TSCELCS算法的设计与实现
        4.4.1 TSCELCS算法的设计思想
        4.4.2 TSCELCS算法的实现
        4.4.3 相似性度量方法的实现
        4.4.4 最长公共子序列方法的实现
        4.4.5 正向拓扑排序方法的实现
        4.4.6 反向拓扑排序方法的实现
        4.4.7 时空复杂度分析
    4.5 仿真实验
        4.5.1 实验平台及平台介绍
        4.5.2 实验数据集介绍
        4.5.3 对比算法
        4.5.4 算法性能对比指标
        4.5.5 算法性能比较
    4.6 本章小节
第五章 总结与展望
    5.1 论文工作总结
    5.2 未来展望
参考文献
致谢
作者简介

(7)仿生金属有机骨架材料在仿酶及固定化酶催化中的应用(论文提纲范文)

摘要
abstract
前言
第1章 文献综述
    1.1 金属有机骨架材料简介
        1.1.1 MOFs材料的发展
        1.1.2 MOFs材料的合成
        1.1.3 MOFs材料在催化中的应用
    1.2 仿生MOFs材料
        1.2.1 具有仿酶活性的MOFs材料
        1.2.2 MOFs材料的生物小分子修饰
        1.2.3 酶-MOFs复合材料
        1.2.4 仿生配体MOFs材料
    1.3 本课题研究思路与内容
第2章 UiO-66及其衍生物仿脂肪酶活性研究
    2.1 引言
    2.2 材料与方法
        2.2.1 实验材料与试剂
        2.2.2 实验仪器
        2.2.3 UiO-66及其衍生物晶体颗粒的制备
        2.2.4 UiO-66及其衍生物扫描电子显微镜分析
        2.2.5 UiO-66及其衍生物纳米粒度分析
        2.2.6 UiO-66及其衍生物X射线衍射分析
        2.2.7 催化酯水解反应
        2.2.8 催化酯交换反应
        2.2.9 催化酯化反应
    2.3 结果与讨论
        2.3.1 UiO-66及其衍生物的合成
        2.3.2 UiO-66及其衍生物催化酯水解反应活性
        2.3.3 UiO-66及其衍生物催化酯交换反应活性
        2.3.4 UiO-66及其衍生物催化酯化反应活性
        2.3.5 UiO-66及其衍生物催化机理分析
    2.4 小结
第3章 脯氨酸修饰HP-UiO-66用于不对称催化Direct-Aldol反应
    3.1 引言
    3.2 材料与方法
        3.2.1 实验材料与试剂
        3.2.2 实验仪器
        3.2.3 可控配体热解法制备HP-UiO-66(T)
        3.2.4 调节剂诱导法制备HP-UiO-66(M)
        3.2.5 HP-UiO-66(T)及HP-UiO-66(M)的脯氨酸修饰
        3.2.6 扫描电子显微镜形貌表征
        3.2.7 X射线衍射(XRD)表征
        3.2.8 傅里叶红外吸收光谱(FT-IR)表征
        3.2.9 比表面积及孔径分布表征
        3.2.10 Pro@HP-UiO-66催化Direct-Aldol反应
        3.2.11 反应产物高效液相色谱(HPLC)检测
        3.2.12 1H核磁共振检测
    3.3 结果与讨论
        3.3.1 Pro@HP-UiO-66(T)的制备与表征
        3.3.2 Pro@HP-UiO-66(M)的制备与表征
        3.3.3 Pro@HP-UiO-66催化Direct-Aldol反应
    3.4 小结
第4章 含硫氨基酸修饰HP-UiO-66用于金离子吸附及其催化应用研究
    4.1 引言
    4.2 材料与方法
        4.2.1 实验材料与试剂
        4.2.2 实验仪器
        4.2.3 调节剂诱导法制备HP-UiO-66
        4.2.4 含硫氨基酸修饰HP-UiO-66
        4.2.5 金离子吸附实验
        4.2.6 金离子催化4-戊炔-1-醇的氢烷氧基化反应
        4.2.7 金纳米颗粒催化还原4-硝基苯酚
        4.2.8 扫描电子显微镜形貌表征
        4.2.9 X射线衍射表征
        4.2.10 透射电子显微镜形貌表征
        4.2.11 ~1H核磁共振表征
    4.3 结果与讨论
        4.3.1 HP-UiO-66的制备及含硫氨基酸的修饰
        4.3.2 HP-UiO-66-C和HP-UiO-66-M的金离子吸附实验
        4.3.3 金纳米颗粒自组装形成金微米片
        4.3.4 催化4-戊炔-1-醇的环化/缩酮反应
        4.3.5 催化还原4-硝基苯酚
    4.4 小结
第5章 多级介孔MOFs材料HP-DUT-5用于固定化酶构筑双天然酶串联催化体系
    5.1 引言
    5.2 材料与方法
        5.2.1 实验材料与试剂
        5.2.2 实验仪器
        5.2.3 DUT-5的制备
        5.2.4 调节剂诱导法制备HP-DUT-5
        5.2.5 UiO-66及HP-UiO-66的制备
        5.2.6 HP-DUT-5固定化酶
        5.2.7 固定化酶活性的测定
        5.2.8 固定化酶的最适pH
        5.2.9 固定化酶的稳定性
        5.2.10 固定化酶重复利用性
        5.2.11 酶法检测葡萄糖及尿酸浓度
        5.2.12 扫描电子显微镜形貌表征
        5.2.13 X射线衍射表征
        5.2.14 透射电子显微镜形貌表征
        5.2.15 傅里叶红外吸收光谱表征
        5.2.16 比表面积及孔径分布表征
        5.2.17 激光扫描共聚焦显微镜分析
    5.3 结果与讨论
        5.3.1 HP-DUT-5的制备
        5.3.2 HP-DUT-5固定化酶
        5.3.3 HP-DUT-5固定化酶检测葡萄糖及尿酸浓度
    5.4 小结
第6章 仿生多级介孔MOFs用于固定化酶构建天然酶-仿酶协同催化体系
    6.1 引言
    6.2 材料与方法
        6.2.1 实验材料与试剂
        6.2.2 实验仪器
        6.2.3 四羧基苯基铁卟啉配体的合成
        6.2.4 PCN-224(Fe)和HP-PCN-224(Fe)的制备
        6.2.5 HP-PCN-224(Fe)固定化酶
        6.2.6 HP-PCN-224(Fe)固定化酶活性的测定
        6.2.7 HP-PCN-224(Fe)固定化酶的最适p H
        6.2.8 HP-PCN-224(Fe)固定化酶的热稳定性
        6.2.9 HP-PCN-224(Fe)固定化酶的重复利用性
        6.2.10 比色法检测葡萄糖及尿酸浓度
        6.2.11 扫描电子显微镜形貌表征
        6.2.12 X射线衍射表征
        6.2.13 傅里叶红外吸收光谱表征
        6.2.14 比表面积及孔径分布表征
        6.2.15 激光扫描共聚焦显微镜分析
    6.3 结果与讨论
        6.3.1 PCN-224(Fe)和HP-PCN-224(Fe)的制备
        6.3.2 HP-PCN-224(Fe)固定化酶
        6.3.3 人工多酶系统协同催化用于葡萄糖及尿酸检测
    6.4 小结
第7章 金属卟啉仿生MOFs材料复合g-C_3N_4光催化选择性氧化5-羟甲基糠醛
    7.1 引言
    7.2 材料与方法
        7.2.1 实验材料与试剂
        7.2.2 实验仪器
        7.2.3 g-C_3N_4的制备与剥离
        7.2.4 四羧基苯基钴卟啉配体的合成
        7.2.5 MOFs材料UNs及UNs-Co的制备
        7.2.6 MOFs材料PCN-222及PCN-222-Co的制备
        7.2.7 MOFs材料PCN-224及PCN-224-Co的制备
        7.2.8 g-C_3N_4/MOFs复合催化剂的制备
        7.2.9 光催化氧化5-羟甲基糠醛反应
        7.2.10 反应产物高效液相色谱(HPLC)检测
        7.2.11 扫描电子显微镜形貌表征
        7.2.12 透射电子显微镜形貌表征
        7.2.13 X射线衍射表征
    7.3 结果与讨论
        7.3.1 g-C_3N_4的制备
        7.3.2 卟啉配体MOFs材料的合成
        7.3.3 复合催化剂光催化氧化5-羟甲基糠醛
    7.4 小结
第8章 结论与展望
    8.1 结论
    8.2 主要创新点
    8.3 展望
参考文献
发表论文和参加科研情况说明
致谢

(8)大规模图数据库的相似性搜索算法研究(论文提纲范文)

摘要
ABSTRACT
符号对照表
缩略语对照表
第一章 绪论
    1.1 研究背景及意义
    1.2 研究问题与现状
        1.2.1 研究问题
        1.2.2 研究现状
    1.3 本文的主要工作
    1.4 本文的章节安排
第二章 支持图相似性搜索的外存索引结构
    2.1 引言
    2.2 整体框架
        2.2.1 框架
        2.2.2 预处理
    2.3 矩阵索引
        2.3.1 计数过滤器
        2.3.2 索引结构
    2.4 查询处理
        2.4.1 列优先布局
        2.4.2 混合布局
        2.4.3 查询算法
    2.5 实验结果与分析
        2.5.1 实验数据与设定
        2.5.2 预处理评价
        2.5.3 混合布局评价
        2.5.4 与内存方法对比
        2.5.5 与外存方法对比
    2.6 本章小结
第三章 支持图相似性搜索的简明索引结构
    3.1 引言
    3.2 过滤原理
        3.2.1 计数下界
        3.2.2 度序列下界
        3.2.3 提升技术
    3.3 简明索引结构
        3.3.1 树结构
        3.3.2 简明表示
        3.3.3 随机访问
        3.3.4 查询算法
    3.4 开销分析
        3.4.1 存储开销估计
        3.4.2 查询开销估计
    3.5 实验结果与评价
        3.5.1 实验数据与设定
        3.5.2 简明表示评价
        3.5.3 过滤器评价
        3.5.4 与主流方法对比
        3.5.5 扩展性评价
    3.6 本章小结
第四章 一种高效的图编辑距离计算方法
    4.1 引言
    4.2 基础知识
        4.2.1 图映射
        4.2.2 基于顶点映射的图编辑距离计算方法
    4.3 创建缩小的搜索空间
        4.3.1 识别无效映射
        4.3.2 识别冗余映射
        4.3.3 生成后继结点
        4.3.4 搜索空间分析
    4.4 波束堆栈搜索
        4.4.1 数据结构
        4.4.2 搜索算法
    4.5 搜索空间剪枝
        4.5.1 启发式函数
        4.5.2 顶点排序
    4.6 实验结果与分析
        4.6.1 数据集与设定
        4.6.2 与已有的方法对比
        4.6.3 评价优化技术
    4.7 扩展支持图相似性搜索
        4.7.1 扩展方法
        4.7.2 在图相似性搜索上的表现
    4.8 本章小结
第五章 一种近似图编辑距离计算的任何时间算法
    5.1 引言
    5.2 符号定义
    5.3 基于邻居偏差的贪心匹配方法
        5.3.1 代价矩阵
        5.3.2 算法过程
    5.4 通过树搜索算法求精
        5.4.1 任何时间算法
        5.4.2 启发式代价估计
    5.5 实验结果与分析
        5.5.1 数据集与设定
        5.5.2 评价指标
        5.5.3 实验结果
    5.6 本章小结
第六章 结论与展望
    6.1 结论
    6.2 展望
参考文献
致谢
作者简介

(9)海量数据的相似重复记录检测算法(论文提纲范文)

0 引言
1 相关定义
2 算法设计
    2.1 综合加权方法研究与设计
    2.2 多线程并发应用
    2.3 加速法
    2.4 优先队列
    2.5 算法流程
3 实验分析
    3.1 实验设计
    3.2 结果分析
        3.2.1 查准率对比
        3.2.2 查全率、运行时间对比
4 结语

(10)一种识别相似重复记录的模糊匹配方法(论文提纲范文)

0 引 言
1 数据分组
    1.1 分组的基本思想
    1.2 分组实现过程
        1.2.1 相关定义
        1.2.2 实现算法描述
2 组内相似重复记录的识别
    2.1 布尔模型识别方法定义
    2.2 布尔方法识别记录的过程及特点
3 实验验证
4 结 论

四、一种高效的检测相似重复记录的方法(论文参考文献)

  • [1]复杂场景下基于深度特征匹配的目标跟踪算法研究[D]. 李荅群. 中国科学院大学(中国科学院长春光学精密机械与物理研究所), 2021(08)
  • [2]新型网络环境下数据安全的核心技术研究[D]. 徐国文. 电子科技大学, 2020(03)
  • [3]面向下一代移动通信系统的高效极化码解码算法设计与实现[D]. 周华羿. 东南大学, 2020(02)
  • [4]计算机科技论文摘要的机翻错误类型及译后编辑[D]. 付茜雯. 大连理工大学, 2020(06)
  • [5]基于多种层次聚类的算法研究[D]. 闫玮. 西安电子科技大学, 2019(02)
  • [6]高效时间序列聚类算法的研究[D]. 郑炜超. 西安电子科技大学, 2019(02)
  • [7]仿生金属有机骨架材料在仿酶及固定化酶催化中的应用[D]. 刘晓. 天津大学, 2019(06)
  • [8]大规模图数据库的相似性搜索算法研究[D]. 陈晓阳. 西安电子科技大学, 2019(02)
  • [9]海量数据的相似重复记录检测算法[J]. 周典瑞,周莲英. 计算机应用, 2013(08)
  • [10]一种识别相似重复记录的模糊匹配方法[J]. 肖满生,江力,刘有势. 计算机应用与软件, 2009(11)

标签:;  ;  ;  ;  ;  

一种检测相似重复记录的有效方法
下载Doc文档

猜你喜欢