一、利用PartitionMagic修复硬盘故障实例(论文文献综述)
张航,唐聃,蔡红亮[1](2021)在《分布式存储系统中的预测式纠删码研究》文中提出纠删码消耗的存储空间较少,获得的数据可靠性较高,因此被分布式存储系统广泛采用。但纠删码在修复数据时较高的修复成本限制了其应用。为了降低纠删码的修复成本,研究人员在分组码和再生码上进行了大量的研究。由于分组码和再生码属于被动容错方式,对于一些容易出现失效的节点,采用主动容错的方式能更好地降低修复成本,维护系统的可靠性,因此,提出了一种主动容错的预测式纠删(Proactive basic-Pyramid, PPyramid)码。PPyramid码利用硬盘故障预测方法来调整basic-Pyramid码中冗余块和数据块之间的关联,将预测出的即将出现故障的硬盘划分到同一小组,使得在修复数据时,所有的读取操作在小组内进行,从而减少读取数据块的个数,节省修复成本。在基于Ceph搭建的分布式存储系统中,在修复多个硬盘故障时,将PPyramid码与其他常用的纠删码进行对比。实验结果表明,相比basic-Pyramid码,PPyramid码能降低6.3%~34.9%的修复成本和减少7.6%~63.6%的修复时间,相比LRC码、pLRC码、SHEC码、DLRC码,能降低8.6%~52%的修复成本和减少10.8%~52.4%的修复时间。同时,PPyramid码构造灵活,具有很强的实际应用价值。
张晓阳[2](2020)在《基于纠删码的云存储系统扩展与修复性能的研究》文中指出随着云存储规模的不断增大,云存储系统面临数据丢失的风险也不断提升,因此云存储系统中数据可靠性问题是当前学术界和工业界关注的一大热点。为了解决该问题,云存储系统通常使用具有低存储成本的纠删码技术。区别于一般存储系统,云存储系统需要满足海量用户复杂多变的存储需求,以及提供7 × 24高可用的存储服务,而这给云存储系统中纠删码技术带来两大关键性科学问题,分别是纠删码的存储扩展性能较低与频繁变化的存储扩展需求之间的矛盾,以及纠删码的数据修复性能较低与云存储服务高可用性之间的矛盾。因此,针对基于纠删码的云存储系统,围绕存储扩展和数据修复的性能开展了如下四方面的研究:基于纠删码的存储扩展一般会改变编码参数而产生大量的校验块更新,从而造成巨大的带宽开销,进而影响到云存储系统提供服务的能力。针对这一问题,对广泛使用的Reed Solomon(RS)码存储扩展问题进行了深入研究。在理论上,通过信息流图模型证明基于RS码的存储扩展所消耗带宽(记为“扩展传输量”)的理论下界,并提出一种可达到下界的最优扩展传输量的理论编码构造;在系统上,根据理论结果,设计了基于网络编码的快速存储扩展算法,可达到最优或接近最优的扩展传输量。实现一个基于网络编码的快速扩展算法的分布式存储原型系统NCScale。经Amazon云平台EC2上的实验证明,NCScale的扩展时间相对于当前的最优方案Scale-RS最多可减少50%。由于云存储系统高可用的存储需求,一种可大幅减少修复操作带来的带宽消耗进而提升系统可用性的新型编码技术——再生码受到广泛关注。当前对于再生码的研究主要集中在数据修复问题上,而缺乏对云存储系统极为重要的存储扩展问题的研究。针对这一问题,对再生码的存储扩展问题进行了深入研究。对两类再生码MBR码以及MSR码的扩展问题,分别提出相应的编码扩展方案。这些方案利用MBR码及MSR码的编码结构以及局部更新技术来对扩展过程进行优化,从而大幅减少了扩展过程中的网络开销。在Hadoop分布式文件系统(HDFS)中实现这两种扩展方案,并在Amazon云平台EC2上进行实验。结果表明,相对于当前集中式的扩展方案,扩展传输量分别降低了 66.5%和43.5%。现有的主流基于纠删码的数据修复方案均设计为在静态的网络情况下来进行快速的数据修复,而难以应对云存储中异构且快速动态变化的网络。针对这一问题,对云存储网络带宽异构且快速动态变化情况下的基于纠删码的数据修复问题进行了深入研究,提出一种灵活的基于树的流水线修复方案FTPRepair。FTPRepair利用树状结构来避免拥堵的修复链路,从而在异构的网络中进行快速的修复;且FTPRepair进一步利用软件定义网络技术实现分片级的修复来灵活应对快速动态变化的网络。FTPRepair实现在模拟器Mininet以及真实系统ECPipe中,并在Amazon 云平台EC2上进行实验。模拟和实验结果表明,相对于传统修复以及当前最优修复方案Repair-Pipelining,FTPRepair可以明显提升降级读和节点修复的性能。云存储系统通常使用大规模的磁盘来存储海量的数据,这大幅增加了系统中出现磁盘故障的频率,且这些磁盘故障分布不均匀,从而影响到云存储的高可用性。针对这一问题,将磁盘故障预测的结果与微软Azure云存储中所使用的LRC(locally repairable codes)码相结合进行了深入研究,提出一类预测式的LRC(即Proactive LRC,记为pLRC)。pLRC利用基于决策树的磁盘故障预测方法来动态调整LRC码各个分组的大小,从而使得即将发生故障的数据块在更小的组内进行更快的修复。通过MTTDL建模分析pLRC的可靠性,结果表明,pLRC的可靠性相对LRC码最多可提升113%。在Hadoop分布式文件系统(HDFS)中实现pLRC,并在Amazon云平台EC2上进行实验。结果表明,pLRC的降级读和磁盘修复性能相对LRC码最多可提高46.8%和47.5%。
张霁[3](2020)在《大型数据中心异构磁盘的故障预测方法与应用研究》文中认为磁盘是数据存储最常用的设备之一,磁盘故障预测是保障数据可靠性的重要技术手段。磁盘故障预测方法一般可以分为两大类:设备级故障(即整盘故障)预测和扇区级故障(即局部磁盘故障)预测。学术界采用一些传统机器学习方法,例如支持向量机、逻辑斯特回归、决策树和随机森林等,预测磁盘故障并取得了一些成果。但是,这些研究仍然存在以下三个方面不足:(1)面对实际数据中心中单一型号数量较少(小样本)磁盘的故障预测问题,预测模型容易过拟合,从而导致预测结果较差;(2)已有方法不是通用的建模方法,受到样本数据集大小、正负样本比例、模型适用性和适应性等方面的制约,导致预测效果不理想;(3)目前扇区级预测仅停留在二分类模型的研究,在利用预测结果优化磁盘巡检策略时会带来较大巡检代价,实用性不高。针对上述不足,从大型数据中心的实际需求出发,研究异构磁盘的故障预测方法与应用,以解决上述问题。针对小样本磁盘预测结果较差的问题,提出了一种基于迁移学习的小样本磁盘故障预测方法TLDFP。在大型数据中心的异构磁盘系统中,将那些同一型号数量较少的磁盘称为小样本磁盘。由于这些小样本磁盘训练样本数据相对不足,使用这些小样本磁盘的数据集直接利用传统机器学习算法进行建模会增加模型过度拟合或泛化能力下降的风险,从而导致较差的预测性能。TLDFP采用KL散度(Kullback-Leibler Divergence,KLD)值来衡量数据集之间的分布差异,并选择KLD值最小的大样本磁盘型号的数据集,然后采用迁移学习方法Tr Ada Boost对该大样本磁盘数据集建立预测模型,通过在训练过程中对训练样本的权值进行适当地调整,减小大样本磁盘型号数据集和小样本磁盘型号数据集之间分布差异,从而达到对小样本磁盘进行故障预测的目的。在两个实际数据中心的数据集上进行相关实验,方法TLDFP的平均故障检测率(Failure Detection Rate,FDR,即正确预测为故障盘的比例)达到96%,而误报率(Failure Alarm Rate,FAR,即错误地把健康磁盘预测为故障磁盘的比例)仅有0.5%。而且,首次在不同类型的磁盘(HDD,SSD)中验证了TLDFP在小样本磁盘故障预测的有效性。针对目前在大型数据中心对异构磁盘的故障预测模型不通用的问题,提出了一种基于高维磁盘状态嵌入的通用磁盘故障预测系统HDDse。在大型数据中心中,除了小样本磁盘故障预测问题以外,目前一些研究提出的磁盘故障预测模型对于数据中心的异构磁盘来说并不是一种通用的预测模型。具体来说,没有一个通用的预测模型可以同时解决现有方法的不足,HDDse结合了基于距离的异常检测方法和基于神经网络预测方法的优点,创新性地提出了一种基于长短期记忆神经网络(Long Short-Term Memory,LSTM)的孪生神经网络方法。其中LSTM的结构用于学习磁盘健康状态的长期动态变化行为,而孪生神经网络结构可以将低维磁盘信息映射到高维空间进行特征学习,并生成统一且高效的高维磁盘状态嵌入,用于异构磁盘的故障预测。该方法不仅可以提供更好的预测能力,还可以对未在训练数据集中出现的磁盘型号的样本进行有效地预测,同时在数据集分布极度不均衡或小样本数据集的情况下也表现良好。在两个实际数据中心的数据集上进行的实验证明HDDse预测系统优于目前最新的研究方法,极大地提升了存储系统的可靠性。针对目前扇区级故障预测存在的问题,提出了一种基于分层的智能磁盘巡检系统TS。设备级的磁盘故障预测结果往往不能完全满足目前数据中心的实际需求。其原因有二,首先,一些扇区级的故障,例如潜在扇区错误并不会导致设备级的磁盘故障,但是这些扇区错误的发生会导致I/O读写错误从而影响数据可靠性。其次,目前设备级的磁盘故障预测模型的误报率仍在1%左右,在大规模数据中心中造成了巨大的额外磁盘替换开销。因此,一些研究人员开始研究利用人工智能技术预测磁盘潜在扇区错误(Latent Sector Error,LSE),并利用扇区错误的预测结果优化磁盘巡检策略。但是,现有方法具有一些局限性,例如仅利用训练数据的单个独立的快照数据来进行建模,忽略了随着时间推移的磁盘不同状态之间的顺序依赖性。其次,这些预测模型是二分类模型,在指导优化巡检策略时,会增加一些不必要的巡检代价。而且,针对二分类的预测结果,这些方法直接加速了具有潜在扇区错误的整个磁盘的巡检速率,而忽略了那些存在高风险的磁盘局部区域。针对上述问题,提出了一种智能磁盘巡检方案TS。其包含一种基于LSTM的自适应巡检速率控制器,不仅可以预测LSE磁盘,还可以预测磁盘发生LSE的风险等级。通过该预测结果可以以自适应的速率来加速磁盘巡检。同时,基于扇区错误局部性设计了一个可在磁盘中定位高风险区域的模块来进一步提高巡检效率,并提出一种可以利用业务I/O访问特点的捎带模式的巡检策略来提高存储系统的可靠性。通过实验证明,系统TS与目前最新的巡检方案相比,在减少了约80%的存储系统平均检测时间(Mean Time To Detection,MTTD)的同时也降低了约20%的磁盘巡检开销。
张晓阳,许佳豪,胡燏翀[4](2019)在《云存储系统中的预测式局部修复码》文中进行了进一步梳理为了保证客户访问数据的高可用性,一些云存储系统开始采用一类新型编码,即局部修复编码(locally repairable codes, LRC).例如Windows Azure和Facebook的HDFS RAID.与Reed-Solomon码相比,LRC修复效率高,因为它将每个条带的数据块分成多个组,每个组内额外生成一个校验块,因而组内就可以对单个故障块进行修复.LRC假设每组大小相同,这意味着每个故障块的修复所产生的组内数据传输量是相同的.但是,对于那些更易出现故障的磁盘,它们所造成丢失的数据块理应被系统更有效地修复.借助基于决策树的磁盘故障预测方法来动态调整LRC中组的大小,从而构造一类预测式LRC(proactive LRC, pLRC),使得即将发生故障的磁盘存储的数据块所在的组的长度变小,以便这些数据块可以在更小的组内进行更快地修复,同时保持和传统LRC相同的存储开销和编码结构.不仅通过MTTDL建模分析pLRC的可靠性,还在Facebook的Hadoop HDFS平台中实现了pLRC并进行了性能测试.结果表明,比起LRC,pLRC的可靠性最多可提升113%,同时降级读和磁盘修复性能最多可提高46.8%和47.5%.
徐尔茨[5](2019)在《固态硬盘存储系统关键技术研究》文中指出据统计,近年来60%大数据相关投资在了存储系统等基础架构上。而基于闪存的固态硬盘(Solid State Disk,SSD)以其高性能、低功耗、高可靠等特点被企业级的数据中心以及个人存储所广泛使用。但是,与传统硬盘相比,固态硬盘存储系统呈现出更复杂的故障机理与独特的故障外在表现形式。虽然已经目前已有不少关于固态硬盘存储系统的研究工作,但是与广大用户的期望值的相比,当前固态硬盘存储系统在性能与可靠性上尚有较大差距,仍有大量的工程与技术问题亟待探索和解决。涉及固态硬盘存储系统的技术挑战前所未有,而解决问题的途径与方法同样亦非唾手可得。首先,固态硬盘存储系统的可靠性需要重新进行评估。闪存这一存储介质将引入不少新型且独特的存储错误。同时不仅是其本身设备固件层面,上层软件栈亦需要作出的相应适配,传统HDD磁盘的容错模型与技术方法无法直接应用于固态硬盘存储系统。特别是,随着固态硬盘存储系统日益大型化,可靠性挑战难度将进一步升高;其次,随着大数据技术的发展以及深度学习等大规模分布式应用的兴起,如何进一步提高固态硬盘存储系统的性能也迅速成为当前的热点问题。虽然,固态硬盘相比于传统的磁盘,随机读写性能更高。但迄今为止仍然没有寻找出最佳的适配,因此离最佳性能尚有不小差距。本文针对固态硬盘存储系统可靠性以及高性能两方面的关键技术开展了深入的研究,主要完成了以下四方面的工作:1.通过设计自动化测试和监控框架来监测和分析固态硬盘从初始状态直到寿命耗尽的全过程,采集了固态硬盘寿命全周期中的大量数据。基于数据梳理了当前单节点下固态硬盘故障预测准确性不高的主要原因,并指出现有循环式测量工具并不能准确体现固态硬盘的实际耐用性。同时基于固态硬盘整个生命周期的监测,发现了若干新的错误模式。根据以上工作,设计出基于模式的固态硬盘寿命预测系统-iLife,根据在实际固态硬盘使用数据统计,iLife可快速、准确地测量固态硬盘全生命周期中存在的问题,且优于现有基于擦写磨损(即P/E周期)的固态硬盘寿命预测体系。2.多节点固态硬盘存储系统比单节点固态硬盘存储系统复杂性更高,并具有更多的不确定性,我们以阿里云的七个数据中心作为目标研究多节点云存储系统,共涉及45万块硬盘与三年的历史数据,总计超过10万个各类故障。我们把待解决的研究梳理成以下三个问题。问题之一:在固态硬盘存储系统中,有多少故障是与固态硬盘相关?其表征都是什么?本文的结论是:有7.8%的故障是由固态硬盘造成,分别是节点启动失败、文件系统不可用、磁盘丢失、缓存错误和媒介错误;问题之二:所有的与固态硬盘存储系统相关的故障中,若不是固态硬盘本身造成的,那么还有哪些别的原因?本文的结论是:大约34.4%的固态硬盘相关错误与固态硬盘本身无关。不稳定的连接也会导致固态硬盘出现故障。关于设备层错误与不稳定连接之间的关系,可利用UCRC错误作为判断的标准。问题之三:针对确由固态硬盘造成的故障,除了硬件方面的错误,系统的其他部分有没有间接地影响故障的产生?本文的结论是:固态硬盘故障与错误受到云服务的影响,块存储服务可导致严重的固态硬盘不均衡问题。当前固态硬盘节点内和节点间摆放并非最优的方式,导致出现三类散热异常,最后可导致高达58%的读错误。需要不同的纠错方法与主动遍历方法来减少被动硬盘产热所导致的错误。3.众所周知,基于内存的分布式大数据平台(如,Apache Spark)是当前主流的大数据处理框架。在Spark中,RDD仅支持粗粒度的缓存,同时对缓存数据类型也有严格的限制。这些限制导致了内存利用率低下,同时大量数据被写到高延迟的后端存储中使Spark不能很好地满足不同工作负载的需求。并且,程序运行期间需要依赖程序员手动去做出缓存位置与时机的决策,也因此无法适应程序的实时动态变化。我们设计并实现了一个缓存系统-Neutrino。在Neutrino系统中,用户可以针对不同工作流,实现全自动细粒度缓存分配策略。实现过程中,首先获取程序运行的数据流;然后,通过动态规划策略从数据流中获得最佳的缓存策略;最后,通过将RDD进行细粒度划分并根据得到的策略进行相应的部署。我们在Spark中实现了一个原型系统。经过测试Neutrino系统在各种实验环境以及四种不同的工作流,均有优于传统Spark缓存系统的性能表现。4.分布式深度学习是当前大型数据存储与处理系统中的热点应用。不过,在大型数据集群中部署深度学习的应用却很困难。首先,为了得到性能最优的配置,往往需要大量且繁琐的手动配置。同时,由于深度学习关于配置的特殊性,单纯类似工具并不能直接解决问题。针对性能瓶颈、多样化资源需求与分配问题的抽象,我们设计并实现了一个分布式深度学习基础上的资源自动分配原型系统-Dike。首先,通过捕获深度学习任务的动态信息、模型细节以及集群配置等参数,并将资源配置问题归纳为一个背包问题。本文设计出合理的价值判断函数来决定最终的配置与节点部署方案。实验结果表明,Dike能达到理想峰值95%左右的效果且几乎不需要程序员手动干预。
谢伟睿[6](2019)在《大规模磁盘故障预测方法研究》文中进行了进一步梳理大规模存储系统中磁盘故障预测至关重要,一旦磁盘损坏信息丢失,将会给企业带来无法挽回的损失。基于磁盘运行数据,使用机器学习方法进行磁盘故障预测,目前已可得到较好的预测效果。但由于S.M.A.R.T属性对故障表征能力的局限性,仅含单个时间点的信息导致预测效果不佳。在磁盘故障预测问题中,目前预测的召回率和误报率无法达到工业级应用水平。文章将时序信息引入磁盘预测模型,提出时序随机森林的磁盘故障预测方法,包括数据时序特征处理和时序模型的优化。时序特征处理部分,提出数据时序分配策略,将时序数据按照时间动态分配到训练集、验证集与测试集;提出时序特征处理算法,将S.M.A.R.T属性的变化值拓展到模型特征中。预测模型优化部分,提出随机森林决策树时序权重投票算法,基于样本数据的时序特征,对随机森林中的不同决策树初始化不同权重,使用均值和方差进行时序数据的拟合;提出负反馈更新模型,在随机森林中引入后验决策树;基于历史预测数据加入负反馈信息,提出决策树权重更新算法。基于上述研究,设计并开发了数据中心的磁盘故障预测原型系统,包括磁盘数据采集子系统、磁盘故障预测子系统、磁盘巡检子系统与中心监控子系统,现已部署在大规模数据中心。通过测试与分析,结果表明文章提出的时序预测模型优于传统机器学习模型。相比于传统模型,使用时序数据模型后,在同样的误报率下召回率提高11.13%;使用优化的时序模型后,在同样的召回率下误报率降低52.0%;两者一起使用时召回率与误报率皆有稳定提升。将预测结果应用于磁盘巡检后,加速巡检时间占比为5.0%时,平均故障探测时间降低了152.6%;磁盘的磁盘巡检负载增加4.8%时,平均故障探测时间降低了217.3%,可大幅度减少磁盘巡检开销,降低平均故障探测时间。
许瀚[7](2019)在《云计算环境下多维关联模型的研究》文中研究表明云计算凭借其强大的资源集成和计算能力得到了广泛的应用。在当前形势下,云计算环境的关键技术研究,包括服务质量(QoS)保障、安全可靠研究、系统优化管理等,对我国信息技术的发展和进一步推广应用具有重要的意义。如何有效评估云系统的服务性能、安全性、可靠性,如何建立重要系统参数之间的关联关系为优化系统资源调度提供依据,以及如何合理运用相关的关键理论和技术以优化云资源管理并提升云系统性能是推动云计算持续健康发展需要研究的问题。目前,数据存储、地图导航、科学计算等云服务已较为普及,在带来便利的同时,大量公司数据、应用服务、用户隐私等上传到云上也带来了严峻的安全问题。现有研究对于如何评估云系统安全性,如何评估安全因素对服务质量产生的影响,如何合理的配置资源以抵御安全因素带来的影响从而确保服务质量等问题的研究还相对不足,需要进一步深入。其次,移动云计算这一新兴云计算技术,在移动设备和移动应用请求爆发式增长的当下,得到了长足发展。但其应用环境多样性以及系统结构的复杂性,也带来了诸如服务性能下降、不稳定等服务质量问题,以及组件故障、网络延迟等可靠性问题。现在,基于移动云计算环境的性能、可靠性评估方面的研究还相对缺乏。因此,为确保提供稳定可靠高性能的服务,需要针对移动云计算环境的特点进行建模,以准确的评估服务质量并建立其与可靠性因素之间的关系,最终为优化资源调度和系统参数配置提供依据。此外,在可靠性研究领域,云环境的复杂性以及云实验平台的缺乏使得故障数据的获取以及评估方法在真实环境中的验证变得越来越困难且成本高昂。这一情况凸显了建立云环境下可靠性仿真实验平台的必要性和紧迫性。最后,为支持云环境下QoS保障、安全可靠等研究的开展、验证和应用,系统资源信息与运行状况数据的获取是必不可少的。但是,现有的云资源监控系统,存在因主控节点功能太过集中而导致某些时刻网络流量过大,系统扩展性差,和无法及时应对节点失效等问题。另外,云系统存在的海量资源,以及资源本身具有的多样性、复杂性,这也增加了系统资源统一管理的难度。因此,需要在云监控系统、云资源统一标识、新资源的动态加入管理等方面进行进一步的研究。本论文围绕以上问题进行了深入研究,论文的主要研究工作及创新性成果包括:1)针对云环境缺乏安全性评估这一问题,提出了一种关联分析建模方法,建立了云环境下的安全性-性能(Security-Performance,S-P)关联模型。首先,针对云系统中最重要的组成部分,虚拟机,建立了评估其安全性的模型,该模型充分反映了安全机制和恶意攻击两个安全因素对虚拟机的影响,随后基于虚拟机与云系统之间的关系,提出了评估云系统安全性的指标。其次,提出了一种分层建模方法来建立S-P关联模型。排队论被用于云计算系统的性能建模,然后基于贝叶斯理论和相关性分析建立了安全性和性能之间的关联关系,并提出了评估复杂S-P相关性的新指标。实验结果证明了理论模型的正确性,并揭示了安全因素引起的性能动态变化规律。2)针对新兴移动云计算系统缺乏合适的性能与可靠性评估方法的问题,提出了一种基于移动云计算系统(Mobilet Cloud System,MCS)的性能-可靠性(Performance-Reliability,P-R)关联分析建模方法,并进一步在CloudSim平台上进行了可靠性因素的仿真设计实现,搭建了云环境下可靠性仿真平台。首先,通过对MCS系统结构的分析和理解,提出了基于多队列模型的MCS服务性能建模评估方法。其次,选取了MCS中典型的故障因素,并对其进行了可靠性建模。随后,基于贝叶斯理论和相关性分析建立了可靠性与性能之间的关联关系,并提出了评估复杂P-R相关性的新指标。实验结果证明了所提出的P-R相关建模方法的正确性,并揭示了可靠性因素作用下不同系统参数对MCS服务性能的影响。最后,基于可靠性建模理论,在CloudSim平台中设计实现了可靠性仿真模块,为进一步研究云环境中的可靠性因素提供了一个通用的仿真平台。3)针对云环境中监控系统的性能提升,以及资源管理的优化问题,提出了一种基于仿生自主神经系统(Bionic Autonomic Nervous System,BANS)、Ontology、多值决策图的新型云资源监控系统。首先,仿生概念被用于新型云资源监控系统的设计。设计中引入了多级存储、分批上报、主动发现以及定期轮询等策略和机制,降低了系统网络通讯流量,并使系统获得了自组织自修复的能力。其次,运用Ontology技术对系统各个资源进行描述,并引入多值决策图技术(Multivariate Decision Diagram,MDD)。Ontology与MDD的结合应用,赋予了系统资源快速语义查询的特性以及复杂系统故障自检测自诊断的能力,极大的简化了大规模系统的监控和管理工作,实现了系统的智能诊断功能。
屠要峰,吉锋,文韬[8](2017)在《机器学习在大视频运维中的应用》文中认为通过对中兴通讯大视频运维系统整体架构和关键模块的介绍,以及机器学习技术在大视频运维系统中端到端异常检测、根因分析与故障预测等场景的具体应用的分析,并结合硬盘故障预测的实例,认为随着人工智能在运维领域的应用发展,从基于规则的自动化运维转向基于机器学习的智能运维必然成为趋势。中兴通讯适时采用了机器学习方法来提取历史巡检数据中蕴含的故障特征,并构建集成预测模型来提升大视频运维的精度和效率,目前取得了较好的效果。
James Eshelman[9](2004)在《破解Windows的蓝色生死符——Windows 2000/XP蓝屏全攻略》文中指出我们在去年第22期《电脑爱好者》的《解读蓝色生死恋——Windows 2000/XP蓝屏深入探秘》一文中对蓝屏的产生原理进行了分析,并用实例讲解了一些蓝屏的解决方法,此后不少读者来信要求我们给出一个更为全面的蓝屏解决方案,于是我们在前几个月联系到了一位对Windows颇为熟悉的美国资深作者——James Eshelman,他经过长时间的资料搜集与整理,并结合自己10多年的系统维护经验,为中国的电脑爱好者们详细讲解和分析了将近70个经典的蓝屏故障的发生原因和解决方法。
韦幸[10](2004)在《利用PartitionMagic修复硬盘故障实例》文中研究指明 在工作中曾经出现这样一种情况:一台办公电脑突然死机了,重新开机后系统提示“Disk bootfailure,Insert system disk and press enter”。 插入win98启动盘从软盘启动,然后试图进入C、D、E、F等盘符时,均出现“Invalid drive specification”的错误信息,初步断定故障在于硬盘。
二、利用PartitionMagic修复硬盘故障实例(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、利用PartitionMagic修复硬盘故障实例(论文提纲范文)
(1)分布式存储系统中的预测式纠删码研究(论文提纲范文)
1 引言 |
2 相关概述与问题定义 |
2.1 纠删码的相关概述 |
2.2 硬盘故障预测技术的相关概念 |
2.3 问题定义 |
3 PPyramid的设计 |
3.1 basic-Pyramid码 |
3.2 硬盘故障预测模型算法选择 |
3.3 PPyramid算法的设计 |
4 理论量化分析 |
4.1 可靠性分析 |
4.2 修复能力 |
5 实验结果与分析 |
5.1 实验环境 |
5.2 具体实现 |
5.3 实验对比指标和方法 |
5.4 PPyramid码与basic-Pyramid码横向对比 |
5.4.1 平均编码时间 |
5.4.2 平均修复成本对比 |
5.4.3 平均修复时间对比 |
5.5 PPyramid码与pLRC码的横向对比 |
5.5.1 平均修复成本对比 |
5.5.2 平均修复时间 |
5.6 PPyramid码与LRC码、SHEC码、DLRC码的横向对比 |
5.6.1 平均修复成本对比 |
5.6.2 平均修复时间对比 |
5.7 平均更新成本 |
(2)基于纠删码的云存储系统扩展与修复性能的研究(论文提纲范文)
摘要 |
Abstract |
1 绪论 |
1.1 概述 |
1.2 研究现状 |
1.3 论文主要研究内容和组织结构 |
2 基于网络编码的RS码高效存储扩展技术 |
2.1 引言 |
2.2 研究背景与动机 |
2.3 基于网络编码最优扩展的理论研究 |
2.4 NCScale系统设计 |
2.5 系统实现和实验测试 |
2.6 本章小结 |
3 基于局部更新的再生码高效存储扩展技术 |
3.1 引言 |
3.2 研究背景与动机 |
3.3 EMBRScale算法设计 |
3.4 ButterflyScale算法设计 |
3.5 系统实现和实验测试 |
3.6 本章小结 |
4 基于SDN的树状流水线编码修复方案 |
4.1 引言 |
4.2 研究背景与动机 |
4.3 FTPRepair算法设计 |
4.4 系统实现和实验测试 |
4.5 本章小结 |
5 基于磁盘故障预测的预测式局部修复码方案 |
5.1 引言 |
5.2 研究背景与动机 |
5.3 pLRC算法设计 |
5.4 系统实现和实验测试 |
5.5 本章小结 |
6 全文总结与展望 |
6.1 主要成果贡献 |
6.2 未来研究展望 |
致谢 |
参考文献 |
附录1 攻读学位期间发表论文目录 |
附录2 攻读博士学位期间申请的发明专利和其他成果 |
附录3 攻读博士学位期间参与的科研项目 |
(3)大型数据中心异构磁盘的故障预测方法与应用研究(论文提纲范文)
摘要 |
Abstract |
1 绪论 |
1.1 课题研究背景与意义 |
1.2 磁盘故障预测技术的国内外研究现状 |
1.3 论文的研究内容 |
1.4 论文的组织结构 |
2 基于迁移学习的小样本磁盘故障预测方法TLDFP |
2.1 小样本磁盘故障预测方法的研究背景及动机 |
2.2 基于迁移学习的小样本磁盘故障预测算法的设计 |
2.3 实验评估 |
2.4 本章小结 |
3 基于高维磁盘状态嵌入的通用磁盘故障预测方法HDDse |
3.1 通用磁盘故障预测方法的研究背景及动机 |
3.2 基于高维磁盘状态嵌入的通用磁盘故障预测算法设计 |
3.3 实验评估 |
3.4 本章小结 |
4 基于分层的智能磁盘巡检系统TS |
4.1 智能磁盘巡检技术的研究背景及目标 |
4.2 基于分层的智能磁盘巡检系统的设计方案 |
4.3 实验评估 |
4.4 本章小结 |
5 全文总结与展望 |
5.1 主要成果 |
5.2 研究展望 |
致谢 |
参考文献 |
附录1 攻读博士学位期间发表的学术论文目录 |
附录2 攻读博士学位期间申请的发明专利和着作权 |
附录3 攻读博士学位期间参与的科研项目 |
(4)云存储系统中的预测式局部修复码(论文提纲范文)
1 研究背景和动机 |
1.1 云存储中编码研究现状 |
1.2 云存储中磁盘故障预测研究现状 |
1.3 本文研究动机 |
2 pLRC的设计 |
2.1 磁盘故障预测算法选择 |
2.2 pLRC编码算法设计 |
2.3 pLRC算法优化 |
3 理论量化分析 |
3.1 可靠性分析 |
3.2 修复带宽分析 |
3.3 pLRC更新开销分析 |
4 实验与结果 |
4.1 实验部署环境 |
4.1.1 HDFS简概 |
4.1.2 pLRC部署 |
4.2 实验配置与方法 |
4.3 实验结果 |
5 总 结 |
(5)固态硬盘存储系统关键技术研究(论文提纲范文)
摘要 |
ABSTRACT |
符号使用说明 |
第一章 绪论 |
1.1 存储系统发展趋势 |
1.1.1 新型存储介质 |
1.1.2 新型存储结构 |
1.1.3 超大存储规模 |
1.2 存储系统面临的技术挑战 |
1.2.1 高可靠性挑战 |
1.2.2 存储系统面临的高性能挑战 |
1.2.3 新型存储系统资源分配策略 |
1.3 本文工作 |
1.4 文章结构 |
第二章 相关研究工作 |
2.1 高可靠性存储系统相关工作 |
2.1.1 设备层相关技术 |
2.1.2 软件层高可靠性相关技术 |
2.1.3 硬件架构层高可靠性相关技术 |
2.1.4 小结 |
2.2 高性能存储系统关键技术 |
2.2.1 缓存策略典型系统:大数据处理系统 |
2.2.2 资源管理策略 |
2.2.3 小结 |
第三章 单节点下固态硬盘高可靠性关键技术 |
3.1 单节点固态硬盘可靠性研究现状 |
3.2 当前固态硬盘寿命预测手段 |
3.2.1 实验方案设计 |
3.2.2 相关发现 |
3.3 大规模测试框架的设计与实现 |
3.3.1 基础工作负载设计 |
3.3.2 工作负载的优化 |
3.3.3 工作负载的终止条件 |
3.3.4 固态硬盘状态的监控 |
3.3.5 测试设备与测试环境 |
3.4 测试结果与分析 |
3.4.1 实验结果一览 |
3.4.2 实验结果延伸分析 |
3.5 iLife的设计与实现 |
3.5.1 iLife的设计 |
3.5.2 iLife有效性评测 |
3.6 相关工作 |
3.7 本章小结 |
第四章 数据中心环境中固态硬盘高可靠性关键技术研究 |
4.1 问题背景 |
4.2 调研方法 |
4.2.1 系统架构 |
4.2.2 数据集 |
4.2.3 研究方法 |
4.2.4 潜在限制 |
4.3 固态硬盘故障综述 |
4.3.1 硬件相关故障 |
4.3.2 固态硬盘故障 |
4.4 固态硬盘无关型故障 |
4.4.1 故障日志综述 |
4.4.2 人为错误 |
4.5 互连错误 |
4.5.1 识别潜在的指示器 |
4.5.2 指示器的优化 |
4.5.3 指示器验证 |
4.5.4 使用指示器的优势 |
4.6 固态硬盘相关型故障 |
4.6.1 云服务的影响 |
4.6.2 固态硬盘放置方法的影响 |
4.7 相关工作 |
4.8 本章小结 |
第五章 固态硬盘存储系统中数据缓存的设计与优化 |
5.1 研究背景 |
5.1.1 引言 |
5.1.2 Spark缓存策略评估 |
5.2 Neutrino系统的设计思想 |
5.2.1 自适应缓存 |
5.2.2 生成数据流图 |
5.2.3 缓存策略的动态规划 |
5.3 实验评估 |
5.4 本章小结 |
第六章 固态硬盘存储系统中资源分配的设计与优化 |
6.1 引言 |
6.2 Dike设计思想与系统结构 |
6.2.1 资源接口 |
6.2.2 生成器 |
6.2.3 调度器 |
6.2.4 可移植性 |
6.3 实验环境、参数设计与性能评估 |
6.3.1 实验环境与评测方法 |
6.3.2 性能评估 |
6.4 相关工作 |
6.5 本章小结 |
第七章 总结与展望 |
7.1 工作总结 |
7.2 研究展望 |
致谢 |
参考文献 |
作者在学期间取得的学术成果 |
(6)大规模磁盘故障预测方法研究(论文提纲范文)
摘要 |
Abstract |
1 绪论 |
1.1 研究背景 |
1.2 国内外研究现状 |
1.3 本文的主要工作 |
1.4 本文组织结构 |
2 相关背景 |
2.1 磁盘S.M.A.R.T技术 |
2.2 决策树算法 |
2.3 特征选择算法 |
2.4 磁盘巡检技术 |
2.5 本章小结 |
3 时序随机森林模型 |
3.1 时序数据处理 |
3.2 时序模型优化 |
3.3 本章小结 |
4 磁盘故障预测原型系统的设计与实现 |
4.1 原型系统概述 |
4.2 磁盘数据采集系统 |
4.3 故障预测系统 |
4.4 磁盘巡检系统 |
4.5 中心监控系统 |
4.6 本章小结 |
5 系统分析测试 |
5.1 实验环境 |
5.2 数据集与特征选择 |
5.3 功能测试 |
5.4 评价指标 |
5.5 性能测试 |
5.6 本章小结 |
6 总结与展望 |
6.1 本文工作总结 |
6.2 未来研究工作展望 |
致谢 |
参考文献 |
附录1 攻读学位期间参与的科研项目 |
附录2 攻读学位期间取得的科研成果 |
(7)云计算环境下多维关联模型的研究(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究工作的背景与意义 |
1.1.1 服务性能备受关注 |
1.1.2 安全问题日益严峻 |
1.1.3 可靠计算不可或缺 |
1.1.4 系统监控与管理面临挑战 |
1.2 国内外研究历史与现状 |
1.3 本文的主要贡献与创新 |
1.4 本论文的结构安排 |
第二章 云环境下的系统安全评估与性能-安全性关联建模 |
2.1 引言 |
2.2 云计算系统结构 |
2.2.1 云计算系统的物理结构 |
2.2.2 云计算系统的逻辑结构 |
2.3 基于马尔科夫模型的资源层安全性建模 |
2.3.1 模型建立依据 |
2.3.2 虚拟机安全性建模 |
2.4 基于排队论的应用层服务性能建模 |
2.4.1 模型建立依据 |
2.4.2 云计算系统性能建模 |
2.5 S-P关联指标 |
2.6 实验分析 |
2.6.1 S-P关联模型正确性验证 |
2.6.2 性能指标的重要影响因素分析 |
2.6.3 实验结论总结 |
2.7 本章小结 |
第三章 移动云环境下的性能-可靠性关联建模与可靠性仿真设计 |
3.1 引言 |
3.2 移动云环境下的P-R关联建模研究 |
3.2.1 移动云系统的系统结构 |
3.2.2 基于排队网络的服务性能建模 |
3.2.3 机器故障、网络故障、包错误的可靠性建模 |
3.2.4 P-R关联指标 |
3.2.5 实验分析 |
3.2.6 实验结论总结与讨论 |
3.3 基于CloudSim的可靠性仿真设计 |
3.3.1 CloudSim平台 |
3.3.2 可靠性因素在CloudSim中的仿真设计 |
3.3.3 实验分析 |
3.4 本章小结 |
第四章 云环境下的仿生自主监控系统 |
4.1 引言 |
4.2 B-CMS的整体设计 |
4.3 B-CMS关键特性设计 |
4.3.1 自组织 |
4.3.2 自修复 |
4.4 B-CMS各组成部分实现方法 |
4.4.1 PN和 M-PN的实现 |
4.4.2 CNE的实现 |
4.4.3 HMI的实现 |
4.5 Ontology在 B-CMS中的应用 |
4.5.1 Ontology在 B-CMS中的Ontology Web Language描述 |
4.5.2 基于jena的 OWL语义查询 |
4.6 MDD在 B-CMS中的应用 |
4.7 实验分析 |
4.7.1 B-CMS的系统功能实验分析 |
4.7.2 B-CMS的资源表达与故障诊断实验分析 |
4.8 本章小结 |
第五章 全文总结与展望 |
5.1 全文总结 |
5.2 后续工作展望 |
致谢 |
参考文献 |
攻读博士学位期间取得的成果 |
(8)机器学习在大视频运维中的应用(论文提纲范文)
1 大视频智能运维系统的架构及关键技术 |
2 人工智能技术在大视频运维系统中的应用 |
2.1 基于人工智能的端到端智能运维 |
(1) 日志预处理模块 |
(2) 日志离线分析模块 |
(3) 实时分析模块 |
(4) 智能故障定位及根源分析 |
2.2 基于人工智能的硬盘故障预测实例 |
3 结束语 |
(9)破解Windows的蓝色生死符——Windows 2000/XP蓝屏全攻略(论文提纲范文)
为什么Windows 2000/XP会蓝屏? |
出现蓝屏后的九个常规解决方案 |
四、利用PartitionMagic修复硬盘故障实例(论文参考文献)
- [1]分布式存储系统中的预测式纠删码研究[J]. 张航,唐聃,蔡红亮. 计算机科学, 2021(05)
- [2]基于纠删码的云存储系统扩展与修复性能的研究[D]. 张晓阳. 华中科技大学, 2020(02)
- [3]大型数据中心异构磁盘的故障预测方法与应用研究[D]. 张霁. 华中科技大学, 2020(02)
- [4]云存储系统中的预测式局部修复码[J]. 张晓阳,许佳豪,胡燏翀. 计算机研究与发展, 2019(09)
- [5]固态硬盘存储系统关键技术研究[D]. 徐尔茨. 国防科技大学, 2019(01)
- [6]大规模磁盘故障预测方法研究[D]. 谢伟睿. 华中科技大学, 2019(03)
- [7]云计算环境下多维关联模型的研究[D]. 许瀚. 电子科技大学, 2019(01)
- [8]机器学习在大视频运维中的应用[J]. 屠要峰,吉锋,文韬. 中兴通讯技术, 2017(04)
- [9]破解Windows的蓝色生死符——Windows 2000/XP蓝屏全攻略[J]. James Eshelman. 电脑爱好者, 2004(21)
- [10]利用PartitionMagic修复硬盘故障实例[J]. 韦幸. 华南金融电脑, 2004(01)