一、基于WEB日志挖掘的网站结构优化系统WSOS的设计与实现(论文文献综述)
吴可[1](2021)在《基于机器学习的Web日志异常流量检测技术研究》文中提出随着互联网的普及和飞速发展,网络安全问题也愈发重要。Web日志记录了网站的运行信息和用户的所有操作,通过日志分析开发者可以检测出网络的异常流量,及时发现漏洞。由于传统的基于规则和模式匹配的日志分析技术对海量数据的处理效果不佳,也无法应对形式复杂多样的网络攻击,将机器学习和深度学习技术应用到日志分析领域是大势所趋。本文提出了一种自定义特征的方法,对比于其他基于统计信息的特征提取,该方法将特征提取的重点放在URL部分,忽略对其他冗余和对检测结果提升不大的信息,有效的减少了日志数据特征提取后的维度,结果证明,该种特征提取方法检测结果良好,检测效果也略微高于其他的基于统计特征的特征提取方法,但特征维度大大减小。接下来研究了一种与距离度量相关的特征系数调节方法,将其应用并改进KNN算法,使得机器学习中异常检测的各项评估指标得到提高。主要内容如下:首先介绍了Web日志的结构和特点,介绍了误用检测和异常检测两种常用的Web日志异常流量检测方法,其中,根据使用算法效果的不同,异常检测又可细分为基于神经网络和基于其他机器学习算法的异常检测,随后对相关的算法进行了简介。然后使用了一种基于统计知识的特征提取方法从Web日志中提取特征,对比了一些其他特征提取方法,检测效果较为良好,但特征提取的维度远远低于其他方法,经过进一步的降维手段,以牺牲较小的检测结果的代价,换取了维度的进一步降低,大大节省了数据特征的存储空间,提升了后续算法的处理速度。接下来重点研究了一种特征系数调节方法,不同于传统的特征标准化,特征筛选等特征工程,特征系数调节着重研究了不同特征间的重要性的差异,并赋予不同的权值系数予以调整距离度量中的贡献度。在此基础上应用K近邻算法,随后运用粒子群优化算法继续予以改进,使得特征系数的调节具有自适应性。与改进前对比,结果证明仅仅添加3个特征系数,准确率提升了0.84%、精确率提升了1.00%,f1-score提升了1.09%。最后,建立了一个基于ELK日志系统,综合前文所涉及的相关技术,进行总体的实验和仿真,并对结果进行具体分析。
张倩[2](2021)在《数据流聚类算法在Web访问日志分析中的应用研究》文中指出近年来互联网技术取得了惊人的发展成绩,各类使用也日益普及,在使用互联网的过程中产生了大量的Web数据,如何从这些海量数据中统计和分析出有价值的信息,挖掘日志数据中蕴藏的访问行为是一个值得研究和关注的热点问题。对这一问题的研究有助于网站管理员及时发现网站安全风险,修复网站漏洞,不断提升网站运维人员的网络安全意识,也有助于管理员及时了解用户关注的网站内容,及时更新维护相关内容,更好发挥网站的作用。本文针对Web访问日志分析的问题,对数据流相关的概念及算法进行研究,提出数据流聚类算法优化方法,对现有的基于密度网格的数据流聚类算法进行改进。然后在充分研究Storm框架基本原理的前提下,将改进算法基于Storm进行分布式并行化设计,提高改进数据流聚类算法的处理效率。最后将改进的分布式数据流聚类算法在实际采集的Web访问日志的分析上加以应用。本文的主要研究内容如下:(1)选择基于密度网格的数据流聚类算法作为Web访问日志分析的基础算法。针对现有算法在阈值参数设置和簇边界判定两个方面的不足,对现有算法进行改进,以提高现有算法聚类性能为目的,提出改进的基于密度网格的数据流聚类算法。(2)针对无法在单机环境下高效处理Web访问日志这类实时、海量数据的问题,搭建分布式流处理平台Storm,以并行化分布式的方式来设计数据流聚类算法,并且基于Storm来实现该算法。(3)将基于Storm实现的分布式数据流聚类算法在Web访问日志分析中应用,设计Web访问日志分析模型。基于实际采集的校园网站Web访问日志进行实验,结果表明,改进的算法聚类效果更优,并行化的计算更好地适应了Web访问日志的数据特点,算法具有分布性、实时性和准确性。得出的分析结果对网站的管理具有一定的参考价值,可以为网站管理中的类似问题提供参考依据。
王颖[3](2020)在《基于Web日志的并行化聚类算法研究及应用》文中进行了进一步梳理信息技术快速发展的同时带来了网络上信息含量的猛增。从大量冗余信息中快速准确获取目标内容变得不那么容易了。然而用户最期望可以直接略过自己不感兴趣的信息,快速直接的获取需要的内容。网站经营者则希望通过用户的访问记录挖掘用户的行为模式,然后对站点结构做出调整,更好进行商务推广活动。无形中加深了信息获得和供给的矛盾。本文正是基于这种矛盾提出以Web日志数据为基础对用户群体的行为模式进行聚类分析。为解决存在的矛盾冲突提出了一些方案。在仔细研读关于Web日志数据的聚类挖掘文章,分析和理解被提出的各种相关理论和方法后。本文提出了一种并行化的聚类算法,而且应用在现实Web日志数据上取得了极佳的聚类效果。因为实际中的日志数据质量并不能满足聚类要求,所以在聚类前有必要执行预处理步骤。预处理中比较重要的部分是能够利用提出的多条件约束法去准确识别用户。然后通过实验设置STT值进行用户会话的识别。为了后续聚类方便,需要识别用户的事务,采用改进的事务识别算法可以很好的区分导航页和内容页,进行有效事务识别。接下来针对K-Means需要人为随机给出聚类的个数K,以及每个类的中心数据点的缺陷。本文首先改进Canopy算法,克服阈值T1、T2的缺陷获得Canopy个数,成为K-Means算法所需的k值,所有Canopy中心点都成为K-Means初始聚类中心。然后通过实验验证将算法并行化到Hadoop集群上能在提高平均准确率到94.67%的基础上,降低了算法的执行时间。最后以Web日志数据为基础设计了能对用户行为进行分析聚类的系统,验证了理论上的研究也可以运用到实际操作中。图32表9参82
王田田[4](2020)在《软件版本管理系统中的用户行为分析》文中提出目前软件版本管理系统结构布局单一,重复繁琐的操作浪费了员工大量的工作时间,导致员工访问体验感较差。同时软件版本延迟发布现象严重,公司没有定位分析异常版本产生原因的客观参考依据。通过调研发现,这些现状产生的原因都和员工访问系统的行为息息相关。因此,本文引入用户行为分析技术,深入挖掘分析员工访问系统的一系列行为特点,了解员工的访问需求和工作情况,并将分析结果应用于解决软件版本管理系统目前面临的问题。本文提出通过分析员工访问日志来对员工行为进行分析的需求,达到改善软件版本管理系统现状的目的。本文采用Hadoop分布式框架,Web日志挖掘技术以及聚类分析算法设计并实现了面向软件版本管理系统的用户行为分析系统。此系统包括日志获取、日志预处理、聚类分群以及结果可视化应用四大功能模块。其中日志获取模块实现了对大量员工访问日志进行高效统一存储。日志预处理模块完成了日志清洗,员工识别,会话识别以及路径补充等操作。聚类分群模块采用基于Canopy的K-means聚类算法对日志进行聚类分析,并基于分析结果将员工分群。结果可视化应用模块将分群结果应用于提升员工对软件版本管理系统的访问体验感和帮助公司定位分析异常版本产生原因。最后本文将用户行为分析系统部署在Hadoop集群环境中,并对其进行功能测试和性能测试。测试结果表明系统能够良好运行,并能有效改善软件版本管理系统的现状,符合设计目标和实际应用要求。
苏星[5](2020)在《基于大数据与机器学习的Web日志分析系统的设计与实现》文中认为随着互联网Web技术的快速发展,互联网的用户人数在成指数型级别增长。在互联网服务用户的同时,产生了海量的Web日志信息,这些信息构成了大量的数据,隐藏着庞大的商业资源和利用价值。同时,呈爆炸式的用户人群在浏览互联网Web页面时,通过自身的经验与搜索去主动查询自己所需的资料,往往在繁琐的操作后得不到想要的目标,好像湮没在这海量的信息之中。因此,大数据技术与数据挖掘在很大程度上解决此问题。本文基于大数据技术与数据挖掘技术,研究内容主要有以下几个方面:对大数据和分布式技术进行了研究。主要深入的研究了Hadoop/Spark大数据平台。Google公司在大数据时代引领了潮流,其开发的大数据分布式平台Hadoop已经生成了完整的生态系统,得到了广泛的应用,其中MapReduce(MR)编程模型与HDFS最为常用。Spark是UC Berkeley AMP 1ab(加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的的算法。对基于深度学习的n1p/Word2Vec算法技术衍生的预测模型进行了研究。首先,word2vec算法可以在百万数量级的词典和上亿的数据集上进行高效地训练;其次,该工具得到的训练结果——词向量(word embedding),可以很好地度量词与词之间的相似性。在日志挖掘过程中,我们可以选择利用其组成的会话序列探究各个日志的相似性。对于具体的会话序列的生成方法和序列中上下文的选择、训练方法,本文在研究了相关的词频加权算法之后,在word2vec的基础上做了改进,从而具备了对每个日志有相似性运算与结论预测的理论基础。对于基于Spark/HDFS的日志分析平台进行了详细的设计。根据对相关大数据分布式平台与算法的深入学习与研究,本文将涉及一个基于Spark/HDFS的日志挖掘与分析平台。该平台的组成模块有以下几个:日志预处理模块,日志存储模块,日志挖掘模块。日志预处理模块采用Spark平台实现;日志存储模块使用Hadoop中的HDFS实现。日志挖掘模块采用改进后的Word2Vec算法进行实现,由于是分布式处理,对算法流程设计使其能在分布式平台运行。最后对基于大数据平台的Web日志分析平台进行功能与性能的测试,通过对单机系统以及其他模型的对比,证明了该系统在处理大数据量的Web日志方面具有优势。
王文文[6](2020)在《基于ELK的Web日志采集与分析系统研究与实现》文中研究指明随着互联网的不断发展,网络的安全性变成了困扰互联网从业人员的重要问题。Web攻击手段在不断增多,Web攻击对于企业和个人都会造成严重影响。而Web日志安全分析是Web安全检测中的重要手段,此方法可在网络攻击发生后,还原攻击场景,继续发掘用户的非法行为,更便于事后追踪,为安全策略的制定提供有效的支持。本文研究了VGG19卷积神经网络,对其改进得到改进后的VGG19模型,提出了基于改进VGG19卷积神经网络的异常检测模型,并开发了基于ELK框架的日志采集与分析系统,最后基于Virtual Box建立了具有5个结点的实验网络,完成了系统的运行测试。具体内容如下:本文首先介绍了互联网以及Web安全的发展现状,对国内外Web安全领域的现状做了相关研究。接着,对本文研究涉及的技术与理论基础进行了阐述,包括Web日志类型、Web攻击种类、ELK日志框架与日志分析的常用方法。然后,详细阐述了异常检测模型的建立过程,即:(1)对VGG19算法进行了改进,并基于改进的VGG19提出了一种新的异常检测模型。基于微型迁移学习将Image Net模型中的卷积层参数迁移至本文模型,全连接层数改为1,softmax采用二分类层,提高了训练效率与准确率,使本模型更适用于网络请求检测。(2)基于ISCX2012网络安全数据集对模型进行了训练,取得了较好的效果。之后,设计了Web日志采集与分析系统,设计了系统的目标、架构、功能模块与数据库,设计的系统包括四个模块,即:日志检测模块、日志采集模块、日志存储模块与日志分析结果可视化模块。最后,利用ELK框架实现了Web日志采集与分析系统。其中,日志检测模块主要通过本文提出的异常检测模型对收集到的请求进行解析并标记,日志采集、日志存储和日志分析结果可视化三个模块的实现基于Elastic Search、Logstash与Kibana三个开源工具。利用Logstash实现日志的采集;利用Elastic Search建立3结点的分布式集群,实现日志的存储;利用Kibana实现日志分析结果的可视化展示。同时,本文通过建立实验网络,在服务器端部署日志采集与分析,并通过4个结点向1个服务器结点模拟发送正常请求与异常请求,测试了本系统的异常检测。模拟测试结果表明,所开发系统达到了预期效果。
林玲[7](2020)在《基于主题搜索的校园用户行为挖掘系统的设计与实现》文中研究说明随着网络技术和业务的发展,网络用户数量逐年增加,网络中蕴涵的大量的用户行为信息成为了相关人士关注的重要分析来源。在高校中通过数据挖掘手段对校园网的用户行为信息进行分析,可以克服高校中传统的管理模式不够精细和深入的弊端。传统校园用户行为分析系统中主要包含主题模型建立和关联模式挖掘两个部分,现有的主题模型提取出的用户主题词对于语义的表示能力较弱,且传统关联模式挖掘的可定制性不高,容易提取到较大众但无用的关联特征。本文在已有的校园用户行为分析系统中加入主题提取改进算法和关联模式挖掘改进算法,设计并实现了一套基于主题搜索的校园用户行为分析系统。具体研究内容如下:1.提出一种基于结构协同的向量化隐含狄利克雷分布的主题词提取算法。该方法使用结构得分作为基于文本排序的关键词提取算法中的边权重,在该算法的基础上加入算法提取的主题语义信息作为权重参数,使得提取出的关键词具有主题语义表示能力。2.提出基于改进的警示线索词频繁树的两极多支持度算法。该方法加入了事务项的负向关联以增加分析中的潜在项集,使用多重最小支持度提高关联模式的准确性,在基于频繁模式树的关联模式分析算法基础上加入预设警示线索词的筛选,使得系统可以将管理者预设的敏感信息识别并提取出来。3.设计并实现了一种基于主题搜索的用户行为分析系统。系统包括数据存储,数据处理,算法分析和UI展示四大模块,其中算法分析模块包含了主题提取和特征向量关联算法。算法分析的结果通过归类和处理后在UI展示层进行结果的展示。实验结果表明,该系统能够有效的提取用户访问记录中页面链接对应的主题,且能正确地与用户其他特征向量进行关联。算法分析的结果能在Web的UI界面中进行展示,为校园网的网络管理者提供重要的分析依据。
刘澍[8](2020)在《基于用户访问序列模式的Web性能测试模型研究与应用》文中认为Web应用系统因其易部署、高扩展、低维护的特性成为现今软件系统开发的趋势,成为互联网发展中最具生命力的一部分。Web性能测试作为保障系统稳定性、定位性能瓶颈的重要手段,逐步发展为软件生命周期中不可缺少的环节。但是,传统的性能测试模型在Web系统上还面临三个主要问题:没有给出设计测试方案的指导性意见;缺少对性能测试指标的明确要求;忽略了测试后的性能迭代调优。这些问题成为影响Web性能测试可靠性的重要难点。针对上述问题,本文在传统的PTGM性能测试模型上,面向Web应用系统,提出一种改进的基于用户访问序列模式的性能测试模型UASP-PTGM(Performance Testing General Model based on User Access Sequential Pattern),该模型通过挖掘Web系统运行时产生的日志文件,生成用户访问序列模式,指导性能测试场景设计,模拟系统的真实负载情况;筛选出用户行为特征指标、基本性能指标这两方面的性能评价指标,以考察用户实际体验与系统使用情况;引入了回归测试,使Web系统在迭代调优过程中,实现系统的测试目标。其中,本文重点阐述了用户访问序列模式的生成方法,在日志文件预处理、序列模式挖掘、用户画像构建这三个阶段,提出了对应的改进方法:(1)在日志预处理阶段,提出一种基于构造网站结构树填补缺失路径的方法,通过Check访问序列中,邻近内容项对应节点是否满足网站结构树中的约束关系,来进行最短路径补充;(2)针对序列模式挖掘算法PrefixSpan在面对数据规模过大时,每次投影占用过多资源的问题,提出了改进的SP-PrefixSpan算法。通过提前剪枝序列非频繁项,支持度末位判断,后缀指针伪投影的方法,优化了序列在内存中的存储方式,减少了投影数据库规模,提高了算法效率;(3)通过对日志的挖掘与分析,结合用户画像八要素,提取出满足基本性、独特性、目标性、数量性及应用性的用户属性,为构建虚拟用户画像提供依据。最后,使用性能测试工具LoadRunner11,对具体项目案例进行测试。通过监控场景运行中的资源使用状况、事务响应时间等参数,对模型进行评估。测试结果表明,本文提出的用户访问序列模式性能测试模型(UASP-PTGM)能够有效模拟真实用户负载,提高场景设计的可靠性,最终提高测试结果的准确性。
王玉奇[9](2020)在《基于关联规则的Web应用统计测试方法研究》文中研究表明随着Web应用结构与环境的日益复杂,为了确保Web应用软件设计达到预期的功能需求,需要对Web应用进行充分的测试,而Web统计测试可以在一定的时间和投入内有效地确保Web应用的质量。然而传统的统计测试在测试过程中仍存在一些不足。首先,传统统计测试对Web日志中用户行为的量化不够明确。如何从Web服务器日志中提取、分离更有价值的用户信息是Web应用统计测试的一项重要内容。其次,统计测试的测试重点不突出,Web应用站点页面众多,如何从中去除访问次数少,关联性不强,兴趣度低的页面。特别是面对大数据量的Web日志,如何能更有效的挖掘频繁项集。此外,传统的统计测试生成的测试用例无法较好的模拟用户行为。针对以上问题,本文提出了一种基于关联规则的Web统计测试的测试用例生成方法及可靠性度量方法。针对Web日志中用户行为的量化不够明确,本文首先从Web服务器日志提取相应字段,如Referrer和URL等字段,基于哈希保存在自定义的数据结构note中,生成note list,提高查询和对比效率以及更详细记录用户的每一次行为。为了从Web站点的众多页面中去掉访问次数少、兴趣度低的网页页面,对Web应用进行更有针对性的测试,本文提出基于notetree结构的Apriori算法,对note list进行挖掘得到用户的频繁访问序列,并统计网页的访问频率与转换概率等信息作为构建统计测试使用模型的基础。在Web统计测试中一般使用马尔科夫模型进行系统建模,生成的马尔科夫模型采用轮盘赌算法生成测试用例。本文实现了基于轮盘赌算法的Web统计测试测试用例生成算法,既兼顾马尔科夫模型中转移概率的大小,又兼顾选择的随机性,以更接近真实的用户行为,进一步提高测试用例的鲁棒性。依据生成的测试用例,采用Nelson模型进行系统可靠性评估,选择MTBF作为系统可靠性评估指标。最后论文基于三个较为全面的问题进行相关实验。实验证明,基于notetree结构的Apriori算法与Apirori算法相比,算法运行时间更短,产生的频繁2项集L2数量更少,基于notetree结构的Apriori算法在挖掘大数据量的Web日志时更有效率。基于关联规则的Web应用统计测试方法能够更为准确的衡量Web应用的可靠性,通过执行测试用例计算得到的Web应用MTBF值与真实环境下MTBF值相似,验证了该方法的有效性。
夏烈阳[10](2019)在《大数据背景下基于Web日志的用户访问模式挖掘研究》文中研究表明随着互联网的快速发展,网络用户规模不断扩大,网络用户比例不断增加,网络用户行为也变得越来越复杂。尽管许多学者对Web挖掘技术和用户行为挖掘进行了深入研究,但仍存在一些问题。传统的数据挖掘算法在大数据处理效率方面并不令人满意。与此同时,对于电子商务领域,随着网购越来越流行,网民的不断增加以及新的商品出现,大量的商品和用户没有发生交互数据,系统更倾向于给用户推荐热门商品,导致大多数电子商务平台中都存在重复推荐的情况,无法提供更精准的个性化服务,以及长尾物品的发现和物品的权重调整。同时大量的中小型企业想完成数据驱动服务的升级,包括用户行为挖掘、个性化推荐等。这些问题迫切需要解决。因此,本文选择电子商务领域,基于电子商务后台日志的数据特征,重点分析和研究电子商务用户行为,构建用户行为挖掘的基本模式。本文研究内容主要包括以下几点:首先,在深入了解Web用户行为理论的基础上,基于交互的内容对用户的行为进行分类,同时基于大数据背景,在介绍了传统的一些数据挖掘算法的基础上,做了进一步的优化,以符合现实的商业化需求,对于Web日志来说,在大数据环境以及多样的用户行为的影响下,其采集方法与处理方法变得更加的复杂,本文在此基础上深入研究和理解Web用户的行为特征以及Web日志的数据表示并总结出了互联网用户行为所具有的特征。其次,基于上述研究成果,针对大数据时代的应用场景,在对传统算法改进的基础上进行并行化处理,大幅提高算法的运行效率,同时采用分布式的文件存储结构,提高了系统数据处理的容错性。同时,深入研究了协同过滤推荐算法的优缺点。协同过滤当前有着非常广泛的应用,在不改变协同过滤算法的基础上,引入迁移学习,提出了基于标签共享和用户兴趣的跨域迁移的推荐。实验结果表明,与现有的协同过滤推荐算法相比,基于迁移学习的推荐模型的准确率有一定程度的提高,也有助于解决数据稀疏性引起的冷启动问题。同时对原来系统中已存在的推荐算法,对其算法本身的侵入性非常的小。最后,基于上述研究内容和结果,本文构建的Web用户行为挖掘系统,可进行多维度高效率的挖掘。它通过精准的营销和准确的建议,帮助电子商务商家、内容提供商等了解他们的用户并实现更好的商业价值,完成数据驱动服务的升级。
二、基于WEB日志挖掘的网站结构优化系统WSOS的设计与实现(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、基于WEB日志挖掘的网站结构优化系统WSOS的设计与实现(论文提纲范文)
(1)基于机器学习的Web日志异常流量检测技术研究(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究背景 |
1.2 国内外研究现状 |
1.3 论文的主要工作 |
1.4 论文的组织结构 |
第二章 Web日志分析与检测技术 |
2.1 Web日志的结构特点 |
2.1.1 Web日志的产生过程 |
2.1.2 Web日志的特点 |
2.1.3 Web日志的结构 |
2.2 基于ELK平台的日志分析 |
2.2.1 Elasticsearch日志存储 |
2.2.2 Logstash日志采集与解析 |
2.2.3 Kibana日志可视化展示 |
2.3 基于误用检测的异常流量分析 |
2.4 基于人工智能的检测技术 |
2.4.1 神经网络算法 |
2.4.2 其他机器学习算法 |
2.5 本章小结 |
第三章 Web日志特征提取技术研究 |
3.1 自然语言处理技术 |
3.1.1 词袋模型 |
3.1.2 TD-IDF技术 |
3.1.3 N-Gram语言模型 |
3.1.4 Word2Vec |
3.2 现有特征提取算法缺点 |
3.3 自定义特征提取改进 |
3.3.1 URL结构特点分析 |
3.3.2 基于URL的特征的提取 |
3.4 仿真与分析 |
3.4.1 评价指标 |
3.4.2 实验结果分析 |
3.5 本章小结 |
第四章 基于多特征系数调节的异常检测技术 |
4.1 特征工程 |
4.1.1 特征缩放 |
4.1.2 特征筛选 |
4.2 特征工程改进 |
4.3 基于粒子群优化的特征系数调节 |
4.3.1 粒子群优化算法 |
4.3.2 MFCA算法仿真 |
4.4 本章小结 |
第五章 实验与结果分析 |
5.1 日志数据处理及异常检测系统的整体设计 |
5.2 实验准备与数据预处理 |
5.3 测试结果分析 |
5.3.1 特征系数调节 |
5.3.2 不同的标准化方式对特征系数调节的影响 |
5.4 实验结果总结 |
5.5 本章小结 |
第六章 总结与展望 |
6.1 本文主要工作 |
6.2 下一步工作建议 |
致谢 |
参考文献 |
攻读硕士学位期间取得的成果 |
1.发明专利 |
2.论文 |
3.参加的科研项目 |
4.获得奖励 |
(2)数据流聚类算法在Web访问日志分析中的应用研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景与意义 |
1.2 国内外研究现状 |
1.2.1 Web日志分析 |
1.2.2 数据流聚类算法 |
1.3 研究内容 |
1.4 论文结构 |
第二章 相关理论与技术 |
2.1 Web日志挖掘 |
2.1.1 Web挖掘概述 |
2.1.2 Web日志挖掘概述 |
2.1.3 Web日志挖掘过程 |
2.2 数据流聚类算法 |
2.2.1 数据流 |
2.2.2 数据流模型 |
2.2.3 数据流挖掘 |
2.2.4 数据流聚类算法 |
2.3 分布式流处理技术 |
2.3.1 分布式流处理技术 |
2.3.2 分布式流处理平台Storm |
2.4 本章总结 |
第三章 改进的密度网格数据流聚类算法研究 |
3.1 基于密度网格的数据流聚类算法D-Stream |
3.1.1 D-Stream算法概述 |
3.1.2 D-Stream算法基本定义 |
3.1.3 时间周期gap与网格检查 |
3.1.4 算法描述 |
3.1.5 D-Stream算法的不足 |
3.2 改进算法设计 |
3.2.1 改进算法基本思想 |
3.2.2 改进算法基本定义及相关概念 |
3.2.3 算法描述 |
3.3 实验与结果分析 |
3.3.1 实验数据与实验环境 |
3.3.2 算法参数的设置 |
3.3.3 实验结果分析 |
3.4 本章总结 |
第四章 算法并行化设计及其基于Storm的实现 |
4.1 算法并行化设计 |
4.1.1 算法并行化设计基本思想 |
4.1.2 分布式数据流聚类算法概述 |
4.2 算法基于Storm的实现方案 |
4.3 实验与结果分析 |
4.3.1 实验数据与实验环境 |
4.3.2 实验结果分析 |
4.4 本章总结 |
第五章 基于Storm的改进算法在Web日志分析中的应用 |
5.1 Web访问日志格式说明 |
5.2 基于Storm的Web访问日志分析模型设计 |
5.3 模型应用结果及分析 |
5.4 本章总结 |
第六章 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
在学期间取得的科研成果和科研情况说明 |
致谢 |
(3)基于Web日志的并行化聚类算法研究及应用(论文提纲范文)
摘要 |
Abstract |
1 绪论 |
1.1 研究背景和意义 |
1.2 国内外研究现状 |
1.2.1 国内研究现状 |
1.2.2 国外研究现状 |
1.3 论文内容和结构 |
1.3.1 研究内容 |
1.3.2 组织结构 |
2 Web日志挖掘相关理论与方法 |
2.1 Web日志挖掘 |
2.1.1 Web日志挖掘概述 |
2.1.2 Web日志数据说明 |
2.2 数据预处理 |
2.3 聚类分析 |
2.3.1 概述 |
2.3.2 聚类方法分类 |
2.3.3 K-Means聚类算法 |
2.4 Hadoop分布式技术 |
2.4.1 Hadoop简介 |
2.4.2 HDFS文件系统 |
2.4.3 MapReduce计算框架 |
2.5 本章小结 |
3 Web日志数据预处理 |
3.1 Web日志的数据清洗 |
3.2 多条件约束的用户识别 |
3.3 设置STT值识别用户会话 |
3.4 有效事务识别 |
3.4.1 问题的提出 |
3.4.2 改进的有效事务识别 |
3.5 实验分析 |
3.6 本章小结 |
4 算法研究与实验 |
4.1 Web日志聚类数据表示 |
4.1.1 用户事务兴趣度量矩阵 |
4.1.2 相似性度量 |
4.1.3 用户事务相似性度量 |
4.2 改进的聚类算法 |
4.2.1 问题的提出 |
4.2.2 Canopy+K-Means聚类算法 |
4.2.3 改进Canopy+K-Means聚类算法 |
4.2.4 聚类初始中心的选择实验 |
4.2.5 聚类准确性实验 |
4.3 并行化的聚类算法 |
4.4 算法实际应用实验分析 |
4.5 本章小结 |
5 系统设计与实现 |
5.1 总体设计 |
5.1.1 系统总体框架 |
5.1.2 模块结构设计 |
5.2 系统设计 |
5.2.1 日志数据存储 |
5.2.2 数据预处理 |
5.2.3 聚类分析 |
5.2.4 聚类结果分析 |
5.3 本章小结 |
6 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
致谢 |
作者简介及读研期间主要科研成果 |
(4)软件版本管理系统中的用户行为分析(论文提纲范文)
摘要 |
Abstract |
缩略语对照表 |
第一章 绪论 |
1.1 研究背景及意义 |
1.1.1 研究背景 |
1.1.2 研究意义 |
1.2 国内外研究现状 |
1.3 论文主要内容 |
1.4 论文组织结构 |
第二章 相关技术概述 |
2.1 Hadoop |
2.1.1 HBase |
2.1.2 MapReduce |
2.1.3 Hadoop的优势 |
2.2 Web日志挖掘 |
2.2.1 Web日志挖掘的整体流程 |
2.2.2 模式发现技术 |
2.2.3 Web日志挖掘的应用 |
2.3 聚类分析 |
2.4 本章小结 |
第三章 系统的需求分析和总体设计 |
3.1 系统需求分析 |
3.1.1 员工行为分析 |
3.1.2 系统功能性分析 |
3.1.3 系统非功能性分析 |
3.2 系统总体设计 |
3.3 系统各模块设计 |
3.3.1 日志获取模块 |
3.3.2 日志预处理模块 |
3.3.3 聚类分群模块 |
3.3.4 结果可视化应用模块 |
3.4 数据库表设计 |
3.5 本章小结 |
第四章 系统的详细设计与实现 |
4.1 概述 |
4.2 日志获取模块的设计与实现 |
4.2.1 日志格式 |
4.2.2 日志存储 |
4.3 日志预处理模块的设计与实现 |
4.3.1 日志清洗 |
4.3.2 员工识别 |
4.3.3 会话识别 |
4.3.4 路径补充 |
4.4 聚类分群模块的设计与实现 |
4.4.1 日志提取分析 |
4.4.2 聚类分析 |
4.4.3 员工分群 |
4.5 结果可视化应用模块的设计与实现 |
4.5.1 优化网站结构 |
4.5.2 评估员工工作 |
4.6 本章小结 |
第五章 测试与分析 |
5.1 系统环境 |
5.2 系统功能测试 |
5.3 系统性能测试 |
5.4 本章小结 |
第六章 总结与展望 |
6.1 总结 |
6.2 展望 |
致谢 |
参考文献 |
(5)基于大数据与机器学习的Web日志分析系统的设计与实现(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 课题背景 |
1.2 前人研究现状 |
1.2.1 分布式技术研究现状 |
1.2.2 数据挖掘研究现状 |
1.2.3 前人成果综述 |
1.3 论文结构 |
1.4 本章小结 |
第二章 基础理论与关键技术 |
2.1 分布式存储与运算技术的研究 |
2.1.1 Hadoop系统 |
2.1.2 HDFS |
2.1.3 MapReduce编程模型 |
2.1.4 Spark系统 |
2.2 数据挖掘方法研究 |
2.2.1 数据挖掘的定义与必要性 |
2.2.2 数据挖掘的流程 |
2.2.3 数据挖掘的常见方法 |
2.3 神经网络 |
2.3.1 神经元模型 |
2.3.2 BP神经网络结构 |
2.4 本章小结 |
第三章 文本向量化技术及其在日志分析系统中的应用和改进 |
3.1 传统意义上的文本向量化 |
3.1.1 文本向量化的背景定义与实现方法 |
3.1.2 Word2Vec算法的不同实现方式 |
3.1.3 Word2Vec的Negative Sampling(负采样)学习方式 |
3.2 WORD2VEC算法在日志分析系统中的应用 |
3.2.1 Word2Vec算法与日志分析中的联系 |
3.2.2 Word2Vec算法在日志分析中的应用 |
3.3 WORD2VEC算法在日志分析系统中的改进 |
3.3.1 Word2Vec算法在日志分析系统中的应用优劣及其改进的方向 |
3.3.2 TF-IDF算法 |
3.3.3 利用权重评价对Word2Vec算法在日志分析中改进 |
3.4 实验与评估 |
3.4.1 数据集准备 |
3.4.2 评测方法 |
3.5 本章小结 |
第四章 基于改进后WORD2VEC算法与大数据处理技术的WEB日志分析系统设计 |
4.1 系统需求分析 |
4.2 系统的环境框架设计 |
4.2.1 日志数据处理层 |
4.2.2 日志数据分析层 |
4.2.3 实验结果展现层 |
4.3 系统的模块设计 |
4.3.1 Web日志预处理模块 |
4.3.2 Web日志存储模块 |
4.3.3 Web日志挖掘与分析模块 |
4.4 Web日志预处理描述 |
4.4.1 数据清洗 |
4.4.2 用户识别及商品识别 |
4.4.3 会话识别并生成序列 |
4.4.4 Web日志在大数据环境中的预处理 |
4.5 Web日志分布式环境下的向量化与分析 |
4.5.1 word2vec算法并行化运算思路 |
4.5.2 word2vec算法并行化实现 |
4.6 本章小结 |
第五章 系统环境的搭建与测试结果分析 |
5.1 系统运行环境的搭建 |
5.1.1 系统部署的基本硬件/软件条件 |
5.1.2 系统运行环境的搭建 |
5.1.3 系统运行环境测试 |
5.2 系统性能测试 |
5.2.1 数据集选取 |
5.2.2 测试性能指标 |
5.4 系统测试 |
5.4.1 系统并行化评测 |
5.4.2 系统分析有效性评测 |
5.5 本章小结 |
第六章 结束语 |
6.1 论文工作总结 |
6.2 问题和展望 |
参考文献 |
致谢 |
(6)基于ELK的Web日志采集与分析系统研究与实现(论文提纲范文)
摘要 |
abstract |
第1章 绪论 |
1.1 研究背景和意义 |
1.2 国内外研究现状 |
1.3 论文研究内容 |
1.4 论文章节安排 |
1.5 本章小结 |
第2章 相关理论与技术基础 |
2.1 Web日志类型 |
2.2 常见的Web攻击种类 |
2.3 ELK日志框架 |
2.4 日志安全分析常用方法 |
2.5 本章小结 |
第3章 基于改进VGG19卷积神经网络异常检测模型的研究 |
3.1 引言 |
3.2 VGG19神经网络模型 |
3.3 一种新的异常检测模型 |
3.3.1 VGG19模型的不足与改进 |
3.3.2 新模型算法代码描述 |
3.3.3 新模型算法复杂度分析 |
3.4 模型训练及结果 |
3.4.1 实验环境 |
3.4.2 数据集处理 |
3.4.3 训练过程 |
3.4.4 仿真检测实验结果分析 |
3.5 本章小结 |
第4章 Web日志采集与分析系统的设计 |
4.1 系统设计目标 |
4.2 系统架构设计 |
4.3 系统功能模块设计 |
4.4 系统数据库设计 |
4.5 本章小结 |
第5章 Web日志采集与分析系统的实现 |
5.1 开发环境与工具 |
5.2 Web日志检测模块实现 |
5.2.1 工作流程 |
5.2.2 Pcap日志解析 |
5.3 Web日志采集模块的实现 |
5.3.1 Logstash工作原理 |
5.3.2 基于Logstash的数据采集的实现 |
5.4 Web日志存储模块的实现 |
5.4.1 分布式架构配置原理 |
5.4.2 集群及数据存储的实现 |
5.5 Web日志分析结果可视化模块的实现 |
5.6 系统运行及效果 |
5.6.1 实验网络构建 |
5.6.2 实验网络配置 |
5.6.3 网络请求的模拟实现 |
5.6.4 可视化模块的展示 |
5.7 本章小结 |
总结与展望 |
致谢 |
参考文献 |
攻读硕士学位期间发表的学术论文及参与科研项目 |
(7)基于主题搜索的校园用户行为挖掘系统的设计与实现(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 课题背景 |
1.2 研究现状 |
1.2.1 用户行为分析技术研究现状 |
1.2.2 Web日志挖掘技术研究现状 |
1.3 研究内容 |
1.4 论文组织与结构 |
第二章 相关技术介绍 |
2.1 校园网Web日志挖掘技术 |
2.2 Web日志数据预处理 |
2.3 基于Web日志的用户行为分析方法 |
2.3.1 主题模型介绍 |
2.3.2 关联模式挖掘 |
2.4 本章小结 |
第三章 基于结构协同的向量化狄利克雷主题词提取改进算法 |
3.1 关键词提取算法 |
3.1.1 网页评分排名算法 |
3.1.2 基于文本排名的关键词提取算法 |
3.1.3 基于搜索模型的文本相关性权重计算方法 |
3.2 基于结构协同的向量化隐含狄利克雷分布主题词提取算法 |
3.2.1 算法思想 |
3.2.2 文本预处理 |
3.2.3 向量化的狄利克雷主题模型初始化向量取值 |
3.2.4 候选词得分计算 |
3.2.5 文本网络构建 |
3.3 本章小结 |
第四章 基于正负关联多支持度的警示线索词频繁模式挖掘改进算法 |
4.1 算法改进动机 |
4.1.1 警示线索词 |
4.1.2 单一最小支持度 |
4.1.3 传统正向关联规则 |
4.2 算法改进思想 |
4.2.1 改进的警示线索词频繁树 |
4.2.2 多重最小支持度的引入 |
4.2.3 含正负项目的多重最小支持度 |
4.3 算法流程设计 |
4.4 本章小结 |
第五章 基于主题搜索的用户行为分析系统设计 |
5.1 系统需求及功能流程分析 |
5.2 原始数据存储层 |
5.3 数据整合处理层 |
5.4 算法分析层 |
5.4.1 用户行为集预处理模块 |
5.4.2 主题提取模块 |
5.4.3 特征向量关联模块 |
5.5 本章小结 |
第六章 测试结果及分析 |
6.1 测试环境介绍 |
6.2 测试用例设计 |
6.3 测试结果及分析 |
6.3.1 基于结构协同的LDA2Vector算法测试结果及分析 |
6.3.2 基于改进的警示线索词频繁树的两极多支持度算法结果及分析 |
6.3.3 系统前端页面展示 |
6.3.4 系统在使用传统算法和改进算法运行结果展示 |
6.4 本章小结 |
第七章 总结与展望 |
7.1 论文总结 |
7.2 未来展望 |
参考文献 |
致谢 |
(8)基于用户访问序列模式的Web性能测试模型研究与应用(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 选题背景及意义 |
1.2 国内外研究现状 |
1.3 研究目标与内容 |
1.4 论文结构 |
第2章 Web性能测试相关研究 |
2.1 Web系统架构 |
2.2 Web性能测试 |
2.3 回归测试 |
2.4 本章小结 |
第3章 Web日志挖掘研究 |
3.1 Web挖掘相关理论概述 |
3.2 序列模式挖掘 |
3.3 PrefixSpan算法的研究和改进 |
3.4 本章小结 |
第4章 基于序列模式挖掘算法的Web性能测试模型研究 |
4.1 传统性能测试模型研究 |
4.2 UASP-PTGM性能测试模型 |
4.3 用户访问序列模式生成过程 |
4.4 本章小结 |
第5章 基于UASP-PTGM性能测试模型的性能测试实例分析 |
5.1 测试需求分析 |
5.2 建立用户访问序列模式 |
5.3 测试方案设计 |
5.4 测试执行与结果分析 |
5.5 本章小结 |
第6章 结论与展望 |
6.1 工作总结 |
6.2 展望 |
参考文献 |
致谢 |
攻读硕士期间取得的科研成果 |
(9)基于关联规则的Web应用统计测试方法研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究进展 |
1.2.1 Web统计测试的相关研究 |
1.2.2 马尔可夫模型的相关研究 |
1.2.3 基于关联规则挖掘Web日志的相关研究 |
1.3 课题来源 |
1.4 论文研究内容和创新点 |
1.4.1 论文研究内容 |
1.4.2 论文创新点 |
1.5 论文结构 |
第2章 相关知识 |
2.1 Web应用 |
2.1.1 Web应用体系结构 |
2.1.2 Web应用测试方法 |
2.2 Web统计测试 |
2.2.1 Web统计测试定义 |
2.2.2 Web统计测试使用模型 |
2.3 关联规则 |
2.3.1 关联规则的相关定义 |
2.3.2 基于关联规则的挖掘算法 |
2.4 基于关联规则的Web应用统计测试方法框架 |
2.5 本章小结 |
第3章 基于note_tree Apriori的 Web会话挖掘方法 |
3.1 Web日志用户行为分离方法 |
3.1.1 Web服务器日志 |
3.1.2 自定义结构note定义 |
3.1.3 Web日志用户行为分离算法实现 |
3.2 基于Apriori算法的Web会话挖掘方法 |
3.2.1 Apriori算法基本思想 |
3.2.2 Apriori算法实现 |
3.2.3 Apriori算法不足 |
3.3 基于note_tree Apriori算法的Web会话挖掘方法 |
3.3.1 note_tree结构与权重计算 |
3.3.2 note_tree Apriori算法实现 |
3.4 本章小结 |
第4章 基于关联规则的Web应用统计测试方法 |
4.1 马尔科夫链统计测试原理 |
4.2 马尔可夫模型构造 |
4.3 测试用例生成方法 |
4.3.1 轮盘赌选择 |
4.3.2 基于轮盘赌思想的测试用例生成算法 |
4.4 Web应用可靠性分析 |
4.5 本章小结 |
第5章 实验与结果分析 |
5.1 实验环境与准备 |
5.2 实验结果分析 |
5.3 本章小结 |
第6章 结论与展望 |
6.1 结论 |
6.2 进一步工作的方向 |
参考文献 |
攻读学位期间取得的研究成果 |
致谢 |
(10)大数据背景下基于Web日志的用户访问模式挖掘研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
第一节 选题背景及研究意义 |
第二节 国内外相关研究动态 |
一、Web日志挖掘的研究现状 |
二、大数据背景下数据挖掘研究现状 |
三、个性化推荐的研究现状 |
四、研究中存在的一些缺陷和不足之处 |
第三节 论文的研究内容 |
第四节 论文结构安排 |
第二章 相关理论与技术研究 |
第一节 Web用户行为理论 |
一、Web用户行为概念与特征 |
二、Web用户行为的分类 |
第二节 Web日志挖掘 |
第三节 相关算法研究 |
一、聚类 |
二、分类 |
三、序列挖掘 |
四、推荐算法 |
第四节 大数据处理框架Hadoop |
一、Hadoop体系结构 |
二、MapReduce计算框架 |
三、HDFS分布式文件存储 |
第五节 Hadoop平台日志数据处理优势 |
第六节 本章小结 |
第三章 数据处理及用户行为识别 |
第一节 数据源介绍 |
第二节 数据预处理 |
一、数据清洗 |
二、数据衍生 |
第三节 用户行为识别 |
一、用户及会话识别 |
二、事务识别 |
三、模块标记识别 |
第四节 本章小结 |
第四章 基于大数据平台的数据挖掘算法改进 |
第一节 大数据背景下算法并行化的必要性 |
第二节 基于改进的PrefixSpan的并行模式挖掘算法 |
一、介绍及定义 |
二、PrefixSpan算法描述 |
三、PrefixSpan算法优化 |
四、实验结果及分析 |
第三节 基于样本密度的的FCM模糊聚类算法 |
一、FCM介绍 |
二、基于样本密度的FCM聚类算法 |
三、并行化处理 |
四、算法实验 |
第四节 本章小结 |
第五章 基于标签共享的用户兴趣模型迁移推荐 |
第一节 传统协同过滤推荐及面临问题 |
第二节 迁移学习与跨域 |
第三节 基于标签共享的用户兴趣模型迁移推荐 |
第四节 模型算法 |
一、矩阵奇异值分解算法 |
二、皮尔逊(Pearson)相关系数 |
三、Xgboost集成分类 |
第五节 实验数据及预处理 |
第六节 实验设计 |
一、用户兴趣度模型构建 |
二、迁移源领域兴趣度模型至目标领域 |
三、实验评测及结果 |
第七节 本章小结 |
第六章 Web用户访问模式挖掘系统 |
第一节 需求分析 |
第二节 用户访问模式挖掘系统原型设计与实现 |
一、用户访问兴趣分类 |
二、用户访问习惯挖掘 |
三、站点访问分析 |
四、用户综合推荐 |
第三节 本章小结 |
第七章 总结与展望 |
第一节 总结 |
第二节 展望 |
参考文献 |
致谢 |
在读期间的研究成果 |
四、基于WEB日志挖掘的网站结构优化系统WSOS的设计与实现(论文参考文献)
- [1]基于机器学习的Web日志异常流量检测技术研究[D]. 吴可. 电子科技大学, 2021(01)
- [2]数据流聚类算法在Web访问日志分析中的应用研究[D]. 张倩. 天津理工大学, 2021(08)
- [3]基于Web日志的并行化聚类算法研究及应用[D]. 王颖. 安徽理工大学, 2020(07)
- [4]软件版本管理系统中的用户行为分析[D]. 王田田. 东南大学, 2020
- [5]基于大数据与机器学习的Web日志分析系统的设计与实现[D]. 苏星. 北京邮电大学, 2020(05)
- [6]基于ELK的Web日志采集与分析系统研究与实现[D]. 王文文. 西南交通大学, 2020(07)
- [7]基于主题搜索的校园用户行为挖掘系统的设计与实现[D]. 林玲. 北京邮电大学, 2020(05)
- [8]基于用户访问序列模式的Web性能测试模型研究与应用[D]. 刘澍. 西南大学, 2020(11)
- [9]基于关联规则的Web应用统计测试方法研究[D]. 王玉奇. 上海师范大学, 2020(07)
- [10]大数据背景下基于Web日志的用户访问模式挖掘研究[D]. 夏烈阳. 云南财经大学, 2019(01)