基于中文句型的中文分词算法

基于中文句型的中文分词算法

一、基于汉语句模的中文分词算法(论文文献综述)

曹雨婷[1](2021)在《基于事件属性的事件内涵获取研究与实现》文中指出在人工智能界,常识知识获取一直是公认的核心难题。所谓常识,是指日常生活中人与人之间存在的共识。人们的观念不断改变,常识也在不断发展。常识知识在自然语言处理、计算机视觉等领域都有着广泛的应用,但常识具有隐含性、大规模性、无领域性等特性,并且常识的理解机制尚不明确,使得常识知识获取成为限制人工智能发展的瓶颈问题。目前,根据自动化程度可以将常识获取的方法分三类:手工获取能够得到隐式的常识,但耗费大量的人力和物力。仅依靠手工的方式来获取常识会导致效率低下,而且难以保证常识的完备性和可靠性。半自动获取结合了手工获取和自动获取,前提是有种子知识库的支持。但种子知识库的构建同样需要花费人力。自动获取可以大大提升常识获取的效率,但是很难获取到隐式的常识。总之,目前还没有一种公认较好的常识获取方法。事件的定义反映了事物的本质属性的总和,是事件的内涵。事件也是人类认识世界的知识单位,也是常识知识获取的处理单元。事件中包含了大量的信息,这些信息的背后蕴含着许多常识。近年来,许多学者在以事件为单位进行知识处理方面的工作时,缺少对事件内部特征、事件间的关系以及事件组成部分等系统的研究,并且对事件本质的内涵描述和获取还不够完善。本文主要研究内容包括以下三点:(1)FSTD的扩充。在实际研究中,我们发现FSTD(Framework of Semantic Taxonomy and Description,FSTD,语义分类和描述框架)已经不能更好地满足语义分析和常识获取的需求。为此,本文对自移事件框架进行扩充。首先基于How Net和Frame Net总结出更加完善的自移事件属性。然后使用K-means聚类算法处理自移事件的定义来构建自移事件属性库。最后将自移事件的属性与属性值以“属性:属性值”的形式补充至FSTD中对应的自移事件框架。(2)提出了一种基于自移事件属性的自移事件自动分类方法。事件分类是研究事件的基础。不同的事件具有不同的特征,语义相近的事件不仅具有相似的特征也含有相近的常识。因此,有必要对所有的自移事件进行分类。本文以自移事件属性在所有自移事件中的出现频率为依据,对自移事件进行自动分类,并提出了自移事件间的继承规则,将事件分为子事件和父事件。(3)定义反映自移事件内涵的语义约束规则,并验证规则的正确性。事件的语义并非单独存在,而是与其他事件的语义互相依存。自移事件的属性间存在一些语义约束,不同自移事件间也同样存在着一些事件关系类的语义约束。因此本文通过研究事件的语义约束来获取事件的相关常识,总结不同了类型的语义约束,并针对可能出现的错误进行了分析并给出了对应的检测方法。

菅朋朋[2](2019)在《机器解答电路题目方法研究》文中认为机器解答是智能化教育领域中的一个重要研究问题,它旨在研发自动理解和自动求解多模态题目的智能解答算法,使目标题目得到正确的解答。本文从机器解答领域中一个基础题目的解答任务出发,探索和研究一套准确度高、扩展性强的机器解答方法。现阶段的机器解答方法仍然以传统的框架解题法和语义解析法等为代表,这些方法不仅需要设置大量的规则模板来理解复杂多变的题目文本,而且缺乏隐含信息的挖掘,导致题目的解答效率较低。深度学习方法也开始尝试应用于机器解答,但是真正高效的方法却很少。由于机器解答的任务较多,无法通过统一的深度学习框架来实现文本理解、图形理解、关系推理和自动求解等融合学习,且已有的深度学习方法目前不能生成可读的解答过程。因此,本文从机器解答领域的研究现状入手,提出开展机器解答电路题目的方法研究,并围绕题目文本理解方法、电路图形理解方法、自动求解方法和机器解答系统等多个方面展开研究工作。为了让机器具备对电路题目的智能化解答能力,首先必须实现机器对题目文本的自动化理解。由于题目文本中包含复杂的自然语言情景,而传统的基于语义理解的方法一方面在方法构建时需要设计大量的规则模板,另一方面在文本理解时无法穷尽语言表达的多样性,且文本理解的结果多以解析树的形式进行表示,限制了进一步的推理和可视化解答。同时,题目文本中往往包含隐含的定理、推论等解题信息,而现有方法缺乏对这些隐含信息的挖掘。因此,本文首先将题目文本的理解过程抽象为关系的抽取过程,并提出了一个既能抽取直陈关系又能抽取隐含关系的自动化题目文本理解方法。该方法结合题目文本中的词性、语义和句法模式构建了句法语义模型,并提出了一种使用句法语义模型抽取直陈关系的算法,该模型使用词性模式代替复杂多变的自然语言描述,使用电路元素和单位等关键字结构作为语义部分,并结合句法模式对直陈关系进行抽取。经研究发现电路定理跟所求的电路元素直接相关,同一电路元素虽然有不同的名称,但其单位是统一的,因此本文结合电路元素的单位和定理构建了单位定理模型,并提出了一种使用单位定理模型抽取隐含关系的算法。相比于传统的方法,本文方法不仅大大减少了模板的数量,而且有效提升了题目文本理解的能力。由于图形中包含着丰富的解题信息,因此图形理解是机器解答中的重要组成部分。现有的方法主要集中于几何图形的理解,对电路图形的理解较少。几何图形理解主要是对顶点、曲线和几何结构的分析,其结果多用于几何定理的自动证明,而电路图形理解则通过电路结构对具有方向的电路属性进行分析,其结果多用于电路解答。因为直接理解图形非常困难,所以本文将图形的理解过程抽象为关系的抽取过程,并提出了一种基于关系抽取的电路图形理解方法。针对串并联电路,通过对电路中的串联和并联子结构进行分析和收缩形成等效电路,可抽取该过程中的电路关系,因此本文提出了一种基于拓扑收缩的电路关系抽取算法。然而该算法难以抽取较为复杂的桥接电路中的电路关系,经研究发现通过对电路网孔的搜索可有效解决该问题,因此本文进一步提出了一种基于网孔搜索的电路关系抽取算法。这两种算法联合使用组成了电路图形的理解方法,并成功应用于电路图形的理解,有效地提高了题目理解的效率,扩大了题目理解的范围。自动求解是机器解答中另一个重要的研究问题。针对现有的机器解答方法缺少对多模态题目进行自动求解的问题,本文提出了一个既可以求解文本题目又可以求解图文题目的自动求解方法。该方法使用了最新的等价转换原理,将题目的求解过程等价转换为关系的推理求解过程,并提出了基于关系推理的自动求解算法。结合基于关系抽取的题目理解方法,实现了电路题目的机器解答。此外,本文还实现了一个基于机器解答的电路辅导系统,用于验证机器解答效果、提供智能导学服务。因此,本文的主要研究贡献可概括为以下几点:(1)提出了一个既能抽取直陈关系又能抽取隐含关系的自动化题目文本理解方法。该方法由基于句法语义模型的直陈关系抽取算法和基于单位定理模型的隐含关系抽取算法来实现。该方法相比于传统方法不仅减少了模板数量,而且有效地提升了题目文本理解的效果。(2)提出了一个基于关系抽取的电路图形理解方法。该方法由基于拓扑收缩的电路关系抽取算法和基于网孔搜索的电路关系抽取算法来实现。该方法不仅填补了电路图形理解方法的空白,而且在电路图形的理解实验中取得了较好的效果,扩大了题目理解的范围。(3)针对现有的机器解答方法缺少对多模态题目进行自动求解的问题,本文提出了一个既可以求解文本题目又可以求解图文题目的基于关系推理的自动求解算法,并在实际电路题目的自动求解中取得了良好的求解效果,有效地提升了自动求解的能力和范围。

吴林静,劳传媛,刘清堂,黄景修,巴深[3](2019)在《基于依存句法的初等数学分层抽样应用题题意理解》文中进行了进一步梳理数学应用题自动求解,即利用计算机对自然语言描述的应用题进行自动理解和作答,一直是人工智能领域研究的重难点和核心目标之一。针对应用题语义复杂、上下文情景多变、关键参数难以准确识别的问题,提出一种基于依存句法的初等数学分层抽样应用题题意理解方法。通过构建一个面向初等数学分层抽样类应用题的句模库,并结合依存句法来实现分层抽样应用题解题信息的自动抽取。实验研究发现,与仅基于句模的信息抽取方法相比,该方法对不同语义角色的句子的信息抽取准确率均有一定提升,整题理解的准确率从40%上升至68%。

王昕尧[4](2018)在《基于推荐算法的众测协同模块的设计与实现》文中指出众包是指通过召集互联网大众,整合互联网资源来解决单独机器难以处理的问题。在软件测试领域,由于互联网时代软件产品的快速更迭,通过雇佣专业测试人员的传统方式成本高昂,难以快速获得大量反馈并加以改进产品。众包测试技术可以很好地解决当前软件测试领域所面临的困境。众包测试通过互联网召集大量的非全职测试人员,能够很好地模拟真实应用场景,并且测试周期短,测试成本也相对较低。现阶段已经出现了相当数量的商业众包测试平台,但目前大多数的平台对于众包测试任务的分配和完成主要采用独立任务的模式,各个测试人员之间及其任务之间的联系较弱。针对当前众包测试各个测试人员协同性较弱的问题,本文提出了一种基于推荐算法的协同测试模块。该模块在测试人员填写测试报告时,通过多种推荐算法,实时推荐数据库中已有的同类测试报告,以供测试人员参考,提高测试工作效率,减少工作成本。本文介绍了项目的背景以及系统中使用的关键技术,分析了项目的基本需求和系统设计,重点阐述了测试报告管理模块、测试报告推荐模块和推荐算法的设计与实现。本系统整体上采用MVC模式的设计思想,使用Spring和SpringMVC框架,以MongoDB作为主要的数据存储载体,并利用Maven和git进行项目管理和版本控制。该项目能够帮助众测工人通过学习参考别人的测试报告,以完成质量更好的测试报告,避免了大量重复的、低质量的测试报告。众测工人们可以通过该模块形成群体智慧,更好地完成众测任务。本系统最终希望通过推荐算法的方式,协同众测工人的工作,提高众测的效率,改善众测结果的质量。

贺胜[5](2017)在《现代汉语深度语义标注语料库研究》文中研究说明当前,世界各国学者都十分重视自然语言处理的知识资源的建设,建立了许多带各种标注信息的语料库,以适应更为深入的语言研究和自然语言处理系统的需要。在中文信息处理方面,汉语标注资源急需的是句子级的资源,需要一种可以描述出句子中词语与词语之间的深度语义信息的标注语料库。因此,探求半自动、甚至自动地建设大规模深度语义标注语料库的策略、模型、技术及方法显得极为迫切。语义分析技术是自然语言处理领域中最重要也是最为困难的问题。如何实现有效、深入、自动的句子语义分析,一直是国内外从事自然语言处理的研究者们所关注的重要目标。目前,自然语言处理领域的语义研究主要集中在浅层语义分析。浅层分析虽然降低了语义分析的难度,但是只解决了动核和语义角色的配置问题,对于情态成分以及名核结构所承担角色的内部语义关系并未进行标注,因此还不是句子语义结构的完整揭示。在我们的深度语义标注语料库中,主是是针对九年制中小学语文课本语料进行语义词类和句法语义范畴标注。语义词类指词汇的所属义类。句法语义范畴指语块所对应的语义范畴信息,包括核心范畴、修饰限定范畴、情态范畴等。目前,国内外语义词典中的语义分类体系更多的都是基于自然科学或常识,与这些基于常识的各种语义分类相比,我们研制的语义词类其突出特点是语义分类取决于句法语义分析的需要,可以解决一些仅靠句法分析难以解决的问题,形成了一套面向计算机语言处理的独特的标注体系,对中文信息处理中的句法语义自动分析具有重要意义。根据该指导思想,我们在语义角色标注方法中,使用了一种与传统方法不同的处理策略,我们称之为基于语义词类和语义句型框架的语义角色标注方法,这一方法将汉语语义角色标注从节点的分类问题转化为序列标注问题,由于避开了传统的句法分析环节,使得语义角色标注摆脱了对句法分析的依赖,从而避开了汉语句法分析器造成的时间和性能限制。经测试,新的方法可以取得较高的准确率,并且大大节省了分析的时间,有利于实际应用。本文围绕现代汉语深度语义标注语料库的建设和应用,进行了一系列的相关技术研究,主要成果如下:1、针对语料库的建设和应用需要,研制开发了语义词类词典制作工具、语义词类自动标注工具、语义词类检索统计工具、句法语义范畴检索统计工具、语义词类与句法语义范畴对应关系检索统计工具、句型抽取统计工具、句模抽取统计工具、句法语义范畴辅助标注工具等应用软件,为深度语义标注语料库的建设和应用提供了很好的技术支持。2、收集、制作了 4万多条的语义词类词典,标注了词性、词类和频率等信息,为语义词类的自动标注提供了语言知识支持。3、针对语义词类的自动标注,设计了基于隐马模型的标注算法,结合基于动态规划的Viterbi算法,在训练语料规模偏小、数据稀疏较严重的情况下仍然取得了封闭测试正确率94.3%,开放测试正确率89.1%的效果。4、针对语义词类标注中的未登录词问题,提出了基于知网概念定义的未登陆词处理方案。经研究发现,语义词类系统和知网概念存在的对应关系主要体现在指称类-实体类、陈述类-事件类两个方面,并据此制定了相应处理规则。5、针对句法语义范畴中的语义角色标注,在总结比较现有主流算法的基础上,提出了基于语义词类和语义句型框架的语义角色标注算法,采用IOB策略,利用CRF模型,结合优化的特征参数,取得了分类精度超过91.8%,系统F值达78%的较好成绩。6、基于已标注的深度语义标注语料库,通过开发相关工具软件,建立了语义词类与句法语义范畴对应关系知识库、语义句型框架库、语义句模知识库,为后续的句法语义研究和应用奠定了更好的基础。基于语义词类自动标注和句法语义范畴中的语义角色标注研究,从实践上验证了语义语法学在自然语言处理中的可行性和实用性。本文的研究成果进一步丰富了语义语法学理论与方法,为实现汉语句子深层语义分析提供了新的途径,为自然语言处理领域基于语义分析的应用系统提供了一种新的技术支撑。

周营[6](2015)在《基于句模与句法分析的事件抽取研究》文中指出许多认知学家认为,在人类的脑海中,记忆是以“事件”为单位进行存储的。模仿人类记忆存储方式,将知识以事件的形式存储在计算机中,对于实现计算机的智能化有着重要的意义。事件抽取是信息抽取领域的一个重要的研究方向,也是人工智能的一个重要研究方向,事件作为知识的一种表示形式对自动问答、自然语言处理、自动文摘以及信息检索等领域的研究有着深远的影响。事件可以为元事件和主题事件,元事件是在文本中表现为句子级的事件,即微观粒度的事件,主题事件是在文中表现为篇章级的事件。本文讨论的对象为微观粒度的事件,即元事件。对于事件的定义目前还没形成统一规范,本文采用鲁川对事件的定义,将事件定义为由一个中枢事元(即本文的事件类动词)以及一个或多个周边事元(即周边角色)组成。目前,国内外研究事件抽取有两种主要方法:基于模式匹配和基于机器学习的方法。基于模式匹配的方法在领域内可以取得良好的效果,但其移植性很不理想,建立模式需要耗费大量的人力物力。基于机器学习的方法不需要构建模式,它依赖于语料库,采用分类的思、想进行事件抽取,该方法在事件抽取方面也取得了较好的效果。本文提出一个改进的基于句法分析的事件抽取算法,并在此基础上提出一个基于句模的事件抽取算法。本文的L要研究内容如下:(1)在利用中科院分词器ICTCLAS2015以及Stanford Parser句法分析器进行预处理的基础上,依据前人以及自己总结的句法分析的特点,提出了一种基于句法分析的改进算法,从文本中自动提取出事件以及事件主体、客体、时间等信息。(2)在鲁川句模的基础上,对句模进行了修改和简化,建立了一个事件类动词句模表。句模表用于将预处理后的文本与句模进行匹配,以便对事件周边角色的提取。(3)对于基于句法分析的事件抽取算法中的不足,本文提出了一种基于句模的事件抽取算法,该算法可以很好的提取出事件的周边角色,使提取出来的事件信息更加精细。(4)本文还提出一个句模匹配算法,该算法首先利用分词后的文本以及句法分析的文本表示与句模进行匹配,匹配成功则利用句模来提取事件的周边角色,匹配失败则利用基于句法分析的事件抽取算法抽取事件。

赵颖[7](2012)在《基于文本类别的层次中文分词算法研究》文中研究指明随着社会信息化的发展,无论是党政机关,还是公司企业学校,人们更青睐于用电子文档的形式来存储、备份文档。于是电子信息迅速增长成了海量信息,这给人们从中获取自己所需的信息增加了很大的困难,所以必须对海量信息进行处理,中文分词技术就是中文信息处理的基础。经过十几年的研究发展中文分词技术有了很大突破,但是中文分词系统始终存在着不足,这是由于中文语言的复杂性导致的。为了提高中文分词系统的准确率,通过对中文分词现状的学习,深入研究了常用的中文分词算法和各种分词词典结构,提出了改进算法。本文提出了一个基于双数组的逆向匹配分词算法,在词典结构上,使用双数组词典,它继承了TRIE索引树逐字匹配的特点,节省了空间,提高了查询效率;在匹配算法上,根据统计在同等条件下,单纯使用逆向最大匹配比正向最大匹配的错误率低,所以本文实现的算法是结合了双数组和逆向匹配的优点。从实验结果来看,这种结合了双数组逆序词典结构和逆向匹配的中文分词算法取得了较好的成果。为了给算法提供一个好的应用环境,本文设计了一个基于文档类别的层次中文分词系统。一般说来,分词模型不考虑文本的类别属性,然而对于类别信息丰富、复杂度大、专业性强的知识管理应用系统而言,就需要更具针对性的分词方式。这种基于文档类别的中文分词系统模型,分为输入层、分类层、分词层、数据层;数据层的词典有四种:分别是基础信息词典、核心词典、专业词典和临时词典。由于专业词典具有针对性,占用空间小,灵活性高,易更新,使得未登录词能及时得到补充。该系统能够对携带分类信息的文本按照类别选择专业词典进行层次分词处理,提高了专业词汇的切分准确率,在试验中得到了良好的证明。

黄莉[8](2010)在《词法分析在自然语言处理中的地位和作用》文中进行了进一步梳理本文从词法分析的特点和难点角度分析了词法分析在自然语言处理中的作用和地位,并介绍了中文词法分析中一些典型的自动分词算法。

郝丽维[9](2009)在《中文网页热门主题获取系统的研究与实现》文中研究指明互联网的快速发展,使得网络成为民众表达舆情民意的重要平台,随之产生的问题是政府如何及时掌握舆情动态、积极引导社会舆论,以维护社会的稳定与和谐。因此,网络舆情的研究具有重要意义。论文针对互联网舆情信息挖掘技术进行研究,具体包括:(1)网页信息采集技术:论文分析了网络传输过程中的协议类型和网页结构,通过对获得的IP数据包进行过滤,实现对网页标题的截取。(2)中文分词技术:针对网页标题的结构特点,论文采用基于名词的分词方法,将分词结果表示成数字序列的形式,以提高处理速度,减少算法的内存开销。(3)数据流频繁项集挖掘技术:根据数据流无限性和流动性的特点,提出了一种在滑动窗口中挖掘频繁项集的算法FIM-SW。FIM-SW算法主要是采用垂直的数据库表示方法,使用二进制向量表示每个数据项,并利用Apriori性质产生频繁项集。实验结果表明,这种算法显着地提高了挖掘效率。结合以上的研究,实现了中文网页热门主题获取系统,包括获取网页主题模块、中文分词模块和统计频繁主题模块。实验表明,系统能够发现网络数据流中的热门主题。另外,在对系统进行测试的过程中,发现并分析了系统参数对系统性能的影响,为提高系统性能提供了依据。

李跃民,王浩,赵生慧,计成超[10](2009)在《智能辅助教学系统中知识点切分歧义消除研究》文中进行了进一步梳理智能辅助教学系统(ICAI)的出现使得CAI得到了更加广泛的应用,应用ICAI可以帮助学习者巩固相关知识点。根据IEEE 1484,设计了一个专门的ICAI。从ICAI的课件、教材、试题库中切分知识点时,容易产生歧义。因此,提出了歧义消除算法,并对算法进行了简单的分析。模拟实验证明,在专门的ICAI基础上设计的知识点歧义消除算法,使得知识点的召回率、精确率分别提高了1%和3%。最后介绍了系统实现的部分功能。实践测试说明,在一个章节中,切分后的知识点经过歧义消除后未产生歧义的分词。

二、基于汉语句模的中文分词算法(论文开题报告)

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

三、基于汉语句模的中文分词算法(论文提纲范文)

(1)基于事件属性的事件内涵获取研究与实现(论文提纲范文)

摘要
ABSTRACT
第1章 绪论
    1.1 研究背景及意义
    1.2 国内外研究现状
        1.2.1 常识研究现状
        1.2.2 事件研究现状
    1.3 研究内容
    1.4 论文结构组成
第2章 FSTD框架的扩充
    2.1 FSTD的介绍
    2.2 FSTD存在的问题及解决方法
    2.3 自移事件属性库的构建
        2.3.1 自移事件定义预处理
        2.3.2 训练词向量模型
        2.3.3 计算文本相似度
        2.3.4 基于K-means算法的聚类
    2.4 实验结果与分析
        2.4.1 实验环境和数据集
        2.4.2 评价指标
        2.4.3 K-means聚类实验结果与分析
        2.4.4 自移事件属性库的构建结果与分析
        2.4.5 FSTD扩充结果与分析
        2.4.6 Early解析器自移事件属性值抽取与分析
    2.5 小结
第3章 基于自移内涵的自动分类方法
    3.1 自移事件自动分类方法
    3.2 自移事件的继承方法
    3.3 自移事件的分类结果与分析
    3.4 小结
第4章 自移事件的语义约束的获取
    4.1 自移事件属性的谓词表示
    4.2 自移事件的关系及其谓词表示
        4.2.1 非继承关系
        4.2.2 自移事件的通用谓词及其表示
    4.3 基本语义约束
    4.4 复杂语义约束
    4.5 事件语义约束的错误分析与验证
        4.5.1 语义约束的语法错误与检测算法
        4.5.2 语义约束的非语法错误与检测算法
        4.5.3 语义约束的冗余性和不一致性错误与检测算法
        4.5.4 语义约束的实验环境、实验数据和验证指标
        4.5.5 语义约束的实验结果与分析
    4.6 小结
第5章 总结与展望
    5.1 总结
    5.2 工作展望
参考文献
攻读硕士期间的科研情况
致谢

(2)机器解答电路题目方法研究(论文提纲范文)

摘要
Abstract
第1章 绪论
    1.1 研究背景和意义
    1.2 研究综述
        1.2.1 机器解答研究现状
        1.2.2 题目文本理解的三类方法
        1.2.3 题目图形理解的两类方法
        1.2.4 自动推理方法
    1.3 研究目标和内容
    1.4 论文的组织结构
第2章 机器解答理论与框架
    2.1 机器解答的通用流程
    2.2 电路题目的机器解答理论
        2.2.1 等价表示理论
        2.2.2 等价转换理论
        2.2.3 类人解答理论
    2.3 电路题目的信息构成
        2.3.1 电路题目的组成
        2.3.2 电路关系
    2.4 电路题目的机器解答框架
        2.4.1 题目理解框架
        2.4.2 自动求解框架
    2.5 本章小结
第3章 基于关系抽取的题目文本理解方法
    3.1 电路题目文本理解方法概述
        3.1.1 问题定义
        3.1.2 题目文本理解方法
        3.1.3 文本元数据处理
    3.2 基于语义理解的题目文本理解方法
        3.2.1 语义句模的构建
        3.2.2 基于语义句模的语义理解方法
    3.3 基于句法语义模型的直陈关系抽取算法
        3.3.1 句法语义模型的构建
        3.3.2 直陈关系抽取的算法流程
        3.3.3 使用句法语义模型抽取直陈关系
    3.4 基于单位定理模型的隐含关系抽取算法
        3.4.1 单位定理模型的构建
        3.4.2 隐含关系抽取的算法流程
        3.4.3 使用单位定理模型抽取隐含关系
    3.5 电路题目文本理解的实验
        3.5.1 数据描述
        3.5.2 评估标准及对比方法
        3.5.3 实验结果和分析
    3.6 本章小结
第4章 基于关系抽取的电路图形理解方法
    4.1 电路图形理解方法概述
        4.1.1 问题定义
        4.1.2 电路图形理解方法
        4.1.3 电路图形识别
    4.2 基于拓扑收缩的电路关系抽取算法
        4.2.1 任务定义
        4.2.2 电路图形的拓扑结构分析
        4.2.3 使用拓扑收缩算法抽取电路关系
        4.2.4 实例分析
    4.3 基于网孔搜索的电路关系抽取算法
        4.3.1 任务定义
        4.3.2 电路图形的网孔结构分析
        4.3.3 使用网孔搜索算法抽取电路关系
        4.3.4 实例分析
    4.4 电路图形理解的实验
        4.4.1 数据描述
        4.4.2 评估标准
        4.4.3 拓扑收缩算法的实验结果和分析
        4.4.4 网孔搜索算法的实验结果和分析
        4.4.5 联合算法的实验结果和分析
    4.5 本章小结
第5章 电路题目的自动求解方法
    5.1 电路题目的求解过程模型
        5.1.1 机器解答过程分析
        5.1.2 求解过程模型
    5.2 基于关系推理的自动求解算法
        5.2.1 电路关系实例化
        5.2.2 图文关系融合
        5.2.3 电路关系推理
        5.2.4 使用关系推理算法求解电路题目
        5.2.5 可读解答过程的呈现
    5.3 电路题目的自动求解实验
        5.3.1 数据描述
        5.3.2 评估标准
        5.3.3 不同解答条件下的实验结果和分析
        5.3.4 不同难度等级下的实验结果和分析
    5.4 本章小结
第6章 基于机器解答的电路辅导系统
    6.1 系统的总体结构
    6.2 题目理解模块
        6.2.1 题目文本理解模块
        6.2.2 电路图形理解模块
    6.3 自动求解模块
    6.4 智能辅导模块
        6.4.1 智能导学
        6.4.2 学习评测
        6.4.3 学习分析
    6.5 本章小结
第7章 总结和展望
    7.1 研究总结
    7.2 研究的不足和展望
参考文献
在校期间发表的学术论文与研究成果
    获奖情况
    发表的学术论文
    参与和主持的科研项目
致谢

(3)基于依存句法的初等数学分层抽样应用题题意理解(论文提纲范文)

0 引 言
1 相关研究
    1.1 数学问题自动求解
    1.2 句 模
    1.3 依存句法
2 分层抽样应用题的句子特征分析
    2.1 文本特征分析
    2.2 句子核心成分
3 基于句模的分层抽样应用题信息抽取方法
    3.1 句模库构建
    3.2 信息抽取
        (1) 文本预处理阶段。
        (2) 句模匹配阶段。
        (3) 信息抽取阶段。
4 基于依存句法的改进句模信息抽取方法
5 实 验
    5.1 实验语料与评价指标
    5.2 实验结果
6 结 语

(4)基于推荐算法的众测协同模块的设计与实现(论文提纲范文)

摘要
Abstract
第一章 引言
    1.1 项目背景
    1.2 众包软件测试的相关工作
    1.3 本文主要研究的工作
    1.4 本文的组织结构
第二章 技术综述
    2.1 Spring相关技术
    2.2 MongoDB
    2.3 自然语言处理NLP
        2.3.1 中文分词
    2.4 推荐算法
    2.5 本章小结
第三章 众包测试协同模块的分析与设计
    3.1 项目总体规划
    3.2 系统需求分析
        3.2.1 总体需求分析
    3.3 系统总体设计与模块设计
        3.3.1 总体结构
        3.3.2 测试报告管理模块
        3.3.3 测试报告推荐模块
        3.3.4 推荐算法模块
    3.4 系统实体关系及数据库设计
    3.6 本章小结
第四章 众包测试协同模块的的实现
    4.1 测试报告管理模块的实现
    4.2 测试报告推荐模块的实现
    4.3 推荐算法的实现
        4.3.1 字符串匹配算法
        4.3.2 基于用户协同过滤推荐算法
    4.5 本章小结
第五章 总结与展望
    5.1 总结
    5.2 进一步工作展望
参考文献
致谢

(5)现代汉语深度语义标注语料库研究(论文提纲范文)

摘要
Abstract
绪论
    一、学术背景与选题说明
    二、研究价值和研究目标
    三、研究思路和研究方法
    四、结构安排和基本术语
第一章 语义知识库、语料库建设概述
    第一节 语言知识库与语料库
        一、语言知识库
        二、语料库
        三、语言知识库与语料库的关系
    第二节 语义知识库建设概况
        一、词义知识库建设现状
        二、句法语义知识库建设现状
    第三节 语义语料库建设现状
第二章 深度语义标注语料库建设思路
    第一节 语义标注语料库建设的理论指导
    第二节 语料库标注规范
        一、规范制定的原则
        二、制定规范的策略
        三、加工的一致性要求
    第三节 语料库标注的原则及注意问题
        一、语料库标注的原则
        二、语料库标注应注意的问题
    第四节 《深度语义标注语料库》介绍
        一、语料的来源
        二、语料库的构成及规模
    第五节 语料库加工流程及标注样例
第三章 深度语义标注语料库的语义词类系统
    第一节 汉语语义词类系统研究概况
    第二节 汉语语义词类系统的比较
        一、语义分类为主,兼顾传统语法词类
        二、传统语法词类为纲,语义词类为目
        三、哲学观点为纲,语义词类为目
    第三节 汉语语义词类系统构建的目的
        一、为语言知识库的研究提供新思路
        二、为中文信息处理的研究提供基础
        三、服务于现代汉语语义网络的建构研究
    第四节 语义词类的分类体系
        一、语义词类系统的分类原则
        二、语义词类系统的分类框架
        三、语义词类系统的标注集
第四章 语义词类自动标注研究
    第一节 系统开发方案
        一、性能指标要求
        二、语义词类的标注困难
        三、系统开发步骤
    第二节 语义词类词典的构建
        一、词典构建方式
        二、本系统词典的结构
        三、语义词类词典制作工具的功能
    第三节 语义词类自动标注的模型算法及处理方式
        一、语言统计模型
        二、标注算法
        三、系统模型参数获取
        四、基于知网概念定义的未登陆词处理
        五、数据稀疏问题的处理
    第四节 技术实现及测试结果分析
        一、系统的开发环境
        二、技术实现
        三、系统实现描述
        四、软件功能及界面
        五、测试结果及分析
第五章 深度语义标注库的句法语义范畴系统
    第一节 句法语义研究现状
        一、国外句法语义研究
        二、汉语句法语义研究
    第二节 语义语法学的句法语义范畴体系
    第三节 句法语义范畴体系中的陈述结构框架
        一、陈述结核范畴体系
        二、基本角色范畴体系
        三、附加角色范畴体系
    第四节 句法语义范畴体系中的指称结构框架
        一、指称结核范畴体系
        二、结核/修饰范畴体系
        三、修饰范畴体系
    第五节 句法语义范畴体系中的其他句法范畴
        一、独语范畴
        二、情态范畴和语气范畴
        三、关联范畴
    第六节 句法语义范畴标注集
第六章 句法语义分析技术研究
    第一节 句法语义分析技术研究现状
    第二节 句法语义分析的常用理论分析
        一、格语法
        二、框架语义学
        三、概念依存理论
        四、依存语法理论
    第三节 句法语义分析的常用方法比较
第七章 句法语义范畴自动标注研究
    第一节 理论依据及标注任务
        一、系统开发的理论依据
        二、标注任务描述
    第二节 标注方案及标注体系
        一、标注任务方案
        二、句法语义范畴体系标记及含义
    第三节 相关语义知识库的构建
        一、语义词类与句法语义范畴对应关系知识库
        二、语义句型框架库的构建
        三、语义句模知识库的构建
    第四节 基于语义句型框架的语义角色标注研究
        一、语义角色的标注策略
        二、结核的确定
        三、条件随机场(CRF)简介
        四、特征描叙和特征选择
    第五节 测试及结果分析
        一、实验语料来源
        二、评价方法
        三、实验结果及分析
        四、句法语义范畴辅助标注工具功能介绍
结论
参考文献
附录
    一、现代汉语语义词类标注系统规范(部分)
    二、句法语义范畴标注规范(部分)

(6)基于句模与句法分析的事件抽取研究(论文提纲范文)

摘要
Abstract
第1章 绪论
    1.1 课题来源
    1.2 研究背景及意义
    1.3 事件抽取研究的现状
        1.3.1 ACE评测会议
        1.3.2 事件的定义
        1.3.3 事件抽取的技术方法
    1.4 本文的主要研究内容
    1.5 论文的结构安排
第2章 文本预处理
    2.1 汉语句子的相关研究
        2.1.1 句法平面
        2.1.2 语义平面—句模
    2.2 中文分词技术
    2.3 句法分析技术
        2.3.1 基于规则的句法分析
        2.3.2 基于统计的句法分析
第3章 基于句法分析的事件抽取算法
    3.1 句法分析树
    3.2 事件及事件元素抽取算法
    3.3 事件抽取结果与分析
第4章 基于句模的事件抽取算法
    4.1 基于句法分析的事件抽取算法的不足
    4.2 句模构建
    4.3 事件抽取
        4.3.1 句模匹配算法
        4.3.2 事件元素抽取算法
        4.3.3 基于句模的事件抽取算法效果展示与分析
第5章 实验与分析
    5.1 系统开发工具
    5.2 系统体系结构
    5.3 预处理阶段
        5.3.1 分词阶段
        5.3.2 句法分析阶段
    5.4 事件及事件元素提取阶段
        5.4.1 句模表的建设与维护
        5.4.2 句模匹配过程
        5.4.3 基于句模的事件提取
        5.4.4 基于句法分析的事件提取
    5.5 实验结果分析
        5.5.1 测评语料与测评标准
        5.5.2 实验结果与讨论
第6章 总结与展望
    6.1 总结
    6.2 展望
参考文献
致谢

(7)基于文本类别的层次中文分词算法研究(论文提纲范文)

摘要
ABSTRACT
第一章 绪论
    1.1 研究背景
    1.2 研究意义
    1.3 研究内容
    1.4 论文的组织
第二章 中文分词和文本分类的研究
    2.1 中文分词技术的研究现状
        2.1.1 中文分词方法
        2.1.2 中文分词的词典结构
    2.2 中文分词技术存在的问题
        2.2.1 分词规范的问题
        2.2.2 歧义处理
        2.2.3 未登录词识别
        2.2.4 分词与理解的先后顺序
    2.3 文本分类技术研究现状
        2.3.1 文本分类模型
        2.3.2 文本分类算法
第三章 基于双数组的逆向匹配分词算法
    3.1 相关技术研究
        3.1.1 概述
        3.1.2 设计思想
    3.2 基于双数组的逆向匹配分词算法
        3.2.1 词典构建
        3.2.2 词匹配过程
    3.3 中文分词算法描述
        3.3.1 双数组词典构造算法
        3.3.2 双数组词典逆向匹配分词算法
    3.4 实验分析
        3.4.1 词典加载速度比较
        3.4.2 分词匹配速度比较
第四章 基于文本类别的层次中文分词系统
    4.1 中文分词系统设计思想
        4.1.1 相关研究
        4.1.2 设计思想
    4.2 中文分词系统架构
        4.2.1 系统总体架构
        4.2.2 系统框架说明
    4.3 数据流图和数据词典
        4.3.1 语料库训练过程数据流图
        4.3.2 数据字典
        4.3.3 按类别分词过程数据流图
        4.3.4 按类别分词过程数据词典
    4.4 关键算法描述
        4.4.1 程序流程图
        4.4.2 分类层算法描述
    4.5 实验分析
        4.5.1 分类词典构建
        4.5.2 实验分析
第五章 总结与展望
    5.1 工作总结
    5.2 下一步工作展望
参考文献
致谢

(8)词法分析在自然语言处理中的地位和作用(论文提纲范文)

0 引言
1 自然语言理解的难点及处理层次
2 词法分析的在自然语言理解中的地位和作用
    2.1 词法分析的特点和任务
    2.2 不同自然语言中词法分析的特点和难点
    2.3 典型的中文自动分词算法
3 总结

(9)中文网页热门主题获取系统的研究与实现(论文提纲范文)

摘要
Abstract
第1章 引言
    1.1 研究背景
    1.2 研究内容和意义
    1.3 国内外研究现状
        1.3.1 WEB挖掘的研究现状
        1.3.2 数据流挖掘的研究现状
    1.4 本文工作
    1.5 论文组织
第2章 数据流挖掘概述
    2.1 数据流
        2.1.1 数据流的概念
        2.1.2 数据流模型
    2.2 数据流挖掘
        2.2.1 数据流挖掘的特点
        2.2.2 数据流挖掘模型
    2.3 数据流挖掘算法
        2.3.1 数据流聚类
        2.3.2 数据流分类
        2.3.3 数据流频繁项集挖掘
    2.4 数据流挖掘的应用
第3章 中文标题的分词和表示
    3.1 中文分词技术
    3.2 面临的难题
    3.3 基于名词的分词方法
        3.3.1 词典的设计
        3.3.2 分词算法
        3.3.3 实验结果
第4章 基于滑动窗口的数据流频繁项集挖掘算法
    4.1 问题描述与定义
    4.2 算法描述
        4.2.1 数据库的表示法
        4.2.2 FIM-SW算法
    4.3 算法分析
第5章 系统实现
    5.1 系统模块组成
        5.1.1 获取网页主题模块
        5.1.2 中文分词模块
        5.1.3 统计频繁主题模块
    5.2 系统测试
        5.2.1 实验数据
        5.2.2 实验结果及分析
第6章 总结与展望
参考文献
攻读硕士学位期间发表论文情况
致谢

(10)智能辅助教学系统中知识点切分歧义消除研究(论文提纲范文)

0 引 言
1 智能辅助教学系统
2 知识点切分歧义消除算法
    2.1 相关定义
    2.2 歧义消除算法
    2.3 算法分析
3 系统实现
4 结束语

四、基于汉语句模的中文分词算法(论文参考文献)

  • [1]基于事件属性的事件内涵获取研究与实现[D]. 曹雨婷. 广西师范大学, 2021(09)
  • [2]机器解答电路题目方法研究[D]. 菅朋朋. 华中师范大学, 2019(01)
  • [3]基于依存句法的初等数学分层抽样应用题题意理解[J]. 吴林静,劳传媛,刘清堂,黄景修,巴深. 计算机应用与软件, 2019(05)
  • [4]基于推荐算法的众测协同模块的设计与实现[D]. 王昕尧. 南京大学, 2018(08)
  • [5]现代汉语深度语义标注语料库研究[D]. 贺胜. 南京师范大学, 2017(06)
  • [6]基于句模与句法分析的事件抽取研究[D]. 周营. 广西师范大学, 2015(05)
  • [7]基于文本类别的层次中文分词算法研究[D]. 赵颖. 广西大学, 2012(02)
  • [8]词法分析在自然语言处理中的地位和作用[J]. 黄莉. 价值工程, 2010(10)
  • [9]中文网页热门主题获取系统的研究与实现[D]. 郝丽维. 河北大学, 2009(02)
  • [10]智能辅助教学系统中知识点切分歧义消除研究[J]. 李跃民,王浩,赵生慧,计成超. 计算机技术与发展, 2009(04)

标签:;  ;  ;  ;  ;  

基于中文句型的中文分词算法
下载Doc文档

猜你喜欢