一、中文全文检索的实现与研究(论文文献综述)
梁少博,朱慧宁,吴丹[1](2022)在《基于公共数字文化资源命名实体识别与翻译的跨语言信息检索研究》文中指出对我国公共数字文化资源中的优秀传统文化内容进行多语言组织与检索,能够有效促进我国优秀传统文化的推广,推动中国优秀传统文化"走出去"。戏剧文化资源是我国公共数字文化资源的重要组成部分,以湖南地方戏剧资源为研究对象,构建了基于湖南地方戏剧资源命名实体的双语词典,采用提问式翻译策略来实现源语言与目标语言的语种统一,实现了对湖南地方戏剧资源的中英文跨语言信息检索,并对其跨语言信息检索结果进行评价,评价结果显示跨语言信息检索方法提升了检索性能,为戏曲文化资源的跨语言信息检索提供了支撑。
田亮,李博闻,章成志[2](2022)在《基于学术论文全文的跨语言研究方法自动分类研究》文中研究指明自动识别学术论文所使用的研究方法对研究方法的评估、方法使用行为分析、方法检索等均具有重要意义。学术论文研究方法的自动分类离不开大量训练语料,但论文研究方法标注成本高昂,探讨如何充分利用现有标注数据对于降低标注成本具有重要意义。以图书情报领域为研究对象,首先通过实验比较了基于英文摘要的单语言方法和基于全文的跨语言方法,进而说明了使用跨语言方法的必要性;其次比较了两种跨语言方法在跨语言研究方法分类中的效果;最后对本文提出的一种学术论文全文处理方法进行了验证。实验结果表明,基于学术论文全文的跨语言方法明显优于基于英文摘要的单语言方法,基于机器翻译的方法比基于跨语言预训练模型的方法更优。此外,实验表明针对学术论文全文的长文本处理方法相较于基线方法有明显提升。
李国华[3](2021)在《现代心灵及身体与言及文之关系——鲁迅《野草》的一个剖面》文中提出鲁迅留日时期对于20世纪文明的根本性理解都与"内部之生活"有关,其所谓"内部之生活"发生在"本有心灵之域",通过"客观之物质世界""自然""观念世界"等外部关联的参照确立边界。(1)鲁迅以此提出了现代心灵的问题,并试图通过文艺工作叩问和解决它,从而写作《摩罗诗力说》和翻译域外小说。
王贺[4](2021)在《追寻“数字鲁迅”:文本、机器与机器人——再思现代文学“数字化”及其相关问题》文中研究指明在中国现代文学研究乃至整个人文学术、社会科学研究中,重视数字资源的获取与利用,已是不争的共识与显见的事实。但这些资源数量极多,又涵括不同的类型、具有不同的特点,利用方式因之亦有不少差异,实难泛泛而论,而在许多普通读者及不专门从事"数字人文""数字学术"等研究的学者眼中,
陈娟[5](2021)在《基于Java的搜索引擎的研究与设计》文中进行了进一步梳理本文首先介绍了搜索引擎概念和工作原理,然后介绍了开发一个搜索引擎所使用到的相关技术,最后研究设计了一个基于Java的搜索引擎系统,可以模拟真实的网络搜索引擎实现搜索功能。
任平[6](2021)在《数字人文部分相关资源简介》文中研究表明一、图书资源A Companion to Digital Humanities(《数字人文指南》,ISBN:9781405103213)于2004年11月由Blackwell出版社出版,由Susan Schreibman、Ray Siemens和John Unsworth编辑。本书收录由该领域学者撰写的37篇原创文章,提出了数字人文的概念。2016年1月,Wiley-Black出版其修订本:A New Companion to Digital Humanities(《最新数字人文指南》,ISBN:9781118680599),提供数字人文学科领域最全面和最新的研究资料。2007年2月,
柳帆[7](2021)在《基于ElasticSearch的科技资源检索系统的研究与实现》文中认为针对科技行业中传统数据库检索无法满足海量、异构科技资源数据高速分布式检索的问题,提出了基于ElasticSearch的科技资源分布式搜索引擎的构建方法,并以ElasticSearch技术为核心,结合LogStash、Redis等多门技术,实现了科技资源检索系统。系统使用LogStash将数据库中的标准化数据同步到ElasticSearch,再通过SpringBoot读取后端数据,VUE框架展示前端数据,Redis缓存热搜信息和用户信息。测试结果表明,与传统数据库检索相比,该系统的检索响应时间明显缩短,检索结果全面,能够满足科技资源数据检索的需要。
张柳[8](2021)在《社交网络舆情用户主题图谱构建及舆情引导策略研究》文中进行了进一步梳理习近平总书记在党的十九大上向全党全国人民发出了“坚定文化自信,推动社会主义文化繁荣兴盛”的伟大号召。“总体国家安全观”也被列为新时代背景下建设有中国特色社会主义的基本方略。对社交网络舆情的有效监管,是在新形势下应对国家安全环境新变化、新发展的必然要求。但是,网络的虚拟性,给社交网络舆情的监管带来了极大的难度。社交网络以及舆情用户的特性对社交网络舆情信息生态平衡有着较大的影响,如若不加以正确的引导与管理,会导致社交网络舆情生态系统恶化,甚至威胁社会和谐和国家稳定。如何有效地利用知识图谱构建社交网络舆情用户主题图谱系统模型,挖掘用户的潜在社群,确定用户的身份特征,并分析出用户的情感倾向,是舆情监管工作的有效切入点。本文结合文献分析法、实证研究法、知识图谱和机器学习等方法,构建社交网络舆情用户主题图谱并提出舆情引导策略。具体来说,本研究主要包括六个部分。首先,第三章提出社交网络舆情用户主题图谱系统模型,是全文的理论核心框架,指出社交网络舆情用户主题图谱系统模型的四个关键要素为信息环境、信息人、信息和信息技术,并通过用户社群图谱、用户身份图谱和用户情感图谱构成多维度的主题图谱;之后,第四章至第六章分别基于信息环境、信息人和信息,以“埃航空难”作为典型话题案例,运用实证分析方法,通过构建用户社群图谱、用户身份图谱以及用户情感图谱,研究社交网络舆情用户社群发现、用户身份识别以及情感演化规律,为第七章和第八章提供理论支撑;随后,第七章提出社交网络舆情生态性评价,并基于第四、五、六章的分析内容提出社交网络舆情生态性评价指标,为第八章提出的舆情引导策略提供理论支撑;最后,第八章提出社交网络舆情引导策略,为本文实践层面的落脚点。下面予以详细阐述。第三章社交网络舆情用户主题图谱系统构建。首先,提出社交网络舆情用户主题图谱的信息生态要素为环境要素、主体要素、客体要素以及技术要素;其次,结合知识图谱的相关理论,提出社交网络舆情用户主题图谱的实体识别、关系抽取、属性抽取以及模型构建;然后,指出社交网络舆情用户主题图谱分别由用户社群图谱、用户身份图谱和用户情感图谱三个维度构成,并从信息环境角度对社群发现、信息人角度对身份识别以及信息角度对情感演化进行深度分析,并在此基础上对整个社交网络舆情进行生态性评价;最后,提出社交网络舆情用户主题图谱系统模型。第四章社交网络舆情用户社群图谱构建及关系发现。本章基于信息环境理论,结合JS散度的LDA主题模型构建社交网络舆情用户社群图谱,并进行社群关系发现。采用实证研究法,对“埃航空难”话题下的舆情文本进行主题建模,利用困惑度指标确定舆情用户最优主题数,通过JS散度进行相似度度量,并将计算结果作为边权重,使用VOSviewer软件构建用户社群图谱,进一步划分多个网络社群,对网络社群的主题偏好以及用户特征进行分析讨论,并准确定位网络社群中的意见领袖。本章主要研究社交网络舆情中的信息环境,与第五、六章相呼应,为第七章社交网络舆情生态性评价指标(B1、B2)和第八章社交网络舆情社群的引导策略提供理论支撑。第五章社交网络舆情用户身份图谱构建及身份识别。本章基于信息人理论,结合LDA主题模型和朴素贝叶斯分类器模型构建社交网络舆情用户身份图谱,并对用户身份进行识别。首先,采用实证研究法,以突发事件“埃航空难”话题作为信息环境构建舆情空间,挖掘舆情用户转发评论文本的深层语义特征,剖析舆情用户的身份特征和传播特征;然后利用朴素贝叶斯分类器划分舆情用户类型,结合舆情生命周期,使用Neo4j绘制用户身份图谱,从而有效掌握社交网络舆情用户身份类型,并系统剖析社交网络舆情用户主题关注点及演化过程。本章主要研究社交网络舆情中的信息人,与第四、六章相呼应,为第七章社交网络舆情生态性评价指标(B3、B4、B5)和第八章社交网络舆情用户的引导策略提供理论支撑。第六章社交网络舆情用户情感图谱构建及情感演化。本章基于信息理论,基于字词向量的多尺度卷积神经网络构建社交网络舆情用户情感图谱,有效划分舆情用户情感倾向。首先,采用实证研究法,以突发事件“埃航空难”话题为例对舆情用户的转发评论信息进行情感分类,并对构建的舆情文本情感分类模型的准确性进行验证分析,并验证模型的优越性;然后,结合舆情文本的情感倾向与突发事件舆情发展周期,使用Gephi绘制用户情感图谱,动态展示社交网络舆情用户情感演化过程,全面分析网络舆情的发展与舆情用户的情感变化规律。本章主要研究社交网络舆情中的信息,与第四、五章相呼应,为第七章社交网络舆情生态性评价指标(B6)和第八章社交网络舆情情感的引导策略提供理论支撑。第七章社交网络舆情生态性评价。本章基于信息生态系统理论提出社交网络舆情生态性评价体系。采用综合模糊评价法,对突发事件“埃航空难”话题的爆发期阶段进行生态性评价,并对评价结果进行了分析,有效地解决了生态评价指标难以量化的问题,为生态性评价提供了可操作性的解决方案。本章与第四、五、六章相呼应,为第八章社交网络舆情情感的引导策略提供理论支撑。第八章社交网络舆情引导策略。本章基于第四、五、六章的研究结论,在第七章社交网络舆情生态性评价指标的基础上,提出社交网络舆情引导策略。首先从互联网及社交网络舆情生态性的角度指出目前存在的问题;然后分别从信息环境、信息人以及信息三个维度提出了引导策略。具体而言,本章从信息环境维度,提出加强衍生话题的监测、完善社交网络舆情话题推送和重视社群服务的社群引导策略;从信息人维度,提出完善用户类型化管理、发挥主流媒体的作用和完善意见领袖沟通机制的用户引导策略;从信息维度,提出社交网络内容精细化管理、重视舆情情感引导、完善健全舆情情感预警机制的情感引导策略。本文在理论层面,提出了社交网络舆情用户主题图谱的系统构建方式,为社交网络舆情主题图谱的构建提供理论基础及实践指导。从用户社群、用户身份、用户情感三个不同维度构建了社交网络舆情用户主题图谱系统模型,从而使得管控主体能够深入挖掘用户的潜在社群、有效地识别用户身份、准确地分析用户的情感倾向;同时,提出的生态性评价指标为社交网络舆情生态评价提供了可量化的评价标准,为社交网络舆情的科学管理提供了有效的理论支撑。在舆情的具体实践中,能够指导管控主体从社群、用户、情感三个层面入手,制定相应的管控策略,指引社交网络平台的系统开发方向,保障社交网络舆情生态朝着健康的方向发展。
许和旭,傅广衡[9](2021)在《面向数字档案服务与利用的全文索引系统构建研究》文中指出数字档案资源融合共享服务的不断推进,方便了用户对档案资源的访问与查阅,提高了档案的利用效率。但是,随着数字档案资源越来越多,也给用户检索和定位档案信息带来了一定的困难。借鉴当前主流互联网搜索引擎的算法和功能,对数字档案资源进行文本化处理,通过分词、索引词提取、权重分析等过程,并使用基于Python语言的Django框架进行系统搭建,构建数字档案资源全文索引数据库,可以实现对数字档案资源的内容检索,从而达到节省用户时间的目的。
李淏[10](2021)在《基于语义关系网的中文电子病历检索策略研究》文中认为
二、中文全文检索的实现与研究(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、中文全文检索的实现与研究(论文提纲范文)
(1)基于公共数字文化资源命名实体识别与翻译的跨语言信息检索研究(论文提纲范文)
1 引言 |
2 相关研究 |
2.1 中英文跨语言信息检索 |
2.2 跨语言信息检索方法 |
2.3 命名实体识别与翻译 |
3 基于湖南地方戏剧资源命名实体的双语词典构建 |
3.1 湖南地方戏剧资源选取 |
3.2 湖南地方戏剧资源命名实体识别 |
3.2.1 人名、地名、机构名等命名实体识别 |
3.2.2 乐器名、剧种名等命名实体识别 |
3.3 湖南地方戏剧资源命名实体翻译 |
3.3.1 人名、地名命名实体的翻译 |
3.3.2 机构名命名实体的翻译 |
3.3.3 其他命名实体的翻译 |
4 面向湖南地方戏剧资源的跨语言信息检索实现 |
4.1 检索模型设计 |
4.2 检索功能实现 |
4.2.1 命名实体双语词典构建模块 |
4.2.2 文档处理模块 |
4.2.3 查询处理模块 |
4.2.4 跨语言检索模块 |
5 面向湖南地方戏剧资源的跨语言信息检索效果评价 |
5.1 跨语言信息检索效果评价指标 |
5.2 跨语言信息检索效果评价结果 |
6 结语 |
(2)基于学术论文全文的跨语言研究方法自动分类研究(论文提纲范文)
1 引言 |
2 相关研究工作概述 |
2.1 LIS领域研究方法分类研究概述 |
2.2 跨语言文本分类研究概述 |
3 研究内容 |
3.1 数据集概述 |
3.2 基于英文摘要的单语言研究方法分类 |
3.3 基于全文的跨语言研究方法分类 |
4 实验与结果分析 |
4.1 评价指标 |
4.2 实验结果分析 |
4.3 学术论文研究方法分类对比分析 |
5 结论与展望 |
(3)现代心灵及身体与言及文之关系——鲁迅《野草》的一个剖面(论文提纲范文)
一、何以“自言自语”? |
二 、现代心灵问题的模进 |
三、身心分裂与言文分离 |
四、“内部之生活”的表达边界和限度 |
(4)追寻“数字鲁迅”:文本、机器与机器人——再思现代文学“数字化”及其相关问题(论文提纲范文)
一、“直待凌云始道高”(3)——中文电子文本的诞生与最早的《鲁迅全集》电子版 |
二、读者与技术的互动——几种重要的《鲁迅全集》电子版 |
三、同中之异与异中之同——《鲁迅全集》电子书诸类型及其特点 |
四、当鲁迅与移动互联网相遇——《鲁迅全集》手机应用程序论衡 |
五、机器阅读鲁迅——北京鲁迅博物馆“资料查询在线检索系统”及其他 |
六、作为文化符号的鲁迅——电子游戏、机器人与“数字鲁迅” |
七、数字时代如何“观乎人文”?——再思现代文学“数字化”及其相关问题 |
(6)数字人文部分相关资源简介(论文提纲范文)
一、图书资源 |
二、期刊资源(含集刊) |
三、数据库资源 |
四、机构组织 |
(7)基于ElasticSearch的科技资源检索系统的研究与实现(论文提纲范文)
0 引言 |
1 相关技术 |
1.1 Lucene |
1.2 ElasticSearch |
1.3 中文分词 |
1.4 Logstash Logstash |
2 设计与实现 |
2.1 分词器的选择与比较 |
2.2 系统总体架构 |
2.3 数据导入 |
2.4 分布式索引子系统 |
2.4.1 中文分词的实现 |
2.4.2 索引的实现 |
2.5 分布式检索子系统 |
2.5.1 检索的实现 |
2.5.2 联想搜索的实现 |
2.6 Redis缓存 |
3 实验结果与分析 |
4 结语 |
(8)社交网络舆情用户主题图谱构建及舆情引导策略研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究背景与选题意义 |
1.1.1 研究背景 |
1.1.2 选题意义 |
1.2 国内外研究现状 |
1.2.1 国内外社交网络舆情研究现状 |
1.2.2 国内外网络舆情知识图谱研究现状 |
1.2.3 研究现状评述 |
1.3 研究内容与方法 |
1.3.1 研究内容 |
1.3.2 研究方法 |
1.3.3 研究对象 |
1.4 研究技术路线图 |
第2章 相关概念及理论基础 |
2.1 社交网络舆情的相关概念 |
2.1.1 社交网络舆情的内涵 |
2.1.2 社交网络舆情用户 |
2.1.3 社交网络舆情的特征 |
2.1.4 社交网络舆情演化过程 |
2.2 主题图谱的相关概念 |
2.2.1 知识图谱的内涵 |
2.2.2 主题图谱的内涵 |
2.2.3 主题模型的内涵 |
2.3 突发事件的相关概念 |
2.3.1 突发事件的内涵 |
2.3.2 突发事件的类型 |
2.3.3 突发事件的特征 |
2.4 信息生态的相关理论 |
2.4.1 信息生态的内涵 |
2.4.2 信息生态系统 |
2.4.3 信息生态因子 |
2.4.4 信息生态链 |
2.5 本章小结 |
第3章 社交网络舆情用户主题图谱系统模型 |
3.1 社交网络舆情用户主题图谱的信息生态要素 |
3.1.1 社交网络舆情用户主题图谱的环境要素 |
3.1.2 社交网络舆情用户主题图谱的主体要素 |
3.1.3 社交网络舆情用户主题图谱的客体要素 |
3.1.4 社交网络舆情用户主题图谱的技术要素 |
3.1.5 社交网络舆情用户主题图谱信息生态要素模型 |
3.2 社交网络舆情用户主题图谱构建 |
3.2.1 社交网络舆情用户主题图谱的实体识别 |
3.2.2 社交网络舆情用户主题图谱的属性抽取 |
3.2.3 社交网络舆情用户主题图谱的关系抽取 |
3.2.4 社交网络舆情用户主题图谱的模型 |
3.3 社交网络舆情用户主题图谱构成 |
3.3.1 社交网络舆情用户社群图谱 |
3.3.2 社交网络舆情用户身份图谱 |
3.3.3 社交网络舆情用户情感图谱 |
3.3.4 社交网络舆情生态性及评价 |
3.4 主题图谱系统模型构建 |
3.5 本章小结 |
第4章 社交网络舆情用户社群图谱构建及社群发现 |
4.1 社交网络舆情用户社群图谱问题的提出 |
4.2 社交网络舆情用户社群发现模型 |
4.2.1 LDA主题模型 |
4.2.2 相似度度量 |
4.3 社交网络舆情用户社群图谱模型构建 |
4.3.1 社交网络舆情用户社群图谱建模思想 |
4.3.2 基于LDA主题模型的社交网络舆情用户社群图谱模型 |
4.4 研究设计 |
4.4.1 数据来源 |
4.4.2 数据采集 |
4.4.3 数据处理 |
4.5 数据结果 |
4.5.1 确定最优主题数 |
4.5.2 计算JS散度 |
4.5.3 构建用户社群图谱 |
4.6 讨论分析 |
4.6.1 社交网络社群主题偏好分析 |
4.6.2 社交网络社群用户特征分析 |
4.6.3 社交网络社群意见领袖识别 |
4.7 本章小结 |
第5章 社交网络舆情用户身份图谱构建及身份识别 |
5.1 社交网络舆情用户身份图谱问题的提出 |
5.2 社交网络舆情用户身份识别模型 |
5.2.1 LDA语义特征挖掘 |
5.2.2 身份特征和传播特征构建 |
5.2.3 朴素贝叶斯分类器 |
5.3 社交网络舆情用户身份图谱模型构建 |
5.3.1 社交网络舆情用户身份图谱建模思想 |
5.3.2 基于LDA和朴素贝叶斯的用户身份图谱模型 |
5.4 研究设计 |
5.4.1 数据来源 |
5.4.2 数据采集 |
5.4.3 数据处理 |
5.4.4 舆情事件概况及周期划分 |
5.5 数据结果 |
5.5.1 用户关注主题划分 |
5.5.2 用户身份识别 |
5.5.3 构建用户身份图谱 |
5.6 讨论分析 |
5.6.1 社交网络舆情用户身份分类 |
5.6.2 社交网络舆情用户主题关注点比较 |
5.6.3 社交网络舆情用户关注点演化分析 |
5.7 本章小结 |
第6章 社交网络舆情用户情感图谱构建及情感演化 |
6.1 社交网络舆情用户情感图谱问题的提出 |
6.2 社交网络舆情用户情感分类模型 |
6.2.1 中文分词与词向量训练 |
6.2.2 卷积神经网络 |
6.3 社交网络舆情用户情感图谱构建模型 |
6.3.1 社交网络舆情用户情感图谱建模思想 |
6.3.2 基于字词向量的多尺度卷积神经网络的社交网络舆情用户情感图谱模型 |
6.4 研究设计 |
6.4.1 数据来源 |
6.4.2 数据处理 |
6.4.3 模型设置 |
6.4.4 文本向量训练与选择 |
6.4.5 整体架构与算法流程 |
6.5 基于卷积神经网络超参数确定及实验对比 |
6.5.1 卷积核尺寸 |
6.5.2 激活函数 |
6.5.3 Dropout随机失活率与迭代次数 |
6.5.4 实验结果对比 |
6.6 数据结果 |
6.6.1 情感分类结果 |
6.6.2 构建用户情感图谱 |
6.7 讨论分析 |
6.7.1 社交网络舆情用户内容特征分析 |
6.7.2 社交网络舆情用户情感分布分析 |
6.7.3 舆情用户的情感演化分析 |
6.8 本章小结 |
第7章 社交网络舆情生态性评价 |
7.1 社交网络舆情生态性评价问题的提出 |
7.2 评价指标体系构建 |
7.2.1 信息环境维度 |
7.2.2 信息人维度 |
7.2.3 信息维度 |
7.2.4 信息技术维度 |
7.3 评价方法及过程 |
7.4 实证分析 |
7.4.1 样本选择 |
7.4.2 评价过程 |
7.5 社交网络舆情生态性评价结果分析 |
7.5.1 一级指标得分情况分析 |
7.5.2 二级指标得分情况分析 |
7.6 本章小结 |
第8章 社交网络舆情引导策略 |
8.1 社交网络舆情引导问题的提出 |
8.1.1 社交网络舆情引导的重要性 |
8.1.2 社交网络舆情引导生态性挑战 |
8.1.3 社交网络舆情引导体系 |
8.2 社交网络舆情社群的引导策略 |
8.2.1 加强衍生话题的监测 |
8.2.2 完善社交网络舆情话题推送 |
8.2.3 重视网络社群服务的提升 |
8.3 社交网络舆情用户的引导策略 |
8.3.1 完善用户类型化管理 |
8.3.2 发挥主流媒体的作用 |
8.3.3 建立意见领袖的沟通机制 |
8.4 社交网络舆情情感的引导策略 |
8.4.1 社交网络内容精细化管理 |
8.4.2 重视舆情情感引导 |
8.4.3 完善舆情情感预警机制 |
8.5 本章小结 |
第9章 研究结论与展望 |
9.1 研究结论 |
9.2 研究创新点 |
9.3 研究局限及展望 |
参考文献 |
作者简介与研究成果 |
致谢 |
(9)面向数字档案服务与利用的全文索引系统构建研究(论文提纲范文)
1 引言 |
2 全文索引与检索的基本原理 |
2.1全文索引 |
2.2倒排索引 |
2.3数字档案全文索引系统构建流程 |
3 数字档案全文索引系统构建的关键技术 |
3.1档案解析 |
3.2档案文本预处理 |
3.2.1完善分词库 |
3.2.2分词 |
3.2.3数据清洗 |
3.3标引词抽取与加权 |
3.4档案索引构建 |
3.5检索与返回结果 |
4 系统实现与测试 |
4.1开发环境与框架 |
4.2权重参数设置 |
4.3数据与结果展示 |
5 结语与展望 |
四、中文全文检索的实现与研究(论文参考文献)
- [1]基于公共数字文化资源命名实体识别与翻译的跨语言信息检索研究[J]. 梁少博,朱慧宁,吴丹. 图书馆建设, 2022
- [2]基于学术论文全文的跨语言研究方法自动分类研究[J]. 田亮,李博闻,章成志. 图书馆建设, 2022
- [3]现代心灵及身体与言及文之关系——鲁迅《野草》的一个剖面[J]. 李国华. 文艺争鸣, 2021(11)
- [4]追寻“数字鲁迅”:文本、机器与机器人——再思现代文学“数字化”及其相关问题[J]. 王贺. 文艺争鸣, 2021(11)
- [5]基于Java的搜索引擎的研究与设计[J]. 陈娟. 电子技术与软件工程, 2021(21)
- [6]数字人文部分相关资源简介[J]. 任平. 数字人文, 2021(03)
- [7]基于ElasticSearch的科技资源检索系统的研究与实现[J]. 柳帆. 现代计算机, 2021(26)
- [8]社交网络舆情用户主题图谱构建及舆情引导策略研究[D]. 张柳. 吉林大学, 2021(01)
- [9]面向数字档案服务与利用的全文索引系统构建研究[J]. 许和旭,傅广衡. 档案, 2021(08)
- [10]基于语义关系网的中文电子病历检索策略研究[D]. 李淏. 北京交通大学, 2021