一、OCR汉字识别技术进展(论文文献综述)
蔡斯琪[1](2021)在《不定长中文文本图像的识别算法研究》文中研究说明文字记载了几千年人类的文明和历史,是人类信息中最重要的载体。直至今日,现实生活中的众多场景都使用文字形式来进行信息交互。而图像是记录文字信息最快速的载体。在快节奏的生产生活中,信息的电子化处理已成为一种不可逆转的趋势。识别并理解图像中的文字信息就具有很高的研究价值和广泛的应用场景,能使生活变得越来越智能化和便捷化。虽然文字识别技术已经发展了多年,但是由于中文汉字的字符类别多、字形复杂、词频不均衡,文本长短不一的特点,对中文文本的识别任务依旧富有挑战性。随着深度学习的兴起,给计算机视觉领域带来了更多的解决方案。针对以上问题,本文将利用深度学习技术,结合中文文本的特性,进行对不定长中文文本图像的序列识别模型算法研究,主要研究内容如下:(1)利用中文词频的分布差异,提出了基于bigram混合标签的联合CTCAttention方法。此方法首先从中文文本数据集中统计高频二字子词,把它们加入到原始单字符标签中,构建bigram混合标签,缩短了编码和译码长度,有助于减少循环神经网络的长期依赖问题。在解码阶段,CTC模块输出一个初步结果,其中混淆的预测被替换为二字子词。利用CTC的帧间对齐能力和初步预测结果,引导Attention模块聚焦注意力范围,精确解码。在两个中文文本合成数据集、一个手写中文文本数据集、一个街景长文本数据集上做了测试。与现有的方法相比,此方法在不定长中文文本识别上精确度最高。(2)降低中文词频的影响,提出了基于降低词汇依赖的CTC-Attention监督训练方法。此方法通过构建乱序文本语料,合成大量文本图像用于训练,降低训练集的词频差异。同时通过多任务学习方式同时训练基于CTC的模型和基于Attention的模型,使用额外的KL散度损失用于互监督两者的训练,最终使模型更加关注于使用视觉特征进行解码,降低了对词汇的依赖。实验表明,此互监督训练策略对两个模型的识别能力都有不同程度的提升。(3)开发了一套文本识别系统,包含Web界面的功能演示端和可供编程调用的应用程序接口(Application Programming Interface,API)。Web界面便于用户可视化操作,上传文本行图像查看识别结果。同时提供的API可供远程调用,按规范发送请求报文就可得到包含识别结果的JSON文件,不限制开发语言。
宋家毓[2](2021)在《基于FPGA脱机光学字符识别系统的研究与设计》文中研究指明光学字符识别(Optical Character Recognition,OCR)系统被广泛应用于各个领域,已成为提高工作效率、促进智能化社会建设的重要助力。在研究者的努力下,字符识别算法得到快速发展,其识别的准确率越来越高,实用性也越来越强,但却需要更大的计算量和更长的计算时间。近年来,现场可编程门阵列(Field Programmable Gate Array,FPGA)技术迅速发展,集成的资源不断增加,使设计人员在使用FPGA进行图像处理时可充分发挥其并行计算的优势,进一步提高图像处理系统的实时性,且相比于专业集成电路(Application Specific Integrated Circuit,ASIC),FPGA开发周期更短、成本更低,是设计字符识别系统的上佳选择。本文基于FPGA,使用Verilog-2001设计了两个字符识别系统并对其功耗和识别时间等性能进行分析:第一个是基于区域像素统计特征的车牌中数字和字母的识别系统,该系统针对印刷体字符,识别算法简单;第二个是基于神经网络的手写字符识别系统,该系统针对手写数字、字母和部分汉字字符,使用神经网络算法对字符进行识别。论文对图像处理算法在FPGA上的实现进行了积极探索,主要研究内容包括:1.通过Matlab分析车牌数字和大写字母图像行列像素值的分布,提出了基于区域像素点统计特征的识别算法,并将该算法在FPGA实现,结合图像采集和图像预处理,实现了简单背景下车牌数字和字母的识别,准确率超过95%。2.通过Matlab搭建卷积神经网络(Convolutional Neural Networks,CNN)模型,考虑到FPGA难以进行浮点数运算和复杂函数求解的特点,利用修正后的Relu函数替代CNN中的Sigmoid函数,将CNN中的权重和计算结果优化为整数的同时去掉偏差。最后基于该算法在FPGA设计了手写英文字符和部分汉字的识别模块。手写英文字符模块功耗261.31 m W,识别一次耗时48?s;手写汉字识别模块功耗273.40 m W,识别一次耗时1.2 ms。3.使用Sign函数替换CNN中的Relu函数,并将CNN中的权重参数和池化层计算结果利用Sign函数进行二值化,得到一个二值化神经网络(Binary Neural Network,BNN),使用Mixed National Institute of Standards and Technology(MNIST)数据集在Matlab中对该网络进行训练获取参数后,在FPGA上对该网络进行实现并用于手写数字识别系统。该模块功耗136.18 m W,识别一次耗时38?s。4.在两个手写字符识别系统中,创新性地使用了区域中值替换将采集到的未知尺寸的目标图像重置为28×28或60×60像素作为神经网络识别模块的输入。
任凤丽[3](2021)在《基于深度学习的汉字识别方法研究》文中研究说明近年来,自然场景中的文本检测和识别技术已经渗透到工作生活中的方方面面,在拍照翻译、无人驾驶、快递单无人签收、票据识别等领域有着重要的应用。从早期的扫描文档识别到自然场景图片中的文字识别,OCR的应用范围越来越广泛,对应的场景文字识别问题亟需解决,得到了学术界的热切关注。目前,学术界的OCR可以支持多种语言,有一定的通用性,但是针对汉字,尤其是形近汉字的识别准确率并不理想。OCR中最关键的两个步骤是文本检测和文本识别。为了提高自然场景下汉字文本的识别效果,本文分别从文本检测和文本识别两个方面进行研究。一方面,针对文本检测算法,本文在研究对比了目前流行的几种文本检测算法后,选择了高效并且准确的EAST算法,作为文本检测阶段的基础算法,并且针对其长文本上识别效果不足的缺陷,从以下三个方面做出改进:(1)在特征提取阶段改变卷积神经网络的网络结构,提高检测精度。(2)在特征融合阶段之后加入Bi LSTM网络通过获取相邻像素点的位置信息来扩大网络的感受野。(3)改进输出顶点坐标的计算方式,由根据全部像素点距离平均加权改为根据头尾像素点距离平均加权,使得算法对文本框边界范围的检测更精准。本文通过国际权威比赛ICDAR提供的数据集进行训练和测试的对比实验,最终证明了经过改进后的EAST算法在文本检测的精确率和召回率均有提升。另一方面,本文从形近字的结构差异和上下文的语义信息两方面出发,在传统的CNN+RNN+CTC算法模型基础上提出了SimilarCRNN算法。该算法的研究思路如下:首先根据汉字的相似度算法构建形近字字库,针对形近汉字结构特征差异进行增强训练,从汉字结构方面提高形近汉字的识别准确率。之后在得到初步结果后增加“语义检测器”,对初步识别结果通过中文分词处理后依次进行错误检测,候选召回以及纠错排序三个阶段,对句子困惑度较大的错误识别结果进行语义纠正,在语义层面进一步提高形近汉字的识别准确率。一个完整的OCR模型,对检测识别过程中的精度和速度都有要求,同时要支持多端部署才能进一步扩大应用范围,实现研究落地。本文选择的基础文本检测算法EAST和文本识别算法CRNN在部署上相对来说配置方便,算法模型大小合适,精度也有了进一步的提升,可以作为一个通用的模型应用到各个领域,有广阔的应用场景。
邓杰荣,梁森,曹昕妍,杨晓辉,曹喜信[4](2020)在《基于深度学习的汉字识别方法研究综述》文中指出中国汉字博大精深,拥有数千年的文化背景与历史积淀,具有其独特的文字结构,是世界上使用人口最多的文字。与一般的视觉元素不同,汉字包含了丰富的高层语义信息,不管在工业界还是学术界对汉字识别技术都有极大的应用需求和重要的研究意义。首先阐述了汉字识别技术的基本概念和定义,对OCR、印刷体识别、手写体汉字识别等概念进行详细说明。在简要介绍了传统汉字识别方法后,详细分析了当前基于深度学习的汉字识别方法的研究历程、主要方法和关键性技术。最后总结了当前汉字识别技术在深度学习应用中存在的一些问题及未来的发展趋势。
付飞飞[5](2020)在《基于深度学习的场景汉字识别问题研究》文中研究说明文字识别是一种通用的图像理解技术,对信息检索、自动驾驶等应用的研究有着重要意义,基于自然场景图像的文字识别逐渐成为计算机视觉研究中的热点问题,而其中中文场景文字识别是图像识别中最重要和最具挑战的任务之一。与英文字符相比,中文字符结构复杂且种类繁多,识别难度大。随着神经网络的复兴,场景文字检测和识别任务得到了很大推动,近年来涌现了许多基于深度学习的场景文字检测和识别的算法,但大部分都是面向英文数据集的,针对中文场景图像的研究相对欠缺。本文对当前文字检测和识别领域的代表性算法进行研究。鉴于场景汉字识别的研究和实际应用需求,本文主要做了以下三个方面的工作:首先,对于在英文数据集上表现出色的场景文字检测和识别算法分别在英文数据集和中文数据集上进行了大规模的实验和性能对比分析,总结中文场景文字检测和识别问题面临的挑战;其次,对于自然场景中的非水平文本行不易识别的问题,通过在原始图像上根据四边形坐标点进行透视变换,从中裁剪出文本行区域进行识别;最后,根据当前的文字检测和识别算法在中文场景图像中存在的问题,设计了一个基于字符检测的中文场景文字识别算法。一、场景文本检测和识别算法在各个英文和中文数据集上的大规模实验和性能对比分析。在文字检测部分选用EAST和Text Boxes++两个算法在两个英文数据集和四个中文数据集上进行实验并进行跨数据集和跨语言测试,通过实验探讨语言对场景文字检测的影响。同时,在文字识别部分选用Sliding CNN、CRNN和ASTER三个文字识别算法进行研究,并对Sliding CNN进行改进,提出了更高效的基于切片的Slice CNN算法,减少了约一半的训练时间。其中,为了比较不同的特征提取网络对文字识别的影响,Sliding CNN,Slice CNN和CRNN的特征提取部分均采用了VGG、Res Net、Dense Net三种网络结构,用这十个文字识别算法在三个英文识别数据集和四个中文场景数据集上进行实验。二、针对非水平文本不易识别的问题,提出一种基于原始图像透视变换的文本行矫正方法。在原始图像上使用透视变换对文本行进行矫正,然后把文本行从矫正后的原始图像中裁剪出来,矫正后在中文数据集上识别的准确率平均提高了12%左右。与之前根据四边形的最小外接正矩形从原始图像中裁剪出文本行区域,然后使用空间转换网络矫正后再识别相比,避免了额外的训练和关键点预测,简化了模型的学习并节省了训练时间。三、针对当前作为序列识别时面临的缺少大规模中文数据集的问题,设计一个基于字符检测的场景汉字识别算法,把序列识别转化为实例分割和分类问题,先进行字符检测再对检测到的字符区域进行识别。考虑到自然场景图像中存在许多因透视造成的扭曲,所以在字符检测之后对检测到的字符区域进行透视变换。在文本行图像上的识别准确率比之前作为序列识别时最好的ASTER算法的准确率平均高了16%左右。总之,本文通过实验分析现有文字检测和识别方法在中文场景数据集上的不足,提出了相应的解决方案,在一定程度上解决了中文场景文字识别的问题,对场景汉字识别的后续研究有一定的参考价值。
陈乙麟[6](2020)在《场景文字识别系统的设计与实现》文中研究指明这几年伴随深度学习和卷积神经网络的出现使得图像处理技术发展取得了质的飞跃,越来越多传统方法被基于深度学习的方法所替代,文字识别的方法就是其中之一。而针对自然场景的文字识别常常聚焦于特定领域,如车牌、街景等,自然场景的文本识别仍有许多应用性问题没有很好的解决方案。在真实文本场景中,中文字符的检测和识别性能常常受到背景光线、角度、数据集差异等影响,效果差强人意。本课题通过分析研究国内外文字识别技术研究现状和文字识别系统的弊端,在此基础上提出了一套基于深度学习技术的场景文字识别通用框架可提供自然场景下图片识别功能,并且为了解决常见OCR系统对卡证场景识别的缺失、每种识别系统只能识别单一种类证件等问题,在原有OCR技术的基础上,整合了通用证件的识别功能,包含身份证、银行卡、营业执照、和驾驶证,实现了多功能的场景文字识别系统。并提供开放API供功能扩展,文章最后以营业执照识别进行功能扩展,联通天眼查API提供扩展的企业信息核验功能,进行了开放能力的实现与验证。针对场景文字识别系统的设计与实现,本论文主要内容包括以下四个方面:1.提出了场景文字数据集的合成方法:通过对真实自然场景中的文档图像进行背景分析和要素提取,对背景纹理和光照角度等图像影响因素进行了模拟实现,合成了中文覆盖率高达99.7%的场景文字字符库,从而增加了整个检测识别流程中各个算法的泛化效果。2.提出了 IBN-CRNN的场景识别方法:改进目前先进的端到端可训练的不定长文字识别方法CRNN,引入IBN-Net结构有助于在不增加计算量的情况下,提升模型的准确性和泛化性,结合合成数据集,可以有效地在干扰背景中对图像文字进行准确识别。3.提出了基于VGG+CTPN+IBN-CRNN的场景文字检测与识别通用框架:利用CTPN适合检测水平文字的特性,引入了 VGG16算法对图像进行文本倾斜角度分类,实现图像矫正;结合合成的数据集与公开数据集丰富了检测任务、识别任务的数据训练样本。在提出的IBN-CRNN场景识别模型上利用上述扩充的样本数据进行训练,增强了 IBN-CRNN算法的泛化性和整个通用框架对中文场景的鲁棒性。4.设计并实现了场景文字识别系统:该系统基于场景文字检测与识别通用框架实现能力封装从而提供自然场景下高准确率的通用文字识别服务,系统还整合了常见的卡证图像识别功能,包括身份证、银行卡、营业执照、和驾驶证。该系统提供友好的编程接口可针对特定应用场景方便地扩展新的功能,还实现对营业执照结合天眼查API完成企业信息核验功能。系统提供交互友好的响应式Web界面供不同终端访问,支持图像上传和图像地址链接两种图像录入方式,还支持识别内容的一键复制与编辑。系统可在内网环境中部署以保证数据的安全。
吕臻[7](2020)在《基于图像分析和深度学习的点阵字符检测和识别研究》文中提出图像分析和深度学习在字符识别领域已经取得了许多重大的成就。然而针对特殊具体的字符数据集样本仍然有很大的研究空间和价值。本文主要研究工业上点阵字符数据集,相比较其他字符数据集,工业上点阵字符数据集有以下特点:第一点阵字符相对于连续字符来说,字符信息量少,字符点阵的排列容易受到噪声干扰;第二现实工业上点阵字符数据集,每一类字符数据分布不均衡。针对点阵字符的特点和难点,本文对其做了一定的探索和研究,主要工作和创新如下:(1)针对本文的字符数据集,对卷积神经网络优化器,卷积核,激活函数进行调整,改进传统字符识别Le-Net神经网络,构建了适合本文研究对象的卷积神经网络。改进的神经网络对本文字符识别准确率从93.27%提高到99.88%,收敛速度提高了 20个epoch。(2)针对点阵字符信息量少,容易受到噪声干扰的问题。本文提出了基于膨胀的神经网络字符识别方法,具体方法是先对点阵字符做膨胀处理,补充点阵字符信息量,再进行神经网络训练和识别,分析并比较了相同神经网络结构,不同膨胀核系数处理后样本的字符识别准确率和时间效率。(3)针对字符数据集每一类样本分布不均衡的特点,本文提出了基于字符编码信息的神经网络字符识别方法,具体方法是将原先40分类的网络,通过字符编码信息,分成24类大写字母,6类小写字母,10类数字的三大类网络,进行字符识别,并且与传统方法和数据增广法在准确率,时间效率,便捷性方面做了详细比较。结合膨胀和字符编码信息方法,在识别时间相差不大的情况下,字符识别准确率从99.88%提高到99.95%,在16000张测试集中,识别错误个数下降了 11个。
陈依琳[8](2020)在《护照信息智能识别系统的设计与实现》文中提出护照是在国与国之间旅行或办公时用于证明个人身份和国籍的有效法律证件,当进入或离开某个国家时需要对护照上的信息进行采集与核验,传统的信息采集主要依靠人工录入的方式来完成,由于护照上的信息过于庞大且分散,并且在录入时需要逐条核对护照上每一栏的内容,难免会存在效率低下、耗费大量时间以及难以保障正确率等缺陷。研究发现护照机读码包含了护照持有者所有的个人信息,且位置固定、格式统一。如果能准确识别机读码,护照上的信息也就能轻松获取。基于这一发现,本文设计了护照信息智能识别系统。本文通过对系统的需求分析,设计了系统总体实现方案,并根据设计方案完成了系统硬件部分搭建和系统软件部分开发设计,实现了护照信息智能识别系统的功能和需求。系统硬件部分包括高拍仪以及上位机,使用高拍仪对护照信息页进行图像采集并传入上位机。系统软件部分基于Python+Open CV完成对护照图像预提取、字符识别和界面展示的功能。首先,对护照图像进行清晰度的判别、倾斜图像的矫正以及机读码区域图像的提取和预处理;其次,对提取到的机读码区域字符采用了开源的光学字符识别(Optical Character Recognition,OCR)引擎Tesseract进行识别,针对识别率不高的问题采用字符识别优化工具训练大量样本提高了字符识别率;最后,利用Py Qt开发出护照信息智能识别系统软件界面以展示详细的护照信息,并增加了护照人脸图像显示功能使界面信息更加全面。完成系统设计后进行联机调试。实验结果表明护照信息智能识别系统性能达到了设计要求,有效地提高了护照信息登记的效率和准确率。
宋笑宇[9](2020)在《数学题目智能标引系统》文中认为数学题目浩如烟海,如何有效提取习题特征信息,提高习题应用的智能性,是我们一直追求的目标。数学题目的标引是对习题进行特征提取的过程,现在数学题目中文字的识别可以通过OCR技术完成,但是数学题目中包含了许多数学公式,这些公式大多不能被OCR直接识别,导致以图片形式保存的数学试卷在进行信息输出时不全面。人工对数学题目进行分类,费时费力,难免主观误差。为了使数学题目的信息能够完整的进行表达,提高数学题目的分类效率。本文针对数学题目图像数据,提出了一个能够将数学题目图像可编辑化,并对其进行标引的数学题目智能标引系统。主要工作和使用方法如下:(1)数学题目中的文字识别:使用OCR技术对数学题目中的文字进行识别。(2)数学题目中的公式识别和图形提取:对OCR无法识别的部分假定为公式或图形,使用基于黑色连通集邻接图与OCR技术相结合的方法对数学题目中的公式进行提取,然后对正确提取的公式使用基于特征字符的方法进行识别,将公式特征转换成特征关键词。数学题目中的几何图形切割出来,以图像的形式保留。(3)数学题目标引:按照数学学科习题标引关键词库,将关键词与数学题目特征进行匹配。匹配成功的关键词作为涉及到的知识点,关键词所属的最高年级作为题目所属年级,关键词数量的多少判定题目的难度。通过实验验证,数学公式的提取准确度达到了85%以上,实现了数学题目的自动特征提取和标引,可以取代人工操作,提高了标引效率,达到了设计该系统的目的。
刘荟悦[10](2020)在《基于深度神经网络的印刷体文字识别》文中认为在信息化社会,人们要处理大量各种类型的文字资料,为了帮助人们快速完成信息录入,文字识别技术应运而生,且具有非常广阔的应用前景。目前市面上比较成熟的印刷体文字识别系统或软件大多只针对某个单一的应用场景,比如发票识别、身份证识别、文档识别等,因此只能识别某一类型的图像和文字,尚缺乏可以识别多种类型多种字体的通用文字识别系统。为此,本文实现了适用于多种类型多种字体的印刷体文字识别算法,识别类型包括书籍、刊物、海报、宣传单、票据等各类含有印刷体文字的纯文本图像,可识别的字体有13种,可识别的字符包括一级、二级汉字及不常用汉字、大小写英文字母、数字和常用标点符号,共6870种字符,支持各类字符混排识别,因此适用范围更加广泛。本文详细阐述了印刷体文字识别技术的算法处理流程,包括图像的倾斜矫正、文本检测、文字识别和结果校验。实现了针对扫描仪、相机等电子设备获取的印刷体文本图像的文字识别算法,并完成了网络的训练。通过扫描仪或相机对纸质文字资料进行采集并生成文本图像,利用数字图像处理技术和深度学习算法完成图像中的文字识别,从而将文字信息快速提取出来,节省了时间和人力成本,在信息处理等方面具有重要的实用价值和理论意义。本文主要工作有以下几个方面:(1)为了解决目前真实图像数据集获取困难的问题,本文完成了大规模印刷体文本图像的合成。该数据集包含丰富的语义信息,在文字特征、背景、模糊程度等各个方面呈现出多样变化,可以很好地提高模型的鲁棒性。(2)本文实现了真实场景下的印刷体文字识别算法,包括基于CTPN模型的文本检测算法和基于CRNN模型的文字识别算法。将两者进行结合,实现了对大篇幅文本的端到端识别。本文在已有研究的基础上,对网络结构及参数进行调整和测试,通过大量的对比实验最终得到了一个适用于印刷体文字识别的网络模型,并表现出良好的识别效果。(3)为了校验识别结果,本文设计并实现了一种基于模板匹配的结果校验算法,并结合匹配度、字符位置等信息,检测是否存在错误识别和缺漏识别的情况,并对识别错字和漏字进行纠正,进一步提高了字符识别准确率,并达到了99.5%。
二、OCR汉字识别技术进展(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、OCR汉字识别技术进展(论文提纲范文)
(1)不定长中文文本图像的识别算法研究(论文提纲范文)
致谢 |
摘要 |
ABSTRACT |
1 绪论 |
1.1 研究背景与意义 |
1.2 本文的主要工作及创新点 |
1.3 本文的结构组织 |
2 相关研究工作与理论基础 |
2.1 文本识别的发展历程 |
2.2 文本识别方法研究现状与理论 |
2.2.1 基于CTC的识别方法 |
2.2.2 基于Attention的识别方法 |
2.2.3 基于CTC-Attention的识别方法 |
2.2.4 基于子词的方法 |
2.2.5 基于语言模型的后处理方法 |
3 基于bigram混合标签的联合CTC-Attention方法 |
3.1 引言 |
3.2 基于bigram的混合标注方式 |
3.3 联合CTC-Attention解码模型 |
3.3.1 共享编码器模块 |
3.3.2 CTC模块 |
3.3.3 Attention模块 |
3.3.4 损失函数 |
3.4 实验 |
3.4.1 实验设置 |
3.4.2 实验结果与分析 |
3.5 小结 |
4 基于降低词汇依赖的CTC-Attention互监督训练方法 |
4.1 引言 |
4.2 乱序文本语料的生成 |
4.3 CTC-Attention互监督训练策略 |
4.3.1 互监督训练框架 |
4.3.2 损失函数 |
4.4 实验 |
4.4.1 实验设置 |
4.4.2 实验结果与分析 |
4.5 小结 |
5 不定长中文文本图像识别系统 |
5.1 引言 |
5.2 系统设计 |
5.2.1 服务器端设计 |
5.2.2 前端Web设计 |
5.3 系统开发与运行环境 |
5.4 效果展示 |
5.5 小结 |
6 总结与展望 |
6.1 工作总结 |
6.2 未来展望 |
参考文献 |
作者简历及攻读硕士学位期间取得的研究成果 |
学位论文数据集 |
(2)基于FPGA脱机光学字符识别系统的研究与设计(论文提纲范文)
中文摘要 |
Abstract |
第一章 绪论 |
1.1 选题背景及意义 |
1.2 字符识别算法及其在 FPGA 部署的研究现状 |
1.3 本论文的主要工作及创新点 |
第二章 字符识别算法理论 |
2.1 数字图像基础 |
2.2 卷积神经网络计算原理 |
2.2.1 卷积层 |
2.2.2 激活层 |
2.2.3 池化层 |
2.2.4 全连接层 |
2.2.5 分类器与交叉熵损失函数 |
2.3 BNN实现原理 |
2.4 本章小结 |
第三章 基于像素统计特征的车牌字符识别系统 |
3.1 识别算法介绍 |
3.2 算法在Matlab的验证 |
3.3 基于FPGA的字符识别系统实现 |
3.3.1 整体结构 |
3.3.2 预处理模块 |
3.3.3 字符识别模块 |
3.3.4 板级调试 |
3.4 本章小结 |
第四章 基于神经网络手写字符识别系统研究 |
4.1 神经网络在Matlab的训练 |
4.1.1 卷积神经网络的训练 |
4.1.2 二值化卷积神经网络的训练 |
4.2 基于FPGA手写字符识别系统研究与设计 |
4.2.1 预处理模块设计 |
4.2.2 卷积神经网络识别模块设计 |
4.2.3 卷积神经网络识别模块仿真验证和板级调试 |
4.2.4 卷积神经网络设计优化 |
4.2.5 二值化卷积神经网络识别模块设计 |
4.2.6 二值化卷积神经网络性能测试 |
4.3 本章小结 |
第五章 总结与展望 |
5.1 工作总结 |
5.2 工作展望 |
参考文献 |
在学期间的研究成果 |
致谢 |
(3)基于深度学习的汉字识别方法研究(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 课题研究背景与意义 |
1.2 国内外研究现状 |
1.2.1 文本检测技术 |
1.2.2 文本识别技术 |
1.3 论文的主要工作以及创新点 |
1.3.1 论文的主要工作 |
1.3.2 论文的创新点 |
1.4 论文的组织结构 |
第2章 深度学习理论与相关技术概述 |
2.1 深度学习与人工智能 |
2.1.1 相关理论知识 |
2.1.2 深度学习框架介绍 |
2.2 神经网络简介 |
2.2.1 卷积神经网络 |
2.2.2 循环神经网络 |
2.2.3 编码-解码模型与注意力机制 |
2.3 本章小结 |
第3章 自然场景下文本检测和识别算法的整体设计 |
3.1 难点分析 |
3.2 本文的技术路线 |
3.2.1 自然场景下的文本检测方法 |
3.2.2 自然场景下的文字识别方法探索 |
3.2.3 整体的网络架构 |
3.3 本章小结 |
第4章 基于改进EAST算法的场景文本检测方法 |
4.1 EAST算法原理及存在的问题 |
4.1.1 EAST算法原理 |
4.1.2 EAST算法存在的问题 |
4.2 基于改进EAST算法的场景文本检测方法 |
4.2.1 特征提取阶段 |
4.2.2 特征融合阶段 |
4.2.3 特征序列融合阶段 |
4.2.4 检测结果输出阶段 |
4.3 本章小结 |
第5章 基于改进CRNN算法的汉字识别研究 |
5.1 汉字识别面临的挑战 |
5.2 主流文字识别方法简介 |
5.2.1 CRNN算法 |
5.2.2 Attention-OCR算法简介 |
5.2.3 对比分析 |
5.3 本文设计的场景汉字识别方法 |
5.3.1 SimCRNN网络架构设计 |
5.3.2 形近汉字字库的构建 |
5.3.3 特征提取识别 |
5.3.4 语义检测器 |
5.4 本章小结 |
第6章 实验结果与分析 |
6.1 实验环境与数据集 |
6.2 评价指标 |
6.2.1 文本检测实验评价指标 |
6.2.2 文本识别实验评价指标 |
6.3 结果与分析 |
6.3.1 文本检测结果 |
6.3.2 文本识别结果 |
6.3.3 文本检测与文本识别完整框架识别 |
6.4 本章小结 |
第7章 总结与展望 |
7.1 工作总结 |
7.2 不足与展望 |
参考文献 |
攻读学位期间的研究成果 |
致谢 |
(4)基于深度学习的汉字识别方法研究综述(论文提纲范文)
0 引言 |
1 传统汉字识别方法 |
2 基于深度学习的汉字识别方法 |
2.1 经典目标检测算法 |
2.2 文字检测识别算法 |
2.3 文字识别 |
2.4 端到端的场景汉字识别 |
3 研究前景与应用 |
4 结论 |
(5)基于深度学习的场景汉字识别问题研究(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.2.1 场景文字检测 |
1.2.2 场景文字识别 |
1.2.3 端到端场景文字识别 |
1.2.4 研究现状总结 |
1.3 主要研究内容 |
1.4 论文结构安排 |
第2章 相关工作 |
2.1 公开数据集 |
2.1.1 英文数据集 |
2.1.2 含有中文的数据集 |
2.2 场景文字检测算法 |
2.2.1 EAST算法 |
2.2.2 Text Boxes++算法 |
2.2.3 CRAFT算法 |
2.2.4 最新文字检测算法 |
2.3 场景文字识别算法 |
2.3.1 Sliding CNN算法 |
2.3.2 CRNN算法 |
2.3.3 ASTER算法 |
2.3.4 最新文字识别算法 |
2.4 端到端场景文字识别算法 |
2.4.1 FOTS算法 |
2.4.2 Text Spotter算法 |
2.4.3 Text Dragon算法 |
2.5 评估方法 |
2.5.1 文本检测评估方法 |
2.5.2 文本识别评估方法 |
2.6 本章小结 |
第3章 场景文本检测与识别算法在中文场景图像上的性能分析 |
3.1 问题定义 |
3.2 实验内容 |
3.2.1 文字检测实验 |
3.2.2 文字识别实验 |
3.2.3 实验数据 |
3.2.4 实验环境 |
3.3 实验结果与分析 |
3.3.1 文字检测实验结果与分析 |
3.3.2 文字识别实验结果与分析 |
3.4 本章小结 |
第4章 基于原始图像透视变换的文本行矫正方法 |
4.1 问题定义 |
4.2 透视变换介绍 |
4.3 实验结果与分析 |
4.4 本章小结 |
第5章 基于字符的场景汉字识别算法 |
5.1 问题定义 |
5.2 Char-DR算法介绍 |
5.2.1 字符检测模块 |
5.2.2 透视变换模块 |
5.2.3 字符识别模块 |
5.3 实验细节 |
5.4 实验结果与分析 |
5.4.1 字符检测实验结果与分析 |
5.4.2 字符识别实验结果与分析 |
5.4.3 文本行图像端到端识别实验结果与分析 |
5.4.4 原始图像端到端识别实验结果与分析 |
5.5 本章小结 |
第6章 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
致谢 |
攻读学位期间发表的学术论文目录 |
(6)场景文字识别系统的设计与实现(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.2.1 OCR概述 |
1.2.2 卡证识别的发展 |
1.3 存在的问题 |
1.4 本文的主要研究内容 |
1.5 论文组织结构 |
第二章 深度学习与OCR相关技术 |
2.1 深度学习及相关技术 |
2.1.1 神经网络 |
2.1.2 卷积神经网络 |
2.1.3 循环神经网络 |
2.2 传统OCR方法 |
2.3 深度学习的OCR方法 |
2.3.1 文字检测方法 |
2.3.2 文字识别方法 |
2.3.3 端到端的方法 |
2.4 相关开发框架和构建工具 |
2.4.1 Tensorflow |
2.4.2 Caffe |
2.4.3 TVM |
2.5 本章小节 |
第三章 场景文字图像数据集合成 |
3.1 问题描述 |
3.2 公开数据集情况 |
3.3 场景文字图像数据集合成 |
3.3.1 基础数据确认 |
3.3.2 收集字体文件生成映射表 |
3.3.3 生成图像 |
3.4 适当的图像增强策略 |
3.5 数据集验证对比 |
3.6 本章小结 |
第四章 实现基于深度学习的场景文字识别框架 |
4.1 文本方向检测、矫正 |
4.1.1 问题描述 |
4.1.2 基于VGG16的文本方向检测模型 |
4.1.3 文本方向检测模型训练 |
4.1.4 文本方向检测模型效果 |
4.2 文本定位 |
4.2.1 问题描述 |
4.2.2 基于CTPN的文本检测模型 |
4.2.3 文本检测模型训练 |
4.3 文字识别 |
4.3.1 问题描述 |
4.3.2 基于CRNN模型文字识别模型 |
4.3.3 基于CRNN改进的IBN-CRNN |
4.3.4 文字识别模型训练 |
4.4 检测及识别效果验证分析 |
4.4.1 实验细节 |
4.4.2 文本检测验证效果 |
4.4.3 文字识别验证效果 |
4.5 本章小节 |
第五章 场景文字识别系统的设计与实现 |
5.1 需求分析 |
5.1.1 设计场景 |
5.1.2 功能需求 |
5.1.3 非功能性需求 |
5.2 概要设计 |
5.2.1 总体架构设计 |
5.2.2 基本设计概念和处理流程 |
5.2.3 详细设计与实现 |
5.5 测试 |
5.5.1 测试环境 |
5.5.2 测试方案 |
5.6 本章小节 |
第六章 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
致谢 |
攻读学位期间取的成果 |
(7)基于图像分析和深度学习的点阵字符检测和识别研究(论文提纲范文)
致谢 |
摘要 |
Abstract |
1 绪论 |
1.1 研究背景及意义 |
1.2 字符识别国内外研究现状 |
1.3 深度学习研究现状 |
1.4 本文研究的主要内容 |
1.5 论文的组织结构 |
2 字符图像的分析和预处理 |
2.1 字符图像介绍和分析 |
2.2 字符图像的预处理 |
2.2.1 字符图像的感兴趣区域提取 |
2.2.2 字符图像的分割 |
2.3 字符图像数据集的建立 |
2.4 本章小结 |
3 卷积神经网络字符识别 |
3.1 卷积神经网络介绍 |
3.2 卷积神经网络模型设计 |
3.3 基于膨胀的神经网络字符识别 |
3.4 基于膨胀的神经网络字符识别实验结果与分析 |
3.4.1 实验结果 |
3.4.2 实验结果分析 |
3.5 本章小结 |
4 基于字符编码信息的神经网络字符识别 |
4.1 字符数据集分析 |
4.1.1 字符图像的编码规律分析 |
4.1.2 字符图像的数据集分布规律分析 |
4.2 基于字符编码信息的神经网络字符识别实验 |
4.3 实验结果和分析 |
4.3.1 实验结果 |
4.3.2 实验结果分析 |
4.4 膨胀和字符编码信息方法的综合实验 |
4.5 本章小结 |
5 总结与展望 |
5.1 总结 |
5.2 展望 |
参考文献 |
作者简历 |
(8)护照信息智能识别系统的设计与实现(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.3 论文研究内容 |
1.4 章节安排 |
第二章 护照信息识别系统需求分析及总体设计 |
2.1 系统需求分析 |
2.1.1 功能需求 |
2.1.2 性能指标 |
2.2 系统总体设计方案 |
2.2.1 系统硬件设计方案 |
2.2.2 系统软件设计方案 |
2.3 本章小结 |
第三章 护照图像质量评估以及预处理的实现 |
3.1 图像清晰度判别 |
3.1.1 图像清晰度判别方法 |
3.1.2 实验及结果分析 |
3.2 倾斜图像的矫正 |
3.2.1 倾斜图像校正方法 |
3.2.2 实验及结果分析 |
3.3 ROI区域图像提取 |
3.3.1 ROI图像提取方法 |
3.3.2 实验及结果分析 |
3.4 ROI图像预处理 |
3.4.1 ROI图像预处理方法 |
3.4.2 实验及结果分析 |
3.5 本章小结 |
第四章 护照信息识别的实现 |
4.1 OCR字符识别 |
4.1.1 字符识别方法 |
4.1.2 实验及结果分析 |
4.2 字符识别率的优化 |
4.2.1 字符识别优化方法 |
4.2.2 实验及结果分析 |
4.3 护照信息界面展示 |
4.3.1 字符信息分类 |
4.3.2 界面设计 |
4.3.3 人脸图像检测 |
4.3.4 实验及结果分析 |
4.4 本章小结 |
第五章 总结与展望 |
5.1 总结 |
5.2 展望 |
参考文献 |
致谢 |
攻读硕士学位期间取得的科研成果 |
(9)数学题目智能标引系统(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 研究背景与意义 |
1.2 国内外相关研究进展 |
1.3 本文主要研究思路 |
第2章 数学题目标引系统概述 |
2.1 数学题目标引系统流程 |
2.2 数学公式提取的一般步骤 |
2.3 公式提取的难点 |
2.4 数学题目智能标引系统的应用 |
第3章 数学题目图像预处理 |
3.1 图像灰度化和二值化及去阴影 |
3.1.1 图像灰度化 |
3.1.2 大津法图像二值化 |
3.1.3 同态滤波去阴影 |
3.2 基于RETINEX算法的亮度分层图像增强算法 |
3.3 图像分割 |
第4章 数学题目智能标引系统的设计 |
4.1 题干文字的OCR识别路线 |
4.2 基于黑色连通集邻接图和OCR技术结合的公式提取方法 |
4.2.1 邻接图产生方法 |
4.2.2 邻接图节点和边的特征提取 |
4.2.3 基于支持向量机的分类器设计 |
4.2.4 OCR技术辅助强化公式提取 |
4.2.5 公式提取算法流程总结 |
4.3 基于特征字符的公式识别方法 |
4.4 几何图形切割及题目标引 |
第5章 实验过程及结果 |
5.1 实验过程 |
5.2 实验结果 |
5.2.1 公式提取和识别实验结果 |
5.2.2 数学题目标引实验结果 |
结论 |
参考文献 |
致谢 |
攻读硕士期间发表(含录用)的学术论文 |
(10)基于深度神经网络的印刷体文字识别(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 研究背景和意义 |
1.2 印刷体文字识别发展历程 |
1.3 印刷体文字识别研究现状 |
1.3.1 印刷体汉字识别的难点 |
1.3.2 印刷体汉字识别技术的现状 |
1.4 本文主要内容与组织结构 |
第2章 深度神经网络理论基础 |
2.1 卷积神经网络 |
2.1.1 卷积神经网络概述 |
2.1.2 VGG网络 |
2.2 循环神经网络 |
2.2.1 循环神经网络概述 |
2.2.2 LSTM网络 |
第3章 文字识别算法处理流程 |
3.1 倾斜检测与矫正 |
3.1.1 霍夫变换 |
3.1.2 投影法 |
3.1.3 基于最小外接矩形的倾斜矫正 |
3.2 文本检测 |
3.2.1 CTPN文本检测原理 |
3.2.2 训练细节 |
3.3 印刷体文本数据集生成 |
3.3.1 数据集概述 |
3.3.2 数据集生成过程 |
3.4 文字识别 |
3.4.1 CRNN文字识别原理 |
3.4.2 实验配置 |
3.5 结果校验 |
3.5.1 图像预处理 |
3.5.2 模板匹配 |
3.5.3 匹配结果 |
3.6 本章小结 |
第4章 实验分析与测试 |
4.1 字符准确率的计算方法 |
4.2 实验结果分析 |
4.3 检测和识别效果测试 |
第5章 总结与展望 |
5.1 总结 |
5.2 展望 |
参考文献 |
致谢 |
学位论文评阅及答辩情况表 |
四、OCR汉字识别技术进展(论文参考文献)
- [1]不定长中文文本图像的识别算法研究[D]. 蔡斯琪. 北京交通大学, 2021(02)
- [2]基于FPGA脱机光学字符识别系统的研究与设计[D]. 宋家毓. 兰州大学, 2021(09)
- [3]基于深度学习的汉字识别方法研究[D]. 任凤丽. 东华大学, 2021(01)
- [4]基于深度学习的汉字识别方法研究综述[J]. 邓杰荣,梁森,曹昕妍,杨晓辉,曹喜信. 微纳电子与智能制造, 2020(03)
- [5]基于深度学习的场景汉字识别问题研究[D]. 付飞飞. 河南大学, 2020(02)
- [6]场景文字识别系统的设计与实现[D]. 陈乙麟. 北京邮电大学, 2020(05)
- [7]基于图像分析和深度学习的点阵字符检测和识别研究[D]. 吕臻. 浙江大学, 2020(02)
- [8]护照信息智能识别系统的设计与实现[D]. 陈依琳. 西北大学, 2020(02)
- [9]数学题目智能标引系统[D]. 宋笑宇. 沈阳航空航天大学, 2020(04)
- [10]基于深度神经网络的印刷体文字识别[D]. 刘荟悦. 山东大学, 2020(10)
标签:机器学习论文; ocr文字识别软件论文; 图像识别技术论文; 神经网络算法论文; 深度学习算法论文;