当前位置>主页 > 期刊在线 > 信息技术 >

信息技术22年16期

自然光条件下文本识别系统的设计与实现
冯志昕,杨景皓,李鑫龙,周翔,王震
(中国矿业大学(北京),北京 100083)

摘  要:随着手机等相关便携高分辨率拍照设备的大范围普及,如何有效的从图像中提取文本信息正受到越来越多的重视。文章系统分析了自然取景后图像文字识别中可能面临的问题,对相关重点环节的可用算法流程进行了梳理,讨论了自然光照条件下去噪及倾斜校正等方法的实现。测试实验表明,设计的轻量化系统在易用性前提下具有较好的识别效果。


关键词:光学字符识别;灰度化处理;二值化处理;降噪处理;倾斜校正



DOI:10.19850/j.cnki.2096-4706.2022.16.007


课题项目:中国矿业大学(北京)大学生创新训练项目(202104052);中央高校基本科研业务费专项资金


中图分类号:TP391.4                                     文献标识码:A                                        文章编号:2096-4706(2022)16-0026-03


Design and Implementation of Text Recognition System under the Natural Light Condition

FENG Zhixin, YANG Jinghao, LI Xinlong, ZHOU Xiang, WANG Zhen

(China University of Mining and Technology-Beijing, Beijing 100083, China)

Abstract: With the widespread popularization of related portable and high-resolution camera devices such as mobile phones, how to extract effectively text information from images is receiving more and more attention. This paper analyzes systematically the possible problems in image text recognition after natural shooting, sorts out the available algorithm flow of relevant key links, and discusses the realization methods of noise reduction and tilt correction under the natural light conditions. The test experiments show that the designed lightweight system has a better recognition effect under the premise of ease of use.

Keyword: OCR; grayscale processing; binarized processing; noise reduction processing; tilt correction


参考文献:

[1] 张婷婷 . 基于 Tesseract _ OCR 文字识别系统的研究 [D].南京:南京邮电大学,2020.

[2] 曾悦,马明栋 . 基于 Tesseract OCR 文字识别的研究 [J].计算机技术与发展,2021,31(11):76-80.

[3] 张青 . 文档图像的版面分析与文本行提取算法研究 [D].哈尔滨:哈尔滨工业大学,2019.

[4] 赵飞 . 基于特征匹配的维吾尔新文字识别技术 [D]. 新疆:新疆大学,2014.

[5] 户其修 . 基于 OCR 开源框架的常用公式识别系统的研究与实现 [D]. 北京:北京邮电大学,2019.

[6] 陈子旋 . 倾斜文档校正方法的研究与实现 [D]. 杭州:浙江大学,2020.


作者简介:冯志昕(2000—),女,汉族,山西晋中人,本科在读,研究方向:信息工程;杨景皓(2001—),男,汉族,河北定州人,本科在读,研究方向:信息工程;李鑫龙(2001—),男,汉族,内蒙古赤峰人,本科在读,研究方向:信息工程;周翔(2001—),男,汉族,河北石家庄人,本科在读,研究方向:信息工程;王震(2001—),男,汉族,河南南阳人,本科在读,研究方向:信息工程。