摘 要:通过对已有手写字符识别相关技术和应用实例进行研究,发现 Tesseract 文本识别方法具有经济、可训练、识别准确等优点,设计了基于 Tesseract 文本识别的特殊手写字符检票系统。此系统结合数字图像处理技术,以谷歌开源 OCR 引擎Tesseract 的字符识别技术为核心,并通过训练字库实现对多种选民手写选票的准确识别。测试结果表明,该系统具有实时性、交互性、高可靠性等特点,为纸质选票的传统人工唱票计票方式提供了智能解决方案。
关键词:手写字符识别;选票识别系统;图像处理;Tesseract-OCR
DOI:10.19850/j.cnki.2096-4706.2022.05.001
基金项目:天津市级大学生创新创业训练计划项目资助(202110066049)
中图分类号:TP391.1 文献标识码:A 文章编号:2096-4706(2022)05-0001-05
Research on Ticket Checking System Based on Tesseract-OCR Text Recognition
NIE Shuangshuang, YANG Yinan, WEI Jing, MA Jianzhong
(School of Information Technology and Engineering Tianjin University of Technology and Education, Tianjin 300222, China)
Abstract: According to the research of related technologies and application examples of existing handwritten character recognition, it is found that Tesseract text recognition method has the advantages of economy, trainable and accurate recognition and so on, and a special handwritten character ticket checking system based on Tesseract text recognition is designed. This system combines digital image processing technology, with the character recognition technology of Google open source OCR engine Tesseract as the core, and realizes the accurate recognition of multiple voters’ handwritten ballots through the training word library. The testing results show that the system has the characteristics of real-time, interaction and high reliability and so on, which provides an intelligent solution for the traditional manual vote counting method of paper ballots.
Keywords: handwritten character recognition; ballot recognition system; image processing; Tesseract-OCR
参考文献:
[1] 彭程,韩啸,等 . 深度卷积神经网络下选票系统智能化识别研究与实现 [J]. 计算机应用,2019,39(S2):85-90.
[2] 曾悦,马明栋 . 基于 Tesseract_OCR 文字识别的研究 [J].计算机技术与发展,2021,31(11):76-80.
[3] 王君,柳清瑞,藤淑娟,等 . 基于表格的手写体字符识别技术研究 [J]. 小型微型计算机系统,2002(7):890-893.
[4] 李俊山,李旭辉,朱子江.数字图像处理:第3版 [M].北京:清华大学出版社,2017.
[5] 章毓晋 . 图像处理和分析 [M]. 北京:清华大学出版社,1999.
[6] 李红俊,韩冀皖 . 数字图像处理技术及其应用 [J]. 计算机自动测量与控制,2002(9):620-622.
[7] 周作梅,宋兰霞 . 频域滤波器在数字图像处理中的应用研究 [J]. 信息与电脑(理论版),2021,33(15):198-200.
[8] 邹宏伟 . 基于 OpenCV 的数字图像处理技术研究与实现[J]. 无线互联科技,2019,16(22):118-119.
[9] 潘浩,李兰 . 基于 Tesseract 引擎样本训练的验证码识别[J]. 信息与电脑(理论版),2020,32(1):138-139+142.
[10] 张中良 . 基于机器视觉的图像目标识别方法综述 [J]. 科技与创新,2016(14):32-33.
[11] 张站 . 基于符号识别技术的选举计票系统研究 [D]. 合肥:安徽大学,2012.
[12] 谢金宝,刘晖波 . 电子选举系统的基本框架与信息流程[J]. 计算机工程,2000(S1):97-102.
[13] 康计良 .Python 语言的可视化编程环境的设计与实现[D]. 西安:西安电子科技大学,2013.
作者简介:聂霜霜(2000—),女,汉族,湖北襄阳人,本科在读,研究方向:字符识别技术、图像处理技术;杨轶男(2002—),女,汉族,山西运城人,本科在读,研究方向:字符识别技术、图像处理技术;卫晶(2000—),女,汉族,山西临汾人,本科在读,研究方向:字符识别技术、图像处理技术;马建钟(2002—),男,汉族,福建龙岩人,本科在读,研究方向:字符识别技术、图像处理技术。