常见的OCR识别软件包括ABBYY FineReader、LEADTOOLS、Dynamsoft OCR SDK、Tesseract、ExperVisionTypeReader。
只要有扫描仪和光学字符识别(OCR)软件,将扫描文档转换成Word文档是相当容易的。扫描仪将纸质文档转换成扫描图像,而光学字符识别(OCR)软件则将所扫描的图像转换成PDF和Word等可编辑和可搜索的文档格式。在文档的转换过程中,OCR软件技术主要用来分析和比较带有数据库中所存字体的文档。虽然,OCR软件的识别准确率不可能达到100%,但是一些OCR软件包含拼写检查功能,可查出无法辨认的字。本文对多款常用OCR软件的性能进行了多角度的对比,希望为用户在选择和使用OCR软件时候提供一些实用性参考。
光学字符识别(OCR)软件比较 名称支持平台编程语言字体语言输出格式备注TesseractWindows/MacOSX /LinuxC++, C40+文本,hOCR,其他开源,支持中文ExperVisionTypeReaderWindows/MacOSX /Linux
C/C++21hOCR多次获奖;不支持中文ABBYY FineReaderWindows/MacOSX /LinuxC/C++198DOC, DOCX, XLS, XLSX, PPTX, RTF, PDF, HTML, CSV, TXT, ODT, DjVu, EPUB, FB2世界排名第一;识别精度达99%;LEADTOOLSWindows/MacOSX /LinuxC/C++, .NET, Objective-C, Java, JavaScript56PDF, PDF/A, DOC, DOCX, XLS, XPS, RTF, HTML, ANSI Text, Unicode Text, CSV支持拉丁语, 亚洲语言,阿拉伯语,MICR字符集;支持整页或者部分区域的OCR识别;CuneiForm/OpenOCRWindows/MacOSX /LinuxC/C++28?企业级系统,可以保存文本格式,并识别结构的复杂表格Image to OCR ConverterWindowsC/C++, VB , .NET40PDF, Word, HTML, Text读取的图像格式和PDF文件,并可以从照相机扫描图像Dynamsoft OCR SDKWindowsC/C++40+PDF, TXT-Puma.NETWindowsC#28?-