《形文通用表單識別軟件》是利用光學字符識別(OCR)技術,自動識別采集表單上要素信息,用以代替傳統的手工錄入模式,提高工作效率,節約企業成本。 《形文通用表單識別軟件》使企業實現各類表單自動錄入,是實現企業電子信息化的優選產品。它能高效地處理金融、工商、稅務、教育、統計等各行業的各類表單,并且該系統支持多種表單混合識別,如轉賬支票、匯款單、進賬單、稅單、問卷調查等表單樣式識別及表單要素信息識別的自動錄入。 二、 產品的組成 1. 配置工具 配置工具是用戶定制表單識別方案的應用程序。用戶可以使用配置工具定制單種或多種表單混合的識別方案。
2. 識別引擎 識別引擎是根據表單識別方案和表單圖像,進行識別處理,獲取表單要素信息的軟件模塊。 系統提供了強大的API接口,方便用戶而把識別軟件嵌入相應的應用系統中,滿足各行各業的需求。 API接口如下表: 函數名 函數說明 CreateInstance 創建一個識別引擎實例 FreeInstance 釋放指定識別引擎實例 UploadScheme 加載表單要素識別方案 ImageFileToBitmapStream 將其它格式的圖像文件轉換成位圖流 ReviseBitsDPI 修正表單圖像分辨率 CalculateOtioseBorder 計算圖像黑邊參數 PruneOtioseBorder 根據參數剪除圖像黑邊 RecognizeForm 表單識別 GetFormInfo 獲得表單識別信息 GetElementInfo 獲得要素識別信息 GetCellInfo 獲得單元識別信息 GetCharacterInfo 獲得字符識別信息 GetRectInOriginalBits 得到指定范圍在原始圖像上的映射范圍
3. 測試工具 測試工具是用于測試表單要素識別效果的應用程序,使用它可以方便了解識別效果和快速統計識別的通過率。 測試工具界面如下: 三、 產品功能 1. 強大表單樣式識別,系統基于表格特征提取及表單中線的定位,自動區分表單類型。表單識別和要素識別是一個集成的產品,兩者可以一起使用也可以獨立使用一個功能。 2. 智能識別引擎。識別引擎不但識別字符類型豐富,還可以識別非字符信息,如條形碼、勾選框、答題卡、LOGO等各種影像信息。 3. 提供功能靈活的模板制作工具,通過模板制作工具,用戶在很短的時間內就能夠定制完成自己的識別模板; 4. 具有自動傾斜校正、自動判斷表格是否顛倒并進行正轉等功能;對于掃描影像的黑邊能自動判別并自動去除。 5. 豐富的編程接口,用戶可以根據實際情況,將核心靈活地嵌入到所需的應用程序中。
四、 技術特點 《形文通用表單識別軟件》可實現自動區分表單種類、自動提取識別表單所有數據、自動校對識別結果等功能。與目前其他通用識別技術相比,具有如下特色: 1. 易用性 配置工具提供了強大表單識別方案的定制,可以定制各類各行業表單的識別方案;API函數提供了強大的二次開發接口,方便用戶自定義開發;測試工具根據配置好的方案和圖像文件,可以直觀的看到識別結果,方便客戶進行測試和演示。 2. 識別引擎 表單樣式識別采用直線提取算法,快速提取表單的直線特征,然后根據直線特征進行樣式識別和重疊處理,效果優異。 表單要素識別使用了先進的神經網絡、人工智能技術,具有良好的識別效果,尤其在手寫體字符的識別上,與同類產品相比較,有明顯優勢。 3. 定制工具 產品為表單要素識別提供配置工具,可以通過參數的方式定制表單要素的識別方法和識別過程,使應用開發商具備了自主的二次開發能力,可為最終客戶快速展示識別效果。 4. 適應性強 產品根據多年積累的表單要素識別的研發經驗,針對表單的各種情況,進行了全面的歸納、分析和總結,使產品具有較強的適應能力,能適應較多表單識別的需要;支持多種表單影像源(如黑白二值、灰度、彩色影像),支持各種通用影像格式(如BMP、JPG、TIFF等),對各種書寫方式(如:手寫、機打、印制),書寫格式(如:連續、線隔、字隔、方格),書寫樣式(如:字體、顏色),可能出現的噪聲,有著較為全面的考慮。 5. 擴展特性 產品采用擴展性較強的結構設計,除內置的要素通用識別方法和要素專用識別方法可根據需要擴展外,還預留了要素定制識別方法的接口,在內置的通用方法和專用方法無法滿足用戶需要的情況下,可根據用戶的特別需要定制特別識別方法。
五、 技術參數及運行環境 1、表單樣式識別率 通過率99%以上,誤識率為零。 2、單字符識別率 根據實際應用及測試結果,本產品針對各類單字信息識別率可以達到如下指標: 印刷數字:99% 印刷英文:99% 印刷漢字:99% 手寫數字:98% 手寫英文:98% 手寫大寫金額:98% 3、要素識別率 在實際的應用環境中,目前針對北京地區10萬張支票的各要素識別率統計情況,系統可以達到如下指標: 支票號:99% 日期:94% 賬號:98% 大寫金額:90% 小寫金額:90% 支付密碼:86% 磁碼:99% 4、替代人工率 整票識別正確率大于70%;如果按照每張支票7項要素計算,實際需要人工干預占5%。 5、系統運行環境 操作系統:Windows 2000/XP 網絡環境:TCP/IP協議的網絡環境
六、 適用范圍 1、政府部門:各種申請表、申報表的錄入及其處理 銀行、證券、保險部門:大量的存單、儲單、支票、內2、部流轉票據、證券買賣單據、保險單的錄入及其處理 3、工商、稅務部門:各種納稅申報表、財務報表以及匯算清繳表的錄入及其處理 4、統計部門:各類社會調查表(如人口普查表、農業普查表、商業調查表)的錄入及其處理 5、人事部門:人事登記表、人事測評考核表的錄入及其處理 6、教育、醫療部門:成績單錄入、病情統計表的錄入及其處理 7、制造業:進出庫票據、定貨單的錄入及其處理 8、企、事業單位:財務報表、單位內部報表、產品發布時訂單的錄入及其處理 9、其它行業或部門表格數據錄入




美圖秀秀
稿定設計
CorelDRAW 12
圖怪獸
智能修復老照片
Adobe Photoshop 7.0