Python PDF/图像 OCR 固定页面部分
发布时间:2022-07-22 07:47:54 416
相关标签: # node.js
我需要扫描一堆发票以提取其数据(例如供应商名称、供应商地址、发票参考编号、购买的商品、价格……),但 OpenCV/Tesseract 方法似乎从整个文档中提取文本而没有任何切片.
对于每个供应商,发票都有固定的格式,因此这些信息中的每一个通常都位于文档的同一部分。我希望将固定区域指定为要扫描的特定类别。(例如,扫描这部分,将其标记为供应商名称;扫描该部分,将其分配给购买的物品(如果有)。有谁知道我如何以快速简单的方式解决这个问题?
信息是保密的,因此希望不会涉及在线上传文件。谢谢!
特别声明:以上内容(图片及文字)均为互联网收集或者用户上传发布,本站仅提供信息存储服务!如有侵权或有涉及法律问题请联系我们。
举报