Python PDF/图像 OCR 固定页面部分

网络安全监督员 lv.2

发布时间：2022-07-22 07:47:54 447

相关标签： # node.js

我需要扫描一堆发票以提取其数据（例如供应商名称、供应商地址、发票参考编号、购买的商品、价格……），但 OpenCV/Tesseract 方法似乎从整个文档中提取文本而没有任何切片.

对于每个供应商，发票都有固定的格式，因此这些信息中的每一个通常都位于文档的同一部分。我希望将固定区域指定为要扫描的特定类别。（例如，扫描这部分，将其标记为供应商名称；扫描该部分，将其分配给购买的物品（如果有）。有谁知道我如何以快速简单的方式解决这个问题？

信息是保密的，因此希望不会涉及在线上传文件。谢谢！

特别声明：以上内容（图片及文字）均为互联网收集或者用户上传发布，本站仅提供信息存储服务！如有侵权或有涉及法律问题请联系我们。