Pdf2Table
公开分享 - 2023年11月07日 14:23
影响pdf2table提取表格数据准确率的因素很多,其中最关键的是前期训练成型的“规则”。在定义模板表格时,我们会对表格的区域、表头列和数据列进行简单的定义,并提供一定量的同类型文件进行训练。
在定义表头列时,我们命名定义好了列名,但是有时候我们发现,后期提取表格时,这列明明有数据,但是提取出来却少了。
这里面很大的原因,可能是前期训练时提供的数据样本,并没有覆盖完整的可能性。这些样本文件中的这一列,都是没有数据的。
这就造成了在此数据样本上训练好的“规则”,缺少对此列数据敏感度。当遇到此列有数据的情况,就会忽略掉此行的数据了。
这个解决的方法也很简单,就是将有此列数据的文件,补充为样本文件,继续训练。
当训练好后,此列的“规律”被抽象为“规则”后,再遇到这样的数据,这列的数据就会被提取到了。