为什么我在模板中定义了表格列,但是提取的表格数据中没有这列数据?

用户图像 Pdf2Table 公开分享 - 2023年11月07日 14:23

影响pdf2table提取表格数据准确率的因素很多,其中最关键的是前期训练成型的“规则”。在定义模板表格时,我们会对表格的区域、表头列和数据列进行简单的定义,并提供一定量的同类型文件进行训练。

在定义表头列时,我们命名定义好了列名,但是有时候我们发现,后期提取表格时,这列明明有数据,但是提取出来却少了。

这里面很大的原因,可能是前期训练时提供的数据样本,并没有覆盖完整的可能性。这些样本文件中的这一列,都是没有数据的。

这就造成了在此数据样本上训练好的“规则”,缺少对此列数据敏感度。当遇到此列有数据的情况,就会忽略掉此行的数据了。

这个解决的方法也很简单,就是将有此列数据的文件,补充为样本文件,继续训练。

当训练好后,此列的“规律”被抽象为“规则”后,再遇到这样的数据,这列的数据就会被提取到了。