为什么我在模板中定义了表格列，但是提取的表格数据中没有这列数据？

Pdf2Table 公开分享 - 2023年11月07日 14:23

影响pdf2table提取表格数据准确率的因素很多，其中最关键的是前期训练成型的“规则”。在定义模板表格时，我们会对表格的区域、表头列和数据列进行简单的定义，并提供一定量的同类型文件进行训练。

在定义表头列时，我们命名定义好了列名，但是有时候我们发现，后期提取表格时，这列明明有数据，但是提取出来却少了。

这里面很大的原因，可能是前期训练时提供的数据样本，并没有覆盖完整的可能性。这些样本文件中的这一列，都是没有数据的。

这就造成了在此数据样本上训练好的“规则”，缺少对此列数据敏感度。当遇到此列有数据的情况，就会忽略掉此行的数据了。

这个解决的方法也很简单，就是将有此列数据的文件，补充为样本文件，继续训练。

当训练好后，此列的“规律”被抽象为“规则”后，再遇到这样的数据，这列的数据就会被提取到了。