最近遇到一个棘手的问题,就是有一批项目在申报和后期各个阶段登记的名称不一样,多字少字错别字都有,比较乱。
我接到的任务是要把各个阶段的信息(excel 表格形式)汇总匹配到一张表格里,需要汇总的表格比较多,而且项目数量也大,手工校正名称后再 vlookup 匹配工作量成倍增长。
所以我就在想,有没有公式可以实现模糊匹配。然后,我在知乎上的一篇文章里找到啦,准确率完全可以达到实际使用要求,注意要在 MS Office 里使用,WPS 里不太适用。
1. Excel 中实现模糊匹配
具体操作直接参照文章:Excel如何实现模糊近似匹配!。
2. SQL 和 Python 实现文本相似度比对以及模糊匹配
当然,上面的方法在面对更大数据量的时候无能为力,但已经能满足 90% 以上的使用场景了。
之后我会研究下 SQL 和 Python 实现文本相似度比对以及模糊匹配的方法,也会更新到这里,知道这方面方法的麻烦留言指教下。