企业名称相似度50

发表日期：2023-02-21 08:30:20

在B端中小企业的信用场景中，我们会经常遇到多个企业信息表匹配的情况，即按照某个主键字段进行横向匹配，可以是企业名称、社会信用代码等。而企业名称往往是一个共同的需求。但是.在实际情况中，由于所有数据的企业名称并不完全一致，数据匹配结果存在一定误差。

现在举个例子，图1中的信息表1显示的是通过在线OCR技术分析营业执照得到的企业基本信息，字段名代表企业名称，数据整体比较完整；信息表2是通过线下客户经理全调整流程获得的业务信息，字段id代表企业名称。由于手工输入，有很多名字缩写或者个别单词写错了。为了方便分析企业统一的数据信息表，金融机构的业务方自然希望将表1和表2合成，即根据双方共同的企业名称主键，进行匹配，形成一个大的数据宽表。

编辑

图1企业信息数据表

通过以上场景的介绍，我们了解了任务需求。当信息表的数据量比较大的时候，采用人工核对匹配理论上是可行的，但是显然工作效率很低。我们希望可以通过代码工具轻松实现，但是由于各个表中数据的主键名不完全统一，匹配结果也有很大误差。所以针对以上实际业务场景，我们希望快速实现各种信息表的数据匹配，也希望最终结果的误差越低越好。这里可以通过企业名称的文本相似度来匹配信息，这也是本文的重点。

首先，我们简单地构造两个样本数据信息表，每个表包含10个企业样本数据和3个字段。具体的数据样本分别如图2和图3所示。其中，在企业基本信息表中，name是企业名称，address是企业地址，time是经营年限；在企业全调信息表中，id是企业名称，数字是员工人数，级别是利润水平。

编辑

图2企业基本信息表

编辑

图3企业最佳调整信息表

对于以上两个信息表，企业数据是完全对应的，即图2中基本信息表的企业列表必须对应图3中综合信息表的企业列表。但是，图2数据表中的企业名称是全称，而图3数据表中的企业名称id是简称。如果代码直接匹配两个主键字段(名称和id ),结果将为null。当然，你可能会认为，对于上面的样本数据匹配，不需要直接手动对应代码。这里需要注意的是，本文的数据只是分析样本。解决实际场景问题并不像上面的例子那么简单，样本数据量和主键的复杂程度更加多样。本文重点介绍针对业务问题的解决思路。因此，我们假设上述样本数据匹配任务通过手工合并效率较低，需要代码工具快速实现。接下来，我们将通过具体的实践来完成任务要求。

企业名称作为上述两条数据的主键，自然需要通过字段name和id来完成样本匹配。主要思想是借助文本的相似性来合并多个表格。获取文本数据相似度的方法有很多种，如difflib和Levenshtein，在python语言环境中被广泛使用。本文使用difflib库的SequenceMatcher类函数来完成，其函数实现表达式为3359 https://www.zhucesz.com/(str1，str2)。Quick _ ratio，其中str1和str2分别代表两个文本数据(或字段)，函数输出结果为0~1范围内的十进制值。该值越大，两个文本数据之间的相似度越高。

根据上述文本相似性原则，我们对图2和图3中的样本数据进行匹配，首先计算每个样本名称和的相似度

根据上图得到的数据匹配结果，每个企业组合都会得到相似度值相似，那么相似度的最大值就是当前企业的匹配样本ID，然后匹配相关特征字段，实现不同信息表的相关数据。图5中输出的企业名称“北京中岳传媒信息有限公司”，与id中包含的10个企业名称相似的是https://www.zhucesz.com/,对应的企业名称缩写为“中岳传媒”。企业名称匹配成功，达到了我们预期的匹配结果。当企业名称之间的对应关系确定后，即定义了两个数据信息表的主键，样本的特征字段也进行了匹配。

根据上述原理和逻辑，针对企业的上述两个样本数据，实现了企业名称匹配的实现过程。详见知识星球代码详情，最终输出匹配数据结果如图7所示。

编辑

图7企业数据的匹配结果

根据上图中的结果，图2中企业基本信息表中的企业列表名称(全称)和图3中企业信息表中的企业列表id(简称)都被精确匹配，从而将分布在不同数据表中的企业特征字段合并到同一个表中，解决了企业名称不同情况下的企业数据匹配问题，在实际工作中具有重要的参考意义。

对于上例的样本数据表，在样本号、字段名等方面可能更复杂。在实际的业务场景中，或者信息表的数量不限于两个。例如，如图8所示，表1-3分别代表企业不同维度的数据。表1和表2的关联取决于企业名称(表1的名称和表2的CustID)，表2和表3的关联取决于企业的信用代码(表2的编号和表3的ID)。我们需要明确企业数据表之间的主键匹配关系，以便通过两两组合得到最终的企业数据全表结果。

编辑

图8示例企业数据表

另外，根据文本相似度匹配数据的方法有很多，如余弦相似度、TF-IDF、Levenshtein、simtext等。除了本文介绍的difflib之外，具体实践中可以根据实际情况选择，也可以通过多种方式比较得出最佳结果。综上所述，我们通过简单的例子来描述企业列表匹配的场景实现过程，对于其他场景的数据匹配需求也有很好的参考价值，可以重点掌握并在实践中灵活运用。

为了便于您进一步熟悉和理解企业列表数据匹配场景的实现和分析，本文另外附上与上述内容同步的python代码和样本数据，供您参考。详情请移步知识星球查看相关内容。

编辑

编辑到中心

~原创文章

上一篇: 企业名称皆找正耀财税信赖下一篇: 企业名称相似相近如何判定

不能重名

不能触犯驰名商标

不能与知名公司名字混淆

尽量不用地区名称及简称

不能使用繁体、数字、英文

不能使用行业通用词汇

不能使用名人字号

不能带有宗教色彩

工商核名

企业名称相似度50