免费起名核名

公司起名_公司起名字大全免费

工商核名

公司核名_工商核名查询系统官网
开公司想不出好名字? 企名网为您推荐
已为 家公司推荐名字
如:贵州企通达财务咨询有限公司,城市是“上海”,行业是“科技”
公司起名,需要注意哪些事项?

工商核名

非常重要,真实有效的号码才能收到核名结果

查询成功

稍后将有工作人员告知您查询结果,感谢您的耐心等待!

企业名称相似度50

发表日期:2023-02-21 08:30:20

在B端中小企业的信用场景中,我们会经常遇到多个企业信息表匹配的情况,即按照某个主键字段进行横向匹配,可以是企业名称、社会信用代码等。而企业名称往往是一个共同的需求。但是.在实际情况中,由于所有数据的企业名称并不完全一致,数据匹配结果存在一定误差。

现在举个例子,图1中的信息表1显示的是通过在线OCR技术分析营业执照得到的企业基本信息,字段名代表企业名称,数据整体比较完整;信息表2是通过线下客户经理全调整流程获得的业务信息,字段id代表企业名称。由于手工输入,有很多名字缩写或者个别单词写错了。为了方便分析企业统一的数据信息表,金融机构的业务方自然希望将表1和表2合成,即根据双方共同的企业名称主键,进行匹配,形成一个大的数据宽表。

编辑

图1企业信息数据表

通过以上场景的介绍,我们了解了任务需求。当信息表的数据量比较大的时候,采用人工核对匹配理论上是可行的,但是显然工作效率很低。我们希望可以通过代码工具轻松实现,但是由于各个表中数据的主键名不完全统一,匹配结果也有很大误差。所以针对以上实际业务场景,我们希望快速实现各种信息表的数据匹配,也希望最终结果的误差越低越好。这里可以通过企业名称的文本相似度来匹配信息,这也是本文的重点。

首先,我们简单地构造两个样本数据信息表,每个表包含10个企业样本数据和3个字段。具体的数据样本分别如图2和图3所示。其中,在企业基本信息表中,name是企业名称,address是企业地址,time是经营年限;在企业全调信息表中,id是企业名称,数字是员工人数,级别是利润水平。

编辑

图2企业基本信息表

编辑

图3企业最佳调整信息表

对于以上两个信息表,企业数据是完全对应的,即图2中基本信息表的企业列表必须对应图3中综合信息表的企业列表。但是,图2数据表中的企业名称是全称,而图3数据表中的企业名称id是简称。如果代码直接匹配两个主键字段(名称和id ),结果将为null。当然,你可能会认为,对于上面的样本数据匹配,不需要直接手动对应代码。这里需要注意的是,本文的数据只是分析样本。解决实际场景问题并不像上面的例子那么简单,样本数据量和主键的复杂程度更加多样。本文重点介绍针对业务问题的解决思路。因此,我们假设上述样本数据匹配任务通过手工合并效率较低,需要代码工具快速实现。接下来,我们将通过具体的实践来完成任务要求。

企业名称作为上述两条数据的主键,自然需要通过字段name和id来完成样本匹配。主要思想是借助文本的相似性来合并多个表格。获取文本数据相似度的方法有很多种,如difflib和Levenshtein,在python语言环境中被广泛使用。本文使用difflib库的SequenceMatcher类函数来完成,其函数实现表达式为3359 https://www.zhucesz.com/(str1,str2)。Quick _ ratio,其中str1和str2分别代表两个文本数据(或字段),函数输出结果为0~1范围内的十进制值。该值越大,两个文本数据之间的相似度越高。

根据上述文本相似性原则,我们对图2和图3中的样本数据进行匹配,首先计算每个样本名称和的相似度

根据上图得到的数据匹配结果,每个企业组合都会得到相似度值相似,那么相似度的最大值就是当前企业的匹配样本ID,然后匹配相关特征字段,实现不同信息表的相关数据。图5中输出的企业名称“北京中岳传媒信息有限公司”,与id中包含的10个企业名称相似的是https://www.zhucesz.com/,对应的企业名称缩写为“中岳传媒”。企业名称匹配成功,达到了我们预期的匹配结果。当企业名称之间的对应关系确定后,即定义了两个数据信息表的主键,样本的特征字段也进行了匹配。

根据上述原理和逻辑,针对企业的上述两个样本数据,实现了企业名称匹配的实现过程。详见知识星球代码详情,最终输出匹配数据结果如图7所示。

编辑

图7企业数据的匹配结果

根据上图中的结果,图2中企业基本信息表中的企业列表名称(全称)和图3中企业信息表中的企业列表id(简称)都被精确匹配,从而将分布在不同数据表中的企业特征字段合并到同一个表中,解决了企业名称不同情况下的企业数据匹配问题,在实际工作中具有重要的参考意义。

对于上例的样本数据表,在样本号、字段名等方面可能更复杂。在实际的业务场景中,或者信息表的数量不限于两个。例如,如图8所示,表1-3分别代表企业不同维度的数据。表1和表2的关联取决于企业名称(表1的名称和表2的CustID),表2和表3的关联取决于企业的信用代码(表2的编号和表3的ID)。我们需要明确企业数据表之间的主键匹配关系,以便通过两两组合得到最终的企业数据全表结果。

编辑

图8示例企业数据表

另外,根据文本相似度匹配数据的方法有很多,如余弦相似度、TF-IDF、Levenshtein、simtext等。除了本文介绍的difflib之外,具体实践中可以根据实际情况选择,也可以通过多种方式比较得出最佳结果。综上所述,我们通过简单的例子来描述企业列表匹配的场景实现过程,对于其他场景的数据匹配需求也有很好的参考价值,可以重点掌握并在实践中灵活运用。

为了便于您进一步熟悉和理解企业列表数据匹配场景的实现和分析,本文另外附上与上述内容同步的python代码和样本数据,供您参考。详情请移步知识星球查看相关内容。

编辑

编辑到中心

.

~原创文章