免费起名核名

公司起名_公司起名字大全免费

工商核名

公司核名_工商核名查询系统官网
开公司想不出好名字? 企名网为您推荐
已为 家公司推荐名字
如:贵州企通达财务咨询有限公司,城市是“上海”,行业是“科技”
公司起名,需要注意哪些事项?

工商核名

非常重要,真实有效的号码才能收到核名结果

查询成功

稍后将有工作人员告知您查询结果,感谢您的耐心等待!

如何有效的进行公司名称匹配

发表日期:2022-10-26 14:33:35

        本文来源于腾讯疾控中心原创地址。如何有效匹配公司名称/
        转自dataxon微信公众号
        项目需要连接两个独立的系统,通过匹配公司名称实现数据接入,其中一个系统的公司数量为40万+,另一个系统需要匹配的公司数量为3600+。如果两个系统以SQL的形式直接关联,则发现只有1100多个公司名称可以匹配。如果剩下2500家左右的公司都需要人工匹配,不仅工作量大,效率也低。
        通过对不良案例的分析,我们发现公司名称匹配困难的主要问题有以下几个方面:
        公司缩写往往是人们根据习惯约定而作出的,没有标准形式。例如,深圳市腾讯计算机系统有限公司的简称为腾讯,使用了公司全称的一部分作为简称,可以通过字符串包含方便匹配。但也有不少公司的简称为其他形式,如中国银行股份有限公司、中国石油化工股份有限公司、中国石化等。这个由公司全称不同部分拼接而成的简称,很难直接通过字符串模糊匹配达到更好的效果。还有的公司可能会有多种简称,比如中国东方航空股份有限公司,有的人简称东航,有的人简称东航。
        总之,各种各样的缩写使得字符串匹配时很难正确识别。传统的解决方案是维护一个公司的全名和缩写之间的映射关系,作为一个常识库。但如果仅仅依靠常识库来解决问题,由于公司数量众多,且随着时间的推移发生变化,维护和更新常识库将成为一大难题。
        举个例子,深圳市阅文教育咨询有限公司的简称是阅文,但当你拿阅文到系统进行LIKE匹配时,会发现有35个公司全称带有阅文子串,其中一些如下:
        北京大悦文化传播有限公司
        成都悦悦文化传播有限公司
        杭州艺悦文化传媒
        有限的
        北京鼎悦文献信息技术有限公司
        深圳市华越文化传媒有限公司
        上海勤悦文化科技发展有限公司
        这些匹配的公司全名所包含的匹配子串往往语义碎片化,但直接包含匹配无法进行语义分段,导致匹配错误率随着缩略语数量的减少而增加。
        基于以上问题,在处理公司名称匹配时,工作主要分为两部分:
        数据清洗,主要通过分词拆解公司全称,组合可能出现的缩写形式;
        模糊匹配主要是基于最短编辑距离算法计算猜测的缩略语和待匹配缩略语的匹配分数,然后通过筛选最高匹配分数来寻找最佳匹配结果。
        以下是各部分工作的详细介绍:
        公司名称一般由四部分组成:地区、关键字(X)、行业和公司后缀(Org_Suffix)。例如,深圳市万网博通科技有限公司位于深圳,万网博通是关键词,Technology是行业词,limited company是公司的后缀,那么我们可以用RXIO来表达这家公司的名称结构。其他结构的公司名称可以用类似的方式表示,例如:
        在实现方面,我们使用了jieba[1]提供的词性标注功能,因为词性标注需要提前分词,然后识别每个词的词性,所以这一块的准确性与使用的分词工具和分词模式有一定的关系。例如,上海景立信息科技有限公司在分词后标注了以下词性[上海/NS景立/X信息/N技术/N有限公司/N],这样很容易将其结构表达为RXIIO,效果如图所示:
        通过对每个令牌进行分词和词性标注,可以将不同的令牌按词性分为四类:RXIO。其中,公司后缀O型数量有限,可以通过建立公司后缀词库进行识别。区域R型can
        分类是通过直接使用词性为ns(表示地名)的令牌来完成的。关键词X类型和行业I类型的识别比较模糊,所以我没有严格区分,主要是结合词性和定制行业叙词表来完成关键词和行业的分类。如上清理完所有公司的全名后,可以得到它们数据的正式表示形式,如图所示:
        有了公司全称的正式表示,下一步就是猜测其可能的缩写结构。例如,中国移动有限公司的简称为中国移动,可以表示为RXO=>R[1-1]X,其中R[1-1]代表第一个区域词的第一个字;例如,中国联通有限公司的简称是中国联通,可以表示为RXO=>RX,这样我们就可以得到RXO的全称。本公司可能的缩写形式为R[1]X和RX。以此类推,我们可以通过统计公司全称所对应的缩写形式,得到一个规律来表达不同形式结构的公司全称所对应的可能的缩写形式:
        同时,新的规则可以不断地添加到其中。当将这些规则应用于所有公司全名正式表示中的步骤所获得的数据时,可以获得对应于每个公司全名的可能缩写形式,如图所示:
        用所有可能的公司全称缩写,通过字符串相似度算法计算匹配度。如果匹配得分达到一定阈值,就可以认为是匹配。
        常用的字符串相似度算法有最短编辑距离算法和余弦相似度算法,其中最短编辑距离算法用来实现匹配。最短编辑算法介绍如下:
        最小编辑距离算法分配两个字符串X和Y,使用以下三个操作将字符串X更改为字符串Y:
        插入操作费用为1;
        删除操作(删除)费用为1;
        替换,代价2,在这种情况下Levenshtein编辑距离,其他算法中的替换代价与其他两类运算相同(1);
        例如,“意图”变成“执行”,执行三次替换、一次删除和一次插入,那么这两个字之间的最短编辑距离为8(如下所示)。
        更多参考资料:
        具体编程实现请参见:
        计算出最短编辑距离后,可以根据它们字符串的长度计算它们的相似度,公式如下:
        有关守则如下:
        有了相似度计算公式,就可以计算出一个公司名称所有可能的缩写与要匹配的公司名称的相似度,然后取最高分作为两个公司的最终匹配得分。效果如下:
        在核对匹配得分时,我们会发现有些公司的匹配结果明显错误,但匹配得分却很高。例如,深圳市林云科技有限公司的简称猜测林云科技与云耀科技相似度最高,匹配得分为92分。而云耀网络科技(上海)有限公司与云耀科技的熟人匹配得分仅为83分。