公司名称相似度计算

个体工商户核名
可以起名XX店,XX工作室等

点击核名
公司核名
可以起名XX有限公司等

点击核名
集团公司核名
可以起名XX集团公司等

点击核名
在线核名
在线核名，快速反馈结果

点击核名

8000万+企业
支持多种查询，无需任何注册登录，完全免费

了解更多
市场监督部门数据对接
多维度整合关联信息，智能匹配搜索结果

了解更多
权威数据来源
数据与权威网站同步,实时更新

了解更多
海量数据信息
工商数据，全国企业信用数据库等全量信息库

了解更多

公司名称相似度计算

发表日期：2022-11-03 11:11:58

在处理数据时，有时需要找出有错误的数据或对数据进行重复数据删除。对于重复数据删除，如果是存储在数据库中，我认为用一条sql就可以完成，但是很难找出数据中错误的数据，只能人工判断。举个例子：比如一批账单中，存储了所有的企业名称，但是如果要统计企业的实际数量，我们可能会说，如果是在数据库中，那不是直接有区别的出来了吗？是的，我们可以用distinct去掉重复的企业，但是看看留下来的企业名称，“XXX科技有限公司”“XXX科技有限公司”。只要手工输入姓名，难免会出错。前两个名字肯定会被sql统计成两个公司，你看眼睛就知道这两个公司是一个公司。那么，如果出现这种情况，计算机如何帮助我们找出这些错误的企业名称呢？

在这里，我给大家推荐一个Levenshtein算法。通过这个算法，我们可以计算出两个文本之间的一个阈值，我们简单的称之为相似度。现在假设数据库里有一个企业名称表，里面的名称都是手工输入的。我们可以通过这个算法来计算企业名称的相似度。一般我们在上面设置这个阈值，就可以找出几乎所有人手动输入的错误。在实际应用中，我们可以将这个阈值存储在数据库中，并在这些阈值中选择一个合适的阈值来找出所有相似的名称。

下面是一个Java代码示例：

调用实例：

上一篇: 公司名称被乱用下一篇: 114报公司名字能查到电话

不能重名

不能触犯驰名商标

不能与知名公司名字混淆

尽量不用地区名称及简称

不能使用繁体、数字、英文

不能使用行业通用词汇

不能使用名人字号

不能带有宗教色彩

工商核名

公司名称相似度计算