免费起名核名

公司起名_公司起名字大全免费

工商核名

公司核名_工商核名查询系统官网
开公司想不出好名字? 企名网为您推荐
已为 家公司推荐名字
如:贵州企通达财务咨询有限公司,城市是“上海”,行业是“科技”
公司起名,需要注意哪些事项?

工商核名

非常重要,真实有效的号码才能收到核名结果

查询成功

稍后将有工作人员告知您查询结果,感谢您的耐心等待!

公司名称和公司名称匹配

发表日期:2022-10-14 20:48:32

        如标题所述,本程序的目的是实现公司名称与公司地址的模糊匹配,还可以迁移到房产信息、电话号码等字段。最初的应用场景是反团伙诈骗和流失客户修复。大致意思是,同一家公司的多个同事向我公司借款的诈骗可能性比其他客户高,假的房产信息和电话号码不一定完全一样,但有一定的相似之处,所以我们需要把这些客户找出来,但不能用精准匹配。因为有问题的房产信息和电话号码可能只是相似,而不是完全相同;对于公司名称和地址就更糟糕了,即使是真实信息,但同一家公司的名称可能五花八门。麻烦的话,还得建个词库。但我们所做的工作并不是那么全面,只是提取了公司名称中的关键词。
        制作记分卡模型也需要这种想法。因为积分卡上有一个字段是城市级别,这就需要从原始数据的地址中提取城市信息,但地址格式不够规范,因为信息是客户手工填写的。例如,“山东省济南市”也可能写成“山东省济南市”,因此一个正则表达式不足以解决提取该字段的问题。
        归纳起来,模糊匹配有两个应用场景:1)构建反欺诈知识图谱;2)从记分卡中提取必填字段
        地址处理的基本思路是建立标准库,对地址进行逐个比对,然后返回结果和置信度,因此词库的建立是地址处理的关键。
        以下是解决问题的方法:
        第一步是提取公司名称中的关键字。首先要分析数据库中公司名称的形式:“浙江杭州利多林商贸有限公司”“汇川万全兄弟购物中心”“温州雪龙集团有限公司北京销售分公司”……经过分析可以看出,公司名称大致分为三个部分:1。省、市级名称;2.关键词+公司属性;3.分局或分局等。
        信息。
        首先,您需要使用python连接到数据库,并取出company name字段:1。下载并安装psycopg2模块。下载链接如下:安装完成后,输入以下语句连接到数据库:
        2.根据以上分析,下一步首先提取省市。通常提取省市区的方式是创建行政区划库,类似于解霸切分中的txt词典。在解决这个问题时,我和我的同事有不同的想法。用捷巴对公司名称进行分段后,一个想法是建立一个最简单的词库,词库里的词都是行政区划最短的简称,比如“宁夏”“内蒙古”等。如果词典中的单词在切分中,则取出切分;另一种思路是使用全称词库,如“宁夏回族自治区”“内蒙古自治区”等。如果分节词能与之完全匹配,则取出分节词;否则,按照一定的规则,把字典里的“省”“市”“自治区”去掉,再配上切分词。经过讨论,最后,行政区划库的形式如下图所示:
        3.使用python创建字典,分别创建以下字典:
        4.使用分词包对公司名称进行分词,显然,我们需要抽取行政区,我们需要词性为NS的词。但分词后我们发现,并不是杰霸自己词典里的词类都是NS,而其他一些我们不需要的词,比如“大望路”,可能是NS。因此,我们需要创建一个专门的分词词典,并标注其词性NS,以取代默认词典。
        5.提取三级行政区划以前已经提到过。由于行文不规范,同一行政区划可能会写法不一。例如,“山西省太原市小店区”可能写成“山西省太原市小店区”“太原市小店区”或直接写成“小店区”。所以在提取的时候,有很多情况:
        6.接下来,提取份额
        分部信息
        7.下一步是提取关键词信息,这也是所有步骤中的难点。主要的问题是你需要创建一个新的行业字典。以下是去掉行政区划和分支机构后的几个公司名称实例:厚英经贸有限公司伟强餐饮有限公司品展装饰有限公司泰广兴空分设备配件有限公司郁南贸易有限公司金鹿新力贸易有限公司旭盘贸易有限公司苑东工具厂湛江峡山海明炉料商行北明钢铁有限公司三达化工有限公司友作木业有限公司经分析,公司名称大致可分为两种情况:1.后缀为“有限公司”、“责任有限公司”、“有限责任公司”、“公司”;2.后缀为“玩具厂”“小卖部”“化工厂”。因此,有必要建设两个新的行业词典,其数据是公司购买的数千万法人数据库的公司名称和地址。由于数据量大,需要用kattle导入到数据库中进行操作。从所有公司名称中选择后缀为“有限公司”的名称,去掉这四个字的后缀后,分别截取倒数的2、3、4……字,并根据其出现频率进行排序,然后,通过手动,按照字符串从多到少的顺序选择行业属性,原因是,比如假设“文化传播”在四个字中出现频率较高,有可能“文化传播”在三个字中出现频率较高,那么我们应该先选择一个较长的字符串,然后手动删除较短的字符串,虽然频率较高,但不是一个字串。获得的行业属性如下:安全防范技术安全防范技术服务安装安装工程百货公司办公设备包装包装产品清洗清洗服务泵业酒店玻璃材料销售财务顾问财务咨询财务咨询服务餐饮
        餐饮服务、餐饮管理、仓储、测绘规划、茶产品销售、构建企业属性词库;技术服务部汽车维修站配件经营部市场服务部机械配件厂汽车运输队建筑工程队证券营业部汽车维修厂工会委员会金属结构厂金属加工厂材料经销处安装工程处汽车维修站技术开发部。这样,我们从企业名称中消除属性,留下关键字,你可以对公司名称进行模糊匹配。当然,对于一些公司来说,可能还存在昵称,这就需要建立同义词,这里暂时不讨论。
        第二部分是公司地址的模糊匹配。与公司名称相比,地址的模糊匹配更为简单。角山路317号、灵芝广场、第四名,C楼,马家工业园区、第四名,C楼,马家工业园区、远洋路8号、海阔天二期1-5-3明湖花园、滨湖路、之江路934号、宏发路30号、高坪镇1-4号、203号文苑路东段203号郁南大道19号凯恩国际1022B号马坊乡刘坡村镇西镇秦桥村滴水村A地块底商A-1002号朱金路11号柬埔寨园区5号2单元之江路602单元934号生产资料市场东晓南路东晓镇33号11栋,得出公司地址全称通常使用四级、五级、六级行政区划,某某路+号+号+具体门牌号,故可通过正则表达式提取: