免费起名核名

公司起名_公司起名字大全免费

工商核名

公司核名_工商核名查询系统官网
开公司想不出好名字? 企名网为您推荐
已为 家公司推荐名字
如:贵州企通达财务咨询有限公司,城市是“上海”,行业是“科技”
公司起名,需要注意哪些事项?

工商核名

非常重要,真实有效的号码才能收到核名结果

查询成功

稍后将有工作人员告知您查询结果,感谢您的耐心等待!

子公司命名格式

发表日期:2022-07-14 11:38:21

自然语言处理中自由文本信息抽取的触发词;例如,我们为企业名称实体构建了一个由“公司”“集团”“子公司”组成的字典。本文中为商业注册类信息中涉及的实体构造的实体关键字如下表所示。本发明公开了一种实现命名实体识别的方法,主要包括以下步骤:通过触发实体关键词字典中的词来激活实体规则匹配过程;将实体规则与触发词前面的词进行匹配,得到候选规则;基于贝叶斯模型从候选规则中选择最佳匹配规则,得到最佳匹配规则的长度;通过从触发词中追溯一个分词来确定实体边界。表实体关键字字典实体名称实体关键字公司、总公司、分公司、子公司、有限责任公司、有限公司、集团、工厂、分厂、商店、研究所、研究所、企业名称证券所、交易所、社会、一切权利、商业、商店、办事处、社会、珠市惠州、国家、省、市、县、区、镇、村、园、村、法院、注册地址街道、道路、道路、广场、市场、建筑物、建筑物、编号、房间注册日期公元、公元前、月、日、小时、少许人民币、人民币、港币、美元、欧元、日元、日元、英国注册资本英镑、卢布、加元,以上讨论的方法主要用于处理一般实体认定。在实际应用过程中,我们发现中国组织的命名实体识别存在差异。中文组织的长度通常很难确定,有的很长,有的很短,通常以表示地址的词开头。因此,我们在贝叶斯模型基数中引入组织长度作为最优规则选择的决策因素,并加入左边界修正过程来实现对组织的识别。中文组织命名实体识别的过程如下图所示。识别触发阶段的主要任务是扫描自由文本中的切分词。扫描实体关键词时,将切分词作为触发词,确定触发词所属的实体类别,调用对应的实体规则匹配。例如,扫描切分“公司”时,将切分作为触发词,将其所属的实体类别确定为组织实体,调用组织实体规则匹配触发词前的语义。在确定触发词类别时,将触发词前一句与对应实体规则之间的切分下标顺序逐一匹配。如果分段下标序列与规则匹配,则将该规则添加到候选规则集中。图中文组织命名实体识别过程命名实体最佳批处理规则的选择前一步过滤的候选规则集可能包含多个规则。我们需要从中选择一个最佳匹配规则,并根据规则长度确定实体的左边界。通常最佳匹配规则的选择是基于贝叶斯模型,但在实际实现过程中,我们发现中国的组织结构更倾向于匹配最长的规则,于是我们在贝叶斯模型的基础上增加了一个参数来调整最佳规则的选择策略。在朴素贝叶斯模型中,我们使用代表命名实体识别的实体规则集,根据上述朴素贝叶斯模型的定义,定义实体匹配实体规则的概率,如下所示,由于它对每个实体都是固定值,所以正相关。在我们的方法中,我们对此做了一些修改,增加了实体策略参数的长度作为最佳匹配规则,选择策略的调整参数,候选规则的选择将更倾向于选择长规则,候选规则的选择与长度无关,仍然遵循贝叶斯模型,我们将更倾向于选择短规则作为最佳匹配匹配规则。因此,本文在对注册日期、注册地址和注册资本进行规则决策时,将其设置为不受时间长短的影响。在对企业名称进行规则决策时,更倾向于选择长规则进行匹配。确定实体左边界,修改左边界,通过规则决策得到最佳匹配规则。实体长度可以通过规则来确定。此时,可以通过从触发词中追溯一个切分词来确定实体的左边界。由这些切分词组成的切分串表示相应的实体。同时,在中文机构识别过程中,我们发现机构通常使用省份等地址名称因此,在实体识别过程中,如果我们获得的组织实体名称不是以地址开头的,我们将在阈值范围内继续。该方法将阈值设置为向前匹配,直到在同一句子中遇到地址名。如果在阈值范围内没有地址名称,则取消更正。命名实体识别过程实际上已经识别出了需要提取的潜在信息,但并不是所有识别出的实体都是我们需要提取的信息。为了正确地从文本中提取信息,我们需要将识别出的实体及其上下文与其对应的提取规则进行匹配,这些规则是基于目标信息上下文的语法和语义构建的。从自然语言处理中抽取自由邻近信息的抽取规则的构造包括三种策略:共生策略、序贯共生策略和基于规则的结构驱动策略。在这三种策略中,基于规则的结构驱动策略能够很好地平衡正确率和查全率,因此它是我们的规则设计策略。在该方法中,我们定义了一系列单槽抽取规则,这些规则可以看作是描述目标信息的上下文语法,语义信息,我们的规则元素包括文本关键字、用户自定义标记、实体标记和其他功能符号文本关键字。这主要是指目标信息上下文中经常出现的一些关键词,比如地址信息。地址信息前面经常出现“定位”“定位”等字眼。表用户定义标签和关键词用户定义标签代表关键词,创建,创建,启动,启动,建立,建立,建立,注册,形成,发起投资,投资,融资,筹资,注资,筹集资金,投入资本,资本,资本,金额,资产,固定资本,固定资产,固定资本所在地,所在地,所处,专营,主要,主要业务,主要产品和服务,主要业务,业务,专注,主要业务,主要生产,承诺,提供,制造,生产,销售,开发,产品,业务,服务,平台时间,日期,广告企业,公司,工厂,工厂,组织,机器。我们构建了一个用户定义的字典及其相应的标记。用户定义词典中的单词都是语义相同的单词。在规则的构造上,我们用用户自定义标签代替这些词,从而实现规则的泛化,提高规则的召回率。例如,我们使用用户定义的标记“,而不是”资本“、”资本“、”金额“和”资产“等同义词。表中显示了本文中为提取商业注册信息而构造的用户定义标记及其表示的关键字。实体标签表示我们在命名实体识别过程中识别的实体。对于每一类实体,我们定义了一类相应的标签。在规则中,我们通常用实体标签代替特定实体来泛化规则。实体标记通常与功能标记一起使用,以区分用户定义的标记,在规则中,这些标记通常表示组织实体。这是一个通配符,在规则中用于表示任何数字,包括任何单词。规则中位于此功能符号中的单词不一定需要出现在目标信息的上下文中。“代表要提取的注册地址信息,当”“与木结合时,表示提取的信息是不确定的,企业信息的经营范围将在下文描述,表中列出了根据这种提取企业注册资本的方法设计的一些规则,在这些规则中,”注册“是文本关键字”是金融实体标签“。表注册资本提取规则样本在本文、针对企业注册登记信息、注册日期、注册资本的提取,前三种规则由于可以通过命名实体识别相应的名词并确定边界,因此具有较强的通用性,而经营范围通常较长,甚至一个句子都很难被命名实体识别,因此,经营范围提取规则的设计主要考虑使用描述经营范围常用的关键词定义左右来构造其提取规则,因此其规则的提取精度相近到更低的地方。抽取过程实际上是文本切分和抽取规则匹配的过程。一旦我们检测到一个实体,我们首先确定该实体的类别,然后将该实体的上下文与其对应的规则进行匹配