免费起名核名

公司起名_公司起名字大全免费

工商核名

公司核名_工商核名查询系统官网
开公司想不出好名字? 企名网为您推荐
已为 家公司推荐名字
如:贵州企通达财务咨询有限公司,城市是“上海”,行业是“科技”
公司起名,需要注意哪些事项?

工商核名

非常重要,真实有效的号码才能收到核名结果

查询成功

稍后将有工作人员告知您查询结果,感谢您的耐心等待!

注册公司名称关键词怎么选

发表日期:2022-11-17 10:41:32

浙江大学硕士论文第一章重点研究自然语言处理中自由文本信息抽取的触发词。比如,我们为企业组织机构名称构建了一个由“公司”、“集团”、“子公司”组成的字典。本文为企业注册信息中涉及的实体构建的实体关键词如下表所示。该方法中命名实体识别的实现主要包括以下步骤:通过实体关键词词典中的触发词激活实体规则匹配过程,将实体规则与触发词前的词进行匹配得到候选规则,基于贝叶斯模型从候选规则中选择最佳匹配规则,获得最佳匹配规则的长度,从触发词回溯分词确定实体边界。表实体关键词词典实体名称实体关键词公司、总公司、分公司、子公司、有限责任公司、有限公司、集团、工厂、分厂、商店、研究所、研究所、企业名称证券交易所、交易所、代理处、事务所、商店、商行、代理处、股份公司、国家、省、市、县、区、镇、村。年、月、日、时、分人民币、元、港币、美元、欧元、日元、英国注册资本英镑、卢布、加拿大元、马克、澳大利亚元、法国法郎、里拉。上述方法主要用于处理一般的实体识别。在实际应用过程中,我们发现中文组织的命名实体标识各不相同。中国组织的长度通常很难确定。有的很长,有的很短,一般都是以表示地址的词开头。因此,我们在贝叶斯模型的基础上引入组织长度作为最佳规则选择的决策因素,并增加了一个左边界修正过程来实现对组织的识别。中文组织命名实体识别流程如下图所示。触发阶段的主要任务是扫描自由文本中的分词。当扫描实体关键词,提取基于自然语言处理的自由文本信息时,将该分词作为触发词,确定该触发词所属的实体类别,调用相应的实体规则进行匹配。比如扫描分词“公司”时,将该分词作为触发词,将其所属的实体类别确定为组织实体,调用组织实体规则匹配触发词的语义。候选规则获取:当触发词类别确定后,触发词与上一句之间的分词下标序列将与对应的实体规则一一匹配。如果分词下标序列匹配该规则,该规则将被添加到候选规则集中。图中文组织命名实体识别流程命名实体最佳匹配规则选择上一步选择的候选规则集可能包含多个规则,我们需要选择其中一个最佳匹配规则,通过规则长度来确定实体的左边界。通常情况下,最佳匹配规则的选择是基于贝叶斯模型的,但在实际实施中,我们发现中国人的组织结构更倾向于匹配最长的规则,所以我们在贝叶斯模型中加入了一个参数来调整最佳规则的选择策略。在朴素贝叶斯模型中,我们将代表识别的实体规则集命名为,我们将其定义为实体匹配实体规则的概率。根据上面的定义,朴素贝叶斯模型是正相关的,如下式所示,因为它对于每个实体都是一个固定值。在我们的方法中,我们对此做了一些修改,增加了实体长度策略参数作为最佳匹配规则选择策略的调整参数。候选规则的选择会更倾向于选择长规则,候选规则的选择与长度无关。我们还是遵循贝叶斯模型,我们会更倾向于选择短规则作为最佳匹配规则。因此,本文在对注册日期、注册地址、注册资本进行规则决策时,设定为不受长度影响的意思。在对企业名称进行规则决策时,意味着更倾向于选择长规则来匹配。

实体左边界的确定和左边界的修正是由规则决定的。我们得到最佳匹配规则。实体的长度可以通过规则来确定。此时,可以通过从触发字往回走来确定实体的左边界。由这些分词组成的分词串代表相应的实体。同时,在中文组织识别过程中,我们发现组织通常以省名、市名等地址名开头。因此,在实体识别过程中,如果我们获得的组织实体名称不以地址开头,我们将继续在阈值范围内。这个方法的阈值设置为向前匹配,直到我们在同一个句子中遇到地址名称。如果阈值范围内没有地址名称,我们将取消更正。命名为实体识别过程的语义规则的组成实际上已经识别了需要提取的潜在信息,但并不是所有识别的实体都是我们需要提取的信息。为了正确地从文本中提取信息,我们需要将被识别的实体及其上下文与其对应的提取规则进行匹配,这些规则是基于目标信息上下文的语法和语义构建的。浙江大学硕士学位论文《面向自然语言处理的自由信息抽取规则的构建》包括三种策略:共生策略、顺序共生策略和基于规则的结构驱动策略。在这三种策略中,基于规则结构的策略能够在准确率和召回率之间保持良好的平衡,因此是我们的规则设计策略。在此方法中,我们定义了一系列单槽提取规则。这些规则可以被视为描述目标信息上下文的语法和语义的信息。我们的规则元素包括文本关键字、用户定义的标签、实体标签和其他功能符号。这主要是指目标信息上下文中经常出现的一些关键词,比如地址信息前面的“位于”、“位于”。表用户定义的标签和关键字用户定义的标签表示关键字:创建、创建、创办、创建、注册、创办、创建、投资、融资、集资、注资、集资、投入资本、资本、金额、资产、固定资本、固定资产、固定资本位于、位于、位于主要产品和服务、主要业务、运营、焦点、主要业务、主要生产、奉献、提供、制造、生产、销售、开发、产品、业务、服务、平台时间、日期、广告企业、公司、制造商、工厂、组织、机构、制造商用户定义的自定义词典中的单词例如,我们使用自定义标签“”来替换同义词,如资本、资金、金额、资产等。在本文中,为提取企业注册信息而构造的用户自定义标签以及它们所代表的关键字如表所示。标签表示我们在命名实体识别过程中识别的实体,它为每种类型的实体定义了一个相应的标签。在规则中,我们通常使用实体标签来替换特定的实体,从而将规则一般化。实体通常与功能标签一起使用,以区别于用户定义的标签,用户定义的标签通常在规则中表示组织实体。这是规则中使用的通配符,用于表示任何单词,包括任何单词。规则中位于该功能符号中的单词不一定需要出现在目标信息的上下文中。]表示要提取的注册地址信息。[]与wood结合时,表示提取的信息是不确定的多个词。企业信息的业务范围介绍如下。该表列出了根据这一方法设计的一些企业注册资本提取规则。在这些规则中,“注册”是文本关键字和“资本实体标签”。

表中注册资本提取规则样本本文构造了关于注册地址、注册日期、注册资本的信息,浙大自然语言处理提取的自由文本信息的提取规则是从四个方面,其中前三个规则比较一般化,因为它们可以识别对应的名词,并通过命名实体来确定边界,而业务范围通常较长,甚至一个句子都很难通过命名实体来识别。所以针对业务范围的抽取规则设计,主要是考虑到经常用描述业务范围的关键词来限定左右来构造抽取规则,所以规则的抽取准确率比较低。抽取过程实际上是一个文本分割和抽取规则匹配的过程。一旦检测到一个实体,我们首先确定实体的类别,然后将实体的上下文与其对应的规则进行匹配。