公司名字禁用名词库

发表日期：2022-12-01 08:38:45

一只小狐狸带你解锁NLP/ML/DL秘密。序随着BERT、ERNIE、XLNet等预训练模型的流行。在没有预训练模型的情况下解决NLP问题总是显得有点过时。但这显然是错误的。众所周知，无论是训练还是推理，预训练模型都会消耗大量的计算能力，并且高度依赖GPU计算资源。然而，有很多NLP问题实际上只需要字典规则就足够了。这个时候强行推出笨重的机型无异于高射炮打蚊子，性价比很低。于是小西从一个疯狂的github repo中精心挑选了45个实用的开源小工具和字典，让我们用更少的对模型和计算能力的依赖，更多的小而美的代码，来构建NLP系统，辅助炼金术。回购地址：注意：这是一个非常疯狂的回购，包含了300多项，但是比较杂，记得多做横向对比。来感受一下m (_ _) m。你知道我是如何阅读这300份回购协议的() https://www.zhucesz.com/:过滤中英文敏感词 repo:观察器/文本过滤器敏感词包括政治、脏话等话题。其原理主要基于字典搜索(项目中的关键字文件)，内容不清真。 https://www.zhucesz.com/: 97语言检测 repo: saffsd/ pip安装语言id https://www.zhucesz.com/:另一种语言检测地址： pip安装语言检测输出结果如下：注：语言类型主要参考ISO 639-1语言编码标准，详见ISO 639-1百度百科。相比以前的语言检测，准确率低，效率高。 https://www.zhucesz.com/中国手机归属地查询： repo : ls0f/手机已经集成到python包cocoNLP中第3360号13，15，18 *，14 [5，7]，17 [0，6，7，8] 记录数量： 360569(更新日期：2017 2017) 作者为非python用户加载数据提供了数据便利。 https://www.zhucesz.com/国际移动电话和电话归属地查询： repo:售后服务/电话 npm安装电话 https://www.zhucesz.com/根据姓名判断性别： repo:观察器s/ngender 基于朴素贝叶斯计算的概率 pip安装ngender 7.提取电子邮件的正则表达式已经集成到python包cocoNLP中 8.提取phone_number的正则表达式已经集成到python包cocoNLP中 9.提取身份证号码的正则表达式 10.个人姓名语料库： repo:中文姓名语料库名称提取函数已经添加到python包cocoNLP中 (可用于中文分词和姓名识别) 11.中文缩写库： repo : Zhang ics/中文-缩写-数据集 12.汉字拆分词典： repo: kfcd/chaizi 13.词汇的情感价值： repo: rainarch/SentiBridge 14.中文词库、停用词和敏感词 repo:东西西文/中文此包的敏感同义词库分类更细：反动词库，敏感词库统计，暴力词库，民生词库，色情词库。 15.汉字转拼音： repo : mozillazg/python-拼音将使用文本纠错 16.中文繁简翻译： repo : sky dark/n tools 17.英语模拟汉语发音引擎 repo : tiny fool/Chinese with English 相当于用英语音标来模拟汉语发音。 18.同义词、反义词、否定同义词： repo:国通1988/汉语词典 9.汉字数据 repo: skishore/makemeahanzi 简体/繁体汉字的笔画顺序矢量笔划 20.不带空格的英文字符串的切分和分词； repo: keredson/wordninja https://www.zhucesz.com/地址正则表达式： 22.腾讯QQ号正则表达式： 23.国内固话号码的正则表达式： 24.用户名正则表达式： https://www.zhucesz.com/:基于上下文的汉语发音自动标注模块。 repo: Kyubyong/g2pC 26.时间提取：已经集成到python包cocoNLP中 java版本： python版本： 27.快速转换“中文数字”和“阿拉伯数字” repo: HaveTwoBrush/cn2an 中文和阿拉伯数字是相互转换的。中文和阿拉伯数字的混合正在开发中。 28.公司名称的完整集合 repo : wain shine/公司名称-语料库 9.古诗词图书馆潘海奇/古代诗歌更完整的古诗词库： 30.清华大学编纂的术语词库 repo: 已整理到本次回购的数据文件夹中。 https://www.zhucesz.com/表单数据提取工具报告：卡米洛特-开发/卡米洛特 32.国内电话号码定期匹配(三大运营商的虚拟等。) repo : Vincent sit/China mobile phonenumberregex 33.用户名黑名单列表： repo : marteinn/The-Big-Username-黑名单包含用户名禁止列表，例如： 34.微软多语言数字/单位/如日期时间识别包： repo : Microsoft/识别器-文本 35.中文-新华中文新华字典数据库和api，包括常用歇后语、成语、单词和汉字。 repo : pwx COO/中文-新华 36.文档图集自动生成。 repo:刘焕勇/文字制作人这是一个基于自然语言处理方法提取keyinfo的文本内容图示器.输入一个文档，提取文档的关键信息，进行结构化，最后组织成图集组织形式，形成文章语义信息的图集展示。 https://www.zhucesz.com/种语言的数字库 repo: google/UniNum 38.从复杂到简化的转换。 repo: berniey/hanziconv 39.汉字特征提取器(featurizer)，提取汉字的特征(发音特征和字体特征)进行深度学习。 repo : holl-Anderson/hanzi _ char _ featurezer 40.中文缩写数据集 repo : Zhang ics/中文-缩写-数据集 41.无道词典——有道词典的命令行版本，支持英汉互查和在线查询。 repo : ChestnutHeng/Wudao-dict 40.将汉字和数字(中文数字)转换为阿拉伯数字的最佳工具。 repo : Wall-ee/Chinese 2数字 https://www.zhucesz.com/:面向所有深度学习框架的NLP数据高效加载器 repo: tofunlp/lineflow 44.分析自然语言数字串并将其转换为整数和浮点数。 repo: jaidevd/numerizer 45.一大串英语脏话 repo : za canger/亵渎性词语另外这个回购也包含了很多数据集，但是也比较乱。小溪在这里已经全部过世了，有需要的朋友可以去回购看看。推荐阅读机器学习的介绍方法和数据收集深度学习文本分类综述图形神经网络的简单理解个人微信：加班请注明(公司/学校方向)

上一篇: 公司名字示范下一篇: 公司名字禁用味

不能重名

不能触犯驰名商标

不能与知名公司名字混淆

尽量不用地区名称及简称

不能使用繁体、数字、英文

不能使用行业通用词汇

不能使用名人字号

不能带有宗教色彩

工商核名

公司名字禁用名词库