一只小狐狸带你解锁NLP/ML/DL秘密。
序
随着BERT、ERNIE、XLNet等预训练模型的流行。在没有预训练模型的情况下解决NLP问题总是显得有点过时。但这显然是错误的。
众所周知,无论是训练还是推理,预训练模型都会消耗大量的计算能力,并且高度依赖GPU计算资源。然而,有很多NLP问题实际上只需要字典规则就足够了。这个时候强行推出笨重的机型无异于高射炮打蚊子,性价比很低。
于是小西从一个疯狂的github repo中精心挑选了45个实用的开源小工具和字典,让我们用更少的对模型和计算能力的依赖,更多的小而美的代码,来构建NLP系统,辅助炼金术。
回购地址:
注意:这是一个非常疯狂的回购,包含了300多项,但是比较杂,记得多做横向对比。
来感受一下m (_ _) m。
你知道我是如何阅读这300份回购协议的()
https://www.zhucesz.com/:过滤中英文敏感词
repo:观察器/文本过滤器
敏感词包括政治、脏话等话题。其原理主要基于字典搜索(项目中的关键字文件),内容不清真。
https://www.zhucesz.com/: 97语言检测
repo: saffsd/
pip安装语言id
https://www.zhucesz.com/:另一种语言检测
地址:
pip安装语言检测
输出结果如下:注:语言类型主要参考ISO 639-1语言编码标准,详见ISO 639-1百度百科。
相比以前的语言检测,准确率低,效率高。
https://www.zhucesz.com/中国手机归属地查询:
repo : ls0f/手机
已经集成到python包cocoNLP中
第3360号13,15,18 *,14 [5,7],17 [0,6,7,8]
记录数量: 360569(更新日期:2017 2017)
作者为非python用户加载数据提供了数据便利。
https://www.zhucesz.com/国际移动电话和电话归属地查询:
repo:售后服务/电话
npm安装电话
https://www.zhucesz.com/根据姓名判断性别:
repo:观察器s/ngender
基于朴素贝叶斯计算的概率
pip安装ngender
7.提取电子邮件的正则表达式
已经集成到python包cocoNLP中
8.提取phone_number的正则表达式
已经集成到python包cocoNLP中
9.提取身份证号码的正则表达式
10.个人姓名语料库:
repo:中文姓名语料库
名称提取函数已经添加到python包cocoNLP中
(可用于中文分词和姓名识别)
11.中文缩写库:
repo : Zhang ics/中文-缩写-数据集
12.汉字拆分词典:
repo: kfcd/chaizi
13.词汇的情感价值:
repo: rainarch/SentiBridge
14.中文词库、停用词和敏感词
repo:东西西文/中文
此包的敏感同义词库分类更细:
反动词库,敏感词库统计,暴力词库,民生词库,色情词库。
15.汉字转拼音:
repo : mozillazg/python-拼音
将使用文本纠错
16.中文繁简翻译:
repo : sky dark/n tools
17.英语模拟汉语发音引擎
repo : tiny fool/Chinese with English
相当于用英语音标来模拟汉语发音。
18.同义词、反义词、否定同义词:
repo:国通1988/汉语词典
9.汉字数据
repo: skishore/makemeahanzi
简体/繁体汉字的笔画顺序
矢量笔划
20.不带空格的英文字符串的切分和分词;
repo: keredson/wordninja
https://www.zhucesz.com/地址正则表达式:
22.腾讯QQ号正则表达式:
23.国内固话号码的正则表达式:
24.用户名正则表达式:
https://www.zhucesz.com/:基于上下文的汉语发音自动标注模块。
repo: Kyubyong/g2pC
26.时间提取:
已经集成到python包cocoNLP中
java版本:
python版本:
27.快速转换“中文数字”和“阿拉伯数字”
repo: HaveTwoBrush/cn2an
中文和阿拉伯数字是相互转换的。
中文和阿拉伯数字的混合正在开发中。
28.公司名称的完整集合
repo : wain shine/公司名称-语料库
9.古诗词图书馆
潘海奇/古代诗歌
更完整的古诗词库:
30.清华大学编纂的术语词库
repo:
已整理到本次回购的数据文件夹中。
https://www.zhucesz.com/表单数据提取工具
报告:卡米洛特-开发/卡米洛特
32.国内电话号码定期匹配(三大运营商的虚拟等。)
repo : Vincent sit/China mobile phonenumberregex
33.用户名黑名单列表:
repo : marteinn/The-Big-Username-黑名单
包含用户名禁止列表,例如:
34.微软多语言数字/单位/如日期时间识别包:
repo : Microsoft/识别器-文本
35.中文-新华中文新华字典数据库和api,包括常用歇后语、成语、单词和汉字。
repo : pwx COO/中文-新华
36.文档图集自动生成。
repo:刘焕勇/文字制作人
这是一个基于自然语言处理方法提取keyinfo的文本内容图示器.输入一个文档,提取文档的关键信息,进行结构化,最后组织成图集组织形式,形成文章语义信息的图集展示。
https://www.zhucesz.com/种语言的数字库
repo: google/UniNum
38.从复杂到简化的转换。
repo: berniey/hanziconv
39.汉字特征提取器(featurizer),提取汉字的特征(发音特征和字体特征)进行深度学习。
repo : holl-Anderson/hanzi _ char _ featurezer
40.中文缩写数据集
repo : Zhang ics/中文-缩写-数据集
41.无道词典——有道词典的命令行版本,支持英汉互查和在线查询。
repo : ChestnutHeng/Wudao-dict
40.将汉字和数字(中文数字)转换为阿拉伯数字的最佳工具。
repo : Wall-ee/Chinese 2数字
https://www.zhucesz.com/:面向所有深度学习框架的NLP数据高效加载器
repo: tofunlp/lineflow
44.分析自然语言数字串并将其转换为整数和浮点数。
repo: jaidevd/numerizer
45.一大串英语脏话
repo : za canger/亵渎性词语
另外这个回购也包含了很多数据集,但是也比较乱。小溪在这里已经全部过世了,有需要的朋友可以去回购看看。
推荐阅读
机器学习的介绍方法和数据收集
深度学习文本分类综述
图形神经网络的简单理解
个人微信:加班请注明(公司/学校方向)