20.吾妻怀,ITPan恐复明、莫、弟、辛税情之结晶。随着妻子的肚子一天天变大,一项非常艰巨的任务落到了我的头上,那就是取名。因为我曾经和妻子吹牛,读诗书,文学功底深厚(其实是看网络小说),看来妻子布置这个任务后,我只能欣然接受。再加上即将成为父亲的喜悦,让我好好拍下自己的胸部,说:没问题,一定要取个好名字。
接到这个任务后,我断然不敢敷衍。作为一名IT码农,我开始展示自己超强的执行力。首先,我在脑海里一遍又一遍地搜索,包括各种诗歌、散文、小说、文集,古今中外的名人,甚至网络小说中主角、配角的名字。...
然而,尴尬的是,我的大脑容量有限,脑子里没有留下太多可用的信息。作为一个创新的ITPan,你能用一些不同的解决方案来解决这个问题吗?想到这里,脑海里突然浮现出一个词:大数据。
行动胜于心。作为一名执行ITPan,我果断地开始了数据抓取的旅程。汉字作为中国文学的基石,自然是我首先想到的材料。字典网站,随机百度,可以找到很多,我选了几个比较专业的网站作为我的资料(具体是哪些网站,不透露)。
经过一番努力,7900个简体字终于存入了我们自己的数据库,数据表包含了拼音、笔画、基本定义三个基本字段。数据是本地化的。完成了可以开始命名了吗?不,我还是觉得少了点什么。让我想想....
你应该也想到了,是的,这个汉字的信息太厚了,没有太多的使用价值,但是缺少什么信息呢?
繁体中文
传统笔画
是不是一个通用的规范汉字
汉字结构
造字法
如何拆解汉字
自由基
汉字五行属性。...
于是,我开始了新一轮的数据抓取。这一次,可参考的网站相对较少,因为很多网站都没有我想要的信息。不过这一步整体还是挺顺利的,只是考虑到怕把人家服务器搞砸了,只好在云服务器上挂爬虫,高间隔爬行。一夜后,共20800个汉字库正式制作完成。
同一个汉字,出现在不同的字里,往往有不同的意义,所以字的数据也很重要。与词典相比,与词典相关的网站要少得多,我最终抓取了http://www.zhucesz.com/万条数据。
短语的数据内容主要包括:
词组汉字
短语拼音
解释
同义词
反义词
情感色彩
常用程度。...
成语是汉字词汇中的定型词,使用广泛,是中国传统文化的一大特色。它们读起来朗朗上口,往往寓意深刻。因此,成语、歇后语不可错过。经过去权等简单处理后,共得到2W+的数据。
成语的数据内容主要包括:
成语汉字
成语拼音
解释
同义词
反义词
成语典故
生产的大致年代
情感色彩
常用程度。...
至此,一切顺利。接下来还需要用到什么?
是的,就是这样:诗歌
提到诗词,大家的第一反应可能是唐诗三百首;大家这么想无可厚非,因为唐诗确实是中华文化宝库中的一颗明珠,对中国乃至世界文化产生了深远影响。但汉诗远多于唐诗,数量远不止三百首。我已经按照朝代大致列出了:
先秦诗词(如著名的《诗经》《楚辞》)
汉代诗歌(如汉乐府诗、古诗十九首)
魏晋南北朝诗歌(如
曹操、陶渊明等诗)
唐诗
宋词
元曲
清代诗歌
现代诗歌
根据不完全收录,我在这里居然抓取了8000+的诗文,有点出乎意料。
这个数据应该是大家都没想到的吧!
爬取这些数据主要是为了解决重名问题。同名是很尴尬的。比如很多人叫子涵、子涵、子萱、子萱等等。当老师在课堂上叫到名字时,可能会有几个人站起来。因此,我收集了近几年特别高频使用的名字,以免以后使用。
除了这种情况,另一种重名也容易带来尴尬:古代名人重名。
与古代名人同名,特别是同名古人形象负面时,很容易被周围朋友取笑。比如,我有一个朋友叫赵高,他被名字困扰了很长一段时间。
古代名人的收藏相对比较麻烦,因为很少有这样的名字可以收集整理。可喜的是,通过各种一定程度的榜单,以及其他古代名人录榜单、现当代各领域精英榜单,总共收集了约5W位名人。
上面描述的数据实际上只是我收集的数据的一部分。其他的我就不赘述了,因为收集数据是一项单调耗时的工作,一点技术含量都没有。
经过大约两个月的持续收集,我终于把这些想要的资料都收集整理出来了。我们能大干一场吗?
是的,我想我可以开始一场大战。
当数据到手,准备出发时,一个紧迫的问题摆在了我面前:什么是好名字?
如果这个问题不清楚,就像开发人员没有需求文档,下一步根本无法进行。但现在不需要人帮忙,只好自己动手,丰衣足食。静下心来仔细琢磨。看来可以从以下几个方面着手:
名字的字形
名字的发音
名称的定义
这个名字适合八个字符吗
三只五格的名字好吗
名字和十二生肖有冲突吗
上面提到的几点可以入手,但具体规则需要详细了解,然后一一打破。
以字形为例,可以导出相关知识,如部首、笔画数、是左右结构还是上下结构、汉字如何拆解等。
进一步分析,笔画的多少决定了汉字的简洁性,人名笔画过多会给孩子造成一定的书写障碍;笔画太少会使名字显得单薄。同理,汉字的结构和拼音在不同的组合下也会产生不同的效果。因此,如何合理组合汉字,形成最佳方案,并最终正规化是一个棘手的问题。为了解决这个问题,我的头发又掉了一地。
随着这样层层规则的拆解,命名的整体规则似乎变得越来越复杂。
当然,语音字形相关的知识其实比较简单;比较难的是名字的含义,以及与神八字的计算、三才五格的评价、生肖的偏爱等比较笼统或形而上的东西。
就这样一步一步地走着,在这里我终于有了放弃的念头。在网上一搜,各种算命先生、取名大师看起来都很权威,不仅各种承诺,还经常有惊人的折扣。原价1888,打折后只要188甚至更低。如果像他们说的那样,直接花几百块钱解决问题,不是更好吗?抱着这种心态,我在常识上请教了几个人,结果让我很失望。
暂且不说这些师傅的整体水准如何,我这个半生不熟的徒弟,稍加诱惑就揪出了不少冒充师傅的人。
用神计算是最大的难点,也是大多数中文命名专业人士最看重的一点。我花了很多时间理解这些名词的含义,各种时间计算,以及上帝的爱和名字之间的联系。
这个过程甚至很复杂,但从结果来看很简单,而且
很简单。为什么说简单,因为归根结底,这其实是一个数学问题。
例如,我们通过真太阳时确信我们喜欢经常使用上帝,而真太阳时与北京时间的差完全可以通过出生地的经度来转换。你可以在网上搜索具体的配方。
又如,当我们确定喜用神时,就会通过四柱八字法来排列,这四柱八字法是年干与年支、月干与月支、日干与日支、时干与时支。乍一看,怎么排列毫无头绪,但如果从数学的角度去想,就没那么复杂了。
天干:甲、乙、丙、丁、戊、己、庚、辛、人、鬼
地支:子、丑、阴、毛、陈、四、五、卫、神、右、徐、海
如果用穷举法,则是10的4次方乘以12的4次方,共计1亿个结果。这样看来,似乎就不那么神秘了。
和神理解了上面的计算后,似乎三才五格就变得更简单了。
三才五格的计算主要是通过笔画的组合来定义一个名字的吉凶。注:笔画一般指繁体字的笔画,不是简体字。
同理,上面的推论:五种情况有9981种情况,三种情况有125种吉凶。大多数中文名字都是三个字,每个字的笔画基本不超过36,所以我们算一下:36*36*36=46656
这样,三才五格真的不复杂,笔画大家都很熟悉,很容易理解。市面上大部分的姓名打分测评软件,基本都是以此为基础;所以大家对于这类软件,看看就好,不要当真。
十二生肖包括鼠、牛、虎、兔、龙、蛇、马、羊、猴、鸡、狗、猪,是十二个地支的视觉代表,即子(鼠)、丑(牛)、阴(虎)、毛(兔)、辰(龙)、斯(蛇)、午(马)、卫(羊)、申(猴)、游(鸡)、徐(狗)、亥(猪)。
)。
生肖既然对应的是特定的动物,自然就给了它们自己的喜好和禁忌;而且,它们与十二个地支一一对应,自然有自己的属性。这样,人们在命名时,往往会考虑这些因素。
比如,属于鸡的宝宝往往不带“狗”“犬”“徐”等字,因为大家都知道鸡犬不宁的成语,鸡犬不宁,鸡犬不宁。这些用法直截了当,通俗易懂,只需拆解规则排列中的字形即可达到目的。
收集整理这些资料,我花了近半年时间。虽然看起来产出不多,但实际上给我带来了很大的收获。名字虽然是简单的几个字,但也是我们中华文化的一个缩影,是父母对下一代的一种期望,更是我们上一代对下一代满满的爱。
积极的结果不是最终的名字,而是对中国人一路走来的命名文化的理解。
看到这里,大家可能以为我是来推广APP或者小程序的,其实我不是。当时确实有做APP、做小程序的想法,但后面忙得团团转,孩子的名字都已经选好了,没有太多动力继续研究。
现在二胎又在准备,翻出来总结一下。
这两年,身边的亲戚朋友纷纷委托我帮忙命名,这也成了我业余时间的一个小爱好。所以,如果你需要取个名字,相信我,你可以找我帮忙。别担心,这是绝对免费的!
如果您对数据或命名感兴趣,可以添加我的微信私聊向您推荐作者。