“分类匹配”(Taxamatch)是一种算法,用于模糊匹配分类数据库中分类单元的学名——单属或二项式(属和种)。它使用字符替换(类似于Soundex)来捕获语音错误,并使用自定义编辑距离(ED)方法来捕获非语音错误,非语音错误在实际查询中占所有错误的比例高达50%。由于基于ED的查询在处理大型数据集时通常速度较慢,因此Taxamatch提供了一系列优化措施,可以大大减少查询过程中要测试的名称数量,而不会影响对可能拼写正确的目标名称的调用,从而将整体查询时间缩短了一个系数x100到x1000之间。关于这个算法更完整的讨论,请参考这篇发表于2014年的期刊文章:《分类数据库中学名的近似('模糊')匹配算法Taxamatch》。https://www.zhucesz.com/