科研人员不担心有机物命名不规范:Transformer model开源工具自动命名
“有机化合物怎么命名?有机化合物的命名规则是什么”、“这种药物的活性成分叫什么?有没有查找有机化合物名称的软件或程序”、“某某命名软件也花钱”、“某软件命名不准确”……
注:部分来自知乎问题。
总之,有机化合物命名太难,规则太繁琐,没有开源软件......
AI发展“风生水起”,能否解决上述问题?
现在,莫斯科市罗蒙诺索夫国立大学和Syntelly Startup的研究人员开发了一种基于Transformer model的人工神经方法,可以根据IUPAC命名系统生成有机化合物的名称。
它也是开源的,可以在线使用。
我迫不及待地想在本文的“使用小攻略”部分进行在线体验。
项目地址:
IUPAC命名法是有机化合物的系统命名法,在有机化学中占有重要地位。化学家通常手工创建IUPAC名称,但这一过程容易出错,需要深入了解命名规则。计算机可以缓解这个问题。化学家可以使用软件工具生成名称。
但是,目前还没有将有机结构转换为名称的开源工具。现有解决方案如ChemDraw JS和LexiChem TK的许可协议需要特殊权限才能嵌入到其他平台上。
近日,莫斯科市罗蒙诺索夫国立大学和Syntelly创业公司的研究人员开发了一种基于Transformer model的人工神经方法,根据IUPAC命名系统生成有机化合物的名称。新的解决方案已经在Syntelly平台上实现,可以在线使用。
本研究基于Trans
前者的人工神经网络,用于化学符号之间的转换,发表在7月20日的《科学报告》上。
“最初,我们想为我们的AI化学平台Syntelly创建一个IUPAC名称生成器。很快我们意识到,通过数字化IUPAC规则来创建算法需要一年多的时间,所以我们决定利用我们在神经网络解决方案方面的经验,”该研究的主要作者、Syntelly Startup的联合创始人谢尔盖·索斯宁(Sergey Sosnin)表示。
循环神经网络(RNN)和Transformer model已经成功地用于自然语言翻译。研究人员基于Transformer model构建了一个神经网络,可以将分子从SMILES(简化分子线性输入规范)表示转化为IUPAC名称,反之亦然。描述了他们的解决方案,讨论了他们方法的优缺点,并表明Transformer model可以提供类似于人类化学直觉的东西。
结果表明,将SMILES字符串转换为IUPAC名称的Struct2IUPAC模型在PubChem测试套件中达到了较高的准确率。逆模型(IUPAC2Struct)实现了与开源OPSIN软件(用于名称到结构转换的开源工具)相当的精度。
数据库:深度学习技术需要大量数据。新网络使用世界上最大的开放化学数据库PubChem进行培训和测试,包含94726085个结构。把数据库分成
两个部分,一个用于训练,另一个用于测试。
IUPAC和SMILES标记:标记是将序列划分为块并划分这些块(标记)的过程。它是语言模型的一个常见预处理阶段。使用了基于字符的SMILES标记,实现了基于规则的IUPAC标记。本研究中的IUPAC标记物是人工设计和管理的。该标记能正确处理99个以上的Pubchem分子。
插图:SMILES标记(上)和IUPAC名称标记(下)的演示。(纸)
Transformer模型:使用谷歌团队设计的现代神经架构Transformer model,这是谷歌最初设计的最强大的机器翻译神经网络之一,作为研究的基础,训练它将分子的结构表示转换为IUPAC名称,反之亦然。
训练了两个模型:Struct2IUPAC和IUPAC2Srtuct,前者将SMILES字符串转换为IUPAC名称,后者执行反向转换。基本上,不需要IUPAC2Srtuct模型,因为可以成功地使用开源OPSIN。
图示:Struct2IUPAC Transformer模型。(纸)
验证步骤:使用视蛋白,您可以验证生成的化学名称,以确保它们对应正确的结构。可以检测到生成器的故障,并且不会显示错误的名称。
图示:验证步骤。(纸)
优点:struct2IUPAC模型精度达到
为了验证模型的质量,研究人员从测试集中随机选取了10万个分子。SMILES to IUPAC名称转换器作为验证步骤运行,并在测试集中100,000个随机分子的子集上实现
的准确性。
“我们证明了Transformer model可以精准解决算法问题,并为软件开发提出了新的范式。它推翻了以前认为它们不应该用于此类问题的普遍想法。在机器翻译中,有可能用同义词替换一个单词,而在我们的任务中,一个错误的符号会导致一个错误的分子。然而,Transformer model成功地完成了这项任务。”Sosnin补充道。
优势二:IUPAC2Struct模型精度达到
研究人员将IUPAC与SMILES Transformer模型(IUPAC2Struct)和基于规则的工具OPSIN在测试集上进行了比较(表1)。IUPAC2Struct转换器达到精度,OPSIN执行。
表1:在100,000个不同光束大小的分子测试装置上的模型精确度()。
具有大量标记的分子(低聚物、肽等)在我们的数据集中表现不足,这可能是这类大分子性能退化的一个原因。
虽然模型在非常大的分子上的精确度不超过50,但发现了一些复杂分子的有趣例子,它们正确地生成了IUPAC名称。
插图:Transformer model生成了两个名称正确的挑战分子的例子。(纸)
此外,很小分子的性能明显退化。比如甲烷,可能是Transformer model利用一种自我注意机制来分析输入序列中标记之间的相关性。对于超短序列,很难把握令牌之间的关系。
新的解决方案已经在Syntelly平台上实现,可以在线使用。研究人员希望他们的方法可以用于转换化学符号和其他与技术符号相关的任务,如数学公式或软件过程的生成
序言的翻译。
研究人员说:“令人惊讶的是,我们基于神经的解决方案的性能与基于规则的软件不相上下。”
在介绍之前,做个小声明:仅代表亲身试用的感受,更专业的同学应该会有更多收获~
期刊文章提到,“目前还没有结构到名称翻译的开源工具。”
一、开放在线开源
左侧菜单栏中有很多功能选项。在这里选择“个人”选项,点击搜索框,进入画板。输入要命名的有机化合物的结构,以甲苯(C7H8)为例。
点击“计算”获得微笑:Cc1ccccc1的甲苯和IUPAC名称:甲苯。
“分子可以从微笑的表示转化为IUPAC的名称,反之亦然,”期刊文章说。“
在这里输入Smiles/IUPAC,再次点击“计算”,得到甲苯结构及其对应的Smiles/IUPAC。
此外,该工具还附带了一个大型数据集库。
在已发表的期刊论文中也有有机化学结构的名称。当然,你也可以自己上传新论文的PDF。
还可以预测化学反应:
解锁更多功能,获取属于自己的好友~
在有机化学的早期阶段,化合物的命名没有共同的规则。1919年,国际纯粹与应用化学联合会(IUPAC)成立,IUPAC出版了有机化学命名法,俗称“蓝皮书”。提供了化合物明确名称的指导。
有机结构有几种可供选择的表示。例如,SMILES(简化分子输入行输入系统)是为基于人和基于计算机而设计的
化学信息处理提供了便利。
过去,化学家手工创建IUPAC名称。这个过程很容易出错,因为它需要对命名法的深入理解,并涉及复杂的算法。此外,化学家更喜欢琐碎的名字,这对不同符号之间的正确转换提出了额外的挑战。电脑缓解了这个问题。如今,化学家广泛使用软件工具来生成名称。
名字生成器的历史始于Garfeld的开创性工作。然而,第一个针对化学家的日常软件是在20世纪末创建并发布的。
现在,有几个用于生成IUPAC名称的商业程序:ACD/Labs、ChemDraw、Marvin、IMnova IUPAC Name等等。此外,还有一个框架LexiChem TK,它为一些编程语言提供应用程序编程接口(API)。
但是,目前还没有用于有机结构到名称翻译的开源工具。现有解决方案如ChemDraw JS和LexiChem TK的许可协议需要特殊权限才能嵌入到其他平台上。
研究人员说:“我们相信我们的方法适用于解决其他技术符号之间的转换问题(或其他算法挑战),希望我们的发现能在开发基于规则的解决方案成本高或耗时时,突出解决问题的新方法。”回到企名网查看更多