在聊InChI Key 之前要从InChI说起,而提到InChI又不得不提到化学线性表示符。对于计算机而言,它“精通”的是处理代码和字符串。在人类看来简单又直观的化学结构式对计算机而言,却不是那么简单,计算机需要把它转化为一定的图结构。最早期,一些化学家为了让电脑也能存储化学结构,就发明了化学线性表示符,比如SMILES式,只用一串代码就可以表示化学结构。
但是规范的SMILES存在无法自由使用的问题,因为其生成算法是商业性的。史蒂夫·海勒(Steve Heller)和史蒂夫·斯坦(Steve Stein)于1999年提出InChI,以开发可自由使用的化合物的规范表示法。后来,第一个版本在2005年与IUPAC合作宣布。自2009年以来,它一直由一个名为InChI Trust的组织进行管理和开发。
What on Earth is InChI? - IUPAC 100
InChI编码是国际纯粹与应用化学联合会International Union of Pure and Applied Chemistry (IUPAC) 给出的每种化合物化学结构的唯一识别码。
InChI是以人类可以理解的形式编写的分子信息。由于每种化合物都具有不同的InChI,因此可以认为它与化合物名称的IUPAC名称相似。如前所述,与Canonical SMILES的不同之处在于生成算法是非盈利性的,可以自由使用。
而涉及到一些分子比较复杂,所生成的InChI可能比较长,如果用来检索就比较麻烦,于是乎对InChI进行哈希运算会得到 InChI Key,这是固定长度为25个字符的分子表示形式,也称为哈希InChI。与InChI不同,很少会从不同的分子生成相同的InChIKey。在实际使用中,可以用 InChI Key 作为关键字检索出对应的 InChI,再做进一步的使用。
除了我在上面演示的PubChem这个数据库外还有很多数据库也采用InChI编码储存化学结构。
数据库名称
化学结构数量
网站
PubChem
9300万结构以上
https://pubchem.ncbi.nlm.nih.gov/
European Biometrics Institute UniChem
1.51亿结构以上
https://www.ebi.ac.uk/unichem/ucquery/stats
Royal Society of Chemistry – ChemSpider
1.14亿结构以上
https://www.chemspider.com/
National Cancer Institute – Chemical Structure Lookup Service(NCI)
美国国家标准与技术研究院(National Institute of Standards and Technology,NIST)直属美国商务部,从事物理、生物和工程方面的基础和应用研究,以及测量技术和测试方法方面的研究,提供标准、标准参考数据及有关服务,在国际上享有很高的声誉。NIST的科学家主要从事生物技术、化学、半导体电子学、陶瓷学、物理学、光电子学、防火、聚合物、信息技术、制造工程和计量科学。
化学加搜索——全球三大化合物数据库之一,2018年11月获得国家级“大数据科技传播奖.优秀团体创新奖”。与化学加APP、微信小程序同步。超过4000万条CAS号,数据精准,且已关联上该产品的所有已入驻化学加网的供应商。CAS号:又称CAS NO.、 CAS Registry Number、CAS Number 、CAS登录号 。庞大的化合物名数据库,超过1.2亿条化合物数据,覆盖中文与英文。且已关联上该产品的所有已入驻化学加网的供应商。智能的化学式输入识别,最灵活的输入方式,精准的搜索结果。