InChI
標準的かつ人間が読める方法で分子情報を提供し、またウェブ上でのデータベースからの情報の検索機能を提供するサービス
From Wikipedia, the free encyclopedia
InChI(International Chemical Identifier)は、標準的かつ人間が読める方法で分子情報を提供し、またウェブ上でのデータベースからの情報の検索機能を提供する。元々、2000年から2005年にIUPACとNISTによって開発され、フォーマットとアルゴリズムは非営利であり、開発の継続は、IUPACも参画する非営利団体のInChI Trustにより、2010年までサポートされていた。現在の1.04版は、2011年9月にリリースされた。
1.04版の前までは、ソフトウェアはオープンソースのGNU Lesser General Public Licenseで無償で入手できたが[3]、現在は、IUPAC-InChI Trust Licenseと呼ばれる固有のライセンスとなっている[4]。
概要
識別子は、情報のレイヤーとして化学物質を記述する。レイヤーには、原子とその結合、互変異性情報、同位体情報、立体化学、電荷の情報がある。しかし全てのレイヤーが提供される訳ではなく、例えば互変異性のレイヤーは省略されることがある。
広く用いられているCAS登録番号とは、以下の点で異なる。
- 自由に使え、非営利である。
- 構造情報から計算でき、組織による割当が必要ない。
- ほとんどの情報は、人が読むことができる。
そのため、InChIは、IUPAC命名法を一般化、極端な定式化したものと見なすことができる。単純なSMILES記法よりも多くの情報を表現でき、全ての構造が、データベースの応用に必要な独自のInChI文字列を持つ点が異なっている[要出典]。原子の3次元配列の情報はInChIでは表せず、この目的のためにはPDB等のフォーマットが用いられる。
InChIアルゴリズムは、入力された構造情報を、正規化(冗長な情報の除去)、標準化(各原子に固有の番号を生成)、整列化(特徴の文字列を付与)の3段階の過程で固有の識別子に変換する。
hashed InChIとも呼ばれるInChIKeyは、25文字の固定長であるが、デジタル表現なので人間には読むことができない。InChIKeyの仕様は、ウェブでの検索を可能にするために、2007年9月にリリースされた[5]。InChIそのものとは異なり、InChIKeyは一意ではなく、非常に稀ではあるが重複が発生する[6]。
2009年1月、InChIソフトウェアの最終の1.02版がリリースされた。これにより、いわゆるstandard InChIの生成が可能となった。standard InChIは、InChI文字列と、異なったグループによって生成されたキーの比較を容易にし、データベースやウェブ資源等の広範な情報源からのアクセスを可能にした。
フォーマットとレイヤー
| MIMEタイプ | chemical/x-inchi |
|---|---|
| 種別 | chemical file format |
全てのInChIは、InChI=という文字列から始まり、バージョン(現在は1)が続く。standard InChIでは、これにSの文字が続く。残りの情報は、レイヤーとサブレイヤーの配列として構造化され、各々のレイヤーは、1つの種類の情報を収める。レイヤーとサブレイヤーは、区切り文字 / で隔てられ、(メインレイヤーの化学式サブレイヤーを除き)固有の接頭文字で始まる。6つのレイヤーと各々の重要なサブレイヤーは、以下の通りである。
- メインレイヤー
- 電荷レイヤー
- プロトンサブレイヤー(接頭文字:
p)中性の系からプロトンを何個付加/除去するかを表す - 電荷サブレイヤー(接頭文字:
q)系の電荷を表す
- プロトンサブレイヤー(接頭文字:
- 立体化学レイヤー
- 同位体レイヤー(接頭文字:
i,h、同位体立体化学に対してはb,t,m,s) - 固定Hレイヤー(接頭文字:
f) - 原子の繋がり以外の、上記の一部または全てのレイヤーを含む。oサブレイヤーで終わってもよい。
InChI生成で構造を正規化する際に水素は除去されるため、互変異性体や双性イオンなどは同じInChIを与える場合がある。これらを区別するために水素が結合している原子を明示的に与える必要がある。 - 再接続レイヤー(接頭文字:
r) - 金属原子と再接続する全ての構造のInChIを含む。standard InChIには含まれない。
区切り文字と接頭文字のフォーマットは、使用者が特定のレイヤーのみ合致する識別子を探すために容易にワイルドカード検索を実施できる点で優位性がある。
例
| CH3CH2OH エタノール |
InChI=1/C2H6O/c1-2-3/h3H,2H2,1H3 InChI=1S/C2H6O/c1-2-3/h3H,2H2,1H3 (standard InChI) |
| CH3N+H3 メチルアンモニウム |
InChI=1/CH5N/c1-2/h2H2,1H3/p+1 InChI=1S/CH5N/c1-2/h2H2,1H3/p+1 (standard InChI) |
L-アスコルビン酸 |
InChI=1/C6H8O6/c7-1-2(8)5-3(9)4(10)6(11)12-5/h2,5,7-10H,1H2/t2-,5+/m0/s1 InChI=1S/C6H8O6/c7-1-2(8)5-3(9)4(10)6(11)12-5/h2,5,7-8,10-11H,1H2/t2-,5+/m0/s1 (standard InChI) |
名前
このフォーマットは、元々IChI(IUPAC Chemical Identifier)と呼ばれていたが、2004年7月にINChI(IUPAC-NIST Chemical Identifier)と改名され、同年11月にInChI(IUPAC International Chemical Identifier)に再改名され、IUPACの商標とされた。
開発の継続
採用
InChIは、ChemSpiderやPubChem等を含む大小様々なデータベースに採用されている。しかし、多くのデータベースで構造とInChIの食い違いが見られ、リンク用データベースの課題となっている[7]。
関連項目
- Molecular Query Language
- SMILES記法
- 構造式エディタ
- SYBYL line notation