tky_cowのブログ

python + chemistry, webの技術メモ等

文献記載化合物の構造式を取得する

 論文や特許に記載されている、パブリックなデータを使って何らかの検証やソフトウェアのデモなどを行いことがあるかと思います。私自身も先日そのような状況に遭遇し、とある文献をピックアップしました。SAR表に書かれている構造式を全て書き起こすのは流石に大変なので、どうやって抜き出すのが良いか調べた小ネタメモです。結論から言うとChEMBL様様という話です。

文献から探す場合

 まず、含まれる構造式を抜き出したい、または構造情報の有無を調べたい文献が定まっている場合です。

  1. ChEMBLトップページで論文のDOIを検索
  2. Documentに付与されたChEMBL IDをクリック
  3. Document Report Card下方のCompound SummariesにあるAssociated Compounds for Document ... をクリック
  4. 化合物一覧が表示されるので必要なものを選択してCSV or TSVボタン押下
  5. ツールバーすぐ下の分かりにくい場所に出るhereを押してダウンロード

2023/07時点では活性値は出力されないようで、別途化合物のChEMBL IDから取得する必要がありそうです(私のケースではIDとSMILESの構造で事足りました)。CSVと言いつつコンマ区切りではなかったので要注意です。また、複数選択時のSDF ボタンはバグがあるようで、構造が分かれて出力されませんでした。ひとまず、テキスト系で書き出して、SMILESから変換することでSDFを得られました。

化合物名から周辺誘導体情報を探す場合

 臨床まで進んだ化合物などで、興味のある化合物に化合物名がついており、その探索段階で作られた類似構造の化合物に辿り着きたいような場合です。

  1. ChEMBLトップページで化合物名を検索
  2. 構造と化合物名が表示されるので望みのものであれば選択
  3. Compound Report Card下方のLiteratureでDocuments by Yearを選択
  4. 合成展開されていそうな文献のChEMBL IDを選択して、文献から探す場合の1へ

周辺化合物を網羅的に調べられるわけではありませんが、ChEMBLにあって簡便に抽出できそうかどうかは判断できると思います。

おわりに

 正直他にいい方法が色々ありそうな気がしますので、情報お待ちしています。