ニューラルネットで発がん性を予想

2016年の秋に中国浙江省から、陸明浩さんが 研究生として来日した。半年後の2月入試を受験し、情報学研究科に入学するためである。彼は動画から車線を検出する 卒業研究をしていたので、畳み込みニューラルネットで化合物の性質を機械学習する事にした。画像や動画の機械学習は完成に近づいており、狭い分野でも世界一になるのは非常に難しい。それに対しグラフとして表される分子構造の機械学習には、当時決定版が無かった。我々は先行研究を参考に、畳み込みニューラルネットを用いる事にした。

各原子には近傍の原子番号を補い、分子の局所構造(官能基)を表した。これを並べて作った特徴ベクトルを左図のようなニューラルネットに入力した。芳香族ニトロ化合物の発がん性を 教師データとして 学習させた。畳み込み第1層で重要な局所構造を選択し、第2層でその組み合わせを選択することを狙った。

標準的方法で過学習を避け、交差検証で予測値を求めると、古典的構造活性相関の予測精度と同等以上の結果が得られた(左図参照)。 構造活性相関では、疎水性を表すlogP値や軌道エネルギーで発がん性を予測したが、これら物理量も機械学習が可能な事を暗示している。他方、適切なpoolingで長距離相関を拾うことや、入力の置換に対して不変性を保証する事に課題が残った。

陸さんはこれらの結果をまとめ、大学院入試で試問を受け、良い成績で合格した。 半年間 我々が研究する間にも、幾つかの研究グループがグラフの機械学習法を学会やwebで報告している。機械学習分野では、 学会のproceedingsやwebのarchivesに成果を発表し、伝統的な学術誌に発表しないことが多い。そのためweb of scienceなどの伝統的データベースで見つからない研究が多数あるし、計画-遂行-発表のサイクルが短く、人気分野の発展は非常に速い。