技術紹介

Technology Introduction

文献等からの知識抽出・学習技術

荒木 通啓
京都大学大学院医学研究科
特定教授

theme

この技術でできること

スマートセルに関する文献・公開データから微生物開発に有用な知識を抽出し、生産性向上に有望な遺伝子改変や酵素遺伝子などの、現状の設計を改良する次の一手を提案することができます。

使用された技術活用事例有用芳香族化合物ω-3系多価不飽和脂肪酸含有油脂

技術紹介

 スマートセル開発のDBTLサイクル(Design-Build-Test-Learn)における学習(Learn)プロセス、すなわち各種データ・モデルの解釈と、それをもとにした次の設計仮説の創出プロセスは、個人の知識背景や、手作業による文献・データベースの検索・調査に依存している。こうした属人的な知識獲得プロセスは、スマートセル開発において律速であるとともに、体系的な知識蓄積・発見・再利用が困難であるなど、技術的に解決すべき大きな課題となっている。例えば、代謝経路設計から代謝モデル構築・最適化や、酵素遺伝子や改変候補遺伝子の探索は、既存の文献・データベース情報からの知識抽出に大きく依存している。既存の代謝パスウェイ・酵素反応データベースには、スマートセル開発に必要十分な知識が収載されていないケースも多く、スマートセル開発を志向した文献知識抽出については再考の余地が十分にあった。加えて、近年の機械学習・人工知能(AI)技術の進展に伴い、既存データからの新たな知識・パターン抽出も可能となってきていることから、こうした技術の応用も期待されている。こうした背景のもと、本プロジェクトでは、代謝・酵素設計提案をサポートする文献からの知識ベース開発と酵素遺伝子探索にフォーカスした機械学習技術の開発を実施している。

(1) 知識ベース開発
属人的な微生物の設計知識を整理し、再利用可能な形式に体系化するために、微生物株の設計履歴と、それに紐づく各株の遺伝子改変内容を、目的・手段・根拠情報といった形で整理蓄積する技術を開発した。蓄積された知識を、改変履歴に沿ってツリー形式で「見える化」することで、これまでの設計データの俯瞰や新しい仮説の着想に利用することができる。また、蓄積・体系化された設計履歴を起点として、連携する知識抽出技術を呼び出し、設計改良につながる有用情報を提示する。

10_1.png

図1.スマートセル設計支援知識ベース

 知識抽出技術は、代謝系設計・遺伝子改変に関する文献の特徴を自然言語処理・文献検索技術により識別し、スマートセル設計に有用な文献情報を広く収集するスマートセル文献自動収集技術と、収集した文献情報から、これまでの代謝系設計・遺伝子改変と関係が深い遺伝子改変を抽出・提案する有望遺伝子レコメンド技術から構成される。これらの技術により、知識ベースに蓄積された既存の株設計の履歴から、その設計に関連した文献情報を収集し、現在の設計に追加すべき遺伝子改変を提案する。結果として、DBTLサイクルの回転を効率化し、所望のスマートセル創製までの工数短縮が期待できる。

10_2.png

図2. 設計履歴を起点とした、文献情報からの遺伝子改変提案

(2) 酵素反応データ学習と活性推定モデル
 代謝設計により出力される代謝経路には、未知・既知を問わずに推定された酵素遺伝子候補が複数出現することになり、代謝経路で実際に構築していく上で、酵素遺伝子の選択が重要な課題となってくる。本技術は、基質・生成物の化学構造や酵素アミノ酸配列を数値化し、酵素反応としての正・負判別を行い、新たな基質・生成物と酵素アミノ酸配列の組合せを有するテストデータに対してスコアを付与して正・負判別を実施する。従来の機械学習・深層学習ベースの手法とともに、実証検証データを取り込むことで、モデルの改善を実施する取り組みも行っている。  一例を示すと、機械学習法により判別された結果の分布を比較することにより、酵素遺伝子選択の指針を与える技術(図3)の開発や、基質・生成物の化学構造を学習させた深層生成モデルを用いて、既知・未知の酵素反応後によって起こり得る化合物構造を予想し、新規代謝経路を探索する技術2) (図4) を開発している。

10_3.png

図3. 酵素反応データ学習と活性推定モデルの開発

10_4.png

図4. 深層生成モデルを用いた新規代謝経路の探索技術

参考文献

1) Watanabe, N., Murata, M., Ogawa, T., Vavricka, C.J., Kondo, A., Ogino, C., *Araki, M.: Exploration and Evaluation of Machine Learning-Based Models for Predicting Enzymatic Reactions, Journal of Chemical Information and Modeling, 60(3), 1833-1843 (2020)
2) Fuji, T., Nakazawa, S. and Ito, K.: Feasible-Metabolic-Pathway-Exploration Technique using Chemical Latent Space, Bioinformatics (2020)

最終更新日:2022年11月14日 12:49