HOME分野紹介 > システム解析学分野

システム解析学分野

研究テーマ紹介(専門家向け)

概要

 システム解析学分野は、がんの複雑なシステムをゲノム情報等の巨大パーソナルオミクスプロファイルデータの解析を通じて理解し、得られた知見を、個人に最適な予防や治療等に役立てることを目指して研究を行っています。そのために、深層学習モデリングやベイズ統計モデリング等の、先進的なデータ科学技術に基づくデータ解析手法を開発し、スーパーコンピュータを用いた解析にフル活用しています。また基礎的なデータ解析手法の開発に加え、がんゲノム医療の現場で喫緊の課題となっている、エキスパートパネルにおける医療者の判断の精緻化・省力化に資する人工知能を活用した情報解析基盤技術の開発を進めています。

1)ベイズ統計モデリングに基づく高精度体細胞変異検出技術の開発

 DNAシークエンスリードデータからの、体細胞変異検出(変異コール)において、リード中に含まれる読み取りエラーと真の変異情報を分離し、高精度に変異を検出するための、ベイズ統計モデリング技術に基づく手法を開発しています。このような高精度変異検出技術は、全ゲノムシークエンスデータのように、シークエンス読み取り深度の浅いデータからの変異検出や、低頻度変異アレル情報により規定される、がん細胞クローン集団構造の決定ために重要です。
 上記の目的のために、従来の変異検出プロセスにおいて見逃されてきた、リード中に含まれる補助的な情報を活用する手法を研究してきました。例えば、あるペアードシークエンスリードの組が、同じDNAフラグメントを重複して計測した領域における変異候補パターンの情報を用いて、エラーと変異を高精度に分離する階層型ベイズモデル(OVarCall; Moriyama et al., 2017)を開発しました。また、他の種類の補助的情報を活用した変異検出モデルが複数存在する場合に、それらのモデル群からの情報を合理的に統合するベイズ統計的枠組み(OHVarfinDer; Moriyama et al., 2019a)を開発し、更なる変異検出精度の向上を示しました。また同一個人の複数領域シークエンスデータ中の変異候補情報を統合する、ベイズ型変異検出モデル(MultiMuc; Moriyama et al., 2019b)を開発し、各検体における変異検出の精度向上に成功しています。

研究テーマ紹介(専門家向け)

2)免疫細胞シークエンスデータ解析技術の開発

 がんと免疫の関係を解き明かし、治療に役だてることは近年のがん医療における大きな課題です。そのために、がんと免疫に関わる様々なモダリティを持つデータから有用情報を抽出するための手法群を開発しています。
 一例として、T細胞受容体(TCR)やB細胞受容体(BCR)配列で特徴づけられる、免疫細胞クローンレパトア解析のためのシークエンスデータ解析パイプライン(TCRip/BCRip; Fang, Yamaguchi, et al., 2014他)を開発しています。ここではTCRまたはBCRのRNAシークエンスデータから、リードの部分配列アライメントを元に、高精度に各クローンを特徴づける配列を決定し、レパトア構造を推定するアルゴリズムを考案しています。同パイプラインは、がんワクチンや免疫チェックポイント阻害剤治療前後のレパトア構造の動的変化の解析等に活用されています。
 また他に、DNAシークエンスデータからのHLA遺伝子型を高精度に決定する、階層型ベイズモデル(ALPHLARD; Hayashi et al., 2018)の開発を行っています。本手法は、読み取り深度が浅い全ゲノムシークエンスデータにおいても、既存の手法を大幅に上回る精度で、HLAの型決定を行うことが出来ます。また他の多くの手法において、型決定を行うことができないHLA クラスII遺伝子の型決定も行うことができます。同手法を用いて、決定されたHLA型情報は、ICGC Pacncancer Analysis of Whole Genomes (PCAWG) Project内の共通リソースとして活用されています。また、同手法を改良し、がん細胞、正常細胞のペアのシークエンスデータの情報を同時に考慮するモデル(ALPHLARD-NT; Hayashi et al., 2019)を開発しています、その結果、更なるHLA遺伝子型決定の精度の向上を得るとともに、HLA遺伝子中の体細胞変異の高精度検出にも成功しています。

研究テーマ紹介(専門家向け)

3)深層学習技術に基づくシークエンスデータ解析技術の開発

 人間の先験的知識によるモデル化や特徴抽出が困難な問題において、深層学習モデルは有効です。我々はシークエンスデータからの情報抽出において、深層ニューラルネットワークモデルを活用した手法を開発研究してきています。例えば、RNA-seqデータに含まれる様々なバイアスの補正にリカレントニューラルネットワークを用いた手法を考案しています(Zhang et al., 2017a)。コピー数変異などの大きな構造変異を高速かつ高精度に決定するためのモデルも研究しています(Zhang et al., 2017b)。
 また、ナノポアシークエンサーからのロングリードが活用され始めていますが、既存のショートリードシークエンサーからのデータに比べて正確性が低いことが問題となっています。これは、ナノポアをDNAストランドが通過するときに検出される電流の値を、正確にDNAの塩基配列に変換できないからです。我々は、この問題に対して、新たな深層ニューラルネットワークモデル(URnano; Zhang et al., (in press))を提案し、既存の手法によりも高い精度で塩基への変換を果たしています。

4)がんゲノム臨床シークエンスのための情報解析基盤技術の開発

 がんゲノムパネル検査が2019年より保険適用となり、がんゲノム医療が本格化しようとしています。我々は、近未来の、全ゲノムシークエンスおよび複数オミックスデータの統合解析に基づく、がん臨床シークエンスの実現に向けた情報解析基盤技術の開発を進めています。
 臨床シークエンスにおいて喫緊の課題は、高速のデータ解析に加え、ゲノム解析の結果得られた変異情報を臨床上有用な情報へ、迅速かつ正確に解釈・翻訳し、エキスパートパネルにおける意思決定の精緻化につなげることです。そのために人工知能を活用した解釈システムの研究を進めています。当分野は、愛知県がんセンター病院のエキスパートパネルへも参画しており。今後、現場からのフィードバックを活用して、より実践的かつ未来を見据えたシステムの開発を進めていく予定です。

+

このページのトップへ