ヒトゲノムデータ解析技術 | 健康医療インテリジェンス分野

ヒトゲノムデータ解析技術の開発

【がんゲノム】

がんはゲノムに蓄積された複数の変異が組み合わさり、細胞が制御不能に陥ることによって生じる病気です。最先端のシークエンス技術を用いて、個人のがんゲノムのDNA配列、RNAの発現量、エピゲノムなどマルチオミクスデータが得られるようになってきました。このようなオミクスデータを用いてがんで生じているさまざまなゲノム異常を高精度に同定するためのデータ解析技術を開発しています。

【免疫ゲノム】

例えば、我々がウイルスに感染しても必ずしも発症しないのは、私たちの体の中には免疫というシステムがあり、私たちの体に侵入してきた「非自己」の存在であるウイルスを排除する仕組みがあるからです。がんもゲノム変異によって元々のゲノムと異なるゲノムを持つ「非自己」にあたるため、免疫システムの攻撃対象となります。しかしながら、がん細胞はさまざまな方法で免疫システムからの攻撃を回避します。よく知られているのは、オプシーボというがんに対するの薬は、がん細胞が免疫システムを抑制しているブレーキを外すことによって免疫システムががん細胞を攻撃できるようにします。がん細胞が免疫システムからの攻撃を逃れている仕組みは他にも多数あります。この研究では、がん細胞と免疫のシステムとしての解析を行う技術の開発を行っています。

【ロングリードシークエンスデータ】

現在、世界中でゲノムシークエンスに使用されているシークエンサーは、DNAを数百塩基に断片化して、その両端100から200塩基ほどを読み取ります。このデータは、ショートリードと呼ばれます。短いリードからゲノム情報を復元するよりも、もっと長く読み取れればゲノムの復元は容易に、かつ高精度になっていくことは想像に難くないと思います。Oxford Nanopore社などが取り組んでいるのがロングリードシークエンスです。数万塩基以上をひと繋がりで読み取ることが出来ます。しかしながら、ショートリードに比べ読み取り間違え（エラー）が多いのが難点です。この研究では、ロングリードシークエンスからより正確にゲノム配列を決定し、ショートリードでは同定することが難しい構造変異などのゲノム異常を検出するアルゴリズムを深層学習を用いたニューラルネットワークをロングリードシークエンスデータ用に開発して進めています。

【シングルセルデータ解析】

これまでのDNAシークエンスやRNAシークエンスは、例えばあるがん患者から採取されたがん細胞をまとめてシークエンスすることでデータを得ていました。一方、シングルセル（一細胞）シークエンスでは、細胞一つひとつのDNAやRNA発現の情報が得られます。この情報を用いれば、マーカー遺伝子のRNA発現をもとにT細胞やNk細胞などの免疫細胞を分解することも出来ますし、がん組織に存在するがん細胞の多様性を解析することも出来ます。しかしながら、データを計測する際には解析する細胞はDNAやRNAを取り出すため破壊されますので経時的、空間的な情報は失われてしまいます。本研究では、シングルセルデータを細胞周期などの情報をもとに確率的に表現することで時空間的解析が可能なデータ解析技術を開発しています。

【（社会実装）人工知能を用いた臨床シークエンス】

上記のようなデータ解析技術を駆使することによって、がん細胞で起こっているゲノム変異が網羅的に検出できます。この技術をがん医療へと応用する研究を行っています。この研究は、医科学研究所附属病院（医科研病院）や先端医療研究センター、および関連病院との共同研究です。がん患者のゲノムシークエンスから、数千から数十万箇所のがん細胞で生じたゲノム変異が見つかります。この中からがんの原因となった変異（ドライバー変異）を同定し、更にその情報から効果の期待できる抗がん剤を見つけ出すことが目的です。そのためには、各変異について関連する文献（論文）を読み解き、遺伝子のパスウェイ情報や薬剤の特許情報も合わせて解釈していく必要があります。この作業はゲノム情報の臨床翻訳と呼ばれます。数千以上の変異それぞれに対して、この作業を行っていくことは人の手に余る作業です。また、文献データベースであるPubMedには、現在3000万報以上の生命科学分野の論文が蓄積されています。一人の研究者がカバー出来るものではありません。我々は、このゲノム情報の臨床翻訳に人工知能を活用する研究を行っています。

東京大学医科学研究所

ヒトゲノム解析センター

健康医療インテリジェンス分野

シークエンスデータ情報処理分野