Beyond AI Logo

少ない教師データからの高精度予測モデル自動構築 Automated Learning of High Accurate Prediction Model from Limited Supervised Data

構成メンバー

People

研究リーダー Principal Researcher
原田 達也 教授 Professor Tatsuya Harada
東京大学・先端科学技術研究センター Research Center for Advanced Science and Technology, The University of Tokyo
研究者 Researchers
  • 杉山 将 教授 Professor Masashi Sugiyama

課題

Issue

教師データの整備という機械学習の導入障壁

現在、機械学習による高度な予測機能を備えたシステムやサービスが急速に広がりつつあり、大きな注目を集めています。しかし機械学習、その中でもとりわけ深層学習の導入には教師データの整備という大きな障壁があることをご存知でしょうか?現在、深層学習の導入に成功しているのは主に「教師あり学習」と呼ばれる分野であり、この「教師あり学習」を利用して高い予測精度を得るには膨大な「教師データ」(=正解付きデータ)を準備する必要があります。多くの応用場面では新たに機械学習を導入しようとした際にこの「教師データ」を充分に用意することが出来ず、その恩恵にあずかれないという状況があります。また、仮にデータが入手可能であっても、教師データの整備には膨大なコストや専門的な知識が必要となり、導入の大きな障壁になっています。そこで、限られた情報でも機械学習を導入できるようにするための仕組みや、良質な教師データの整備にかかるコストの低減が、知的なシステムが世の中で汎用的に利用されるための最重要課題となっています。

研究の内容

Contents

限られた教師データから高精度な予測モデルを自動的に構築する機械学習の基盤技術を研究 

本研究ではこの課題を解決するために、限られた教師データから高精度な予測モデルを自動構築する基盤技術の確立を目指しています。これにより、これまで良質な教師データを大量に集められないという問題から機械学習を導入できなかった領域や、教師データの構築に必要な人的コストや専門知識の不足から導入を断念せざるを得なかった領域まで、機械学習の導入障壁となっていた教師データの整備に関わる様々な課題を根本的に解決できます。
本研究では、三つの観点からこの革新的な基盤技術の確立に取り組んでいます。研究チームはすでに各項目それぞれに世界をリードする成果と評価を得ており、この優位性を維持し加速することで、より突出したコア技術の創出を目指しています。

[1]弱教師データを活用した予測モデルの学習理論とアルゴリズムの開発

研究チームでは、これまでにも「弱教師付き学習」と呼ばれる分野において、世界をリードする学習理論の構築と汎用的なアルゴリズムの開発をしてきました。「弱教師付き学習」とは、教師データのラベル情報が不正確であったり、一部のみに付与されていたりする場合の学習手法です。近年では医療情報のようにラベルの収集に多大なコストがかかる場合への強力な解決方法として世界的に注目を集めています。本研究ではこれまでの研究成果をさらに発展させ理論の精緻化を進めることで、最終的には弱教師付き学習の統一的な理論の構築を目指しています。また、この統一理論を実世界で応用可能にするために、汎用的なアルゴリズムの開発や、ノイズや異常値に対応可能な頑健性の追求などの研究開発を推進しています。

[2]知識転移の理論とアルゴリズムの開発

もう一つのアプローチとしてドメイン適合という知識転移技術の開発に注力します。ドメイン適合とは、ある領域で学習された予測モデルを、性質の異なるターゲットに転用させる技術です。これにより、個人情報を含むような不特定多数のデータに直接アクセスできない状況でも、ターゲットに適切な知識を転用することが可能になります。なお、現状のドメイン適合では、ソースとターゲットのカテゴリが一致していなければならないとう強い制約が課題となっていますが、本研究ではこの制約を緩和する技術の研究を推進しています。また、ソースの領域の数や多様性を増やし、その中から適切な知識を選択適合させる技術、さらには[1]弱教師付学習とドメイン適合の組み合わせの手法などを研究開発しています。

[3]高精度な予測モデルの自動構築と応用

[1]弱教師付き学習や[2]知識転移技術などを組み合わせた統合的な自動学習基盤技術の開発にも取り組みます。機械学習では高精度なモデルを構築するためにモデルの構造決定、データの前処理、パラメータの設定等を適切に行う必要があり、これらの設定を自動的に行う効率的な並列分散基盤の構築を目指しています。特に、[1]弱教師付き学習では、教師データに付与された情報の質(ラベル付き,ラベルなし,ラベルの信頼度,類似度など)による最適なアルゴリズムの選択の自動化、[2]知識転移技術では転移すべき適切な知識の選択の自動化に注力し、さらに、これらの統合手法の開発も行います。

価値・期待

Expectations

本研究プロジェクトが切り開く未来の可能性

教師データの整備という機械学習の導入障壁に取り組む本研究は、AI利活用の基盤技術であり、きわめて広い適用範囲があります。本研究によって機械学習導入の新たな可能性を切り開くことで、これまでよりもより広範囲な業種やサービスに機械学習を適用できるようになることを期待しています。また、この基盤技術によって、AIがもたらす知的システムが世の中で汎用的に利用されることで、Beyond AIが目指すよりよい社会の実現に大きく貢献できると信じています。
更に、この基盤技術の確立は科学技術の発展という側面においても大きな成果が期待できます。この技術には、実験回数の制約などから大量の教師データを得ることが困難だった従来の科学研究の方法論を変える可能性があり、様々な自然科学分野において今まで思いもつかなかった新たな知見の獲得につながる可能性を秘めています。