人工知能に関する基礎知識と実用化動向(「未来の図書館を作るとは」の実現性を考えるに当たって)
「未来の図書館を作るとは」の実現性を考えるにあたって、現時点での人工知能の実用化の現状を理解したい。
一般的な組織でのルーティンワーク的な作業、マニュアル通りの手順での作業はもとより、知識情報資源を保有して利用者が必要とする知識を的確に提供する機関の業務は、まさに、人工知能が得意としている分野である。
人工知能を積極的に活用した知識データベースの構築、知識の提供サービスを構築していく上で、何を人工知能に任せて、人は何をしていくかの検討材料になればと思う。
何度かあった人工知能ブームはあった。
第1次AIブームでは、脳のニューロンを工学的に模倣する理論が提唱された。
第2次AIブームでは、、専門家の脳内にある知識をルール「規則」ベース化し、そのルールを使って推論を行うエキスパートシステムとしてプログラミングすることにより、人工知能の実現を目指した。、
しかし、推論の精度を上げるためには、あらゆるケースを想定して、最適なアルゴリズムを検討してプログラミングする必要があった。
特定目的ではある程度実用化されたが、汎用的なアルゴリズムは作れず、また専門家の知識のみによる機械学習では、想定されない事象に関して正しい答えを得られない「過学習」の問題があった。
第3次AIブームでは、第1次AIブームの時に提唱された脳のニューロンを工学的に模倣する形をベースとしたニューラルネットワークを多段階にすることにより、汎用的に様々なケースに対応できるようにしたディープラーニング(深層学習)の仕組みがアルゴリズムとして考案された。
また、構造化(定型化)された専門家の知識はもとより、センサー等のIoT機器から膨大な計測情報、インターネット上に拡大し続けている画像や非構造化テキストが画像解析処理、自然言語処理により構造化されたビッグデータが利用できるようになった。
さらに、コンピュータの性能が飛躍的に向上し、ディープラーニングの仕組みを使って、膨大なビッグデータを学習用データとして情報の特徴量を抽出できるようになった。
従来は特徴量抽出手法は、場合に応じて人の手で意図的に、使い分けを行う必要があったが、ディープラーニングでは、特徴量抽出の部分自体も学習による自動で獲得することができるようになった。
既に、Eメールのスパム判定や迷惑メールを自動判別したり、入力単語を予測して変換するかな漢字変換では機械学習が適用され、さらに社会では、機械翻訳サービス、自動車の自動運転システム、金融でのフィンテックなどの高度な判断を求める業務も実用レベルに近づいている。
~~~以下、箇条書きでのメモ~~~
- 人工知能とは
- 人間の脳のように物事を学習したり、意志決定したりする能力を持つコンピュータのプログラム
- 脳の神経細胞
- 人工知能の歴史
- 1940~60年代、第1次AIブーム
- 1980年代、第2次AIブーム
- 従来型の記号処理を発展させて、推論機能を持たせようとした論理プログラミングで始まった
- 論理を表現する推論マシンの開発を柱として
- 今まで、学習のための情報が少なく、また、コンピュータの処理能力が低かったため、広くAIが普及できなかった
- ニューロン系の仕組みが再び注目され始めた。ニューロンの中間層(隠れ層)を1層追加した「3層ニューラルネット」が誕生
- ニューロコンピュータ
- 多様な推論を行うエキスパートシステム
- 問題解決を行う専門家の知識を場合分け規則などの形でコンピュータに実装
- 人間が機械に理解できる推論の情報を記述する必要があった
- ナレッジエンジニアリング
- ルール(規則)ベースの「人工知能」に人の脳内にある知識を移植する役割とされた
- 小規模:専門家の知識をプログラミングしたもの(エキスパートシステム)で、人間がコンパクトに自分の常識を一断面をコーディングした概念体系。第2次AIブーム
- 問題解決を行う専門家の知識を場合分け規則などの形でコンピュータに実装
- AIが実用レベルに達したのは
- 今のAIは人間の能力を補完できる部分が多くなった
- 同じ基本機能を用いて対象を取り換えて、正解データを作り、トレーニングするだけで、新たなプログラミングなしで、精度向上をさせることができる
- 2011年音声認識コンテスト
- 2012年画像認識コンテスト
- 2016年9月末、Facebook, Amazon, Google, IBM, Microsoftの5社が、AIに関して歴史的な提携を発表
- 基礎となる学問分野・情報科学の進展
- 世の中にあふれている情報を全て把握し、これを図書館学的立場から収集、蓄積、利用するということになれば、下記のような情報に関係する様々な学問を身につける必要がある。
- A:自然言語分野
- B:音声・音楽分野
- C:画像・映像分野
- D:コンピュータ・ソフトウェア、情報通信
- E:知識工学、人工知能
- •知識表現、セマンティック・ウェブ
- •辞書学、百科辞典学
- •編集工学
- •推論技術
- •エキスパートシステム、問題解決、学習
- •著作権 、 知的所有権 、 クリエイティブ・コモンズ
- F:図書館学、図書館情報学
- ビッグデータが利用可能に
- 大量のデータが発生、流通し、手軽に使えるようになった
- インターネット上での玉石混合の情報に加え、信頼性の高い情報がオープンデータとして利用可能になってきた
- インターネット上に分散するデータ群を、あたかも一つのデータベースに見せる技術も発達
- ビッグデータを活用するためにはAIが必要。
- データ・マイニング
- パターンやデータ間の相互関係を発見する
- データ・アナリティクス
- 対象とする情報についての何らかの結論をいくつか引き出す目的で生データを検査・分析する科学的手法
- 推論を行い、意思決定を行う
- コンピュータの高性能化
- 専門家の知識だけでは過学習になる可能性があるが、ビッグデータの分析から得られた実績値による知識を自動生成
- それにより、ディープラーニングが可能になった
- 2020~2030年代
- 弱いAIにより、既存の仕事の一部がなくなる。AIが幅広く普及
- 2045年
- シンギュラリティ
- 従来のシステム開発
- 人工知能の振る舞いの段階によるカテゴリー分け
- 総務省「インテリジェント化が加速するICTの未来像に関する研究会 報告書2015」
- <従来の人工知能>
- カテゴリー1:単なる制御(言われた通りにやる)
- 【アルバイト】言われたことだけをこなすレベル
- –温度が上がるとスイッチを入れる。下がるとスイッチを切る。
- –洗濯物の重さで洗い時間を調整。
- カテゴリー2:対応のパターンが非常に多い
- 【一般職員】たくさんのルールを理解し判断するレベル
- (探索や知識を使って、言われた通りにやる)
- –探索や推論。将棋や囲碁で、決められたルールにしたがって、手を探す。
- –知識。例えば、与えられた知識ベースを使い、検査の結果から診断内容や処方する薬を出力する
- カテゴリー1:単なる制御(言われた通りにやる)
- <以下が第3次人工知能ブームの主たる対象>
- カテゴリー3:対応のパターンを自動的に学習(重みを学習する)
- 【課長クラス】決められたチェック項目に従って業務の改善をしていくレベル
- –機械学習
- –駒がこういう場所にあるときは、こう打てばよいということを学習。
- –この病気とこの病気はこういう相関があるということを学習。
- カテゴリー4:対応のパターンの学習に使う「特徴量自体」も学習(変数も学習する)
- 【マネージャクラス】チェック項目まで自分で発見するレベル
- –(特徴)表現学習。ディープラーニングはこの一種
- –駒の位置だけでなく、複数の駒の関係性をみたほうがいい。
- –こういった一連の症状が、患者の血糖異常を表し、複数の病気の原因になっているようだ。
- カテゴリー3:対応のパターンを自動的に学習(重みを学習する)
- かつて人工知能と呼ばれていたものが実用化されひとつの分野を構成すると、人工知能と呼ばれなくなる「AI効果」【人工知能の名付け親であるジョン・マッカーシー】
- 人工知能の分類
- 「強いAI」、「弱いAI」
- 強いAI
- 人間の脳と同じような振る舞い、原理の知能を作る
- 全くの未知の事態に遭遇して、創造的に問題解決できるという知識の定義をクリアする本物のAI。現場で自分で知識を獲得しながら、人類初めての対処法を考え出すことができる
- 弱いAI
- 人間の能力を補佐・拡大する仕組みを作る
- 強いAI
- 「大規模知識・データ」、「小規模知識・データ」
- 小規模:専門家の知識をプログラミングしたもの(エキスパートシステム)で、人間がコンパクトに自分の常識を一断面をコーディングした概念体系。第2次AIブーム
- 大規模:ビッグデータを投入することで知識を得る。第3次AIブーム
- 「専門的」、「汎用的」
- メタ知識:知識獲得・知識創造のための知識
- 汎用のAI:メタ知識をもって、未知の事態にも、ある程度対応できるAI,汎用の学習能力をもったAI
- 専用のAI:例えば、草花の名前であれば何百種・何千種から判定できるような専用的な画像認識エンジン
- 「強いAI」、「弱いAI」
- 従来までの人工知能
- コンピュータへの命令としてプログラムを書くときに人の手ですべてをやるには大変な部分を自動で機械に学習してもらおう
- 教師データありの学習
- 教師データは、専門家が持つ形式知である知識、暗黙知であるスキル
- 過学習と対策
- 過度に教師データに依存した(汎化できていない)状態
- 原因として、教師データが足りなくてデータに偏りがあるため
- 過学習と対策
- 人が教師データを使ってラベル付けしてきた
- 大変なスキルと工数が必要だった
- 機械学習とは
- 様々なデータから予測モデルを作成し、覚えていないものを予測する学習。教師ありと教師なしがある。
- 過学習
- 例えば、教科書に書かれている例題をいくら正確に説くことができたとしても、ちょっとひねったテストの問題では歯が立たないといった勉強の仕方では意味がない
- 実用化レベルに達した人工知能(人工知能のブレークスルー)
- AIの学習方法は、幼児教育のアナロジー
- 人間に近い学習過程を辿れるようになった人工知能
- ニューラルネットワーク
- 大切なのは情報と情報の関連性。重要な情報は強く、重要でない情報は細く。
- 多層に重なるニューラルネットワーク
- 情報に対して「関連性」や「重要性」を踏まえて、情報を扱っていく
- 入力層、出力層、その中間で実質的な思考を行う部分が「隠れ層」
- AIが自ら辞書を整備していく
- 初めは人が
- その後はAIにより、「局所解」
- 人がアルゴリズムを選択し、試行錯誤(実行、評価の繰り返し)により最適解を導く
- 強化学習
- ディープラーニング
- ディープラーニングでの学習を簡単に言うと
- 生データとその正解ラベルや別の生データの対応関係をトレーニング。人間があらかじめ与えた正解を出せずに失敗したとき時には正解に至る確率を上げるべく、各層間の結合線上の重みを調整するやり方での学習⇒トレーニング
- ディープラーニングは、原理を生物の脳に求めており、ニューロンとシナプスを模したものがその原型
- ラベルが付いていないデータを用いて、
- ディープラーニングは、「適切な特徴抽出能力をもつ教師なしニューラルネットワークを多層にして構築したもの」
- 特徴抽出能力とは、
- 特徴抽出能力とは、何が関連して何が関連していないかを理解できる能力
- 画期的なこと
- 非常に画期的だったことは、ニューラルネットワークの情報同士のつながりをある意味「自動設定」できるようにしたこと
- 人間が教えなくても自ら特徴を抽出して理解することができる
- 従来は特徴量抽出手法を、場合に応じて使い分けを人の手で意図的に行う必要があった。しかし、ディープラーニングでは、特徴量抽出の部分自体も学習による自動で獲得することができるようになった
- 課題
- ディープラーニングでの学習を簡単に言うと
- エージェント指向
- ディープラーニングの未来
- まだ、「自分自身が世界の中で存在していることを意識し、物事に接して感情と理性で考え、判断し、発言し、行動する」ような、「強いAI」はまだ存在していない。
- 「物事を忘れたり、嘘をついたり」といった人間の「弱み」も真似できていない
- 情報の関連性を理解して特徴を見出すというのは非常に人間らしい「理解」の方法
- 次第に人間が知らない特徴に人工知能が気づくようになり、人間の代わりに名前を付けるようになるかも知れない
- ディープラーニングを超える人工知能の技術が生まれてくる可能性もありますし、画像や文章を認識できるようになるだけでも、画像や文書の分別などを仕事とする人はいらなくなる。簡単なタスクを人工知能がこなせるようになるだけでも、人間の仕事が減ることは間違いない
- まだ、「自分自身が世界の中で存在していることを意識し、物事に接して感情と理性で考え、判断し、発言し、行動する」ような、「強いAI」はまだ存在していない。
- 機械が人間を越える段階(シンギュラリティ)
- 人工知能の実用化のための技術要素
- 人工知能を活用した事例
- IBMワトソン
- 専用AIの集合体
- 各専門分野の知識を、その専門にある程度あわせた構造で持つ、また、専門ごとに追加的に知識を獲得する方法(アルゴリズム)も微妙に違う
- 処理方式の主要な部分はAIではない
- 専用AIの集合体
- アプリケーションシステム
- 機械翻訳
- 自動運転
- ルンバ
- 部屋の形状や家具の配置の地図を作成し、無駄の少ないい移動方法を考え、かつ、同じ場所を通過せずに効率よく掃除する(小規模知識・データ)
- 自由回答テキストの自動解析、集計
- 人はチェックと高度な分析に専念
- 定性分析
- 類似検索
- 長い全テキスト中の全単語に精妙な重みづけを自動で行って、記事中のほぼ全単語で検索、互いの類似性を判定するような仕組み
- 対話履歴から学習してパーソナライズする機能や自動要約機能も容易に付加
- 自動要約
- 定性的な評価を定量化
- 知識創出システム
- 人とAIの協調による創造的な課題解決
- AIの助けを借りて新サービスの構想を練り開発する
- 人とシステムの得意な作業が連携
- 人とAIの協調による創造的な課題解決
- ビジネス分野
- IBMワトソン
- 人工知能に活用に適した業務
- 新サービス、新製品の要件
- ニーズの存在
- AIによるコストダウン、スピードアップ、精度・性能の向上
- ニーズとその具体的実現手法を結びつける技術、サービス提供の仕組みを、利益の出るコストで実現するアイデアの存在
- AIを直接、形にした新サービス、新規事業
- ディープラーニングによる画像認識のサービス化
- 強いAIが実現する前であっても、次のようなことはAIを活用してビジネスモデルが変わる
- ビジネスプロセスにおける業務とシステムの役割分担の見直し
- AIの実用段階に達した今、いままで人が担ってきた部分の作業も、精密化すると一部がAIを活用できる、したほうが効率がいいことが現れる
- IoTの活用
- IoTを活用することにより、人をはるかに超えるポイントでの情報をM2Mにより収集し、学習用データとして利用できる
- IoTの要素
- 例えば、RFID
- モノ、センサー、プロセッサ、通信機能、データ処理
- 丸暗記型の業務
- 大量お情報から関連しそうな情報を抽出し、信頼性が高い情報を提示する
- 事実に基づいた調査レポート
- 私見、創造がなく、引用文献に記述された内容にのみに基づく論文は、AIでも作成可能
- ルーティンワーク、マニュアル化された仕事
- 職員⇒非正規職員、外部委託⇒アルバイト⇒人工知能
- QA集に基づいたレファレンスサービス
- ヘルプデスク業務は、数年でディープラーニングもよる自動応答に置き換わっていく
- 知識データベースの構築
- 正解データを用意して、自動で特徴の抽出、認識を行い知識データベース化
- 一般論
- 様々な分野融合する際の柱
- 第1:「AI for Human Life」サービス業との融合
- 第2:「AI for Science」基礎科学研究との融合
- 第3:「AI for Manufacturing」製造業との融合
- 既存サービスの改善と効率化
- 「監視、見守り、点検」あるいは、生データの分類・整理に相当するタスクがどこにあるかを見つけること
- 監視
- 見守り
- 点検
- 分類・整理
- 新たなサービスの創造
- 様々な分野融合する際の柱
- 課題
- 新サービス、新製品の要件
- 人工知能の活用方法
- 人工知能で変わる社会、人工知能の脅威
- これから必要な人材
- データサイエンティスト
- 技術
- ビジネス
- 分析
- コミュニケーション能力
- 主流のプログラミング言語でプロトタイプを開発でき、数学、統計学、確率論、コンピュータサイエンスの確かな素養のある人材
- かつ、ビジネス課題への感覚が鋭く顧客に共感できること
- データサイエンティスト
- 人間だからできる仕事は
- 与えられた仕事をこなすだけではなく、相手が必要としているモノを理解し、要求以上のモノを提供することで人工知能との差別化が図れる
- 創造的な仕事
- 新しいものを生み出せる仕事をするか、人間らしい温かみのある仕事ができなければ仕事を失うことになる
- 事実のみを知識とする創造性のない論文はAIで自動作成される
- 人間の感性に訴える芸術、芸能関係の仕事
- 人間の感性や感覚に訴えるモノが多く、人間の特性や文化を正しく理解していなければこの仕事はできない
- 最終判断をする仕事
- 人と人のコミュニケーション能力の必要なサービス業
- 進化と発展を生み出す仕事
- AIを活用するためシステム技術者
- 課題解決に有用な学習データの選別とアルゴリズムの選択。AIによる試行錯誤の結果の評価。ある程度制度が上がるとAIの出力を確認する作業になっていく
- 信頼性の高い教師データ(辞書類)の作成
- 初めは人が作成し、ある程度精度が上がるとAIの出力を確認する作業になっていく
- AIを活用するためシステム技術者
- 教育に関わる仕事
- 図書館情報システムは
- 文献情報検索から事実検索へ
- レファレンスサービスにおいて、「どの本に書いてある」ではなく「信頼性の高い情報は、どの本のどこにどのように書いてあるので、質問の解答は何々である」
- 文献情報検索から事実検索へ