知の共有化

読者です 読者をやめる 読者になる 読者になる

知の共有化

Digital Transformation時代に対応した文化資産のデジタルアーカイブシステムの構築、知識インフラの構築、利用環境の高度化により、知識の一層の利活用の促進を目指す。

人工知能を活用した「未来の図書館」の実現形と構築に必要な知識・スキル【要約】

 人工知能を活用した「未来の図書館」の実現形と構築に必要な知識・スキル【要約】

 図書館サービスの将来方向として、出版物に限らず様々な情報機関が保有する文化情報資源を一元的に利活用できるようにして、新たな知識を創造する「知識インフラ」としての方向性を検討してきた。
 その方向性の実現に、メタデータの集約による単なる統合検索が可能な「知識インフラ」でなく、情報資源そのもの(画像データ、本文フルテキスト等)をビッグデータとして活用して、人工知能により知識化し、ファクトを取り出せる基盤としての「真の知識インフラ」の構築の実現を見通せる時代になった。
 「電子図書館」は、「真の知識インフラ」として、「情報の集合体としてのアーカイブ」に留まらず、「人工知能により知識化」され、利用者に対して「電子図書館」を「脳の外部記憶」として利用を可能にする実用化システムの構築も実現可能なところまで到達しつつある。
 そのような時代に、図書館を含めた文化情報資源の保有機関は、どんな業務・サービスに人工知能を活用すべきか、そのためにどんな知識とスキルを持つべきかを考察する。


人工知能(AI)による知の共有化の進展への期待 【要約】
1. はじめに
2. 本格的な人工知能の実用化を迎えて
2.1. 今まで
2.2. 今後
2.3. 人工知能の進展
2.4. 「未来の図書館を作るには」【長尾先生】の抜粋
2.5. 図書館関連が保有しているビッグデータとしての知的情報資源
3. 文化情報資源のナショナルアーカイブの方向性は
3.1. ビッグデータとしての知の共有化、人工知能が適用された知識インフラの構築
3.2. 今後
3.3. 文化情報資源のナショナルアーカイブの方向性
3.4. ナショナルアーカイブの各基盤の概念
4. そのような時代に図書館サービスの業務と、業務に従事する人材の資質とスキルは?
4.1. 人工知能と人間の能力と役割(一般論)
4.2. 図書館員の役割と資質
4.3. 図書館サービスの構築・運用に従事する人に必要な知識とスキルは?
5. サービス構築に当たって留意してほしいこと
5.1. 効率化、人はより創造的な業務へ
5.2. 保守的な組織にありがちな前例主義・横並び主義からの脱却
5.3. 与えられた権限には、実施の責任と義務を負っている
5.4. サービス提供者は利用者以上のITスキルを持つ
5.5. One of themの組織としての役割を考える。Give&Takeの協力関係を想定する
5.6. 外部の動き(特に商用サービス)を知る組織外の情報を組織内へ
5.7. 今後10年を見据える
5.8. 未来は自分が描き、自分で作る。
6. まとめ

文化情報資源を中核とした「知識インフラの構築と利活用」のサービスの方向性を見極めて、提供する機関の1つとしての図書館情報サービスの構築と提供を考えていくことが重要と考える。
 2040年代には、人工知能が意志や感情を持って人間を超える「シンギュラリティ―時代」が来ると言われて、また10年後にはどんな新しい技術が確立しているかわからないが、現時点での人工知能の実用化レベルでも、社会は大きく変革する。
 その社会の中での図書館サービスは、従来の延長線上での業務を行っていては、有益なサービスを提供する機関としての存立が危ぶまれる 。

 人工知能により、人の仕事が奪われるのではなく、より人間らしい仕事にシフトしていく。 仕事が奪われるとしたら、むしろ、人工知能を活用した省力化と新しいサービスに取り組まなかったために事業を継続できなくなる機関・組織であろう。 

「知の共有化」に関する情報ポータルサイト

アーカイブ IT技術 FIX

■サイト内容

「知の共有化」のサイトは、図書館における電子図書館事業の延長線にある「Digital Transformation」の時代に対応した文化資産のデジタルアーカイブシステムの構築、知識インフラの構築、利用環境の高度化など、知識の一層の利活用の促進を目指すために、今まで進めてきたこと、今後5年、10年で進むべき方向性と施策についての情報を体系的に整理しています。

●ホットページ

■2017年作成ドキュメント

  • 知識インフラの実現形でのタスクと必要な知識、スキル【本編】

    • 【作成中】

■2016年作成ドキュメント

■ドキュメントアーカイブ

 ■関連情報サイト

「未来の図書館を作るとは」(長尾元国立国会図書館長)で示されたこと【全文要約】

FIX アーカイブ 人工知能

www.xmind.net

「未来の図書館を作るとは」(長尾真著)の全文を引用し、マインドマップで要約したものです。

 

  • 図書館の役割
    • 図書館は書物を収集・保存し提供する場であるとともに、それらを使って関心のある人が集まって議論し新しい知識を創造する場
    • 日本中に存在する知識情報が有機的に結合され、日本中の人が自由に使える日本の「知識インフラ」を構築することがこれからの大きな課題
    • 一次情報提供の場
      • 種々の検索方式を自由に組み合わせて使うことによって必要とする情報を取り出せることが保証されている必要
      • 各地の図書館は一般の出版物ではなく、その地の資料や情報を収集し、電子化してサービスを行う方向の努力が求められることになる
      • 地方の貴重な資料が全国の共有物となって、その地方の歴史的価値が高まるだろうし、学問も進展することになる。
        • 情報の網羅性・完全性の重要さ
          • データベースの完全性のようなものが利用者に分っており、あるはずのものがないとすれば検索の仕方が悪かったのだと思って、いろいろとやりなおすことも何ら気にせず行う
    • 新たな知識の創造の場
      • 図書館のもつ資料も提供しながら誰もがマルチメディア著作物を作れるようにすることもこれから大切になってゆく
    • 読者と読者を繋ぐ場
      • 議論の場の提供という図書館機能
      • 解決したいという人達と研究者、そして図書館司書のグループが種々の角度から資料をもとに議論
      • 考え方の違う人達が知識を共有し、その違いを議論を通じて明らかにすると共に、新しい知識・思想を作り出してゆく場
    • 出版社、著者と読者を繋ぐ場
      • 図書館が司書による相談サービス、あるいは自動的な案内サービスをする場合でも、自分の電子書棚を作りたいという人の多くは図書館から借りるのではなく出版社のデータベースの方に行き、書物を購入することになるわけで、図書館は出版社と読者を結合する接続業者のようになってゆく
    • 場としての図書館
  • 今後の電子図書館
    • 進歩した検索システムをうまく使うことによって過去の忘れられていた良書が息を吹き返してくる。
    • 1つの方法は書物を目次にしたがって図3.2に示すように構造化すること
    • 同義語も扱えるようにすれば、同じ文でなくても意味的に同じ文を含む部分を取り出すことができる。
    • 多くの書籍から自分の必要とする部分を切り出して来て自分の著述の中にうまく挿入することによって新しい著作物を創造することもできる
    • 種々の知的なナビゲーションシステムが作られてゆくから、司書の世話にならなくてもある程度のレファレンスサービスを受けられる
    • 自分の書棚を電子的に作れば、自分の連想に基づいて自分の本や本の部分部分をリンク付けして自分の知識の構造に合った自分図書館を作って楽しむことができる
  • 図書館員の役割と資質
    • 情報に関する基本情報付け(メタデータ付与)
    • 情報に関する付加価値情報付け
    • 関連付けに必要な典拠類の構築
    • 情報間の関連付け
        • 相当な博識の人でないと1つの資料に関係した他の資料へのリンクを十分に付けることが難しく、レファレンス・ライブラリアンの能力、あるいはそれ以上の能力を必要とする
    • 図書館職員の選書能力が大切
    • 分類・主題情報の付与
    • オンラインレファレンス
    • 集いの場(intellectual commons)の運営
    • 情報処理システム要員
    • 詳細は別途
  • 出版界と書店の今後
    • 書店が推奨する本の検索システムを作っておき、来客の要求にぴったりした本を推薦し、これをオンデマンド印刷で売るといったことで書店の存在価値を高めてゆく努力が必要
  • 理想の図書館へ向けて「知識インフラ」の構築
    • 必要な人材
      • 研究グループの中に図書館的業務のできる人を置くことが必要。embedded librarian(研究協力図書館員)と呼ぶようになって来た。
    • 必要な要素・機能
      • 整理された研究データ類も公開され知識インフラの要素
      • 知識インフラ構築における最も大切な概念は、情報を集め、これを知識化し活用することによって新しい情報・知識を創出し、知識インフラに加えるという形で循環的にこのシステムを強化・拡大してゆくことによって社会・経済に貢献することである。
      • 科学技術(この中には医学、薬学、生命科学等を含む)だけでなく人文科学、社会科学(この中には法学、教育学、経済学等を含む)など全学問分野
      • 創造される各種の情報、知識は研究機関、学会、データベース機関などで利用できる形
      • 知識が種々の観点から組織化、構造化されて利用しやすい形で蓄積されて利用に供される
      • マルチメディア情報の検索
      • 類似性の検出と分類
      • メディア変換
    • 基礎となる学問分野
      • A:自然言語分野
      • B:音声・音楽分野
      • C:画像・映像分野
      • D:コンピュータ・ソフトウェア、情報通信
      • E:知識工学、人工知能
      • F:図書館学、図書館情報学
      • 詳細は別途
  • 人工知能電子図書館
    • 自動的な形で適切な知識の所在にまでナビゲートしてゆくシステムが開発されつつある
    • 人間の持っている知識は頭脳の中にあり、種々の知識が何らかの関係性によってつながれていて、連想的に関係する知識が取りだされている
    • 図書館においてもぼう大な書物の中に存在する知識が関連性をもって書物という単位を超えてつなげられ、それが取り出されることが大切であろう。
    • 本のある部分に存在する単語や概念を集め、それらに近い単語や概念が存在する部分を他の本について網羅的に調べる
    • 関連する知識を人間頭脳の中のネットワークのようにつないで、利用者の要求に応じて提示できるような形の電子図書館の内容の組織化が望まれているのである。
    • 情報検索というよりは事実検索に近づいてゆく。
    • その本のどこに書かれているかを探すというのではなく、自分の欲しい情報そのものが出てくることになる。
    • ある社会において一定の教育を受けた人達の場合にはほぼ共通した知識の体系、構造というものがある
    • 電子図書館における図書・資料は部品に解体され、それぞれが種々の観点からリンク付けされた巨大なネットワーク構造が作られるようにする。これは1つの社会で共有する中立的な知識構造、知識システムである。
    • 個人によって違った知識の構造の部分については、その人の力によって種々の検索方式を試み、自分の必要とする情報をとり出して中立的な知識の構造に付加してゆくことが出来ねばならないし、またそれによって自分に合った知識の構造を作りあげてゆくことができるだろう。
    • 個人の電子図書館が出来るし、その人の頭脳の知識の構造が反映されたものが作られてゆく
    • 現実世界の本や情報の大切さ以上にヴァーチュアルな世界における情報処理と表現力の可能性にもっと大きな関心を持つべき時代に来ていると言えるのではないだろうか。
    • 「分かる」ことへの道程
      • 理想の電子図書館では、知識や情報が与えられるごとに、それが単なる増加知識として記憶されるのでなく、他の既存の知識との間での因果関係がチェックされ、新しい因果関係のリンクが付けられてゆくという形で発展してゆくべきである。
      • 個人の頭脳内容を反映した個人電子図書館が発展してゆくことになれば、いろいろと楽しく、心を豊かにしてくれるだろうし、新しい未知のことに対する挑戦という勇気もわいてくることは間違いないだろう。
      • 未来の自分の頭脳をヴァーチュアル世界に作ることであるともいえる。魅力的で挑戦的なことではないだろうか。
  • 人工知能の知識構造に近づく電子図書館
    • 起案連情報のリンクによる知識の構造化
    • 種々の観点からの連想検索
    • 時間軸に沿った知識の組織化
    • 空間軸に沿った知識の組織化
    • 情報検索から事実検索へ(直接答えを与える)
  • 夢の図書館を目指して-20年後の知識システム-
    • 電子書籍時代の書誌的事項と検索
      • 自動書誌作成、自動分類
      • 図書館分類体系の問い直し
      • 配架のための分類という考え方の崩壊
      • 目次検索、全文検索など、様々のレベルの検索
  • AI等の活用以前に実現可能なサービス
    • SNS
      • 同じ作品に関心のある人と意見を交換
      • 作品の著者との対話ということもありうる時代
    • 組織化
      • 目次情報を付けたり、本の表紙の画像や数行の簡単な要旨を付ける
      • RDA
        • 従来の書誌情報の考え方をマルチメディア情報に対応できるように拡張かつ詳細化するとともに、対象資料に関係する様々な種類の情報にリンクをはり、それらの情報をたどってゆけるようにする
  • AI等の活用で現時点でも現実味が帯びてきたこと
    • 図書・資料は部品に解体され、それぞれが種々の観点からリンク付けされた巨大なネットワーク構造が作られるようにする
    • 自然言語処理
      • 自然言語による質問要求を受け付けて、取り出したものがその要求に対応するものであるかどうかを自然言語処理技術によって調べ、できるだけ質問要求に近いものだけを選択するといった技術を確立することが必要
    • 書誌検索のような単純、単一の検索でなく、種々の検索のモードを提供することである
    • 種々のあいまいさを許すあいまい検索の工夫
    • 電子図書館になって取り出す単位が書籍の単位ではなく、書籍の中の章や節、パラグラフ、あるいはこんな内容が書かれている部分のみ、といった時に従来のシステムは全く役に立たない。
    • 自動的な形で適切な知識の所在にまでナビゲートしてゆくシステムが開発されつつある
    • 個人によって違った知識の構造の部分については、その人の力によって種々の検索方式を試み、自分の必要とする情報をとり出して中立的な知識の構造に付加してゆくことが出来ねばならないし、またそれによって自分に合った知識の構造を作りあげてゆくことができるだろう。
    • その本のどこに書かれているかを探すというのではなく、自分の欲しい情報そのものが出てくることになる。
  • 制度の見直しにより現実味が帯びてきたこと
    • すべての人から許諾を取るのはほとんど不可能であり、再利用の道はほとんど閉ざされている。包括的な権利処理などの工夫が必要

 

人工知能に関する基礎知識と実用化動向(「未来の図書館を作るとは」の実現性を考えるに当たって)

IT技術 人工知能 FIX

「未来の図書館を作るとは」の実現性を考えるにあたって、現時点での人工知能の実用化の現状を理解したい。

www.xmind.net

一般的な組織でのルーティンワーク的な作業、マニュアル通りの手順での作業はもとより、知識情報資源を保有して利用者が必要とする知識を的確に提供する機関の業務は、まさに、人工知能が得意としている分野である。
人工知能を積極的に活用した知識データベースの構築、知識の提供サービスを構築していく上で、何を人工知能に任せて、人は何をしていくかの検討材料になればと思う。


何度かあった人工知能ブームはあった。
第1次AIブームでは、脳のニューロンを工学的に模倣する理論が提唱された。
第2次AIブームでは、、専門家の脳内にある知識をルール「規則」ベース化し、そのルールを使って推論を行うエキスパートシステムとしてプログラミングすることにより、人工知能の実現を目指した。、
しかし、推論の精度を上げるためには、あらゆるケースを想定して、最適なアルゴリズムを検討してプログラミングする必要があった。
特定目的ではある程度実用化されたが、汎用的なアルゴリズムは作れず、また専門家の知識のみによる機械学習では、想定されない事象に関して正しい答えを得られない「過学習」の問題があった。

第3次AIブームでは、第1次AIブームの時に提唱された脳のニューロンを工学的に模倣する形をベースとしたニューラルネットワークを多段階にすることにより、汎用的に様々なケースに対応できるようにしたディープラーニング(深層学習)の仕組みがアルゴリズムとして考案された。
また、構造化(定型化)された専門家の知識はもとより、センサー等のIoT機器から膨大な計測情報、インターネット上に拡大し続けている画像や非構造化テキストが画像解析処理、自然言語処理により構造化されたビッグデータが利用できるようになった。
さらに、コンピュータの性能が飛躍的に向上し、ディープラーニングの仕組みを使って、膨大なビッグデータを学習用データとして情報の特徴量を抽出できるようになった。

従来は特徴量抽出手法は、場合に応じて人の手で意図的に、使い分けを行う必要があったが、ディープラーニングでは、特徴量抽出の部分自体も学習による自動で獲得することができるようになった。

既に、Eメールのスパム判定や迷惑メールを自動判別したり、入力単語を予測して変換するかな漢字変換では機械学習が適用され、さらに社会では、機械翻訳サービス、自動車の自動運転システム、金融でのフィンテックなどの高度な判断を求める業務も実用レベルに近づいている。

~~~以下、箇条書きでのメモ~~~

  • 人工知能とは
      • 人間の脳のように物事を学習したり、意志決定したりする能力を持つコンピュータのプログラム
  • 脳の神経細胞
      • 構成単位であるニューロン
      • 脳は複数のニューロンにまたがって分散的に情報を保持し、また、新しい情報が入ってきたときは脳全体で学習し、全体で保管しているのではないかと言われている
  • 人工知能の歴史
      • 1940~60年代、第1次AIブーム
          • 1943年脳のニューロンの工学的模倣として、形式ニューロンが提案された
          • 1956年、初めてAIという言葉が用いられた。
          • 単純な問題は処理できても、多くの要因が絡む課題を解くことができず、ブームは終焉
      • 1980年代、第2次AIブーム
          • 従来型の記号処理を発展させて、推論機能を持たせようとした論理プログラミングで始まった
          • 論理を表現する推論マシンの開発を柱として
          • 今まで、学習のための情報が少なく、また、コンピュータの処理能力が低かったため、広くAIが普及できなかった
          • ニューロン系の仕組みが再び注目され始めた。ニューロンの中間層(隠れ層)を1層追加した「3層ニューラルネット」が誕生
          • ニューロコンピュータ
          • 多様な推論を行うエキスパートシステム
              • 問題解決を行う専門家の知識を場合分け規則などの形でコンピュータに実装
                  • 人間が機械に理解できる推論の情報を記述する必要があった
              • ナレッジエンジニアリング
                  • ルール(規則)ベースの「人工知能」に人の脳内にある知識を移植する役割とされた
              • 小規模:専門家の知識をプログラミングしたもの(エキスパートシステム)で、人間がコンパクトに自分の常識を一断面をコーディングした概念体系。第2次AIブーム
      • AIが実用レベルに達したのは
          • 今のAIは人間の能力を補完できる部分が多くなった
          • 同じ基本機能を用いて対象を取り換えて、正解データを作り、トレーニングするだけで、新たなプログラミングなしで、精度向上をさせることができる
          • 2011年音声認識コンテスト
          • 2012年画像認識コンテスト
          • 2016年9月末、Facebook, Amazon, Google, IBM, Microsoftの5社が、AIに関して歴史的な提携を発表
          • 基礎となる学問分野・情報科学の進展
          • ビッグデータが利用可能に
              • 大量のデータが発生、流通し、手軽に使えるようになった
              • インターネット上での玉石混合の情報に加え、信頼性の高い情報がオープンデータとして利用可能になってきた
              • インターネット上に分散するデータ群を、あたかも一つのデータベースに見せる技術も発達
              • ビッグデータを活用するためにはAIが必要。
                  • データ・マイニング
                  • パターンやデータ間の相互関係を発見する
                  • データ・アナリティクス
                  • 対象とする情報についての何らかの結論をいくつか引き出す目的で生データを検査・分析する科学的手法
                  • 推論を行い、意思決定を行う
          • コンピュータの高性能化
              • CPUのパワーが前回の人工知能ブーム時の何千倍、何万倍になった
              • 単純作業の反復、総当たりチェックする能力が指数関数的に向上
              • スパコンを利用しなくても、クラウドサービスレベルのコンピュータで大量の情報の試行錯誤的ぶんせきが可能になった
          • 専門家の知識だけでは過学習になる可能性があるが、ビッグデータの分析から得られた実績値による知識を自動生成
          • それにより、ディープラーニングが可能になった
      • 2020~2030年代
          • 弱いAIにより、既存の仕事の一部がなくなる。AIが幅広く普及
      • 2045年
          • シンギュラリティ
  • 従来のシステム開発
      • モデル化、アルゴリズム化が可能で大量の情報を正確に処理するのがコンピュータを利用した情報処理システム
      • 人がモデルを想定して最適なアルゴリズムを検討し、プログラミング
      • ディープラーニングは、モデル化作業、プログラミングが不要
  • 人工知能の振る舞いの段階によるカテゴリー分け
      • 総務省「インテリジェント化が加速するICTの未来像に関する研究会 報告書2015」
      • <従来の人工知能
          • カテゴリー1:単なる制御(言われた通りにやる)
              • 【アルバイト】言われたことだけをこなすレベル
              • –温度が上がるとスイッチを入れる。下がるとスイッチを切る。
              • –洗濯物の重さで洗い時間を調整。
          • カテゴリー2:対応のパターンが非常に多い
              • 【一般職員】たくさんのルールを理解し判断するレベル
              • (探索や知識を使って、言われた通りにやる)
              • –探索や推論。将棋や囲碁で、決められたルールにしたがって、手を探す。
              • –知識。例えば、与えられた知識ベースを使い、検査の結果から診断内容や処方する薬を出力する
      • <以下が第3次人工知能ブームの主たる対象>
          • カテゴリー3:対応のパターンを自動的に学習(重みを学習する)
              • 【課長クラス】決められたチェック項目に従って業務の改善をしていくレベル
              • 機械学習
              • –駒がこういう場所にあるときは、こう打てばよいということを学習。
              • –この病気とこの病気はこういう相関があるということを学習。
          • カテゴリー4:対応のパターンの学習に使う「特徴量自体」も学習(変数も学習する)
              • 【マネージャクラス】チェック項目まで自分で発見するレベル
              • –(特徴)表現学習。ディープラーニングはこの一種
              • –駒の位置だけでなく、複数の駒の関係性をみたほうがいい。
              • –こういった一連の症状が、患者の血糖異常を表し、複数の病気の原因になっているようだ。
      • かつて人工知能と呼ばれていたものが実用化されひとつの分野を構成すると、人工知能と呼ばれなくなる「AI効果」【人工知能の名付け親であるジョン・マッカーシー
  • 人工知能の分類
      • 「強いAI」、「弱いAI」
          • 強いAI
              • 人間の脳と同じような振る舞い、原理の知能を作る
              • 全くの未知の事態に遭遇して、創造的に問題解決できるという知識の定義をクリアする本物のAI。現場で自分で知識を獲得しながら、人類初めての対処法を考え出すことができる
          • 弱いAI
              • 人間の能力を補佐・拡大する仕組みを作る
      • 「大規模知識・データ」、「小規模知識・データ」
          • 小規模:専門家の知識をプログラミングしたもの(エキスパートシステム)で、人間がコンパクトに自分の常識を一断面をコーディングした概念体系。第2次AIブーム
          • 大規模:ビッグデータを投入することで知識を得る。第3次AIブーム
      • 「専門的」、「汎用的」
          • メタ知識:知識獲得・知識創造のための知識
          • 汎用のAI:メタ知識をもって、未知の事態にも、ある程度対応できるAI,汎用の学習能力をもったAI
          • 専用のAI:例えば、草花の名前であれば何百種・何千種から判定できるような専用的な画像認識エンジン
  • 従来までの人工知能
      • コンピュータへの命令としてプログラムを書くときに人の手ですべてをやるには大変な部分を自動で機械に学習してもらおう
      • 教師データありの学習
      • 教師データは、専門家が持つ形式知である知識、暗黙知であるスキル
          • 過学習と対策
              • 過度に教師データに依存した(汎化できていない)状態
              • 原因として、教師データが足りなくてデータに偏りがあるため
      • 人が教師データを使ってラベル付けしてきた
          • 大変なスキルと工数が必要だった
      • 機械学習とは
          • 様々なデータから予測モデルを作成し、覚えていないものを予測する学習。教師ありと教師なしがある。
      • 過学習
          • 例えば、教科書に書かれている例題をいくら正確に説くことができたとしても、ちょっとひねったテストの問題では歯が立たないといった勉強の仕方では意味がない
  • 実用化レベルに達した人工知能人工知能のブレークスルー)
      • AIの学習方法は、幼児教育のアナロジー
      • 人間に近い学習過程を辿れるようになった人工知能
          • 豊富な知識の習得
              • 人間は教師に教わって学習することもあれば、自分で気づいて学ぶこともある。これは人工知能も同じ
          • 迅速で高度な思考
              • 豊富な思考回路(アルゴリズム)を持ち、例外的な処理を含めて、迅速に処理する思考能力
          • ニューラルネットワーク
              • 脳の構成単位であるニューロンを簡易的に模倣して工学的に再現する試み
              • 人間の知能は、問題の解き方をモジュール化して、問題に応じてモジュールを再活用し、また複数のモジュールを組み合わせて活用することができる
          • トップダウンアプローチ
              • 脳の構造そのものを生理学的に解明し、その構造を工学的に再現しようという自然科学寄りのアプローチ。「強いAI」
          • ボトムアップアプローチ
              • 超高速計算や大量のメモリーを駆使して、本来機械が得意だった能力をもっと生かしやすく、使いやすくするために、音声認識自然言語処理、画像認識などの人間的なインターフェース、流儀を機械に学ばせる、実用的なアプローチ。人間の能力をますます強力にして、人間の問題解決を支援する「弱いAI」
      • ニューラルネットワーク
          • 大切なのは情報と情報の関連性。重要な情報は強く、重要でない情報は細く。
          • 多層に重なるニューラルネットワーク
              • 情報に対して「関連性」や「重要性」を踏まえて、情報を扱っていく
              • 入力層、出力層、その中間で実質的な思考を行う部分が「隠れ層」
      • AIが自ら辞書を整備していく
          • 初めは人が
          • その後はAIにより、「局所解」
          • 人がアルゴリズムを選択し、試行錯誤(実行、評価の繰り返し)により最適解を導く
          • 強化学習
      • ディープラーニング
          • ディープラーニングでの学習を簡単に言うと
              • 生データとその正解ラベルや別の生データの対応関係をトレーニング。人間があらかじめ与えた正解を出せずに失敗したとき時には正解に至る確率を上げるべく、各層間の結合線上の重みを調整するやり方での学習⇒トレーニング
          • ディープラーニングは、原理を生物の脳に求めており、ニューロンシナプスを模したものがその原型
          • ラベルが付いていないデータを用いて、
          • ディープラーニングは、「適切な特徴抽出能力をもつ教師なしニューラルネットワークを多層にして構築したもの」
          • 特徴抽出能力とは、
              • 特徴抽出能力とは、何が関連して何が関連していないかを理解できる能力
          • 画期的なこと
              • 非常に画期的だったことは、ニューラルネットワークの情報同士のつながりをある意味「自動設定」できるようにしたこと
              • 人間が教えなくても自ら特徴を抽出して理解することができる
              • 従来は特徴量抽出手法を、場合に応じて使い分けを人の手で意図的に行う必要があった。しかし、ディープラーニングでは、特徴量抽出の部分自体も学習による自動で獲得することができるようになった
          • 課題
              • 学習させるデータの課題
                  • ただ大量であるだけでなく、質が求められる
                  • 実際には、学習において教師ありのラベル付きデータが必要となるため、データに対してラベル付を人の手で行うことになる。データ量が増えるほど学習精度はあがる一方、ラベル付する量や時間的コストも大きくなる
              • 根本的なディープラーニングの手法の見直し
                  • 手法自体の発展が目覚ましいわけでなく、コンピュータ計算処理能力がやっと理論に追いついた状況
                  • 実際の脳のニューロンの構造的には、横に広く浅いことが知られているが、現在のディープラーニングは縦に層を深くするほど精度が改善しているのが現状
                  • 今後はデータを見て、ディープラーニング自体が自からのネットワーク構造を最適化して決定していくような仕組みも必要となる
              • 「No Free Lunch定理」どんな問題やどんなデータに対しても最高の精度を出せる万能なアルゴリズムは存在しないという定理
      • エージェント指向
          • API連携
              • 2005年以降10年ほどで、APIの活用が当たり前となった
              • 全てのアプリケーションを自作する必要がない
              • 企業は今、自社の様々な情報やサービスへのアクセスを、APIを通じてオープン化しようとしている
              • 5W1Hメタデータを活用したデータ連携
                  • 商用ベースでAPIを提供し、APIが相互日機能提供し、通信することで協同で問題解決を行い、業務フローを回し、売り上げをシェアできるようになってきた
          • エージェントが互いに適切な相手を見つけたり、「会話」するときの共通仕様やお作法(プロトコル)を決め、標準化する必要がある
      • ディープラーニングの未来
          • まだ、「自分自身が世界の中で存在していることを意識し、物事に接して感情と理性で考え、判断し、発言し、行動する」ような、「強いAI」はまだ存在していない。
            • 「物事を忘れたり、嘘をついたり」といった人間の「弱み」も真似できていない
          • 情報の関連性を理解して特徴を見出すというのは非常に人間らしい「理解」の方法
          • 次第に人間が知らない特徴に人工知能が気づくようになり、人間の代わりに名前を付けるようになるかも知れない
          • ディープラーニングを超える人工知能の技術が生まれてくる可能性もありますし、画像や文章を認識できるようになるだけでも、画像や文書の分別などを仕事とする人はいらなくなる。簡単なタスクを人工知能がこなせるようになるだけでも、人間の仕事が減ることは間違いない
      • 機械が人間を越える段階(シンギュラリティ)
  • 人工知能の実用化のための技術要素
      • 画像認識
          • 画像の認識、分析と自動分類
      • 音声認識
      • 自然言語処理
          • 複雑に絡み合った多種多様な曖昧さの認識
              • 文字列から単語を切り出す(分かち書き
              • 発音の曖昧さ
              • 品詞の曖昧さ
              • 修飾語句のい掛かり先の曖昧さ
              • 単語やフレーズの意味の曖昧さ
              • 文脈解釈の曖昧さ
          • 複数のエージェントの協調
              • 自動要約
              • 曖昧な指示の具体化
      • 学習データ
          • 構造化された学習データ
              • XML
              • RDF、トリプル
                  • SPARQLでアクセス
          • 構造化されていない学習データ
  • 人工知能を活用した事例
      • IBMワトソン
          • 専用AIの集合体
              • 各専門分野の知識を、その専門にある程度あわせた構造で持つ、また、専門ごとに追加的に知識を獲得する方法(アルゴリズム)も微妙に違う
              • 処理方式の主要な部分はAIではない
      • アプリケーションシステム
          • 機械翻訳
          • 自動運転
          • ルンバ
              • 部屋の形状や家具の配置の地図を作成し、無駄の少ないい移動方法を考え、かつ、同じ場所を通過せずに効率よく掃除する(小規模知識・データ)
          • 自由回答テキストの自動解析、集計
              • 人はチェックと高度な分析に専念
              • 定性分析
                  • 類似検索
                  • 長い全テキスト中の全単語に精妙な重みづけを自動で行って、記事中のほぼ全単語で検索、互いの類似性を判定するような仕組み
                  • 対話履歴から学習してパーソナライズする機能や自動要約機能も容易に付加
                  • 自動要約
              • 定性的な評価を定量化
          • 知識創出システム
              • 人とAIの協調による創造的な課題解決
                  • AIの助けを借りて新サービスの構想を練り開発する
              • 人とシステムの得意な作業が連携
      • ビジネス分野
          • 自動運転自動車
              • 自動車がセンサー機器、電気自動車(EV)、AI機能でモジュール化
              • ADAS(先進的運転支援システム)
          • フィンテック(Fintech)
              • 金融+技術
          • X-tech
              • AI技術をコアとして、その業界では新参者である企業が、今までにない価値や仕組みを提供する動向
              • X-techの各分野で培われたテクノロジーが、別の分野に適用され、新しい付加価値を生み、従来ボトルネックとなっていた課題を解決していく
              • X-techを支えるオープンデータ
                  • 機械可読形式、API、フリー
          • MarcheTech(マーケティング×Tech)
          • Media-Tech
  • 人工知能に活用に適した業務
      • 新サービス、新製品の要件
          • ニーズの存在
          • AIによるコストダウン、スピードアップ、精度・性能の向上
          • ニーズとその具体的実現手法を結びつける技術、サービス提供の仕組みを、利益の出るコストで実現するアイデアの存在
      • AIを直接、形にした新サービス、新規事業
      • 強いAIが実現する前であっても、次のようなことはAIを活用してビジネスモデルが変わる
      • ビジネスプロセスにおける業務とシステムの役割分担の見直し
          • AIの実用段階に達した今、いままで人が担ってきた部分の作業も、精密化すると一部がAIを活用できる、したほうが効率がいいことが現れる
          • IoTの活用
              • IoTを活用することにより、人をはるかに超えるポイントでの情報をM2Mにより収集し、学習用データとして利用できる
              • IoTの要素
                  • 例えば、RFID
                  • モノ、センサー、プロセッサ、通信機能、データ処理
      • 丸暗記型の業務
          • 大量お情報から関連しそうな情報を抽出し、信頼性が高い情報を提示する
      • 事実に基づいた調査レポート
          • 私見、創造がなく、引用文献に記述された内容にのみに基づく論文は、AIでも作成可能
      • ルーティンワーク、マニュアル化された仕事
          • 職員⇒非正規職員、外部委託⇒アルバイト⇒人工知能
      • QA集に基づいたレファレンスサービス
      • 知識データベースの構築
          • 正解データを用意して、自動で特徴の抽出、認識を行い知識データベース化
      • 一般論
          • 様々な分野融合する際の柱
              • 第1:「AI for Human Life」サービス業との融合
              • 第2:「AI for Science」基礎科学研究との融合
              • 第3:「AI for Manufacturing」製造業との融合
          • 既存サービスの改善と効率化
              • 「監視、見守り、点検」あるいは、生データの分類・整理に相当するタスクがどこにあるかを見つけること
              • 監視
              • 見守り
              • 点検
              • 分類・整理
          • 新たなサービスの創造
      • 課題
  • 人工知能の活用方法

 

  • 人工知能で変わる社会、人工知能の脅威
      • 人工知能がより賢い人工知能を生み出し続ける「シンギュラリティ(技術的特異点)」が起こるかも知れない
          • 2045年問題)質的にも人間の理解や発想の能力を超えて、超・知性として発達し始める特異点
      • 今まででは考えられなかったような知的労働の世界までロボットが進出してくることになる
  • これから必要な人材
      • データサイエンティスト
  • 人間だからできる仕事は
      • 与えられた仕事をこなすだけではなく、相手が必要としているモノを理解し、要求以上のモノを提供することで人工知能との差別化が図れる
      • 創造的な仕事
          • 新しいものを生み出せる仕事をするか、人間らしい温かみのある仕事ができなければ仕事を失うことになる
          • 事実のみを知識とする創造性のない論文はAIで自動作成される
      • 人間の感性に訴える芸術、芸能関係の仕事
          • 人間の感性や感覚に訴えるモノが多く、人間の特性や文化を正しく理解していなければこの仕事はできない
      • 最終判断をする仕事
      • 人と人のコミュニケーション能力の必要なサービス業
      • 進化と発展を生み出す仕事
          • AIを活用するためシステム技術者
              • 課題解決に有用な学習データの選別とアルゴリズムの選択。AIによる試行錯誤の結果の評価。ある程度制度が上がるとAIの出力を確認する作業になっていく
          • 信頼性の高い教師データ(辞書類)の作成
              • 初めは人が作成し、ある程度精度が上がるとAIの出力を確認する作業になっていく
      • 教育に関わる仕事
          • 「なぜできないのか」を想像して教えることは人間でも難しい。まして人工知能だとさらに難しい
          • 「授業は人工知能」で「質問は教員」のようにタスクを分ける塾や学校が現れる可能性は大いにある
  • 図書館情報システムは
      • 文献情報検索から事実検索へ
          • レファレンスサービスにおいて、「どの本に書いてある」ではなく「信頼性の高い情報は、どの本のどこにどのように書いてあるので、質問の解答は何々である」

「未来の図書館を作るとは」を改めて読んでみて

FIX 人工知能 アーカイブ

「未来の図書館を作るとは」を改めて読んでみて、今の人工知能の技術でどこまで実用化できそうか考察してみたい。まずは現状認識まで。

 

 1994年に刊行された長尾元国立国会図書館長の著書「電子図書館 」(岩波文庫)(2010年新装版)では、「既存の図書や資料をデジタル化すればそれで電子図書館が実現するかといえばそうではない。あるべき姿はデジタル化された情報を縦横に使いこなし、まったく新しい知的空間を創造するための図書館である。」と述べられている。また、2012年、国立国会図書館(NDL)を退官されるときに執筆された「未来の図書館を作るには」では人工知能を活用した図書館サービスや図書館員の仕事の変革の具体的イメージが示唆されていた。

 

 さらに、2015年1月の同志社大学図書館司書課程講演会「見たことのない図書館を考える」で「夢の図書館を目指して-20年後の知識システム-」と題した講演の中でも、人間頭脳の知識構造に近づく電子図書館として、関連情報のリンクによる知識の構造化、様々な観点からの連想検索、情報探索から事実検索などを改めて示された。

 

NDLは、「電子図書館サービス構想」の実現形として、知識インフラとしての利活用を目指した「国立国会図書館デジタルコレクション」、「国立国会図書館サーチ」等のサービスの提供により、NDLを含めて様々な機関のデジタルコンテンツを一元的に「検索」し「利活用」できる道筋は付いた。

しかし、「未来の図書館を作るには」で言われている「デジタル化された情報を縦横に使いこなせる」して、「関連情報のリンクによる知識の構造化、様々な観点からの連想検索、情報探索から事実検索」ができる状態には遠く及ばない。

 

「未来の図書館を作るには」が発行された2012年初めは、まだ第3次AIブームの前であり、当時はまだまだ「未来」の話しとして、「夢の方向性」的な認識だった。

人工知能の技術は、第2次AIブームでの専門家が人手によりタグ付けして知識として作り上げてきたエキスパートシステムから、第3次AIブームとして、人間の頭脳の原理を模した汎用の仕組みに大量のデータを投入し、自動的に内容を認識し特徴を認知して知識として学んでいくディープラーニング等の手法により、AIが実用化レベルとしてブレークスルーし、様々な分野で一気に利用が進んできた。

ディープラーニングが普及した背景は、基礎となる学問分野・情報科学の進展はもとより、ビッグデータとして大量のデータが発生・オープンデータとして流通し、手軽に利用可能になり、コンピュータの性能が飛躍的に向上したことによる。

 

 図書館が中核となって進めてきた、「電子図書館」、「文化資源のナショナルアーカイブ」では、信頼性の高い膨大な文化情報資源がアーカイブとして蓄積され、検索のために全文テキストや画像等の情報が利活用できつつある。

実用化段階に来ている人工知能による認識・認知の仕組みと、その仕組みにより学習された知識が、今まで電子図書館の発展系として目指してきた「文化資源のナショナルアーカイブ」の「知識創造基盤」の中で想定された、事実情報である「本文テキスト」が「知識データベース」に、「書誌情報」や分類用辞書である「辞書・シソーラス・典拠情報」が「教師データ」として、人工知能に投入され学習することにより、「実用レベルの知識インフラ」としての実装が想定できる。また、人工知能が組み込まれたロボット、IoT機器が付与された資料や職員の移動情報がビッグデータとしてリアルタイムに収集されて、様々な測定データと合わせてサービスや業務の効率化や改善に活用されていけるようになる。

 

「未来の図書館を作るには」で記述されている仕組みを、今後5年程度の図書館として、どのような人工知能の機能を実装していくか、そのような仕組みを作るために、従来からの情報システム関連の職員は、どんな知識・スキルが必要か、また人工知能を活用した業務・サービスを提供するために、職員は業務をどのように行っていくのかを、個別に整理してみたい。ただ、ここで整理するのは、現状のいわゆる「弱い人工知能」の仕組みを活用して2020年には実現可能なレベルであり、2040年頃にいわゆる「強い人工知能」が人間を越える段階(シンギュラリティ)と言われるレベルを想定したものではない。

 

以下、「未来の図書館を作るとは」(長尾真著)の内容の抜粋及び要約であり、個別に実現方法を検討してみたい。

 

  • AI等の活用で現時点でも現実味が帯びてきたこと
    • 図書・資料は部品に解体され、それぞれが種々の観点からリンク付けされた巨大なネットワーク構造が作られるようにする      
    • 自然言語処理
        • 自然言語による質問要求を受け付けて、取り出したものがその要求に対応するものであるかどうかを自然言語処理技術によって調べ、できるだけ質問要求に近いものだけを選択するといった技術を確立することが必要
    • 書誌検索のような単純、単一の検索でなく、種々の検索のモードを提供することである
    • 種々のあいまいさを許すあいまい検索の工夫
    • 電子図書館になって取り出す単位が書籍の単位ではなく、書籍の中の章や節、パラグラフ、あるいはこんな内容が書かれている部分のみ、といった時に従来のシステムは全く役に立たない。
    • 自動的な形で適切な知識の所在にまでナビゲートしてゆくシステムが開発されつつある
    • 個人によって違った知識の構造の部分については、その人の力によって種々の検索方式を試み、自分の必要とする情報をとり出して中立的な知識の構造に付加してゆくことが出来ねばならないし、またそれによって自分に合った知識の構造を作りあげてゆくことができるだろう。
    • その本のどこに書かれているかを探すというのではなく、自分の欲しい情報そのものが出てくることになる。

 

  • 人工知能電子図書館
    • 自動的な形で適切な知識の所在にまでナビゲートしてゆくシステムが開発されつつある
    • 人間の持っている知識は頭脳の中にあり、種々の知識が何らかの関係性によってつながれていて、連想的に関係する知識が取りだされている
    • 図書館においてもぼう大な書物の中に存在する知識が関連性をもって書物という単位を超えてつなげられ、それが取り出されることが大切であろう。
    • 本のある部分に存在する単語や概念を集め、それらに近い単語や概念が存在する部分を他の本について網羅的に調べる
    • 関連する知識を人間頭脳の中のネットワークのようにつないで、利用者の要求に応じて提示できるような形の電子図書館の内容の組織化が望まれているのである。
    • 情報検索というよりは事実検索に近づいてゆく。
    • その本のどこに書かれているかを探すというのではなく、自分の欲しい情報そのものが出てくることになる。
    • ある社会において一定の教育を受けた人達の場合にはほぼ共通した知識の体系、構造というものがある
    • 電子図書館における図書・資料は部品に解体され、それぞれが種々の観点からリンク付けされた巨大なネットワーク構造が作られるようにする。これは1つの社会で共有する中立的な知識構造、知識システムである。
    • 個人によって違った知識の構造の部分については、その人の力によって種々の検索方式を試み、自分の必要とする情報をとり出して中立的な知識の構造に付加してゆくことが出来ねばならないし、またそれによって自分に合った知識の構造を作りあげてゆくことができるだろう。
    • 個人の電子図書館が出来るし、その人の頭脳の知識の構造が反映されたものが作られてゆく
    • 現実世界の本や情報の大切さ以上にヴァーチュアルな世界における情報処理と表現力の可能性にもっと大きな関心を持つべき時代に来ていると言えるのではないだろうか。
    • 「分かる」ことへの道程
        • 理想の電子図書館では、知識や情報が与えられるごとに、それが単なる増加知識として記憶されるのでなく、他の既存の知識との間での因果関係がチェックされ、新しい因果関係のリンクが付けられてゆくという形で発展してゆくべきである。
        • 個人の頭脳内容を反映した個人電子図書館が発展してゆくことになれば、いろいろと楽しく、心を豊かにしてくれるだろうし、新しい未知のことに対する挑戦という勇気もわいてくることは間違いないだろう。
        • 未来の自分の頭脳をヴァーチュアル世界に作ることであるともいえる。魅力的で挑戦的なことではないだろうか。

 

 

過去の成果物【2003~2015年】

■成果物【20032015年】

  • 2007
  • 2008
  • 2009
  • 2010
  • 2011
  • 2012

 

発表論文及び口頭発表

■発表論文

●2004年9月 「国立国会図書館電子図書館中期計画2004の実施に向けて」、中山正樹、『情報の科学と技術』54巻・9号、pp.453~460

●2005年9月 「国立国会図書館における国のデジタルアーカイブポータルの取り組み」、中山正樹、『行政とADP』41巻9号、pp.34~38

●2006年6月 「Web2.0世代のデジタルアーカイブポータルの提供を目指して」、久古聡美・吉田曉・中山正樹、『情報管理』49巻6号、pp.313~323

●2011年3月 「電子図書館構想と日本の学術デジタルコミュニケーションの現状」、中山正樹、『日本語・日本学研究 / 東京外国語大学国際日本研究センター [編]』1号、pp.154~158

●2011年11月 「知の共有を目指して(国立国会図書館におけるデジタルアーカイブ構築)」、中山正樹、『情報管理』、54巻・11号、 pp.715~724

●2012年12月 「電子書籍等のデジタルコンテンツの長期保存と、将来にわたっての利用保証―文化的資産の保存に向けた関係機関との連携協力―」、中山正樹、『情報処理学会誌』、53巻12号、pp.1277〜1281

●2015年3月 「国立国会図書館のサービスシステムの歩みと新たな方向性の模索-電子図書館事業20年の歩みー」、中山正樹、『国立国会図書館月報』、648号、pp.18〜24

●2015年8月 「電子図書館サービスからナショナルアーカイブの構築へーLOD化によるデジタル文化財の利活用を目指してー」、中山正樹、『TP&Dフォーラム2015報告書』、?号、pp.13〜35

■口頭発表

●2005年10月「デジタルアーカイブポータルの構築について」、(静岡県図書館大会(於静岡市))

●2006年10月「国立国会図書館電子図書館事業 -デジタルコンテンツの 収集・蓄積・提供-」、(全国図書館大会岡山大会(於岡山市)) ●2008年2月「デジタル情報も含めた統合検索サービスの提供を目指して」、(総合目録ネットワーク参加館フォーラム(於国立国会図書館関西館))

●2008年11月「今後実施すべきことと連携協力」、(図書館総合展(於パシフィコ横浜))

●2009年1月「PORTAのこれから: 国立国会図書館におけるデジタルアーカイブ」、(三田図書館・情報学会 月例研究会(於慶應義塾大学三田キャンパス))

  • ☆準備中

●2009年10月「国立国会図書館における 情報探索サービスの新たな展開」、(第95回全国図書館大会(於東京))

●2010年12月「電子図書館構想と日本の学術デジタルコミュニケーションの現状」、(比較日本文化部門・国際連携推進部門共催国際シンポジウム(於東京外国語大学国際日本研究センター))

●2011年5月「国立国会図書館における 業務・システムの構築と運用  ―知の共有を目指して―」、(技術と社会・倫理研究会(SITE)電子化知的財産・社会基盤研究会(IPSJ-EIP)(於東京理科大学))

●2012年3月「国立国会図書館サーチのコンセプト・開発経緯と今後の展開」、中山正樹(三田図書館・情報学会 月例研究会(於慶應義塾大学三田キャンパス))

  • ☆準備中

●2012年5月「東日本大震災とMALUI連携」、(図書館政策フォーラム2012(於東北大学))

  • ☆準備中

●2012年10月「国立国会図書館における資料デジタル化等の現状と今後の方向性ー著作権法の改正を踏まえてー」、(流通科学大学第6回流通シンポジウム「情報の流通革命が起こる」)

●2012年11月「国立国会図書館と出版界の連携」、(日仏シンポジウム「デジタル時代の本のゆくえ」(於日仏会館))

●2015年1月「電子図書館事業20年を迎えた新たな方向性の模索」、(見たことのない図書館」を考える(於同志社大学今出川キャンパス))

  • ☆準備中

●2015年8月「LOD化によるデジタル文化財の利活用を目指して」(TP&Dフォーラム2015(第25回整理技術・情報管理等研究集会))

●2015年11月「ナショナルアーカイブ構想での国立国会図書館と出版界の役割」、(JEPAセミナー(於研究社英語センター))

●2015年12月「知の共有化と利活用」を目指したナショナルアーカイブの構築に向けて」、(デジタルアーカイブサロン(於科学技術館))