第1週:授業の概要#

1.1 2023年度授業の進め方について#

大学院共通科目「データサイエンス」は全15回のうち、最初の10回を講義、最後の5回を演習として開講します。 学期末テスト期間中に、前半10回の講義についての筆記試験を課します。

なお、この授業では本年度は4月14日から6月23日までの10回の講義については、キャンパスの教室での授業は行いません。この間の講義は担当教員のリアルタイム配信に参加するか、あるいはオンデマンド講義を視聴します。あわせて manaba で指定されたコンテンツ(このページ)にアクセスし、コンテンツごとに指定された課題(あるいは小テスト)を期限内に回答することで出席したものとみなします。

1.2 講義について#

授業時間帯(金曜日9・10時限)に、クラスごとに指定された動画配信あるいは、WEB上のコンテンツを指定します。受講生は、クラスごとに指示されたコンテンツにアクセスし、小テストを受験してください。なお、動画配信は MicroSoft Teams を利用します。会議 MicroSoft Teams の利用方法はここを参照してください

MicroSoft Teams

1.3 クラス分けについて#

受講生を専攻ごとに3つのクラスに分け、それぞれのクラスごとに教員が配置されます。

それぞれのクラスごとに、クラス担当教員から指示されたコンテンツにアクセスしてください。なお、必ず大学のCアカウントを利用してログインしてください。本人確認ができない場合、出席と認められないこともあります。

クラス分けについては、またクラスごとに指定される Teams URL については、20日までに Manabaのコースページで通知します。

1.4 データサイエンスとはなにか#

ChatGPTとどう違うのか#

いま話題の ChatGPT は生成系AI と呼ばれる人工知能です。最近のAIは、大量のデータを処理して、それらの情報を知識として獲得し、例えば犬と猫を判別したり、手書きの数字を0から9の10個に分類したり、さらには絵を描いたり、文章を書くことができます。さらには、普通の人間には難しいプログラミングも、ChatGPTはこなしてくれます。

一方、データサイエンスも同じくデータを処理して知識を導き出します。生成系AIが出現するまでは、AIの主要な課題は分類と回帰でした。分類は、例えば写真に写った被写体を、人、犬、車、建物、などと判別することをさします。一方、回帰は、明日の気温や、来年の株価指数など、ある数値を予測することを意味します。

この点ではデータサイエンスとAIに大きな違いはありません。特に分類のための考え方や、技術については、ほとんど共通です。

ただ、絵の生成や文章の生成はデータサイエンスの課題ではありません。

一方、データサイエンスの課題として、原因と結果の関係(因果)の解明があります。例えば、肺がんとタバコの関係について、臨床データや実験データから考察することは、データサイエンスにとって重要な課題です。現在、因果関係を考察することを AI は苦手にしています。もちろん、すでに知識として因果関係が明らかな出来事については、それがネット上に情報として提供している限り、AIは原因と結果を並べることはできます。しかし、新しく遭遇した事象について、その原因を見つけ出すことは、いまのAIには難しいようです。そもそもデータから学んでいないことをAIは出力できません。しかし、人は過去に経験したこと無い出来事に遭遇しても、これまでの知識や経験から、その原因をある程度推測することができます(ただし、経験に従うことは、偏見や勘違いで判断することにつながる可能性もあります

AI技術であるベイジアンネットワークは、因果関係の推論にもっとも近い技術ですが、原因と結果を直感的に識別する人間の能力にはほど遠い状況です。ただし、最近のAI技術の進捗は早く、因果関係の認識においても、人間と同じ能力を獲得する日は近いのかもしれません。このあたりに興味を持つ方は、以下の書籍を読んでみてください。

因果推論の科学 「なぜ?」の問いにどう答えるか The Book of Why: The New Science of Cause and Effect

授業の目的#

この授業では、いまはやりの生成系AIとはやや異なるデータ分析の応用について学びます。それは、大学での専門研究、あるいは社会人になったときに、判断にエビデンスをもたせる方法です。ここでエビデンスとは、データであり、またデータを適切に処理することを指します。

エビデンス (evidence) とは根拠のことです。

Evidence-Based という表現があります。例えば EBM(Evidence-Based Medicine:エビデンスに基づく医療) や EBPM (Evidence-Based Policy Making:エビデンスに基づく政策決定) という略語がしばしば使われます。 EBPM はアメリカのオバマ大統領政権下で2016年に超党派の議員の賛成で可決された「エビデンスに基づく政策立案評議会法 (Commission on Evidence-based Policymaking Act of 2016)」で有名になりました。

外部サイト:アメリカ議会のサイト

過去の政治は、予算の使いみちのアイデアを提案することが重要であり、その予算が効果的に使われたかどうかはほとんど検証されていませんでした。これに対してEBPMでは、政策の効果を検証することがより重要だと考えます(背景にはアメリカ政府の財政難もあります)。2019年のノーベル経済学賞を受賞した業績も Evidence-Based と無縁ではありません。アビジット・バナジー氏、エステール・デュフロ氏、マイケル・クレマー氏の3人は「ランダム化比較試験(RTC)」という研究方法を応用し、開発途上国での教育支援に有効な施策を実験と検証で明らかにしています。

外部サイト:独立行政法人 国際協力機構

こうした法案や実験検証でエビデンスという場合、それはデータを指しています。ある施策による効果の大きさを実際に観察した数値にもとづいて検証するわけです。 「ボランティアのおかげで社会が良くなった」とか「教科書の無料配布のおかげで進学できた」とかいう声は非常に重要ですが、それだけでは全体として効果があったかどうかは判断できません。施策を評価する人がいるというだけであり、そのような声は施策の提案者や業者から出てきている可能性もあるからです。 Evidence-Based という場合、それは Data-Driven と、いいかえることもできます。データにもとづいて判断する、意思決定するという意味です。

なお、データサイエンスにおける「データ」の意味については、第2週で説明しますが、データは集合(セット)としても考えられます。例えば、国家というセットには、日本とか中国とかアメリカという要素があり、日本というサブセットには東京とか大阪という要素があります。さらに小さくみると、東京都を構成するのは会社などの組織、あるいは人です。つまり 国 > 日本 > 東京 > 会社 > 人 などと分類できる。データの分類の細かさを 粒度 granularity などという言葉を使うこともあります。

1.5 人工知能#

さて、冒頭でも話題にしたChatGPTですが、ここでは深層学習(ディープラーニング)という技術が使われています。

外部サイト:AI・機械学習・ディープラーニングがしたい! そもそも何ができるの?

人工知能の研究はこれまでに何度かのピークがあり、2006年頃からを第三次人工知能ブームと呼びます。

外部サイト:ウィキペディア「人工知能」

これ以前の第二次人工知能ブーム(1980年台)では人間が知識をルールとして整備することを目指していました、この方法では人間の思考や判断を網羅することはとてもできませんでした。典型的な例は人間の言語(自然言語と)です。日本語の文法と単語をいくらインプットしても自動翻訳は実現できなかったのです。これにはさまざまな理由がありますが、1つには人間の言語があまりに曖昧だったためです。例えば「かれがくるまでまつ」といわれた場合、これは「彼が来るまで待つ」ということでしょうか、あるいは「彼が車で待つ」と解釈できるでしょうか。どちらが正しいかを人間は文脈から判断しますが、文脈は、話の時間的前後関係だけでなく、話し手と聞き手の過去のいきさつなど、多様な状況があるため、これらをすべて機械にインプットすることはできません。

外部サイト:ウィキペディア「機械翻訳」

実は、これを解決するシンプルな方法があります。それは、過去に記録された言葉のデータベースから「かれがくるまでまつ」を探し出し、「彼が来るまで待つ」と「彼が車で待つ」のどちらの用法が多かったか、を調べることです。仮に前者の用例が7割で、後者が3割であったと分かれば、いま新たに「かれがくるまでまつ」という文があった場合、それは「彼が来るまで待つ」を表している確率が高いと判断するわけです。これがデータで判断するということの例です(ただし、現代の自動翻訳はこれほど単純な方法で実現されているわけではありません)。そして、過去のデータベースの量が多ければ多いほど、正しく判断できる確率も高くなるわけです。

驚くかもしれませんが、ChatGPTは日本語で自然な会話文を出力しますが、ChatGPTそのものは、日本語の文法も辞書も理解していません。それどころか、ChatGPTと我々人間では「単語」の意味が違うのです。

例えば、「ChatGPT is one of the generative AI.」という英文は、7つの単語から成立しているように思えますが、ChatGPTの内部では11個のトークン(我々にとっての単語に近く、また遠い概念)からなっています。以下のサイトで試してみてください。

https://platform.openai.com/tokenizer

1.6 ビッグデータ#

生成系のAIは大量のデータにもとづいて学習した結果から、言葉ないし画像の生成が行われています。

コンピュータの処理能力が上がり、また記憶容量も非常に大きくなっている現代では、言葉のデータベース(コーパスともいう)だけでなく、さまざまなデータが大量に保存されています。例えばコンビニエンスストアでは、古くから、いつどこで何が買われたかを購入者の属性(年齢や性別)と関連付けて保存してきました(POSシステム)。

POSシステムとは、お客が何月何日何時何分、どこの店で何を購入したか、そのお客の属性(性別や年齢)を記録するシステムのことです。コンビニエンスストアやスーパーでは、こうした情報を分析し、よく売れる商品の確認やサービス、商品の開発を積極的に進めています。有名な例として、アメリカの大手スーパーがPOSデータを分析したところ、休日前になると「ビール」とおむつがよく一緒に買われていることを発見したという事例があります。(小テスト:ビールとセットで売れた商品はなんであろうか。あとで小テストに回答のこと。) また、コンビニのカード、あるいはスマホアプリを使って購入する客の履歴データから、ある商品は同じ客に何度も繰り返し購入されていることもわかるわけです。コンビニ業界にとって、リピート客は重要なターゲットになります。

さらには、ほとんどの車にはカーナビが搭載され、どの時間帯にどれくらいの車が通行していたかを知ることのできるデータが記録され続けています。

こうした膨大なデータを ビッグデータ というわけです。

外部サイト:総務省

ビッグデータの活用が、いまのAI技術の背景にあります。

1.7 画像認識#

画像認識はすでに技術として確立しており、あらゆる場面で使われています。FacebookやGoogleフォトなどを使っていると、アップロードした画像が自動的に分類されますし、また、コンビニなどでの顔認証による支払いも導入が進んでいます。ネット通販Amazonでは、入店した客が商品を選び、会計をすませて店を出るまでの処理を完全に無人化した店舗を展開しています。外部サイト:Amazon

AmazonGoは、商品にタグがついているわけではなく、店舗に設置された多数のカメラが、客の顔を認識し、客が手に取って購入を決めた(と判断される)商品をリストアップし、出店とともに、登録済みのキャッシュカードから引き落とす仕組みです。

(なお、キャッシュレス決済については、クレジットカードを持たない人に対する差別であるという意見があり、現在AmazonGoの店舗には従業員が配置され、キャッシュでの決済も行っている。)

1.8 AIとデータサイエンス#

そもそも AI は、人間の知能を機械で再現しようとして発達した技術です。例えば、画像認識の技術では、人間が目から入ってきた情報を処理する機能を再現したといえます。この他、人間の言語能力に代わる機械翻訳や、耳から入る情報の処理を機械的に実現しようとする音声認識なども、もともとは人間の認知の仕組みを機械で実現しようとすることから出発しています。

AI とデータサイエンスは、もともとは別々に発展してきた分野なのですが、最近では同じ意味で使われることも多くなりました。それは、応用面で AI とデータサイエンスは目的や方法が共通するからです。AI 研究の初期の頃は、人間の知能がどのようなモデルで、どのようにプログラミングすれば再現できるかに注目して研究が進められてきました。

いまのAIは、殆どがディープラーニングという技術を使っています。一方、データサイエンスでは機械学習と呼ばれる手法がよく使われています。 ディープラーニングも、機械学習の一種といえます。

機械学習は、確率・統計の概念を用いて、データを分類する、あるいはデータから将来を予測するための強力なツールです。ただし、データサイエンスでは、小規模なデータ(数十、あるいは数百個)を分析する手法として発展てきた統計的手法が使われることも多い。特に実験系の分野では得られるデータが少ないため、ディープラーニングや機械学習の手法を適用できないことが、まだまだあります。

この授業では、データサイエンスとして、狭い意味での統計学から人工知能分野までの広い範囲の理論や方法、そして応用について紹介します。

1.9 小テストについて#

このコンテンツを読んだあと、大学の授業用サイトである manabaの「データサイエンス」ページ に戻り、「第1週小テスト(全員かならず回答すること)」 を回答すること。回答したことで、第一週の講義に出席したものとする。

なお、この授業では Python というプログラミング言語を使って、データ分析の実習も行う予定である。そのため、受講生はそれぞれ、自分のパソコンに Python をインストールしておくことが求められる。

このサイトのコンテンツの第3週「データ分析ツールの導入」に Python の導入についての説明があるので、5月1日までに、各自、Python のインストールを済ませておくように。

わからないことがあれば、大学の授業用サイトである manaba の掲示板にスレッドを立てて質問をすること。