2023年の年明け以降、ChatGPTの話題をメディアで見かける機会が圧倒的に増えました。実際、Google Trendsで検索の傾向を見ても、Stable Diffusionをはじめとする画像生成系AIへの関心が落ち着いてきているのと対照的に、ChatGPTへの関心はふくれあがっていることがわかります。
ChatGPTとは?
そもそも、ChatGPTとは何なのでしょうか。せっかくの機会なので、自己紹介をしてもらいましょう。
(鈴木)自己紹介してもらえますか
(ChatGPT)はい、喜んでお紹介します。私はOpenAIによってトレーニングされた大型言語モデル、ChatGPTです。質問やトピックに対して答えることができますので、どうぞお気軽にお尋ねください。
(鈴木)ChatGPTとは何ですか
(ChatGPT)ChatGPTは、OpenAIによって開発された自然言語生成モデルです。GPTは「Generative Pretrained Transformer」の略で、大量のテキストデータを学習し、人間のように文章を生成することができるようになっています。ChatGPTは特に、対話システムやFAQシステムなどのタスクに特化したモデルです。
といった形でユーザーの問いに対して答えを返してくれています。しかも、単発のやりとりではなく、自然な会話のキャッチボールが何往復もできるようになっています。個人的には1968年につくられたSF映画の古典的名作、『2001年宇宙の旅』に登場する対話型のコンピュータ、HALがついに現実に近づいた、そういった印象を強く受けました。
ChatGPTが一般に公開された昨年11月以降、Twitterは、ChatGPTに愛について語らせたり、サンタさんから自分の子供への手紙を書かせたりと、こんなことあんなことを『聞いてみた、頼んでみた』的な話題でいっぱいになりました。
また、言語というと、どうしても自然言語をイメージしがちですが、学習データには人工言語であるプログラムコードも含まれていることから、プログラムも書いてくれます。
例えば…
自信満々(?)なChatGPTの答えには時として虚実が混ざっており、私自身、自分では思いつかなかった論点にハッとさせられることもあれば、つるかめ算は計算間違えてるじゃん、といった形でがっかりさせられることもあります。ただ、この盛り上がりからも分かるように、対話というコミュニケーションのスタイルがいかに人間にとって使いやすいかということ、また、その潜在的な可能性の大きさを物語っているのではないでしょうか。
実際、私も文章を書く時の論点出しにすでに使っています。また、先日のテレビ番組では、台湾のデジタル担当大臣であるオードリー・タン氏が、同じ内容になりがちな自らの講演にバリエーションを持たせるためにChatGPTとラップバトルのように対話して新しい語り口を見つけている、と語っていました。現状、賛否はわかれそうですが、計算に電卓が普通に使われるようになったのと同様に、文章を書いたり思考したりといった場面のツールとしてChatGPTのような生成系AIの利用があたりまえになるような気がします。
そもそも言語モデルとは?
ChatGPTはOpenAIが開発した言語モデルであるGPT-3を人間との、より自然な対話に使えるよう、囲碁AI開発に使われた強化学習(機械学習のひとつ)などの手法を使ってファインチューニングされたものです。ChatGPTのベースとなっているGPT-3をはじめとする言語モデルは、インターネットなどから集めた大規模な言語データの単語の前後関係のパターンを学習した、複雑な(?)数式、関数です。数式の係数は実際の言語データから学習します。
例えば以下の例のように、文の次に来る単語の出現確率を予測することができます。
確率というと難しく感じるかもしれませんが、このように「人が書いたり話したりする自然でなめらかな文にどれだけなっているか、を評価できる数式」ととらえてもいいかもしれません。
- 今日はとても寒いですね →自然な文章なので高確率
- 寒いはとても今日なのです →めったに見ない文章なので低確率
予測できる、ということはこのモデルを使って次の単語の予測を繰り返すことで、前後の文脈に沿った、もっともらしく自然な文章が生成できることになります。Google検索を使う際、検索ワードを入力すると、途中まででも先の入力候補を予測して表示するというオートコンプリート機能がありますが、まさに文章作成のオートコンプリート機能がChatGPTになります。
ここで注意が必要なのは、言語モデルは人間が考えるような、文法だとか論理といったことにはまったく無頓着に言語のパターンを大量のデータから学んでいる超優秀なオウムのような存在だということ。
ただ、過去の科学技術論文をはじめとして、学習対象の言語データに過去の人間の知恵が詰まっているとすれば、その言語データのパターンを学習した言語モデルはある種の集合知、と考えてもいいのかもしれません。
まだまだ間違えることも多いChatGPTですが、人間が演繹的(だと信じて)に解いている算数の問題を、帰納的に学習した言語モデルが解ける(もちろん言語モデルに解いているという意識はないのですが)ということには、人間の脳がそもそもどのように学習して思考しているのかをあらためて考えさせられます。
言語モデルのスケールメリット(べき乗則, power law)とは?
経営の分野では、“経験曲線”という法則性が知られています。これは累積の生産量が増えると単位当たりの生産コストが低下していく現象です。例えば、太陽電池をはじめとする自然エネルギーでは累積の設備容量が2倍になるごとにコストが約20%低下することが知られています。式にすると
コスト=a×(設備容量)k 、aとkは定数
といった形の関数になるので、より一般的には「べき乗則」が働いている、とも言われます。
2020年、ChatGPTの開発元であるOpenAIが発表した論文は、実は、言語モデルの精度も
- モデルサイズ(パラメータの数、数式の係数の数だと思えばいい)
- 学習に使う言語データ量
- 計算量
の3つの要素に対して同じようなべき乗則が働いていることをデータで明らかにしました。つまり、モデルや言語データは大きければ大きいほど、言語モデルの予測精度は高くなる、より賢い(?)言語モデルがつくれるということです。
では、こうした特徴を持つChatGPTをはじめとした生成系AIの拡がりは、ビジネス、そして社会全体にどういったインパクトをもたらすのでしょうか。
(次回に続く)