OpenAI が新しい研究でニューラルネットワークの「ブラックボックス」を覗き見る

ベンジ・エドワーズ - 2023年5月11日午後9時25分（協定世界時）

OpenAIは火曜日、不完全ではあるものの、GPT-4言語モデルを使用して古いGPT-2モデルでニューロンの動作の説明を記述する技術を詳述した新しい研究論文を発表した。これは、ニューラルネットワークがなぜその出力を作成するのかを説明しようとする AI の分野である「解釈可能性」にとって一歩前進です。

大規模言語モデル (LLM) がテクノロジーの世界を征服している一方で、AI 研究者はその内部の機能や能力についてまだ多くを知りません。 OpenAIの論文の最初の文で、著者らは「言語モデルはより高性能になり、より広範囲に導入されるようになったが、それがどのように機能するのかは理解していない」と書いている。

部外者にとって、これはおそらく、LLM からの収益に依存しているだけでなく、LLM を人間を超えたレベルの推論能力に加速させることを望んでいる企業の驚くべき告白のように聞こえるでしょう。

しかし、ニューラルネットワークの個々のニューロンがどのように連携して出力を生成するかが正確に「わからない」というこの特性には、ブラックボックスというよく知られた名前があります。ネットワーク入力 (質問など) を入力すると、出力 (回答など) が得られますが、その間 (「ブラックボックス」内) で何が起こるかは謎です。

ブラックボックスの内部を覗く試みとして、OpenAI の研究者は、GPT-4 言語モデルを利用して、GPT-2 などのはるかに単純な言語モデルでニューロンの動作についての自然言語説明を生成および評価しました。理想的には、解釈可能な AI モデルがあれば、一部の人々が「AI 調整」と呼ぶ広範な目標に貢献し、AI システムが意図したとおりに動作し、人間の価値観を反映できるようになります。また、OpenAI は、解釈プロセスを自動化することで、数十億のパラメータを持つ大規模なニューラルネットワークには拡張できない、従来の人による手動検査の限界を克服しようとしています。

OpenAI の技術は、「テキスト内のどのようなパターンがニューロンの活性化を引き起こすかを説明しようとしている」。その方法論は次の 3 つのステップで構成されます。

OpenAI のメソッドがどのように機能するかを理解するには、ニューロン、回路、アテンションヘッドなどのいくつかの用語を知っておく必要があります。ニューラルネットワークにおいて、ニューロンは、受信した信号に基づいて意思決定を行う小さな脳細胞と同様に、情報を取り込み、処理し、出力を生成する小さな意思決定ユニットのようなものです。ニューラルネットワークの回路は、相互に接続されたニューロンのネットワークのようなもので、問題を解決するために協力して通信する人々のグループと同様に、情報を渡し、集合的に意思決定を行います。また、アテンションヘッドは、言語モデルが文の特定の単語や部分に細心の注意を払うのに役立つスポットライトのようなもので、テキストを処理する際に重要な情報をよりよく理解して取得できるようにします。

GPT-4 は、解釈する必要があるモデル内の特定のニューロンとアテンションヘッドを識別することにより、これらのコンポーネントの機能または役割について人間が判読できる説明を作成します。また、OpenAI が「自然言語を使用してニューロンの活性化を圧縮および再構築する言語モデルの能力の尺度」と呼ぶ説明スコアも生成します。研究者らは、スコアリングシステムの定量化可能な性質により、ニューラルネットワークの計算を人間が理解できるようにすることに向けて目に見える進歩が得られることを期待しています。

それで、それはどの程度うまく機能するのでしょうか？今のところ、それほど素晴らしいものではありません。テスト中、OpenAI は、同様の評価を手動で実行する人間の請負業者とその技術を比較したところ、GPT-4 と人間の請負業者の両方が「絶対的なスコアが低い」ことがわかりました。これは、ニューロンの解釈が難しいことを意味します。

この失敗について OpenAI が提示した説明の 1 つは、ニューロンが「多意味」である可能性があるというものです。これは、研究の文脈における典型的なニューロンが複数の意味を示したり、複数の概念に関連付けられたりする可能性があることを意味します。 OpenAI の研究者は、制限に関するセクションで、ポリセマンティックニューロンと「エイリアン機能」の両方を手法の制限として説明しています。

さらに、言語モデルは、人間が言葉を持たない異質な概念を表す可能性があります。これは、言語モデルがさまざまなことを考慮しているため、たとえば次のトークンの予測タスクに役立つ統計的構造を考慮しているため、またはモデルが人間がまだ発見していない自然な抽象化を発見したため、たとえば、異なる領域の類似した概念のファミリーを発見したために発生する可能性があります。

その他の制限としては、計算量が多く、短い自然言語による説明しか提供されないことが挙げられます。しかし、OpenAIの研究者らは、機械瞑想による解釈可能性と、将来的に技術を改善する際に解釈可能性の改善を測定する定量化可能な手段の両方のためのフレームワークを作成できたと依然として楽観視している。 AI モデルがより高度になるにつれて、OpenAI 研究者は、生成される説明の品質が向上し、これらの複雑なシステムの内部動作についてのより良い洞察が提供されることを期待しています。

OpenAI は、各ステップの内訳例を含むインタラクティブな Web サイトで研究論文を公開し、テキストの強調表示された部分とそれらが特定のニューロンにどのように対応するかを示しています。さらに、OpenAI は、「自動解釈可能性」コードとその GPT-2 XL ニューロンおよび説明データセットを GitHub で提供しました。

ChatGPT が物事をでっち上げた理由を正確に理解できれば、すべての努力は十分に価値があるでしょう。

OpenAI が新しい研究でニューラル ネットワークの「ブラック ボックス」を覗き見る

OpenAI が新しい研究でニューラルネットワークの「ブラックボックス」を覗き見る