大規模言語モデル (LLM) とは: 大量のテキストで学習した言語生成モデル

読み: だいきぼげんごモデル

大規模言語モデル (LLM) は、膨大なテキストデータで学習し、文脈に沿って次の単語を予測することで自然な文章を生成・理解するモデルです。Transformer アーキテクチャを基盤とし、文章生成・要約・翻訳・コード生成など幅広いタスクに使われます。エージェントやツール連携の中核技術でもあります。

大規模言語モデル (LLM) は、インターネット上の文章や書籍など膨大なテキストデータで学習した言語モデルです。基本的な動作は「与えられた文脈に続く単語を確率的に予測する」ことの繰り返しで、これを高速に積み重ねることで、自然な文章の生成や理解、要約、翻訳、コード生成といった幅広いタスクをこなします。

技術的な基盤は Transformer と呼ばれるアーキテクチャです。文中のどの単語に注目すべきかを学習する「アテンション」という仕組みにより、長い文脈の関係を捉えられるのが特徴です。モデルの規模 (パラメータ数) と学習データ量の拡大に伴い、性能が大きく向上してきました。

用途と注意点

LLM は、チャットによる質問応答だけでなく、外部ツールを呼び出して実際の処理を行う「エージェント」の頭脳としても使われます。一方で、もっともらしいが誤った内容を生成する「ハルシネーション (幻覚)」が起きる点には注意が必要です。重要な用途では、出力をそのまま信じず、外部の情報源で裏取りする・テストで検証するといった仕組みを併用するのが実務上の鉄則です。

なお、重みが公開されている「オープンウェイトモデル」と、API 経由でのみ利用する商用モデルがあり、コスト・精度・ローカル実行のしやすさで使い分けるのが一般的です。

大規模言語モデル (LLM) とは: 大量のテキストで学習した言語生成モデル

用途と注意点

関連する用語

出典