Launching Soon: On-Demand, Self-Paced Courses. Learn more!

Meta が近年最大のオープンソース AI モデルである Llama 3.1 405B を発表

August 01, 2024に更新 1議事録を読みます

Meta が近年最大のオープンソース AI モデルである Llama 3.1 405B を発表

Llama 3.1 405B は、4,050 億のパラメータを持つオープンソース AI モデルで、Meta はこれまでにリリースされています。これは全体としては最大のモデルではありませんが、最近利用可能になったオープンソース モデルとしては最大です。新しい手法を利用して、16,000 個の Nvidia H100 GPU でトレーニングされた Llama 3.1 405B は、Anthropic の Claude 3.5 Sonnet や OpenAI の GPT-4o などのトップクラスの独自モデルに匹敵します。モデルは、Google Cloud、AWS、Azure などのクラウド コンピューティング プラットフォームにダウンロードして使用できます。米国では WhatsApp と Meta.ai を使用したチャットボットにも統合されています。

Llama 3.1 405B はテキストベースのアクティビティに限定されていますが、コーディングや多言語文書の要約 (英語、ドイツ語、フランス語、イタリア語、ポルトガル語、ヒンディー語、スペイン語、タイ語) などの幅広いタスクを実行できます。これらは現在一般公開されていませんが、Meta は写真、ビデオ、音声を処理するためのマルチモーダル Llama モデルに積極的に取り組んでいます。モデルは合成データで強化されており、これは通常のことですが、潜在的なバイアスに関する疑問が生じ、その後 15 兆トークンの洗練されたサンプルでトレーニングされました。

このモデルは、128,000 トークンのコンテキスト ウィンドウのおかげで、長い入力を効果的に処理し、会話のコンテキストを維持できます。 Llama 3.1 8B および Llama 3.1 70B は、この拡張されたコンテキスト機能に加えて、サードパーティのツールや API を利用して適応性を高めることもできる小型モデルです。これらのモデルは、コードチェックのためにPythonインタプリタ、Brave Search、数学的な質問のためにWolfram Alphaと通信できます。

Meta は、Llama が生成 AI の柱となるよう、Llama を中心とした開発者エコシステムを構築したいと考えています。大規模な開発者向けの展開にはいくつかの制限がありますが、新しいライセンスでは、開発者がサードパーティの生成モデルを開発するためにモデル出力を使用することが許可されます。微調整、合成データの作成、高度なアプリケーションの開発を容易にするために、Meta は新しい安全ツールと Llama Stack API もリリースしています。 )

CEOのマーク・ザッカーバーグは、メタのAI技術を業界標準として確立しながら、AIへのアクセスを民主化することに重点を置いている。法的問題やデータ慣行に関する懸念にもかかわらず、3 億を超える Llama モデルがダウンロードされ、20,000 のバリアント モデルが作成されました。

トレーニングによって電力網に負担がかかるため、これらのモデルをスケーリングするときにエネルギーの問題が発生します。 Meta は将来さらに大規模なモデルを構築する予定であるため、これらの問題を解決することが不可欠です。 Llama 3.1 405B のリリースにより、Meta は生成 AI の限界を押し広げ、競合他社に挑戦することを目的とした AI 戦略に向けて重要な一歩を踏み出しました。