プレスリリース
2024年5月10日
株式会社ビジー・ビー

生成 AI の業務適性を SPI 型テストで評価

日本語最強 LLM は「文系思考」の Claude 3 Opus

「生成 AI ツール for Excel」が主要 3 社 16 モデルに対応


株式会社ビジー・ビー(本社:東京都港区、代表取締役社長:牟田口陽介)は、当社が独自開発した Excel用のアドイン『生成 AI ツール for Excel』の 2024 年 5 月版をマイクロソフトのOfficeストア(1) で5月3日にリリースしました。

主要 3 社 16 モデルに対応、世界唯一の Excel アドイン

当社が昨年 11 月に発表した『生成 AI ツール for Excel』は、AI による多数決機能など先進的機能を盛り込んだ無償(2)アドインです。2024 年 5 月版では、グーグルの Gemini 1.5 Proが選択可能になり、生成 AI の主要 3 社 16 モデル(GPT-4 Turbo、Gemini Pro 1.5、Claude 3 Opus 等)に対応する世界で唯一(3)のExcelアドインになりました。


生成AIは巨額の投資が続く分野ですが、業務利用が可能な水準に達しているのか、日本企業のAI運用者には客観的な評価基準がありません。そこで当社では、表形式でデータを扱える当社製アドインの特性を活かし、各社の高性能モデルの業務適性を採用試験等で使われるSPI型テスト(4)で比較しました。その結果、特にClaude 3 Opusの性能が高く、現時点で一般に利用可能な高性能モデルであるGPT-4、Gemini 1.5 Pro、Claude 3 Opusの正答率は53%を超え、得点だけをみれば「就活生並みの能力」があることがわかりました。

(1) https://appsource.microsoft.com/ja-jp/product/office/wa200006231
(2) ご利用にはOpenAI及びグーグル、AnthropicのユーザーアカウントでAPIキー(秘密鍵)を取得する必要があります。APIの利用には別途費用が発生します。
(3) 2024年5月7日、マイクロソフトのOfficeストアで提供されているアドインの範囲で調査
(4) SPI(Synthetic Personality Inventory)は株式会社リクルートマネジメントソリューションズが開発した就活等の適性検査手法。今回の調査では図表の読み取り問題を含まない3分野295問を当社で用意し、各社のAPIに送信、回答を一部加工して集計しました。本調査とリクルートマネジメントソリューションズは関係ありません。

概要


英語は得意、日本語、計算・論理問題は苦手

今回の比較により、各社のLLMの個性が明らかになりました。まず正答数だけでいえば、米AnthropicのClaude 3 Opusが295問中173問正解でトップ、グーグルのGemini 1.5 Proの正解数は162、GPT-4は158でした。「世界最高性能」と評されることが多いOpenAIのGPT-4は、SPI的観点では「最高性能ではない」(「ステップバイステップで考えましょう」など、性能を向上させるプロンプトエンジニアリングを適用しない場合)ことがわかりました。むしろ国内では知名度が低めのClaude 3 Opusの正答率は59%で、「来春卒業見込みの就活生並み」と表現して構わない程度の実力があるとわかりました。

分野別の正答率をみると、GPT-4は英語分野では100%、Claude 3 Opusは98%、Gemini 1.5 Proは92%で、よく言われるとおり、各社のLLMは「英語のほうが得意」でした。一方、言語(日本語)分野の正答率では、Claude 3 Opusは62%、GPT-4は55%、Gemini 1.5 Proは52%で、Claude 3 Opusは日本語も得意でした。また、非言語(計算、論理)分野の正答率は、Claude 3 Opusが46%、Gemini 1.5 Proは45%、GPT-4は40%で、5割を超えるモデルはありませんでした。

調査で用いたプロンプトの例

今回の調査では、以下の形式のプロンプトをExcelからAPI経由で送信し、得られた回答の一部を加工して正誤を判定、集計しました。

以下の問題の解答を選択肢から答えてください。解説は不要です。

## 問題
次の和文の英訳として、英文中の( )に入る最適な語はAからEのどれか。

シートベルト着用サイン点灯中は、乗務員も乗客も、着席することになっています。
While the seatbelt sign is illuminated, both crew members and passengers are ( ) to remain seated.

## 選択肢
A. going B. obliged C. supposed D. required E. forced


詳細1


日本語や計算・論理問題が全般的に不得意なわけではない

LLMは、日本語、計算・論理問題がおしなべて不得意なわけではありません。下図のとおり、日本語の空欄補充問題は各モデルで正答率が高く、GPT-4とClaude 3 Opusが93%、Gemini 1.5 Proが86%でした。これに対して日本語の文書整序問題の正答率はClaude 3 OpusとGemini 1.5 Proが20%、GPT-4は13%でした。「次のトークンの出現確率を求める」というLLMの設計上の特徴が現れていると考えられます。

計算・論理問題についてみると、確率分野では従来モデルであるGPT-3.5 TurboとGemini 1.0 Proの正答率が40%だったのに対して、最新のGPT-4では15%、Gemini 1.5 Proでは35%に低下していました。一方で、速度算ではGPT-4とClaude 3 Opusの正答率は83%(Gemini 1.5 Proは50%)、分担計算ではGemini 1.5 Proの正答率は80%(GPT-4とClaude 3 Opusは30%)でした。モデル間で能力にばらつきがあることから、各社の訓練データや訓練方法の違いが現れていると考えられます。

詳細2


GPT-4 TurboとClaude 3 Opusは「ステップバイステップ」で性能が向上

LLMの応答品質の向上は、プロンプトエンジニアリングの重要なテーマです。特に、プロンプトに「Let's think step-by-step(ステップバイステップで考えよう)」を追加するテクニックは有名で、SPI型の試験を解かせる場合でも有効であることがわかりました。

上図のとおり、GPT-4 Turboの性能は推論させることで大幅に向上しました。改善率は185%(Claude 3 Opusは132%、Gemini 1.5 Proは121%)で、全分野合計の正答率は76%(295問中224問正解)でした。全分野の正答率が77%(同228)になるClaude 3 Opusとともに「有名企業に入社できる程度の能力」と言えそうです。分野別に検討すると、推論させることでGPT-4 Turboは非言語(計算・論理問題)分野に強くなり、Claude 3 Opusは言語(日本語)の正答率が高まる傾向があります。どちらも英語は満点に近いことから、GPT-4 Turboは「理系の留学生」、Claude 3 Opusは「文系の留学生」とも言えそうです。

詳細3


GPT-4はプロンプトを英語にすると性能が高まる

今回比較した3社のLLMはどれも米国製であり、英語分野の正答率が高いのは当然です。そこで非言語(計算・論理)分野の問題文と選択肢をGPT-4で英訳、プロンプトも英文にして回答させるとどうなるか調べたところ、GPT-4では正答率が上昇、Claude 3 Opusは微増、Gemini 1.5 Proは激減することがわかりました。

非言語(計算・論理)分野を英文にした場合、Claude 3 Opus の全体の正答率は60%、GPT-4は59%、Gemini 1.5 Proは47%となり、日本語では解けない問題でも、プロンプトを英語にすることで、Claude 3 OpusとGPT-4は同等に使えそうだとわかりました。

なお、非言語分野の単元別の得点の増減は以下のとおりです。

結論


2024年5月の時点で、日本企業での利用に最適なLLMはAnthropicのClaude 3 Opusであると考えられます。ClaudeはiOSアプリが登場し、サービス内容がChatGPTに追い付きつつあります。ただし、APIのリクエスト許容量、応答速度、論理的思考の自動化用途ではOpenAIのほうが優位(特にGemini 1.5 ProはAPIによる大量処理には不向き)であり、単純に回答品質だけでは比較できません。適切なプロンプトエンジニアリングと各モデルの得意分野を組み合わせた場合、SPI型テストの正答率は82%に達し「優良企業に就職できる程度に優秀」でした。ChatGPTの登場が衝撃的で他のAIへの関心が広がりにくい状況がありますが、現時点では、複数のAIを使い分けるほうが適切であると考えられます。


ビジー・ビーについて

当社はエル・ティー・エスの関連会社で、点検・検針業務のオフラインサービス「点検エース」シリーズの開発・販売、デジタルマーケティングを主な事業としております。

 会社名   株式会社ビジー・ビー
 所在地   〒107-0051 東京都港区元赤坂1-7-10グランドメゾン元赤坂 2F
 設立 1997年7月16日
 代表者   牟田口陽介


製品・サービスに関するお問い合わせ先
株式会社ビジー・ビー 広報担当
電話 03-3470-3171 メール info@busybee.co.jp


DXがビジネスの成長を加速させる

03-3470-3171

受付時間 平日10:00~18:00
社名
株式会社ビジー・ビー
代表取締役
牟田口 陽介
設立
1997年7月16日
所在地
〒107-0051
東京都港区元赤坂1-7-10 グランドメゾン元赤坂 2F
事業内容
  • フィールド業務向けDXアプリケーションの開発・販売
  • ダッシュボード開発支援
  • データ利活用支援、投資最適化アルゴリズム開発支援
  • 大規模言語モデルを活用したP.A.I.生成支援
  • コンテンツマーケティング導入・運用支援