OpenAI o1、SPI型テストで正答率95.6%、時給換算1,066円

株式会社ビジー・ビー(本社:東京都港区、代表取締役社長:牟田口陽介)は、当社が独自開発したExcel用アドイン『生成AIツール for Excel』の2024年12月版をマイクロソフトのOfficeストア[1]で12月18日にリリースしました。

主要3社20モデルに対応した世界唯一のExcelアドイン

『生成AIツール for Excel』は、Windows/MacOS/Web版のExcelで利用可能な無償[2]アドインです。2024年12月版では生成AIの主要3社20モデル(GPT-4o、Gemini Pro 1.5、Claude 3.5 Sonnet等)に対応する世界で唯一[3]のExcelアドインになりました。

対応モデル一覧

生成AIツール for Excelは、2024年12月現在、以下のモデル(別名モデルは省略)に対応しています。ご利用にはOpenAI及びグーグル、アンソロピックのユーザーアカウントでAPIキー(秘密鍵)を取得する必要があります。APIの利用には別途費用が発生します。このほかに、一部の視覚モデル、埋め込みモデルが利用可能です。

OpenAI

  • gpt-3.5-turbo
  • gpt-4
  • gpt-4-turbo
  • gpt-4o
  • gpt-4o-mini
  • o1-mini
  • o1-preview

Anthropic

  • claude-instant-1.2
  • claude-2.0
  • claude-2.1
  • claude-3-haiku
  • claude-3-sonnet
  • claude-3-opus
  • claude-3-5-haiku
  • claude-3-5-sonnet

Google

  • gemini-1.0-flash
  • gemini-1.0-pro
  • gemini-1.5-flash
  • gemini-1.5-pro
  • gemini-2.0-flash-exp

AIの性能評価指標にはGSM-Symbolic等がありますが、業務適性まではわかりません。そこで当社は、表形式でデータを扱える自社アドインの特性を活かし、各社のモデルの業務適性を採用試験等で使われるSPI型テスト[4]で比較しました。その結果、OpenAIのo1の正答率は95%を超え「最も優秀な就活生と同等以上の能力」があるとわかりました。


[1] https://appsource.microsoft.com/ja-jp/product/office/wa200006231

[2] ご利用にはOpenAI及びグーグル、アンソロピックのユーザーアカウントでAPIキー(秘密鍵)を取得する必要があります。APIの利用には別途費用が発生します。

[3] 2024年12月16日、マイクロソフトのOfficeストアで提供されているアドインの範囲で調査

[4] SPI(Synthetic Personality Inventory)は株式会社リクルートマネジメントソリューションズが開発した就活等の適性検査手法。今回の調査では図表の読み取り問題を含まない3分野295問を当社で用意し、各社のAPIに送信、回答を一部加工して集計しました。本調査とリクルートマネジメントソリューションズは関係ありません。

OpenAI o1は全分野の正答率が80%以上

今回の比較により、これまで生成AIが不得意だった文章整序(言語)、特殊計算(非言語)の正答率がOpenAI o1で初めて80%に達したことがわかりました。正答数では、OpenAIのo1-previewが295問中282問正解で、2位のアンソロピックのClaude 3.5 Sonnetの175問正解に大差をつけました。

標準4モデルの分野別正答数

分野別の満点はそれぞれ英語50点、言語69点、非言語176点

Claude 3.5 SonnetGemini 1.5 ProGPT-4oo1-preview
英語49485050
言語42465061
非言語8410065171

軽量モデルの比較でも、o1-miniの性能が際立ちます。正答数は254点(同86.1%)で、従来のどの標準モデルよりも高性能でした。なお、グーグルが12月11日に発表した最新のGemini 2.0 Flashの正答数は184点(同62.4%)で、Gemini 1.5 Proの194点(同65.8%)に匹敵するほど向上しました。

軽量5モデルの分野別正答数

分野別の満点はそれぞれ英語50点、言語69点、非言語176点

Claude 3.5 HaikuGemini 2.0 FlashGPT 3.5 TurboGPT 4o minio1-mini
英語4650424848
言語3444283543
非言語56905260163

調査で用いたプロンプトの例

今回の調査では、以下の形式のプロンプトをExcelからAPI経由で送信し、得られた回答の一部を加工して正誤を判定、集計しました。

以下の問題の解答を選択肢から答えてください。解説は不要です。

## 問題

次の和文の英訳として、英文中の( )に入る最適な語はAからEのどれか。

シートベルト着用サイン点灯中は、乗務員も乗客も、着席することになっています。

While the seatbelt sign is illuminated, both crew members and passengers are ( ) to remain seated.

## 選択肢 A. going B. obliged C. supposed D. required E. forced

詳細1:o1-previewは平均的日本人を超える論理的思考力

SPI型テストの目的は、採用選考過程で応募者の基礎学力や論理的思考力を測ることであり、業務遂行能力とは直接関係ありません。しかし、o1-previewの得点は全般的に高く、偏差値70以上(出現率2.3%)とされるレベル7の就活生に相当すると考えられます。

o1以前のLLMは特殊計算(文章の読解と計算を合わせた問題)と文章整序(矛盾なく文を並べ替える問題)が苦手という特徴がありました。たとえば従来の標準モデルであるGPT-4oでは、特殊計算の正答率は40%、文章整序の正答率は20%しかなく、複雑なタスクには適さない場面がありました。一方、o1-previewでは特殊計算も文章整序も正答率が80%に向上し、複雑なタスクでも人間並みにこなせる思考力があると考えられます。

o1の登場に前後して「エージェントAI」の実現が活発に議論されるようになったのは、平均的な人間以上の論理的思考力をAIが身につけたからに他なりません。ただし、正答率が100%に達した単元が多く、SPI型試験ではAIの能力を測り切れなくなっています。組織への導入に先だってAIによる判断の妥当性を検討する際、人間より賢い機械の判断を人間はどう評価するべきかは今後の課題です。

詳細2:プロンプト手法による性能比較

プロンプトエンジニアリングでは「Let’s think step-by-step(ステップバイステップで考えよう)」を追加することでLLMの応答品質が向上することが知られています。o1の性能向上は推論を促す手順をモデル内で実行していることも一因であり、タスクによってはo1を使わず、より低コストのモデルでプロンプトエンジニアリングを駆使することで代替できることもわかりました。

今後エージェントAIを企業に導入するに際しては、高性能・高コストなモデルのみに頼るのではなく、高度な論理的思考力が必要とされるサブタスクへの分解、選択用途でのみo1を使うような「モデルの使い分け」が競争力の源泉となりそうです。

詳細3:コスト比較と実用性の検討

OpenAIのGPT-4o miniやグーグルのGemini 2.0 Flash、アンソロピックのClaude 3.5 Haikuなどの軽量・低コストモデルは、それほど難易度の高くない用途で好んで使われています。o1-miniも明らかにこの系統のモデルであり、トークン単価は入出力ともo1より80%低く設定されています。とはいえ、GPT-4oよりは高単価に設定されており、従来のモデルに比べれば高コストです。エージェントAIに限らず、翻訳、分類、テキスト生成といった従来型のタスクの場合、o1-miniではオーバースペックとも言えます。

特にo1系は思考過程で使われる「リーズニングトークン」にも課金されるため、トークン単価では事前にコストが見積もりきれず、さらに数倍のコストがかかることもあります。使用に際しては、人件費との比較も重要です。

OpenAIの主要モデルの料金

100万トークン当たりの料金(2024年12月現在)を1ドル=153円で計算

入力出力
GPT-4o383円1,530円
GPT-4o mini23円92円
OpenAI o1-preview2,295円9,180円
OpenAI o1-mini459円1,836円

結論

OpenAIのo1-previewはエージェントAIの導入を牽引する業界全体のフラッグシップモデルです。しかし、その能力はすでに人間を凌駕し始めており、2025年以降は人件費とAIコストを直接比較する事例が増えるでしょう。たとえば、SPI型試験の制限時間は1問1分が目安とされますので、295問の所用時間は約5時間と考えられます。一方で、295問のSPI型テストを解くのにかかったo1-previewの費用は34.24ドル(約5,239円)でしたので、時間当たり1,066円です。AIによって人件費が下がるとは一概に言えない時代になっているのです。

AIの導入にあたっては、モデルの得意/不得意領域の発見、低コストな代替手法の開発、雇用や人材育成計画への影響など、検討すべき課題が多くあります。すでにAIより人間の方が安価な用途もあり得ますし、もっとも影響を受けるのは課長以上社長未満のラインスタッフでしょう。人間を上回る能力を獲得しつつあるAIには、これまでと同じペースでは性能向上が求められなくなる、とも言えるでしょう。

ビジー・ビーについて

当社はエル・ティー・エスの関連会社で、点検・検針業務のオフラインサービス「点検エース」シリーズの開発・販売、デジタルマーケティングを主な事業としております。

会社名 株式会社 ビジー・ビー
所在地 〒107-0051 東京都港区元赤坂 1 7 10 グランドメゾン元赤坂 2F
設⽴ 1997 年 7 ⽉ 16 ⽇
代表者 牟田口 陽介

製品・サービスに関するお問い合わせ先

株式会社ビジー・ビー 広報担当

電話       03-3470-3171      メール   info@busybee.co.jp


BusyBeeをもっと見る

購読すると最新の投稿がメールで送信されます。

中野克平のアバター

About the author

BusyBeeをもっと見る

今すぐ購読し、続きを読んで、すべてのアーカイブにアクセスしましょう。

続きを読む