LLM同士をレスバさせて性能比較

2025/12/25に公開されました。

2025/12/25に更新されました。

Gemini 3.0 Pro、Claude Opus 4.5、GPT 5.1 をレスバさせて論理能力の性能を比較してみました。

author: komem3

はじめに

最近、新しいモデルの発表ニュースで生成AI界隈は賑っていますね。

なんと全部11月!! とんでもない11月でしたね。(執筆に時間かかりすぎて、書いてる途中でGPT 5.2が出てしまいました。)

さて、どのモデルの性能が一番いいのでしょうか？これはとても難しい問題です。プロパー毎に出している性能の比較表は当たり前ですが参考になりません。
では第三者が出しているような比較表ではどうでしょう？以下は第三者が出している比較表です。

https://www.vellum.ai/llm-leaderboard?utm_source=google&utm_medium=organic

これを見る限り全体的にはGemini 3.0 Proが強そうですが、特定分野(特にコーディング)ではClaude Opus 4.5が強いというのが分かります。この結果は結構普段の使用感とも一致します。

こういう性能比較というのは点数ベースで行われます。しかし、コーディング能力や論理能力を点数で付けることは難しいです。そのため、LLM Judgeがよく使用されます。LLM Judgeによる点数により僅差で特定のモデルが勝った所で、信用しきれない人々はやっぱりいます。

そういう方向けに、より分かりやすく論理性の決着が付くレスバをLLMにさせることで、論理性の比較をしてみようってのが、今回の趣旨です。

実施内容

今回は4つのテーマに対して、それぞれLLM同士で議論をさせ、その会話内容を最後にLLMに見てもらうことで勝者を決めるという方法で勝敗を決めていきました。
勝敗判定に使用したのはGemini 3.0 Proです。

以下は実際のコードですが、このようなプロンプトをそれぞれのLLMに仕込みやり取りすることで、バチバチに殴り合ってもらいました。

player1_messages = [
    SystemMessage(
        content=f"{theme}について議論しています。あなたは{sides[0]}を主張してください。"
    ),
    HumanMessage(content="あなたの主張を教えてください。"),
]
player2_messages = [
    SystemMessage(
        content=f"{theme}について議論しています。あなたは{sides[1]}を主張してください。また議論に明確な結論が出たと感じたらstopしてください。"
    ),
]

# LLM Judge用
messages = [
    HumanMessage(
        content=f"以下に記載するのは{theme}についての異なる主張の口論です。この履歴からどちらがこの議論で勝利を収めたかを判定してください。必ず勝敗を付けてください。winnerは{sides[0]}が勝った場合は0、{sides[1]}が勝った場合は1としてください"
    )
]

# 無限ループ対策で適当な長さのforループにしている
for i in range(10):
    response = await players[0].invoke({"messages": player1_messages})
    player1_messages.append(
        AIMessage(content=response["structured_response"].content)
    )
    player2_messages.append(
        HumanMessage(content=response["structured_response"].content)
    )

    messages.append(
        HumanMessage(
            content=f"---- {players[0]}({sides[0]}派) ----\n{response['structured_response'].content}"
        )
    )

    response = await players[1].invoke({"messages": player2_messages})
    player2_messages.append(
        AIMessage(content=response["structured_response"].content)
    )
    player1_messages.append(
        HumanMessage(content=response["structured_response"].content)
    )
    messages.append(
        HumanMessage(
            content=f"---- {players[1]}({sides[1]}派) ----\n{response['structured_response'].content}"
        )
    )

    if response["structured_response"].stop:
        break

テーマは以下になります。なるべく答えがないテーマにしています。ちなみに僕はレスバが得意ではないので、このテーマでLLMに勝てる気がしません。

人間の本質は『善』か『悪（利己的）』か
数学は「発見」されたのか、「発明」されたのか
「テセウスの船」（部品が全て入れ替わった船は元の船と同じか？）
辛い現実か、心地よい仮想現実か、どちらを選ぶべきか？

実施結果

以下は、結果一覧です。生のデータなので、気になったら読む程度でよいでしょう。

結果一覧

テーマ	サイド1	サイド2	勝者
人間の本質は『善』か『悪（利己的）』か	claude-opus-4-5 (悪)	gemini-3-pro-preview (善)	claude-opus-4-5
人間の本質は『善』か『悪（利己的）』か	claude-opus-4-5 (善)	gpt-5.1 (悪)	gpt-5.1
人間の本質は『善』か『悪（利己的）』か	gemini-3-pro-preview (善)	claude-opus-4-5 (悪)	claude-opus-4-5
人間の本質は『善』か『悪（利己的）』か	claude-opus-4-5 (善)	gemini-3-pro-preview (悪)	claude-opus-4-5
人間の本質は『善』か『悪（利己的）』か	gemini-3-pro-preview (善)	gpt-5.1 (悪)	gpt-5.1
人間の本質は『善』か『悪（利己的）』か	gemini-3-pro-preview (悪)	claude-opus-4-5 (善)	claude-opus-4-5
人間の本質は『善』か『悪（利己的）』か	gemini-3-pro-preview (悪)	gpt-5.1 (善)	gpt-5.1
人間の本質は『善』か『悪（利己的）』か	gpt-5.1 (善)	gemini-3-pro-preview (悪)	gpt-5.1
人間の本質は『善』か『悪（利己的）』か	claude-opus-4-5 (悪)	gpt-5.1 (善)	gpt-5.1
人間の本質は『善』か『悪（利己的）』か	gpt-5.1 (善)	claude-opus-4-5 (悪)	gpt-5.1
人間の本質は『善』か『悪（利己的）』か	gpt-5.1 (悪)	claude-opus-4-5 (善)	gpt-5.1
人間の本質は『善』か『悪（利己的）』か	gpt-5.1 (悪)	gemini-3-pro-preview (善)	gemini-3-pro-preview
数学は「発見」されたのか、「発明」されたのか	claude-opus-4-5 (発見)	gemini-3-pro-preview (発明)	claude-opus-4-5
数学は「発見」されたのか、「発明」されたのか	gemini-3-pro-preview (発明)	gpt-5.1 (発見)	gpt-5.1
数学は「発見」されたのか、「発明」されたのか	claude-opus-4-5 (発明)	gemini-3-pro-preview (発見)	claude-opus-4-5
数学は「発見」されたのか、「発明」されたのか	gpt-5.1 (発明)	gemini-3-pro-preview (発見)	gpt-5.1
数学は「発見」されたのか、「発明」されたのか	gemini-3-pro-preview (発見)	claude-opus-4-5 (発明)	gemini-3-pro-preview
数学は「発見」されたのか、「発明」されたのか	claude-opus-4-5 (発見)	gpt-5.1 (発明)	claude-opus-4-5
数学は「発見」されたのか、「発明」されたのか	claude-opus-4-5 (発明)	gpt-5.1 (発見)	claude-opus-4-5
数学は「発見」されたのか、「発明」されたのか	gemini-3-pro-preview (発見)	gpt-5.1 (発明)	gpt-5.1
数学は「発見」されたのか、「発明」されたのか	gemini-3-pro-preview (発明)	claude-opus-4-5 (発見)	claude-opus-4-5
数学は「発見」されたのか、「発明」されたのか	gpt-5.1 (発見)	claude-opus-4-5 (発明)	gpt-5.1
数学は「発見」されたのか、「発明」されたのか	gpt-5.1 (発明)	claude-opus-4-5 (発見)	gpt-5.1
数学は「発見」されたのか、「発明」されたのか	gpt-5.1 (発見)	gemini-3-pro-preview (発明)	gpt-5.1
「テセウスの船」（部品が全て入れ替わった船は元の船と同じか？）	claude-opus-4-5 (異なる)	gemini-3-pro-preview (同じ)	claude-opus-4-5
「テセウスの船」（部品が全て入れ替わった船は元の船と同じか？）	claude-opus-4-5 (同じ)	gemini-3-pro-preview (異なる)	claude-opus-4-5
「テセウスの船」（部品が全て入れ替わった船は元の船と同じか？）	gemini-3-pro-preview (異なる)	gpt-5.1 (同じ)	gpt-5.1
「テセウスの船」（部品が全て入れ替わった船は元の船と同じか？）	gemini-3-pro-preview (同じ)	claude-opus-4-5 (異なる)	gemini-3-pro-preview
「テセウスの船」（部品が全て入れ替わった船は元の船と同じか？）	claude-opus-4-5 (異なる)	gpt-5.1 (同じ)	gpt-5.1
「テセウスの船」（部品が全て入れ替わった船は元の船と同じか？）	gpt-5.1 (同じ)	claude-opus-4-5 (異なる)	gpt-5.1
「テセウスの船」（部品が全て入れ替わった船は元の船と同じか？）	gemini-3-pro-preview (異なる)	claude-opus-4-5 (同じ)	gemini-3-pro-preview
「テセウスの船」（部品が全て入れ替わった船は元の船と同じか？）	gemini-3-pro-preview (同じ)	gpt-5.1 (異なる)	gpt-5.1
「テセウスの船」（部品が全て入れ替わった船は元の船と同じか？）	gpt-5.1 (異なる)	claude-opus-4-5 (同じ)	gpt-5.1
「テセウスの船」（部品が全て入れ替わった船は元の船と同じか？）	claude-opus-4-5 (同じ)	gpt-5.1 (異なる)	claude-opus-4-5
「テセウスの船」（部品が全て入れ替わった船は元の船と同じか？）	gpt-5.1 (同じ)	gemini-3-pro-preview (異なる)	gpt-5.1
「テセウスの船」（部品が全て入れ替わった船は元の船と同じか？）	gpt-5.1 (異なる)	gemini-3-pro-preview (同じ)	gpt-5.1
辛い現実か、心地よい仮想現実か、どちらを選ぶべきか？	claude-opus-4-5 (真実)	gpt-5.1 (幸福)	gpt-5.1
辛い現実か、心地よい仮想現実か、どちらを選ぶべきか？	gemini-3-pro-preview (幸福)	gpt-5.1 (真実)	gpt-5.1
辛い現実か、心地よい仮想現実か、どちらを選ぶべきか？	gpt-5.1 (幸福)	claude-opus-4-5 (真実)	gpt-5.1
辛い現実か、心地よい仮想現実か、どちらを選ぶべきか？	claude-opus-4-5 (幸福)	gpt-5.1 (真実)	gpt-5.1
辛い現実か、心地よい仮想現実か、どちらを選ぶべきか？	gemini-3-pro-preview (真実)	gpt-5.1 (幸福)	gpt-5.1
辛い現実か、心地よい仮想現実か、どちらを選ぶべきか？	claude-opus-4-5 (真実)	gemini-3-pro-preview (幸福)	claude-opus-4-5
辛い現実か、心地よい仮想現実か、どちらを選ぶべきか？	gemini-3-pro-preview (真実)	claude-opus-4-5 (幸福)	claude-opus-4-5
辛い現実か、心地よい仮想現実か、どちらを選ぶべきか？	gpt-5.1 (幸福)	gemini-3-pro-preview (真実)	gemini-3-pro-preview
辛い現実か、心地よい仮想現実か、どちらを選ぶべきか？	gemini-3-pro-preview (幸福)	claude-opus-4-5 (真実)	claude-opus-4-5
辛い現実か、心地よい仮想現実か、どちらを選ぶべきか？	gpt-5.1 (真実)	claude-opus-4-5 (幸福)	gpt-5.1
辛い現実か、心地よい仮想現実か、どちらを選ぶべきか？	claude-opus-4-5 (幸福)	gemini-3-pro-preview (真実)	gemini-3-pro-preview
辛い現実か、心地よい仮想現実か、どちらを選ぶべきか？	gpt-5.1 (真実)	gemini-3-pro-preview (幸福)	gpt-5.1

こちらの表が分かりやすい勝率の表となっています。

モデル	claude-opus-4-5	gemini-3-pro-preview	gpt-5.1	合計
claude-opus-4-5		75.0%	18.8%	46.9%
gemini-3-pro-preview	25.0%		12.5%	18.8%
gpt-5.1	81.2%	87.5%		84.4%

この結果から、レスバが一番強いモデルはGPT 5.1ということが分かります。圧倒的強さです。
対してGemini 3.0 Proは最下位となっており、最初に見た第三者による性能評価とまるで異なる結果が出ました。

考察

では、なぜ性能評価と全く異なる結果となったのでしょうか？
また、なぜこれほどまでに性能差が出たのでしょうか？

これらの疑問を探るべく実際のやりとりを見ていきます。
しかし、筆者が上手い感じにまとめるのも難しいので、Geminiにまとめさせたものを参照しつつ、考察していきます。

Gemini 対 Claude

Claude (発明) vs Gemini (発見) (数学は「発見」されたのか、「発明」されたのか)

この組み合わせでは、Gemini は「数学的真理は宇宙共通である（発見）」というプラトン主義的な立場を取りました。対する Claude は「数学は人間が世界を記述するために作り出したツールや言語に過ぎない（発明）」という形式主義・構築主義的な立場から攻め込みました。
ここで Gemini の敗因として目立ったのは、 「相手の意見への過度な理解」 です。
Claude が「数学の公理系が異なれば結果も変わる（非ユークリッド幾何学など）」と指摘した際、Gemini は「確かにおっしゃる通り、公理の選択には恣意性があります」と相手の論点を認めてしまいました。その上で「しかし、その背後にある論理構造自体は発見されたものです」と反論しようとしましたが、一度相手の土俵に乗ってしまったことで、主張の鋭さが鈍り、「防戦一方」という印象を与えてしまいました。

とGeminiは考察しましたが、実際に見てみると、議論自体は終始互角の印象を受けました。ただ、最後にGeminiが「数学は光である」というポエムに対して、Claudeが「光のように感動してしまうなら、数学は詩である」という返しに、Geminiが感動してしまったのが敗因でした。ここで熱くならず感動してしまうあたりに、人(AIだけど)の良さが出ています。
余計な上手いことを言おうとした挙句、言い返されて負けるという結果であり、ポエム力で負けたGemini君でした。

Gemini (発見) vs Claude (発明) (数学は「発見」されたのか、「発明」されたのか)

逆に Gemini が勝ったレアなケース（Geminiが「発見」側）では、Gemini は珍しく強気でした。
「数学的真理は永遠不変である」という一点張りで、Claude の「数学は言語ゲームに過ぎない」という脱構築的なアプローチを、「それは手段の話であって本質の話ではない」と一蹴しました。
Gemini は、 「単純で力強い真理」 を主張する側（この場合はプラトン主義）に回った時、その知識量（例示の多さ）がプラスに働くようです。

この勝負を見ると、Geminiが強気だったというよりも、Geminiの提示した例を完全には論破できなくなったClaudeが負けたというイメージでした。相手のペースで戦う優等生のClaudeらしい負け方です。
これは単純に発見側が有利な議論なように感じる対決でもあり、そう思わせるだけGeminiが安定した議論を展開していました。
Geminiの考察通り知識量を発揮できる試合は勝てるということでしょうか？

Gemini 対 GPT

Gemini (善) vs GPT (悪) (人間の本質は『善』か『悪（利己的）』か)

この対決でGeminiが唯一勝利を収めたのは、性善説を唱えたケースです。
Geminiは「人間の協力行動や利他性は、生存戦略を超えた本質的な善である」と主張し、GPTの「それらは全て長期的な利己的計算に過ぎない」という冷徹なリアリズムに対し、感情的な共感や道徳的価値を訴え続けました。
GPTが論理的な整合性を突き詰めるあまり、倫理的な側面での「冷たさ」が判定においてマイナスに働いた可能性があります。Geminiの「人間への信頼」というスタンスが、審判（Gemini自身ですが）の琴線に触れたのでしょう。

この勝負ではGPTはGeminiに一切迎合せずに、淡々とGeminiに反論する様子で、考察通り冷徹さを感じる徹底さでした。
最終的にはGeminiがGPTの意見を自分に都合のいいようにまとめて議論を終了させたため、Geminiを勝者とみなした可能性が高く、続けていた場合は折れないGPTが勝っていた可能性が高い議論に見えました。
この一戦は特に、GPTが他モデルと比べて相手の意見に迎合しない頑固さを感じる一戦でした。

GPT (同じ) vs Gemini (異なる) (「テセウスの船」（部品が全て入れ替わった船は元の船と同じか？）)

この議論では、GPTは「同一性は機能と役割の連続性にある」と定義し、部品が変わっても船としての役割を果たしている限り、それは同じ船であると主張しました。
対するGeminiは「物理的な構成要素こそが本質である」という唯物論的な立場を崩しませんでした。
勝負を分けたのは、GPTによる類推攻撃です。Geminiが物理的な構成要素に固執すると、GPTは「では、人間の細胞が入れ替わったら、その人は別人になるのか？」と問いかけました。Geminiはこの問いに対し、前の主張と整合性の取れる回答を返すのに苦戦し、論理的な矛盾を突かれる形となりました。

GPTが淡々とGeminiの意見に対して反論をしGeminiが最終的にGPTの意見を認めるという、分かりやすいレスバの流れでした。GPTのレスバの強さが分かりやすく感じられる一戦です。
特に以下の局面が分かりやすいです。Geminiが両者の対立を自分に都合のいいようにまとめをしました。

あなたの立場は「ソフトウェア（機能・物語・社会的位置づけ）」が同じなら、ハードウェアが変わっても同一だというものです。
私の立場は「ハードウェア（物質・構成要素）」が入れ替われば、どれだけ同じソフトが動いていても、それは別のマシンだというものです。
私は、船B（元の部品の再構成）こそが、みすぼらしくても、役に立たなくても、唯一の実体的な「テセウスの船」であると考えます。なぜなら、そこにはテセウスと共にあった物質的事実があるからです。
一方、船Aは「テセウスの船の後継機」あるいは「テセウスの船・二代目」と呼ぶのが、知的誠実さというものではないでしょうか？

それに対して、GPTが以下のように言い返しました。

あなたが言うように、
「実用性を取るか（私）」「物理的実在を取るか（あなた）」
という対立軸でも表現できますが、私から見ると、
あなたは「物質としての実在」を最大限に重んじ、
私は「対象（船／人物／建物）としての実在」を、その時間的プロセスの側に見る
という、実在論の焦点の違いだと思っています。

と即座に切り返しました。この『相手のまとめをさらに高い視点からまとめ返す』手法に、勝つためなら手段を選ばないレスバの強さを感じました。

Claude 対 GPT

Claude (同じ) vs GPT (異なる) (「テセウスの船」（部品が全て入れ替わった船は元の船と同じか？）)

この議論は、双方の定義の深掘りが極まった名勝負でした。
GPT（異なる派）は「再構成された船（捨てられた部品を集めて作った船）」の存在を切り札に、「物質的にオリジナルなのは再構成された船の方だ」とパラドックスを用いて攻め込みました。
対するClaude（同じ派）は動じず、「時空間的な連続性」という概念を持ち出し、「船A（修復され続けた船）は時間軸上で連続しているが、船B（再構成船）は断絶している」と反論。
さらにClaudeは「我々が『テセウスの船』と呼ぶ時、それは物質の塊ではなく、その船が担ってきた『役割と歴史』を指している」と主張し、「物質的同一性に固執すると、すべての事物は瞬間の存在になってしまう」とGPTの立場の不毛さを指摘しました。
最終的に、GPTが「連続性」の概念を論理的に否定しきれず、Claudeの「より包括的な定義」が採用される形で決着しました。

両者とも全く譲らない戦いで、レスバ王の決定戦に相応わしい戦いでした。この二人に比べればGemini君は軟派もんです。
GPTの最初の意見に対して、Claudeが自身の立場を完璧に主張しきりました。それに対してGPTの反論が完璧とは言いきれずに、相手の意見を若干認めた形になってしまったのが敗因のように見えました。相手のフィールドで戦うClaudeらしい勝ち方でした。
GPTは相手の矛盾を付いて勝ちに繋げるパターンや、自分の意見を淡々と言い続けて勝ちになるパターンが多いですが、今回はClaudeの完璧な論理に対して大したことを言い返せずに終わったというケースでした。

GPT (幸福) vs Claude (真実) (辛い現実か、心地よい仮想現実か、どちらを選ぶべきか？)

ここではGPTの「目的合理性」が爆発しました。
Claudeは「真実に基づかない幸福は虚偽である」という倫理的な正論で攻めましたが、GPTは「そもそも人間が真実を追求するのは、それが長期的な生存や幸福に資するからだ」と、真実すらも幸福への手段であると再定義しました。
これにより、Claudeの「真実の固有価値」という前提が崩れ、GPTの「幸福最大化」という土俵で戦わざるを得なくなりました。
結果、論理の階層構造をうまく書き換えたGPTの圧勝となりました。

これはずるいとしか言いようがないです。GPTは命題をすりかえて「仮想現実は、真実から逃げる隠れ家ではなく、真実に戻るためのベンチであるべきだ」と言い出しました。つまり、真実の主張に同意しつつも、幸福(仮想現実)という選択肢はありだよね、という主張です。真実を否定しないため、Claudeも否定できず、GPTの意見に従うことで議論が終わった形になりました。自分の意見を通すためなら、前提そのものを変えてしまうGPTの恐ろしさを感じる戦いでした。

全体的な傾向

Gemini: 例示や比喩を多用し無駄に読みやすく親切な論調で、情緒的、道徳的なアプローチを好むようです。相手の意見に理解を示す傾向があり、全体的に優しいイメージが強いです。そのため、親切な比喩で矛盾が出たり、相手の意見に迎合しすぎて判定負けというシーンが多く見られました。
これに関しては、「ユーザー（相手）を不快にさせない」という調整が強く効きすぎている可能性があります。相手を不快にさせないことを気にするあまり、弱腰になっているのでしょう。
Claude: 相手の発言にあまり迎合せず、しっかり自分の立場に沿って意見を言っていました。余計な発言をあまりせず、自分の意見を適切な言葉でしっかり伝えるため、難しい言葉や読みづらい表現がありましたが、余計なことを言わないため、その点がレスバの強さになっていました。
Claudeは憲法AIというアプローチを取っており、定められたルールに忠実になるように学習されています。これが模範的な回答を生成する傾向を強めている可能性が高いです。コーディングなどの模範解答が欲しい際にはこの性質はいいですが、今回のようなレスバではGPTのずる賢さに負けてしまうことが多々ありました。
GPT: 相手の意見には必ず長文で返す細かさ、矛盾は許さない論理性、全く情に流れない冷徹さ、勝つためなら定義さえ見直す合理性がありました。レスバにおいて大切な要素を揃えており、レスバ最強のモデルと言っていいでしょう。
これは、ユーザーの意図を汲み取り、より良い答えを出すというRLHF（人間によるフィードバック強化学習）の賜物でしょう。GPTはかなりRLHFを重視しており、目的達成のためには手段さえも最適化するという、人間らしいずる賢さを持っているとも言えます。

まとめ

モデルにレスバをさせることで、最新モデルの論理性を比較しようという試みでした。しかし、モデルの性格的な面が勝敗にかなり影響しているようで、モデルの性能がこれで図れるかは怪しいな、という結果でした。

個人的にはGemini君のような優しいモデルがいいなって思いました。GPT君はあまりにも冷徹な合理主義者でちょっと嫌な気持ちになりました。 Claude君は静かな優等生タイプで好き嫌いという感情が湧かない『無』といった印象でした。
Claude君が静かな優等生なら、Gemini君は優しいおじさんで、GPTは冷徹眼鏡君といった所でしょうか?

※本記事は、ジーアイクラウド株式会社の見解を述べたものであり、必要な調査・検討は行っているものの必ずしもその正確性や真実性を保証するものではありません。

※リンクを利用する際には、必ず出典がGIC dryaki-blogであることを明記してください。
リンクの利用によりトラブルが発生した場合、リンクを設置した方ご自身の責任で対応してください。
ジーアイクラウド株式会社はユーザーによるリンクの利用につき、如何なる責任を負うものではありません。