Gemini 3シリーズ初の軽量モデル「3.1 Flash-Lite」登場

2026/04/02に公開されました。
2026/04/02に更新されました。

Gemini「3.1 Flash-Lite」の解説


author: Kao

Gemini 3シリーズ初の軽量モデル「3.1 Flash-Lite」登場

Thinking Levels とモデルルーティングで変わるコスト設計

2026年3月、Googleは Gemini 3.1 Flash-Lite を発表しました。名前だけ見ると「Flashの廉価版?」と思いがちですが、実際は違います。

Flash-Liteは大量処理向けに設計された高速・高スループットモデルです。「廉価版」でも「簡易版」でもなく、大量リクエスト・低レイテンシを最優先にした専用設計です。

1. モデルの立ち位置を整理する

Geminiのモデル階層は Pro > Flash > Flash-Lite の3段構成です。3.1 Flash-LiteはGemini3シリーズで初めて登場したFlash-Liteモデルで、高頻度・低遅延のタスクに特化しています。

Flash と Flash-Lite は何が違うのか?
Flashが「汎用の中速中コスト」モデルである一方、Flash-Liteは「速度とスループットを極限まで高めた大量処理特化モデル」です。

2. スペックと価格

以下はGoogle公式ドキュメント(ai.google.dev)に基づく料金比較です。

モデルInput / 1MトークンOutput / 1MトークンバッチAPI割引後 Input
3.1 Flash-Lite ⭐(本稿)$0.25$1.50$0.125(試算値)
2.5 Flash(前世代)$0.30$2.50$0.15
3 Flash$0.50$3.00$0.25
3 Pro$2.00$12.00$1.00

📎 出典
料金(2.5 Flash / 3 Flash / 3 Pro): ai.google.dev/gemini-api/docs/pricing(Google公式料金ページ・2026年3月確認)
料金(3.1 Flash-Lite): blog.google/…/gemini-3-1-flash-lite/(Google公式ブログ・プレビュー段階のため公式料金ページ未掲載)

Tips: バッチAPIで50%割引
バッチAPIを利用することでさらに50%割引が適用されます。非リアルタイムの大量処理(夜間バッチなど)はバッチAPIを活用するだけで Input コストを半減できます。

スピード面では、前世代の2.5 Flashと比較して TTFT(最初のトークンが出力されるまでの時間)が約2.5倍高速化し、出力速度は毎秒 363トークンを達成しています(計測:Artificial Analysis社)。

精度面では、GPQA Diamond 86.9%・MMMU Pro 76.8% を達成しており、Flash-Liteクラスとしては高水準の推論能力を持ちます。

📎 出典: blog.google/…/gemini-3-1-flash-lite/(Google公式ブログ)

3. Thinking Levels ── 推論の深さをコントロールする

3.1 Flash-Liteの目玉機能が「Thinking Levels」です。APIリクエスト時に thinking_level パラメータを指定することで、モデルの内部推論の深さを4段階で制御できます。

レベルコスト感向いているタスクユースケース例
minimal最安速度最優先・定型処理ログ分類、キーワード抽出、ルーティング判定
low軽い推論が必要な処理短文要約、簡単なデータ抽出、FAQ応答
medium一般的な会話・タスク処理チャットボット応答、商品説明生成
high高(内部トークン増)精度重視の複雑なタスク仕様書からの要件整理、複雑なメール返信

⚠️ 注意
thinking_levelhigh にすると内部推論トークンが増加し、コストも上昇します。
精度が必要なタスクだけ high を使い、定型処理は minimal に留めることでコストを最適化できます。

📎 出典: docs.cloud.google.com/…/3-1-flash-lite(Vertex AI公式ドキュメント・2026年3月14日更新)

実装例(Python SDK)

from google import genai
from google.genai import types

client = genai.Client()

# 複雑なタスク → HIGH で精度優先(コスト高)
response = client.models.generate_content(
    model='gemini-3.1-flash-lite-preview',
    contents='以下の仕様書から要件を箇条書きで整理してください...',
    config=types.GenerateContentConfig(
        thinking_config=types.ThinkingConfig(thinking_level='high')
    ),
)

# 定型タスク → MINIMAL で速度優先(コスト最安)
response = client.models.generate_content(
    model='gemini-3.1-flash-lite-preview',
    contents='このテキストのカテゴリを分類してください: ...',
    config=types.GenerateContentConfig(
        thinking_config=types.ThinkingConfig(thinking_level='minimal')
    ),
)

! 注意: Gemini 3系ではthinking_levelを使用。thinking_budget(Gemini 2.5系)との併用は400エラーになります。

4. モデルルーティングの設計パターン

Thinking Levelsを最大限に活用するアーキテクチャとして「モデルルーティング」があります。タスクの複雑さをまず3.1 Flash-Liteで判定し、複雑なタスクだけ上位モデルに振り分けるパターンです。

def route_task(user_input: str) -> str:
    # Step 1: Flash-Lite で複雑さを判定(MINIMAL)
    classification = flash_lite_client.models.generate_content(
        model='gemini-3.1-flash-lite-preview',
        contents=f'次のタスクは簡単(simple)か複雑(complex)か判定してください: {user_input}',
        config=types.GenerateContentConfig(
            thinking_config=types.ThinkingConfig(thinking_level='minimal')
        )
    )

    # Step 2: 複雑なタスクは上位モデルへ振り分け
    if 'complex' in classification.text:
        return pro_client.models.generate_content(
            model='gemini-3-pro',
            contents=user_input
        ).text
    else:
        # 簡単なタスクは Flash-Lite で完結(HIGH で精度確保)
        return flash_lite_client.models.generate_content(
            model='gemini-3.1-flash-lite-preview',
            contents=user_input,
            config=types.GenerateContentConfig(
                thinking_config=types.ThinkingConfig(thinking_level='high')
            )
        ).text

💡 ポイント: コスト試算を忘れずに
複雑さの判定処理自体は minimal で十分です。「判定コスト+実行コスト」の合計が、すべてのタスクを Pro に投げるコストを下回るかどうかを、実際のワークロードで試算することをおすすめします。

5. コスト最適化のTips

出力コストに注意する

本モデルはInput $0.25に対して Output $1.50(6倍) という料金構成です。冗長な出力はコスト増に直結します。

  • 悪い例(曖昧):「この文章を要約して」
  • 良い例(フォーマット指定):「この文章を200文字以内で、箇条書き3点で要約してください」

Tips
システムプロンプトで出力フォーマットを厳格に指定することが、コスト管理の基本です。JSON出力など構造化フォーマットを指定するとさらに効果的です。

Context Caching を活用する

マニュアルなどの同じ大規模なコンテキストを繰り返し使う場合はContext Cachingを使うことで、キャッシュヒット時の入力コストを大幅に削減できます。

無料枠で先に試す

3.1 Flash-Liteは現在プレビュー版としてGemini APIの無料枠でも利用可能です。Google AI Studioから今すぐ試すことができます。モデルIDは gemini-3.1-flash-lite-preview です。

まとめ

Gemini 3.1 Flash-Lite は「廉価版」ではなく、大量処理に特化した専用モデル

  • Gemini 3シリーズ初のFlash-Liteモデル。高頻度・低遅延タスクに最適化
  • 前世代2.5 Flashより速く(TTFT 2.5倍・363 t/s)、Inputコストも低い($0.25 vs $0.30)
  • GPQA Diamond 86.9% / MMMU Pro 76.8% — Flash-Liteクラスとして高い推論精度
  • Thinking Levelsにより1モデルで速度と精度のトレードオフを動的にコントロール可能
  • モデルルーティングと組み合わせることで、全体のAPIコストを構造的に最適化できる
  • バッチAPI利用でさらに50%割引(Input $0.125)

⚠️ 注意
現在はプレビュー段階のため、本番導入の前にレート制限や挙動の変更に注意が必要です。公式のリリースノートを定期的に確認することをおすすめします。

参考リンク(すべて2026年3月確認)

※本記事は、ジーアイクラウド株式会社の見解を述べたものであり、必要な調査・検討は行っているものの必ずしもその正確性や真実性を保証するものではありません。

※リンクを利用する際には、必ず出典がGIC dryaki-blogであることを明記してください。
リンクの利用によりトラブルが発生した場合、リンクを設置した方ご自身の責任で対応してください。
ジーアイクラウド株式会社はユーザーによるリンクの利用につき、如何なる責任を負うものではありません。