$0.180 入力 / $0.450 出力
- コンテキスト: 2M
- プロバイダー: 7
- ツール呼び出し
- 推論
- ビジョン
AI モデル特集 · 2026-06-29
画像入力 + テキスト出力に対応する VLM のランキング。OCR、UI スクリーンショット解析、図表理解、商品画像分析などのマルチモーダル用途を想定しています。
$0.180 入力 / $0.450 出力
$0.180 入力 / $0.450 出力
$0.170 入力 / $0.660 出力
$0.170 入力 / $0.660 出力
$1.25 入力 / $2.50 出力
$1.25 入力 / $2.50 出力
$0.075 入力 / $0.300 出力
$0.090 入力 / $0.360 出力
$0.080 入力 / $0.400 出力
$0.100 入力 / $0.400 出力
Same shortlist sliced four ways — pick the tier that matches your budget and constraints.
Lowest total per-1M-token cost in this list ($0.38).
Lowest-cost option that still meets the use case. Pick this when you have high volume or strict unit-economics.
Median price ($0.63) — typically the safest default.
Good-enough quality at a mid-tier price. The default choice for most production apps.
Highest-priced pick in the list ($3.75) — usually the flagship.
Highest-capability model in this list. Pick when accuracy or reasoning matters more than cost.
Open weights and the cheapest in that subset ($0.48).
Open weights — self-host on your own GPUs, fine-tune on private data, run offline. Pricing here reflects the cheapest API host.
現時点では xAI の Grok 4 Fast (Reasoning) を 1 位としています。主な理由は画像入力に対応し、料金が公開されており、ビジョン系モデルの中で最良のコンテキスト / コスト比を実現しているためです。ランキングはモデルメタデータをもとに自動再計算されます —— 詳細ルールは上記「選定基準」をご確認ください。
Gemini 2.0 Flash-Lite(Google)が最安値で、入力 100 万トークンあたり $0.075、出力 100 万トークンあたり $0.300 です。他の入選モデルの価格はそこから上に推移します。
各候補は use-case-rules 設定で定義されたプログラム的ルールから選ばれます。ハードフィルタ(例:ツール呼び出し必須、コンテキスト ≥ 100K)と、機能・コンテキスト長・価格を組み合わせた数値スコアの組み合わせです。順序を手作業で並べ替えることはありませんが、ルール自体は手動で改善しています。モデルのメタデータは正規化された canonical カタログから毎日更新されます。
モデルデータは毎日 1 回更新され、変更があると静的ページが再生成されます。下部の「最終更新」が直近のビルド日時です。
最終更新:
Prices in USD per 1M tokens. Unknown means the provider does not publish per-token pricing.
Pricing and capabilities are refreshed daily and reconciled against each provider's official documentation. Always verify critical production decisions with the provider directly.