機能 · 2026-05-12
画像入力に対応した AI モデル
画像とテキストを一緒に入力できる AI モデルの比較。
これは何か
- ビジョン言語モデルはテキストに加え(または代わりに)画像入力を受け付けます。
- 多くはテキスト入出力のマルチモーダル LLM であり、画像生成モデルではありません。
なぜ重要か
- 用途例: 文書理解(スキャン、PDF、スクリーンショット)、UI/コードのスクリーンショットレビュー、商品写真 Q&A、アクセシビリティ(alt)、医療/衛星画像など。
- 料金は画像枚数に加えトークン課金が乗ることが多いです —— 各プロバイダーの offering 表を確認してください。
この機能に対応するモデル 382 件
全 382 件中、上位 60 件を表示。 さらに絞り込むには モデル一覧 をご利用ください。
Frequently asked questions
How many AI models support 画像入力?
382 canonical models in our database currently support 画像入力. The list is regenerated on every data refresh, so it always reflects the latest model releases from models.dev.
What is the cheapest model with 画像入力?
dots.ocr from chutes is currently the lowest-priced option, at $0.010 per 1M input tokens and $0.011 per 1M output tokens. The full table above is sorted price-ascending.
Which model with 画像入力 has the largest context window?
Llama 4 Scout 17B Instruct (Meta) leads on context at 3.50M tokens. This may matter if you also need long-document understanding alongside 画像入力.
Which models are available on the most providers?
Production-readiness usually correlates with how many independent providers host the same weights. The top three by provider count are: Kimi K2.5 (45), Kimi K2.6 (31), Qwen3.5 397B-A17B (22).
How is 画像入力 different from a regular LLM?
Vision-language models accept image input alongside text. They are multimodal LLMs, not image generators — most reply in text after looking at the image.
How often is this list updated?
Daily. Our data pipeline pulls models.dev once a day, regenerates the canonical model list, and rebuilds these pages so newly released models appear within 24 hours.
Explore more
Top models with this capability
- dots.ocr$0.01 in / $0.01 out
- Gemma 3 4B$0.01 in / $0.03 out
- PaddleOCR-VL$0.02 in / $0.02 out
- Llama-3.2-11B-Vision-Instruct$0.05 in / $0.05 out
- Gemma 3 12B$0.03 in / $0.10 out
Other capabilities
Best-of lists you might also want
Pricing comparisons
最終更新:
Prices in USD per 1M tokens. Unknown means the provider does not publish per-token pricing.
Data is sourced from models.dev and normalized for comparison. Prices and capabilities may change. Always verify critical production decisions with the provider's official documentation.