قدرة · 2026-06-29
نماذج ذكاء اصطناعي تدعم الإدخال البصري
نماذج تقبل الصور إلى جانب النص — فهم متعدد الوسائط.
ما هذا؟
- نماذج الرؤية واللغة تقبل صورًا بالإضافة إلى (أو بدلاً من) النص.
- معظمها يردّ بنص — هي نماذج LLM متعددة الوسائط وليست مولّدات صور.
لماذا يهم
- حالات الاستخدام: فهم المستندات (مسح ضوئي، PDF، لقطات شاشة)، مراجعة واجهات/كود من لقطات، أسئلة وأجوبة عن صور المنتجات، إمكانية الوصول (نص بديل)، صور طبية/فضائية.
- عادةً ما تتضمن الفوترة تكلفة لكل صورة بالإضافة إلى تكلفة الرموز — راجع جداول العروض لكل مزوّد.
436 نماذج تدعم هذه القدرة
عرض أول 60 من إجمالي 436. استخدم الفهرس الكامل لمزيد من التصفية.
Frequently asked questions
How many AI models support إدخال صور?
436 canonical models in our database currently support إدخال صور. The list is regenerated on every data refresh, so it always reflects the latest releases tracked in our catalogue.
What is the cheapest model with إدخال صور?
PaddleOCR-VL from novita-ai is currently the lowest-priced option, at $0.020 per 1M input tokens and $0.020 per 1M output tokens. The full table above is sorted price-ascending.
Which model with إدخال صور has the largest context window?
Llama 4 Scout 17B Instruct (US) (Meta) leads on context at 3.50M tokens. This may matter if you also need long-document understanding alongside إدخال صور.
Which models are available on the most providers?
Production-readiness usually correlates with how many independent providers host the same weights. The top three by provider count are: Kimi K2.6 (49), Kimi K2.5 (48), Claude Sonnet 4.6 (31).
How is إدخال صور different from a regular LLM?
Vision-language models accept image input alongside text. They are multimodal LLMs, not image generators — most reply in text after looking at the image.
How often is this list updated?
Daily. Our data pipeline syncs once a day, regenerates the canonical model list, and rebuilds these pages so newly released models appear within 24 hours.
Explore more
Top models with this capability
- PaddleOCR-VL$0.02 in / $0.02 out
- Llama-3.2-11B-Vision-Instruct$0.05 in / $0.05 out
- Gemma 3 4B IT$0.04 in / $0.08 out
- Google Gemma 3 27B Instruct$0.03 in / $0.11 out
- Model Router$0.14 in / $0.00 out
Other capabilities
Best-of lists you might also want
Pricing comparisons
آخر تحديث:
Prices in USD per 1M tokens. Unknown means the provider does not publish per-token pricing.
Pricing and capabilities are refreshed daily and reconciled against each provider's official documentation. Always verify critical production decisions with the provider directly.