Image Captioning - Edgentiq

ET2RAG: Boosting Language Model Accuracy with Smart Retrieval and Consensus

DualCap: Generating Richer Image Captions Through Dual Retrieval

Enhancing Image Descriptions with Hierarchical Planning

FastVLM: Accelerating Vision-Language Model Inference with Self-Speculative Decoding

Dixit: A New Frontier for Evaluating Multimodal AI Capabilities

spot_img

Recently Added

Grasp Any Region: Advancing Multimodal AI for Detailed Visual Understanding

Read more

Unlocking Image AI for African Languages with AfriCaption

Read more

New Benchmark Reveals Gaps in Vision Language Model Understanding Across Diverse Languages

Read more

Bridging Vision and Text for Better Geometric Reasoning in AI

Read more

Direct Discrete Diffusion: A Framework for One-Hot Data

Read more

Uncovering the Data Needs for Stylistic Image Captioning in Vision-Language Models

Read more

VELA: An Efficient Metric for Assessing Long Image Descriptions

Read more

Enhancing LLM Performance in Visual Question Answering Through Caption Refinement

Read more

Efficient Image Captioning: Combining CNNs and Transformers

Read more

Lightweight Image Captioning with Enhanced Relational Understanding

Read more

VisMoDAl: A Visual Analytics Framework for Enhancing Vision-Language Model Robustness

Read more

Advancing AI’s Geometric Reasoning with a New Data Synthesis Framework

Read more

Advancing Retinal Disease Diagnosis with AI-Powered Report Generation

Read more

Exploring Compositional Generalization with Quantum Circuits

Read more

Advancing Ulcerative Colitis Diagnosis with Lesion-Aware AI Captioning

Read more

BLUEX Dataset Enhanced: New Benchmark for Evaluating LLMs in Brazilian University Exams

Read more

Enhancing MLLM Accuracy: A New Method for Controlled Image Captioning

Read more

Multi-Region Fusion Decoding: Enhancing Factual Accuracy in AI Image Descriptions

Read more

Efficient Image Captioning with Retrieval-Augmented Generation

Read more

AGIC: Enhancing Image Descriptions with Attention-Guided AI

Read more

Enhancing AI: How Augmented Vision-Language Models Bridge the Gap Between Perception and Reasoning

Read more

Understanding Image Captioning: A Step-by-Step Journey Through AI Model Evolution

Read more

LOTUS: A New Framework for Evaluating Advanced Image Captioning

Read more

New Architectural Boost for Image-Text AI Models

Read more

SynC: A New Approach to Clean Up AI-Generated Image Datasets

Read more

Advancing Remote Sensing Image Captioning with the SEMT Network

Read more

LoRA-MCL: Enabling Language Models to Generate Diverse and Plausible Outputs

Read more

Navigating In-Context Learning: A Deep Dive into How Examples Shape Multimodal AI for Image Captioning

Read more

Gen AI News and Updates

spot_img

- Advertisement -

ET2RAG: Boosting Language Model Accuracy with Smart Retrieval and Consensus

November 4, 2025

DualCap: Generating Richer Image Captions Through Dual Retrieval

October 31, 2025

Enhancing Image Descriptions with Hierarchical Planning

October 28, 2025