5 47 2

Zhen Fang

CostaliyA

https://costaliya.github.io/

CostaliyA

AI & ML interests

None yet

Recent Activity

upvoted a paper 6 days ago

Vision-DeepResearch Benchmark: Rethinking Visual and Textual Search for Multimodal Large Language Models

upvoted a paper 6 days ago

Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models

upvoted a paper 25 days ago

DeepResearchEval: An Automated Framework for Deep Research Task Construction and Agentic Evaluation

View all activity

Organizations

None yet

upvoted 2 papers 6 days ago

Vision-DeepResearch Benchmark: Rethinking Visual and Textual Search for Multimodal Large Language Models

Paper • 2602.02185 • Published 6 days ago • 124

Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models

Paper • 2601.22060 • Published 10 days ago • 149

upvoted a paper 25 days ago

DeepResearchEval: An Automated Framework for Deep Research Task Construction and Agentic Evaluation

Paper • 2601.09688 • Published 25 days ago • 126

upvoted a paper 26 days ago

Stochastic CHAOS: Why Deterministic Inference Kills, and Distributional Variability Is the Heartbeat of Artifical Cognition

Paper • 2601.07239 • Published 28 days ago • 3

upvoted a collection 26 days ago

VisionLM

Collection

1884 items • Updated 27 days ago • 144

upvoted a paper 26 days ago

Watching, Reasoning, and Searching: A Video Deep Research Benchmark on Open Web for Agentic Video Reasoning

Paper • 2601.06943 • Published 28 days ago • 210

upvoted 3 papers about 1 month ago

UniCorn: Towards Self-Improving Unified Multimodal Models through Self-Generated Supervision

Paper • 2601.03193 • Published Jan 6 • 46

DreamOmni3: Scribble-based Editing and Generation

Paper • 2512.22525 • Published Dec 27, 2025 • 15

Emu3: Next-Token Prediction is All You Need

Paper • 2409.18869 • Published Sep 27, 2024 • 97

upvoted 5 papers about 2 months ago

Active Intelligence in Video Avatars via Closed-loop World Modeling

Paper • 2512.20615 • Published Dec 23, 2025 • 9

EgoX: Egocentric Video Generation from a Single Exocentric Video

Paper • 2512.08269 • Published Dec 9, 2025 • 119

Alchemist: Unlocking Efficiency in Text-to-Image Model Training via Meta-Gradient Data Selection

Paper • 2512.16905 • Published Dec 18, 2025 • 32

IC-Effect: Precise and Efficient Video Effects Editing via In-Context Learning

Paper • 2512.15635 • Published Dec 17, 2025 • 20

Tool-Augmented Spatiotemporal Reasoning for Streamlining Video Question Answering Task

Paper • 2512.10359 • Published Dec 11, 2025 • 4

upvoted 6 papers 2 months ago

Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion Transformer

Paper • 2511.22699 • Published Nov 27, 2025 • 236

DualVLA: Building a Generalizable Embodied Agent via Partial Decoupling of Reasoning and Action

Paper • 2511.22134 • Published Nov 27, 2025 • 22

Zhen Fang

AI & ML interests

Recent Activity

Organizations

CostaliyA's activity