113 271

Mwangi PRO

Benson

AI & ML interests

None yet

Recent Activity

upvoted a paper about 4 hours ago

Bernini: Latent Semantic Planning for Video Diffusion

liked a Space 2 days ago

akhaliq/LocateAnything

upvoted a paper 3 days ago

OmniRetrieval: Unified Retrieval across Heterogeneous Knowledge Sources

View all activity

Organizations

None yet

upvoted a paper about 4 hours ago

Bernini: Latent Semantic Planning for Video Diffusion

Paper • 2605.22344 • Published 12 days ago • 14

liked a Space 2 days ago

LocateAnything

💬

Detect and annotate objects in images or videos

upvoted a paper 3 days ago

OmniRetrieval: Unified Retrieval across Heterogeneous Knowledge Sources

Paper • 2605.29250 • Published 5 days ago • 70

upvoted 3 papers 5 days ago

Gemini Embedding 2: A Native Multimodal Embedding Model from Gemini

Paper • 2605.27295 • Published 7 days ago • 20

LongAV-Compass: Towards Unified Evaluation of Minute-Scale Audio-Visual Generation Across T2AV, I2AV, and V2AV

Paper • 2605.26244 • Published 8 days ago • 37

LocateAnything: Fast and High-Quality Vision-Language Grounding with Parallel Box Decoding

Paper • 2605.27365 • Published 7 days ago • 130

liked a model 6 days ago

avaturn-live/avtr-1

Image-to-Video • Updated 1 day ago • 305 • 22

liked a model 10 days ago

meituan-longcat/LongCat-Video-Avatar-1.5

Updated about 17 hours ago • 464

upvoted a paper 13 days ago

Lance: Unified Multimodal Modeling by Multi-Task Synergy

Paper • 2605.18678 • Published 15 days ago • 77

liked a dataset 14 days ago

phylobio/BiomniBench-DA

Updated 13 days ago • 1.75k • 12

upvoted a paper 16 days ago

APRES: An Agentic Paper Revision and Evaluation System

Paper • 2603.03142 • Published Mar 3 • 3

liked a model 18 days ago

jinaai/jina-embeddings-v5-omni-small

Feature Extraction • 2B • Updated 5 days ago • 134k • 65

upvoted a paper 18 days ago

EgoMemReason: A Memory-Driven Reasoning Benchmark for Long-Horizon Egocentric Video Understanding

Paper • 2605.09874 • Published 22 days ago • 2

upvoted a paper 19 days ago

jina-embeddings-v5-omni: Text-Geometry-Preserving Multimodal Embeddings via Frozen-Tower Composition

Paper • 2605.08384 • Published 25 days ago • 11

upvoted a collection 20 days ago

jina-embeddings-v5-omni

Collection

Multimodal (text + image + video + audio) embedding models aligned with jina-embeddings-v5-text-*. Two sizes, four task variants each. • 27 items • Updated 20 days ago • 36

upvoted a paper 20 days ago

CollabVR: Collaborative Video Reasoning with Vision-Language and Video Generation Models

Paper • 2605.08735 • Published 24 days ago • 70

upvoted a paper 22 days ago

SkillOS: Learning Skill Curation for Self-Evolving Agents

Paper • 2605.06614 • Published 26 days ago • 46

liked a model 24 days ago

hao9610/X2SAM

Updated 27 days ago • 4

liked a dataset 24 days ago

yifanzhang114/MM-RLHF

Viewer • Updated Apr 21, 2025 • 16.3k • 336 • 14

liked a model about 1 month ago

nvidia/Cosmos-Reason2-32B

Image-Text-to-Text • 33B • Updated Apr 30 • 8.86k • 12

Mwangi PRO

AI & ML interests

Recent Activity

Organizations

Benson's activity

LocateAnything