In a Training Loop 🔄

Nuo Xu

Norm

https://normxu.github.io/

AI & ML interests

Video Diffusion; Large Language Model; Object Detection; OCR

Recent Activity

authored a paper about 24 hours ago

MMDuet2: Enhancing Proactive Interaction of Video MLLMs with Multi-Turn Reinforcement Learning

liked a dataset 6 days ago

facebook/wearable-ai

liked a model 12 days ago

nvidia/LocateAnything-3B

View all activity

Organizations

Collections 9

View 9 collections

Papers 2

arxiv:2512.06810

arxiv:2504.07491

models 2

Norm/nougat-latex-base

Image-to-Text • 0.3B • Updated Feb 26, 2024 • 1.94k • 82

Norm/ERNIE-Layout-Pytorch

Updated Nov 14, 2023 • 396 • 16

datasets 0

None public yet

Nuo Xu

AI & ML interests

Recent Activity

Organizations

Collections 9

WF-VAE: Enhancing Video VAE by Wavelet-Driven Energy Flow for Latent Video Diffusion Model

MAGVIT: Masked Generative Video Transformer

Language Model Beats Diffusion -- Tokenizer is Key to Visual Generation

Finite Scalar Quantization: VQ-VAE Made Simple

Semantic Image Inversion and Editing using Rectified Stochastic Differential Equations

WF-VAE: Enhancing Video VAE by Wavelet-Driven Energy Flow for Latent Video Diffusion Model

MAGVIT: Masked Generative Video Transformer

Language Model Beats Diffusion -- Tokenizer is Key to Visual Generation

Finite Scalar Quantization: VQ-VAE Made Simple

Semantic Image Inversion and Editing using Rectified Stochastic Differential Equations

Papers 2

models 2

Norm/nougat-latex-base

Norm/ERNIE-Layout-Pytorch

datasets 0

Nuo Xu

AI & ML interests

Recent Activity

Organizations

Collections 9

Papers 2

models 2 Sort: Recently updated

datasets 0

models 2