森優奈's picture

森優奈

sebbaker

AI & ML interests

None yet

Recent Activity

liked a model 3 days ago

google/electra-base-discriminator

upvoted a paper 3 days ago

AutoMedBench: Towards Medical AutoResearch with Agentic AI Models

upvoted a paper 5 days ago

CausaLab: A Scalable Environment for Interactive Causal Discovery Toward AI Scientists

View all activity

Organizations

None yet

upvoted a paper 3 days ago

AutoMedBench: Towards Medical AutoResearch with Agentic AI Models

Paper • 2606.01961 • Published 6 days ago • 25

upvoted a paper 5 days ago

CausaLab: A Scalable Environment for Interactive Causal Discovery Toward AI Scientists

Paper • 2605.26029 • Published 10 days ago • 18

upvoted a paper 7 days ago

HINT-SD: Targeted Hindsight Self-Distillation for Long-Horizon Agents

Paper • 2605.17873 • Published 20 days ago • 12

upvoted a paper 10 days ago

OpenComputer: Verifiable Software Worlds for Computer-Use Agents

Paper • 2605.19769 • Published 19 days ago • 81

upvoted a paper 16 days ago

Video2GUI: Synthesizing Large-Scale Interaction Trajectories for Generalized GUI Agent Pretraining

Paper • 2605.14747 • Published 24 days ago • 145

upvoted a paper 17 days ago

Anti-Self-Distillation for Reasoning RL via Pointwise Mutual Information

Paper • 2605.11609 • Published 26 days ago • 195

upvoted a paper 26 days ago

HiL-Bench (Human-in-Loop Benchmark): Do Agents Know When to Ask for Help?

Paper • 2604.09408 • Published Apr 29 • 5

upvoted 3 papers about 1 month ago

Parameter-Efficient Multi-View Proficiency Estimation: From Discriminative Classification to Generative Feedback

Paper • 2605.03848 • Published May 5 • 6

Heterogeneous Scientific Foundation Model Collaboration

Paper • 2604.27351 • Published Apr 30 • 218

LLaDA2.0-Uni: Unifying Multimodal Understanding and Generation with Diffusion Large Language Model

Paper • 2604.20796 • Published Apr 22 • 243

upvoted 6 papers about 2 months ago

GameWorld: Towards Standardized and Verifiable Evaluation of Multimodal Game Agents

Paper • 2604.07429 • Published Apr 8 • 121

Adam's Law: Textual Frequency Law on Large Language Models

Paper • 2604.02176 • Published Apr 2 • 506

ClawBench: Can AI Agents Complete Everyday Online Tasks?

Paper • 2604.08523 • Published Apr 9 • 263

MegaStyle: Constructing Diverse and Scalable Style Dataset via Consistent Text-to-Image Style Mapping

Paper • 2604.08364 • Published Apr 9 • 101

GrandCode: Achieving Grandmaster Level in Competitive Programming via Agentic Reinforcement Learning

Paper • 2604.02721 • Published Apr 3 • 632

QiMeng-PRepair: Precise Code Repair via Edit-Aware Reward Optimization

Paper • 2604.05963 • Published Apr 7 • 8

upvoted 3 papers 3 months ago

Efficient Reasoning with Balanced Thinking

Paper • 2603.12372 • Published Mar 12 • 151

Demystifing Video Reasoning

Paper • 2603.16870 • Published Mar 17 • 373

Does Your Reasoning Model Implicitly Know When to Stop Thinking?

Paper • 2602.08354 • Published Feb 9 • 266