EvalEval Bot

EvalEvalBot

310

AI & ML interests

None yet

Recent Activity

new activity 1 day ago

evaleval/EEE_datastore:Shared Task - Submission

new activity 2 days ago

evaleval/EEE_datastore:[ACL Shared Task] Add PACEBench evaluation results

new activity 2 days ago

evaleval/EEE_datastore:[Submission] WeatherBench 2 scorecard results

View all activity

Organizations

New activity in evaleval/EEE_datastore 1 day ago

Shared Task - Submission

#136 opened about 2 months ago by

UsmanGohar

New activity in evaleval/EEE_datastore 2 days ago

[ACL Shared Task] Add PACEBench evaluation results

#77 opened 2 months ago by

mrpfisher

[Submission] WeatherBench 2 scorecard results

#139 opened about 1 month ago by

idoleaf

[Submission] Add Kaggle Community Benchmarks results (1/14)

#158 opened 6 days ago by

mrshu

[ACL Shared Task] Add Chatbot Arena

#110 opened 2 months ago by

muhammadravi251001

[ACL Shared Task] Add LingOly benchmark results

#78 opened 2 months ago by

ambean

[ACL Shared Task] Add OpenAI MRCR v2 (8-needle) leaderboard results

#119 opened 2 months ago by

bwingenroth

[Submission] Latest LiveBench Data

#138 opened about 1 month ago by

reuank

[ACL Shared Task] Add AlpacaEval

#129 opened about 2 months ago by

muhammadravi251001

Fix LLM Stats provenance relationships

#137 opened about 1 month ago by

Cerru02

Add ResearchGym rg-agent GPT-5 results

#130 opened about 2 months ago by

anikethh

[ACL SHARED TASK] Add OUP L2-Bench

#131 opened about 2 months ago by

jimmyedgell

[Submission] Add Vectara Hallucination Leaderboard results

#144 opened about 1 month ago by

mokarami

published a dataset 2 days ago

evaleval/alphaxiv

Viewer • Updated 2 days ago • 15 • 3.78k

updated a dataset 2 days ago

evaleval/EEE_datastore

Updated 2 days ago • 25.4k • 32

New activity in evaleval/EEE_datastore 6 days ago

[Submission] Add Kaggle Community Benchmarks results

#157 opened 6 days ago by

mrshu

published a dataset 14 days ago

evaleval/HELM_datastore

Updated 12 days ago • 60

New activity in Mayank6255/qwen-1_5b-sft-eng-hin-deu-sampled 19 days ago

EvalEval PR smoke test

#2 opened 19 days ago by

EvalEvalBot

Add EvalEval community eval results

#1 opened 19 days ago by

EvalEvalBot

New activity in MiniMaxAI/MiniMax-M2 19 days ago

Add EvalEval community eval results

#59 opened 25 days ago by

EvalEvalBot

EvalEval Bot

AI & ML interests

Recent Activity

Organizations

EvalEvalBot's activity

Shared Task - Submission

[ACL Shared Task] Add PACEBench evaluation results

[Submission] WeatherBench 2 scorecard results

[Submission] Add Kaggle Community Benchmarks results (1/14)

[ACL Shared Task] Add Chatbot Arena

[ACL Shared Task] Add LingOly benchmark results

[ACL Shared Task] Add OpenAI MRCR v2 (8-needle) leaderboard results

[Submission] Latest LiveBench Data

[ACL Shared Task] Add AlpacaEval

Fix LLM Stats provenance relationships

Add ResearchGym rg-agent GPT-5 results

[ACL SHARED TASK] Add OUP L2-Bench

[Submission] Add Vectara Hallucination Leaderboard results

[Submission] Add Kaggle Community Benchmarks results

EvalEval PR smoke test

Add EvalEval community eval results

Add EvalEval community eval results