EvalEval Bot's picture

EvalEval Bot

EvalEvalBot

·

AI & ML interests

None yet

Recent Activity

new activity about 6 hours ago

evaleval/EEE_datastore:Normalize schema versions to 0.2.2 and backfill canonical identity

new activity 1 day ago

evaleval/EEE_datastore:[ACL Shared Task] Add Multi-SWE-Bench and SWE-PolyBench leaderboard data

new activity 4 days ago

evaleval/EEE_datastore:Add alphaXiv SOTA evaluations (27,976 records, 1,646 benchmarks)

View all activity

Organizations

New activity in evaleval/EEE_datastore about 6 hours ago

Normalize schema versions to 0.2.2 and backfill canonical identity

#74 opened about 6 hours ago by

New activity in evaleval/EEE_datastore 1 day ago

[ACL Shared Task] Add Multi-SWE-Bench and SWE-PolyBench leaderboard data

#72 opened 1 day ago by

New activity in evaleval/EEE_datastore 4 days ago

Add alphaXiv SOTA evaluations (27,976 records, 1,646 benchmarks)

#26 opened 2 months ago by

Add AlpacaEval 1.0 and 2.0 leaderboard data (324 models)

#65 opened 7 days ago by

Add HELM AIR-Bench v1.16.0 results

#70 opened 6 days ago by

updated a dataset 4 days ago

evaleval/EEE_datastore

Viewer • Updated 4 days ago • 11.6k • 2.76k • 19

New activity in evaleval/EEE_datastore 5 days ago

[Submission] Fix win_rate scale (0-1) and merge Fibble variants into composite benchmark

#71 opened 5 days ago by

New activity in evaleval/EEE_datastore 6 days ago

[ACL Shared Task] Add AlpacaEval 1.0 and 2.0 leaderboard data (324 models)

#69 opened 6 days ago by

[ACL Shared Task] Add SWE-bench Verified official leaderboard data

#63 opened 8 days ago by

New activity in evaleval/EEE_datastore 7 days ago

[ACL Shared Task] Add BountyBench (DetectWorkflow) evaluation results

#67 opened 7 days ago by

Add HELM Capabilities v1.15.0 results

#64 opened 7 days ago by

New activity in evaleval/EEE_datastore 10 days ago

[ACL Shared Task] Add Artificial Analysis LLM results

#62 opened 10 days ago by

New activity in evaleval/EEE_datastore 12 days ago

[ACL Shared Task] Add Arcadia Impact Inspect evaluation results

#57 opened 14 days ago by

New activity in evaleval/EEE_datastore 13 days ago

Parquet for dataset viewer

#59 opened 13 days ago by

Generating Parquets

#58 opened 13 days ago by

[ACL Shared Task] Add ARC-AGI leaderboard results

#55 opened 21 days ago by

New activity in evaleval/EEE_datastore 14 days ago

[ACL Shared Task] Add SciArena leaderboard results

#54 opened 22 days ago by

[ACL Shared Task] Add Wordle Arena & Fibble Arena evaluation results

#35 opened about 1 month ago by

New activity in evaleval/EEE_datastore 15 days ago

[ACL Shared Task] Add BFCL leaderboard results

#56 opened 21 days ago by

New activity in evaleval/EEE_datastore 23 days ago

Upload Theory of Mind

#53 opened 23 days ago by