Spaces:

mib-bench
/

leaderboard

Running

App Files Files Community

Aaron Mueller commited on Jan 31

Commit

7086c8a

1 Parent(s): 3a309c3

formatting/filtering for causal variable

Browse files

Files changed (6) hide show

app.py +56 -14
src/__pycache__/about.cpython-310.pyc +0 -0
src/__pycache__/populate.cpython-310.pyc +0 -0
src/about.py +4 -1
src/display/__pycache__/utils.cpython-310.pyc +0 -0
src/leaderboard/__pycache__/read_evals.cpython-310.pyc +0 -0

app.py CHANGED Viewed

@@ -38,7 +38,7 @@ from src.populate import get_evaluation_queue_df, get_leaderboard_df, get_leader
 from src.submission.submit import add_new_eval
-from src.about import TasksMib_Subgraph
 # class SmartSelectColumns(SelectColumns):
 #     """
@@ -389,21 +389,47 @@ def init_leaderboard_mib_causalgraph(dataframe, track):
     # print("Debugging column issues:")
     # print("\nActual DataFrame columns:")
     # print(dataframe.columns.tolist())
     # Create only necessary columns
     return Leaderboard(
-        value=dataframe,
         datatype=[c.type for c in fields(AutoEvalColumn_mib_causalgraph)],
-        select_columns=SelectColumns(
-            default_selection=["Method"],  # Start with just Method column
-            cant_deselect=["Method"],      # Method column should always be visible
-            label="Select Columns to Display:",
-        ),
         search_columns=["Method"],
-        hide_columns=[],
         bool_checkboxgroup_label="Hide models",
         interactive=False,
-    )
 def init_leaderboard(dataframe, track):
@@ -497,7 +523,7 @@ with demo:
         # with gr.TabItem("Subgraph", elem_id="subgraph", id=0):
         #     leaderboard = init_leaderboard_mib_subgraph(LEADERBOARD_DF_MIB_SUBGRAPH, "Subgraph")
-        with gr.TabItem("Subgraph", elem_id="subgraph", id=0):
             with gr.Tabs() as subgraph_tabs:
                 with gr.TabItem("F+", id=0):
                     # Add description for filters
@@ -545,20 +571,36 @@ with demo:
                     print(f"Leaderboard is {leaderboard}")
         # Then modify the Causal Graph tab section
-        with gr.TabItem("Causal Graph", elem_id="causalgraph", id=1):
             with gr.Tabs() as causalgraph_tabs:
                 with gr.TabItem("Detailed View", id=0):
-                    leaderboard_detailed = init_leaderboard_mib_causalgraph(
                         LEADERBOARD_DF_MIB_CAUSALGRAPH_DETAILED,
                         "Causal Graph"
                     )
                 with gr.TabItem("Aggregated View", id=1):
-                    leaderboard_aggregated = init_leaderboard_mib_causalgraph(
                         LEADERBOARD_DF_MIB_CAUSALGRAPH_AGGREGATED,
                         "Causal Graph"
                     )
                 with gr.TabItem("Intervention Averaged", id=2):
-                    leaderboard_averaged = init_leaderboard_mib_causalgraph(
                         LEADERBOARD_DF_MIB_CAUSALGRAPH_AVERAGED,
                         "Causal Graph"
                     )

 from src.submission.submit import add_new_eval
+from src.about import TasksMib_Subgraph, TasksMib_Causalgraph
 # class SmartSelectColumns(SelectColumns):
 #     """
     # print("Debugging column issues:")
     # print("\nActual DataFrame columns:")
     # print(dataframe.columns.tolist())
+    model_name_mapping = {
+        "Qwen2ForCausalLM": "Qwen-2.5",
+        "GPT2ForCausalLM": "GPT-2",
+        "Gemma2ForCausalLM": "Gemma-2",
+        "LlamaForCausalLM": "Llama-3.1"
+    }
+    benchmark_mapping = {
+        "IOI": "IOI",
+        "MCQA": "MCQA",
+        "arithmetic_addition": "Arithmetic (+)",
+        "arithmetic_subtraction": "Arithmetic (-)",
+        "arc_easy": "ARC (Easy)",
+        "arc_challenge": "ARC (Challenge)"
+    }
+    display_mapping = {}
+    for task in TasksMib_Causalgraph:
+        for model in task.value.models:
+            field_name = f"{task.value.col_name}_{model}"
+            display_name = f"{benchmark_mapping[task.value.col_name]} - {model_name_mapping[model]}"
+            display_mapping[field_name] = display_name
+    # print(dataframe)
+    renamed_df = dataframe.rename(columns=display_mapping)
     # Create only necessary columns
     return Leaderboard(
+        value=renamed_df,
         datatype=[c.type for c in fields(AutoEvalColumn_mib_causalgraph)],
+        # select_columns=SelectColumns(
+        #     default_selection=["Method"],  # Start with just Method column
+        #     cant_deselect=["Method"],      # Method column should always be visible
+        #     label="Select Columns to Display:",
+        # ),
         search_columns=["Method"],
+        hide_columns=["eval_name"],
         bool_checkboxgroup_label="Hide models",
         interactive=False,
+    ), renamed_df
 def init_leaderboard(dataframe, track):
         # with gr.TabItem("Subgraph", elem_id="subgraph", id=0):
         #     leaderboard = init_leaderboard_mib_subgraph(LEADERBOARD_DF_MIB_SUBGRAPH, "Subgraph")
+        with gr.TabItem("Circuit Localization", elem_id="subgraph", id=0):
             with gr.Tabs() as subgraph_tabs:
                 with gr.TabItem("F+", id=0):
                     # Add description for filters
                     print(f"Leaderboard is {leaderboard}")
         # Then modify the Causal Graph tab section
+        with gr.TabItem("Causal Variable Localization", elem_id="causalgraph", id=1):
             with gr.Tabs() as causalgraph_tabs:
                 with gr.TabItem("Detailed View", id=0):
+                    leaderboard_detailed, data = init_leaderboard_mib_causalgraph(
                         LEADERBOARD_DF_MIB_CAUSALGRAPH_DETAILED,
                         "Causal Graph"
                     )
                 with gr.TabItem("Aggregated View", id=1):
+                    gr.Markdown("""
+                    ### Filtering Options
+                    Use the dropdown menus below to filter results by specific tasks or models.
+                    You can combine filters to see specific task-model combinations.
+                    """)
+                    substring_checkbox = gr.CheckboxGroup(
+                        choices=PRESET_SUBSTRINGS,
+                        label="Filter results:",
+                        value=PRESET_SUBSTRINGS,  # Default to all substrings selected
+                    )
+                    leaderboard_aggregated, data = init_leaderboard_mib_causalgraph(
                         LEADERBOARD_DF_MIB_CAUSALGRAPH_AGGREGATED,
                         "Causal Graph"
                     )
+                    original_leaderboard = gr.State(value=data)
+                    substring_checkbox.change(
+                        fn=update_leaderboard,
+                        inputs=[original_leaderboard, substring_checkbox],
+                        outputs=leaderboard_aggregated
+                    )
                 with gr.TabItem("Intervention Averaged", id=2):
+                    leaderboard_averaged, data = init_leaderboard_mib_causalgraph(
                         LEADERBOARD_DF_MIB_CAUSALGRAPH_AVERAGED,
                         "Causal Graph"
                     )

src/__pycache__/about.cpython-310.pyc CHANGED Viewed

Binary files a/src/__pycache__/about.cpython-310.pyc and b/src/__pycache__/about.cpython-310.pyc differ

src/__pycache__/populate.cpython-310.pyc CHANGED Viewed

Binary files a/src/__pycache__/populate.cpython-310.pyc and b/src/__pycache__/populate.cpython-310.pyc differ

src/about.py CHANGED Viewed

@@ -98,7 +98,10 @@ class TaskMIB_Causalgraph:
     metrics: list[str]  # metrics to store (average_score)
 class TasksMib_Causalgraph(Enum):
-    task0 = TaskMIB_Subgraph("mcqa", ["Qwen2ForCausalLM", "Gemma2ForCausalLM", "LlamaForCausalLM"], "MCQA", ["average_score"])
     @classmethod
     def get_all_tasks(cls):

     metrics: list[str]  # metrics to store (average_score)
 class TasksMib_Causalgraph(Enum):
+    task0 = TaskMIB_Subgraph("ioi", ["GPT2ForCausalLM"], "IOI", ["average_score"])
+    task1 = TaskMIB_Subgraph("mcqa", ["Qwen2ForCausalLM", "Gemma2ForCausalLM", "LlamaForCausalLM"], "MCQA", ["average_score"])
+    task2 = TaskMIB_Subgraph("arithmetic_addition", ["Gemma2ForCausalLM", "LlamaForCausalLM"], "arithmetic_addition", ["average_score"])
+    task3 = TaskMIB_Subgraph("arc_easy", ["Gemma2ForCausalLM", "LlamaForCausalLM"], "arc_easy", ["average_score"])
     @classmethod
     def get_all_tasks(cls):

src/display/__pycache__/utils.cpython-310.pyc CHANGED Viewed

Binary files a/src/display/__pycache__/utils.cpython-310.pyc and b/src/display/__pycache__/utils.cpython-310.pyc differ

src/leaderboard/__pycache__/read_evals.cpython-310.pyc CHANGED Viewed

Binary files a/src/leaderboard/__pycache__/read_evals.cpython-310.pyc and b/src/leaderboard/__pycache__/read_evals.cpython-310.pyc differ