Spaces:

uc-ctds
/

GDC-QAG

Sleeping

App Files Files Community

aatu18 commited on Aug 12, 2025

Commit

81d7e97

verified ·

1 Parent(s): 5bf77b4

minor updates to results colnames, remove unwanted prints

Browse files

Files changed (1) hide show

app.py +11 -14

app.py CHANGED Viewed

@@ -122,7 +122,7 @@ def infer_user_intent(query):
 # function to combine entities, intent and API call
 def construct_and_execute_api_call(query):
-    print("query:\n{}\n".format(query))
     # Infer entities
     initial_cancer_entities = utilities.return_initial_cancer_entities(
         query, model="en_ner_bc5cdr_md"
@@ -188,9 +188,9 @@ def generate_response(modified_query):
 def batch_test(query):
     modified_query = utilities.construct_modified_query_base_llm(query)
-    print(f"modified_query is: {modified_query}")
     llama_base_output = generate_response(modified_query)
-    print(f"llama_base_output: {llama_base_output}")
     try:
         result = construct_and_execute_api_call(query)
     except Exception as e:
@@ -229,7 +229,7 @@ def get_prefinal_response(row):
     except Exception as e:
         print(f"unable to retrieve query: {query} or helper_output: {helper_output}")
     modified_query = utilities.construct_modified_query(query, helper_output)
-    print('generate LLM response')
     prefinal_llama_with_helper_output = generate_response(modified_query)
     return pd.Series([modified_query, prefinal_llama_with_helper_output])
@@ -237,12 +237,9 @@ def get_prefinal_response(row):
 def execute_pipeline(question: str):
     df = pd.DataFrame({"questions": [question]})
     print(f"Question received: {question}")
-    print("starting pipeline")
-    print("CUDA available:", torch.cuda.is_available())
     print("CUDA device name:", torch.cuda.get_device_name(0))
     # queries input file
-    print(f"running test on input {df}")
     df[
         [
             "llama_base_output",
@@ -273,12 +270,12 @@ def execute_pipeline(question: str):
         ]
     ] = df_exploded.apply(lambda x: utilities.postprocess_response(x), axis=1)
     final_columns = utilities.get_final_columns()
-    result = df_exploded[final_columns]
     result.rename(
         columns={
             "llama_base_output": "llama-3B baseline output",
             "modified_prompt": "Query augmented prompt",
-            "helper_output": "Processed GDC API result",
             "ground_truth_stat": "Ground truth frequency from GDC",
             "llama_base_stat": "llama-3B baseline frequency",
             "delta_llama": "llama-3B frequency - Ground truth frequency",
@@ -291,7 +288,7 @@ def execute_pipeline(question: str):
         },
         inplace=True,
     )
-    result.index = ["QAG pipeline results"] * len(result)
     print("completed")
     print("writing result string now")
@@ -300,10 +297,10 @@ def execute_pipeline(question: str):
     result_string = ""
-    result_string += f"Question: {result['QAG pipeline results']['Question']}\n"
-    result_string += f"llama-3B baseline output: {result['QAG pipeline results']['llama-3B baseline frequency']}%\n"
-    result_string += f"Query augmented prompt: {result['QAG pipeline results']['Query augmented prompt']}"
-    result_string += f"Query augmented generation: {result['QAG pipeline results']['Query augmented generation']}"
     return result_string

 # function to combine entities, intent and API call
 def construct_and_execute_api_call(query):
+    print("starting GDC-QAG on query:\n{}\n".format(query))
     # Infer entities
     initial_cancer_entities = utilities.return_initial_cancer_entities(
         query, model="en_ner_bc5cdr_md"
 def batch_test(query):
     modified_query = utilities.construct_modified_query_base_llm(query)
+    print(f"Obtain baseline llama-3B response on modified query: {modified_query}")
     llama_base_output = generate_response(modified_query)
+    print(f"llama-3B baseline response: {llama_base_output}")
     try:
         result = construct_and_execute_api_call(query)
     except Exception as e:
     except Exception as e:
         print(f"unable to retrieve query: {query} or helper_output: {helper_output}")
     modified_query = utilities.construct_modified_query(query, helper_output)
+    print('generate LLM response on query augmented prompt')
     prefinal_llama_with_helper_output = generate_response(modified_query)
     return pd.Series([modified_query, prefinal_llama_with_helper_output])
 def execute_pipeline(question: str):
     df = pd.DataFrame({"questions": [question]})
     print(f"Question received: {question}")
     print("CUDA device name:", torch.cuda.get_device_name(0))
     # queries input file
     df[
         [
             "llama_base_output",
         ]
     ] = df_exploded.apply(lambda x: utilities.postprocess_response(x), axis=1)
     final_columns = utilities.get_final_columns()
+    result = df_exploded[final_columns].copy()
     result.rename(
         columns={
             "llama_base_output": "llama-3B baseline output",
             "modified_prompt": "Query augmented prompt",
+            "helper_output": "GDC Result",
             "ground_truth_stat": "Ground truth frequency from GDC",
             "llama_base_stat": "llama-3B baseline frequency",
             "delta_llama": "llama-3B frequency - Ground truth frequency",
         },
         inplace=True,
     )
+    result.index = ["GDC-QAG results"] * len(result)
     print("completed")
     print("writing result string now")
     result_string = ""
+    result_string += f"Question: {result['GDC-QAG results']['Question']}\n"
+    result_string += f"llama-3B baseline output: {result['GDC-QAG results']['llama-3B baseline frequency']}%\n"
+    result_string += f"Query augmented prompt: {result['GDC-QAG results']['Query augmented prompt']}"
+    result_string += f"Query augmented generation: {result['GDC-QAG results']['Query augmented generation']}"
     return result_string