Spaces:

ehagey
/

LLM_Healthcare_Benchmarking

Running

App Files Files Community

ehagey commited on 1 day ago

Commit

f5c4a1c

verified ·

1 Parent(s): 0dd6bfb

Update app.py

Browse files

Files changed (1) hide show

app.py +20 -13

app.py CHANGED Viewed

@@ -125,7 +125,7 @@ def load_dataset_by_name(dataset_name, split="train"):
     retry=retry_if_exception_type(Exception)
 )
-def get_model_response(question, options, prompt_template, model_name):
     with semaphore:
         try:
             model_config = MODELS[model_name]
@@ -135,23 +135,21 @@ def get_model_response(question, options, prompt_template, model_name):
             provider = model_config["provider"]
             if provider == "togetherai":
-                response = st.session_state.togetherai_client.chat.completions.create(
                             model=model_config["model_id"],
                             messages=[{"role": "user", "content": prompt}]
                             )
                 response_text = response.choices[0].message.content.strip()
             elif provider == "openai":
-                response = st.session_state.openai_client.chat.completions.create(
                         model=model_config["model_id"],
-                        messages=[{
-                            "role": "user",
-                            "content": prompt}]
                     )
                 response_text = response.choices[0].message.content.strip()
             elif provider == "anthropic":
-                response = st.session_state.anthropic_client.messages.create(
                 model=model_config["model_id"],
                 messages=[{"role": "user", "content": prompt}],
                 max_tokens=4096
@@ -189,12 +187,13 @@ def evaluate_response(model_response, correct_answer):
     is_correct = model_response.lower().strip() == correct_answer.lower().strip()
     return is_correct
-def process_single_evaluation(question, prompt_template, model_name):
     answer, response_text = get_model_response(
         question['question'],
         question['options'],
         prompt_template,
-        model_name
     )
     is_correct = evaluate_response(answer, question['correct_answer'])
     return {
@@ -210,7 +209,7 @@ def process_single_evaluation(question, prompt_template, model_name):
         'model_name': model_name
     }
-def process_evaluations_concurrently(questions, prompt_template, models_to_evaluate, progress_callback):
     results = []
     total_iterations = len(models_to_evaluate) * len(questions)
     current_iteration = 0
@@ -219,7 +218,7 @@ def process_evaluations_concurrently(questions, prompt_template, models_to_evalu
         future_to_params = {}
         for model_name in models_to_evaluate:
             for question in questions:
-                future = executor.submit(process_single_evaluation, question, prompt_template, model_name)
                 future_to_params[future] = (model_name, question)
         for future in as_completed(future_to_params):
@@ -318,6 +317,13 @@ Important:
         with st.spinner("Starting evaluation..."):
             selected_questions = questions[:num_questions]
             progress_container = st.container()
             progress_bar = progress_container.progress(0)
             status_text = progress_container.empty()
@@ -326,12 +332,13 @@ Important:
                 progress = current / total
                 progress_bar.progress(progress)
                 status_text.text(f"Progress: {current}/{total} evaluations completed")
             results = process_evaluations_concurrently(
                 selected_questions,
                 prompt_template,
                 models_to_evaluate,
-                update_progress
             )
         all_results = {}

     retry=retry_if_exception_type(Exception)
 )
+def get_model_response(question, options, prompt_template, model_name, clients):
     with semaphore:
         try:
             model_config = MODELS[model_name]
             provider = model_config["provider"]
             if provider == "togetherai":
+                response = clients["togetherai"].chat.completions.create(
                             model=model_config["model_id"],
                             messages=[{"role": "user", "content": prompt}]
                             )
                 response_text = response.choices[0].message.content.strip()
             elif provider == "openai":
+                response = clients["openai"].chat.completions.create(
                         model=model_config["model_id"],
+                        messages=[{"role": "user", "content": prompt}]
                     )
                 response_text = response.choices[0].message.content.strip()
             elif provider == "anthropic":
+                response = clients["anthropic"].messages.create(
                 model=model_config["model_id"],
                 messages=[{"role": "user", "content": prompt}],
                 max_tokens=4096
     is_correct = model_response.lower().strip() == correct_answer.lower().strip()
     return is_correct
+def process_single_evaluation(question, prompt_template, model_name, clients):
     answer, response_text = get_model_response(
         question['question'],
         question['options'],
         prompt_template,
+        model_name,
+        clients
     )
     is_correct = evaluate_response(answer, question['correct_answer'])
     return {
         'model_name': model_name
     }
+def process_evaluations_concurrently(questions, prompt_template, models_to_evaluate, progress_callback, clients):
     results = []
     total_iterations = len(models_to_evaluate) * len(questions)
     current_iteration = 0
         future_to_params = {}
         for model_name in models_to_evaluate:
             for question in questions:
+                future = executor.submit(process_single_evaluation, question, prompt_template, model_name, clients)
                 future_to_params[future] = (model_name, question)
         for future in as_completed(future_to_params):
         with st.spinner("Starting evaluation..."):
             selected_questions = questions[:num_questions]
+            # Create a clients dictionary
+            clients = {
+                "togetherai": st.session_state["togetherai_client"],
+                "openai": st.session_state["openai_client"],
+                "anthropic": st.session_state["anthropic_client"]
+            }
             progress_container = st.container()
             progress_bar = progress_container.progress(0)
             status_text = progress_container.empty()
                 progress = current / total
                 progress_bar.progress(progress)
                 status_text.text(f"Progress: {current}/{total} evaluations completed")
             results = process_evaluations_concurrently(
                 selected_questions,
                 prompt_template,
                 models_to_evaluate,
+                update_progress,
+                clients
             )
         all_results = {}