Spaces:

rahgadda
/

chatwithum

Sleeping

App Files Files Community

chatwithum / app.py

rahgadda

Initial Draft

7c59a24 verified 10 months ago

raw

history blame contribute delete

8.89 kB

	import os
	import re
	import streamlit as st
	import google.generativeai as genai
	from dotenv import load_dotenv

	from langchain_community.document_loaders import TextLoader
	from langchain_community.document_loaders import PyPDFLoader
	from langchain.docstore.document import Document
	from langchain import PromptTemplate
	from langchain_google_genai import ChatGoogleGenerativeAI

	# Loading Google Gemini API Key from Environment Variables
	load_dotenv()
	genai.configure(api_key=os.getenv("GOOGLE_API_KEY"))

	# Display user Error, Warning or Success Message
	def fn_display_user_messages(lv_text, lv_type, mv_processing_message):
	"""Display user Info, Error, Warning or Success Message"""

	if lv_type == "Success":
	with mv_processing_message.container():
	st.success(lv_text)
	elif lv_type == "Error":
	with mv_processing_message.container():
	st.error(lv_text)
	elif lv_type == "Warning":
	with mv_processing_message.container():
	st.warning(lv_text)
	else:
	with mv_processing_message.container():
	st.info(lv_text)

	# Upload pdf file into 'pdf-data' folder if it does not exist
	def fn_upload_pdf(mv_pdf_input_file, mv_processing_message):
	"""Upload pdf file into 'pdf-data' folder if it does not exist"""

	lv_file_name = mv_pdf_input_file.name

	if not os.path.exists("pdf-data"):
	os.makedirs("pdf-data")

	lv_temp_file_path = os.path.join("pdf-data",lv_file_name)

	if os.path.exists(lv_temp_file_path):
	print("Step1: File already available")
	fn_display_user_messages("Step1: File already available","Warning", mv_processing_message)
	else:
	with open(lv_temp_file_path,"wb") as lv_file:
	lv_file.write(mv_pdf_input_file.getbuffer())

	print("Step1: PDF uploaded successfully at -> " + lv_temp_file_path)
	fn_display_user_messages("Step1: PDF uploaded successfully at -> " + lv_temp_file_path, "Info", mv_processing_message)

	# Extract uploaded pdf data
	def fn_extract_pdf_data(mv_pdf_input_file, mv_processing_message):
	"""Extract uploaded pdf data"""

	lv_temp_pdf_file_path = os.path.join("pdf-data",mv_pdf_input_file.name)

	# -- Loading PDF Data
	lv_pdf_loader = PyPDFLoader(lv_temp_pdf_file_path)
	lv_pdf_content = lv_pdf_loader.load()

	# -- Define patterns with flexibility
	pattern1 = r"(\w+)-\n(\w+)" # Match hyphenated words separated by a line break
	pattern2 = r"(?<!\n\s)\n(?!\s\n)" # Match line breaks not surrounded by whitespace
	pattern3 = r"\n\s*\n" # Match multiple line breaks with optional whitespace

	lv_pdf_formatted_content = []

	for lv_page in lv_pdf_content:
	# -- Apply substitutions with flexibility
	lv_pdf_page_content = re.sub(pattern1, r"\1\2", lv_page.page_content)
	lv_pdf_page_content = re.sub(pattern2, " ", lv_pdf_page_content.strip())
	lv_pdf_page_content = re.sub(pattern3, " ", lv_pdf_page_content)
	lv_pdf_page_content = re.sub("\n", " ", lv_pdf_page_content)

	lv_pdf_formatted_content.append(
	Document( page_content= lv_pdf_page_content,
	metadata= lv_page.metadata
	)
	)

	# print("Page Details of "+str(lv_page.metadata)+" is - "+lv_pdf_page_content)

	print("Step2: PDF content extracted")
	fn_display_user_messages("Step2: PDF content extracted", "Info", mv_processing_message)

	return lv_pdf_formatted_content

	# Load PDF data as Text File
	def fn_process_pf_data(mv_pdf_input_file, mv_processing_message):
	"""Load PDF data as Text File"""

	# -- Create txt folder inside vectordb folder if it does not exist
	if not os.path.exists(os.path.join("vectordb","txt")):
	os.makedirs(os.path.join("vectordb","txt"))

	lv_file_name = mv_pdf_input_file.name[:-4] + ".txt"
	lv_temp_file_path = os.path.join(os.path.join("vectordb","txt"),lv_file_name)

	if os.path.isfile(lv_temp_file_path):
	print("Step2: Processed file details exists")
	fn_display_user_messages("Step2: Processed file details exists", "Warning", mv_processing_message)
	else:
	lv_pdf_formatted_content = fn_extract_pdf_data(mv_pdf_input_file, mv_processing_message)
	lv_text_data = ""

	for lv_page in lv_pdf_formatted_content:
	# print(lv_page.page_content)
	lv_text_data = lv_text_data + lv_page.page_content

	# print(lv_text_data)
	f = open(lv_temp_file_path, "w")
	f.write(lv_text_data)
	f.close()

	# Return QA Response
	def fn_generate_QnA_response(mv_user_question, mv_pdf_input_file, mv_processing_message):
	"""Returns QA Response"""

	print("Step4: Generating LLM response")
	fn_display_user_messages("Step4: Generating LLM response","Info", mv_processing_message)

	lv_template = """Instruction:
	You are an AI assistant for answering questions about the provided context.
	You are given the following extracted parts of a long document and a question. Provide a detailed answer.
	If you don't know the answer, just say "Hmm, I'm not sure." Don't try to make up an answer.
	=======
	{context}
	=======
	Question: {question}
	Output:\n"""

	lv_qa_prompt = PromptTemplate(
	template=lv_template,
	input_variables=["question", "context"]
	)
	# lv_model = ChatGoogleGenerativeAI(model="gemini-pro",
	# temperature=0.7, top_p=0.85)

	lv_model = genai.GenerativeModel('gemini-pro')

	lv_file_name = mv_pdf_input_file.name[:-4] + ".txt"
	lv_temp_file_path = os.path.join(os.path.join("vectordb","txt"),lv_file_name)
	lv_text_loader = TextLoader(lv_temp_file_path)
	lv_pdf_formatted_content = lv_text_loader.load()
	lv_text_data = ""
	for lv_page in lv_pdf_formatted_content:
	lv_text_data = lv_text_data + lv_page.page_content

	lv_qa_formatted_prompt = lv_qa_prompt.format(
	question=mv_user_question,
	context=lv_text_data
	)

	# lv_llm_response = lv_model.invoke(lv_qa_formatted_prompt).content
	lv_llm_response = lv_model.generate_content(lv_qa_formatted_prompt).text

	print("Step5: LLM response generated")
	fn_display_user_messages("Step5: LLM response generated","Info", mv_processing_message)

	return lv_llm_response


	# Main Program
	def main():
	# -- Streamlit Settings
	st.set_page_config("Chat With Your Product User Manual")
	st.header("Chat With Your Product User Manual💁")
	st.text("")
	st.text("")
	st.text("")

	# -- Display Processing Details
	mv_processing_message = st.empty()
	st.text("")
	st.text("")

	# -- Setting Chat History
	if "messages" not in st.session_state:
	st.session_state["messages"] = []

	# -- Read User Manuals for Q&A
	with st.sidebar:
	mv_pdf_input_file = st.file_uploader("Choose a UM PDF file:", type=["pdf"])
	st.text("")
	st.text("")

	# -- Process Uploaded User Manual PDF
	col1, col2, col3 = st.columns(3)
	if col1.button("Submit"):
	if mv_pdf_input_file is not None:
	fn_upload_pdf(mv_pdf_input_file, mv_processing_message)
	lv_pdf_page_content = fn_process_pf_data(mv_pdf_input_file, mv_processing_message)
	else:
	fn_display_user_messages("Upload PDF file before clicking on Submit", "Error", mv_processing_message)

	# -- Clear Chat History
	if col2.button("Reset"):
	st.session_state["messages"] = []

	# -- Creating Chat Details
	mv_user_question = st.chat_input("Pass your input here")

	# -- Recording Chat Input and Generating Response
	if mv_user_question:
	# -- Saving User Input
	st.session_state.messages.append({"role": "user", "content": mv_user_question})

	# -- Generating LLM Response
	lv_response = fn_generate_QnA_response(mv_user_question, mv_pdf_input_file, mv_processing_message)

	# -- Saving LLM Response
	st.session_state.messages.append(
	{"role": "agent", "content": lv_response}
	)

	# -- Display chat messages from history
	for message in st.session_state.messages:
	with st.chat_message(message["role"]):
	st.markdown(message["content"])

	# Loading Main
	if __name__ == "__main__":
	main()