Spaces:

ZennyKenny
/

note-to-text

Running on Zero

ZennyKenny commited on 7 days ago

Commit

fd11c5a

verified ·

1 Parent(s): 817e54c

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,6 +1,7 @@
 import gradio as gr
 from transformers import TrOCRProcessor, VisionEncoderDecoderModel
 from PIL import Image
 import spaces
 # Load TrOCR model
@@ -10,13 +11,26 @@ model = VisionEncoderDecoderModel.from_pretrained("microsoft/trocr-large-handwri
 @spaces.GPU
 def recognize_text(image):
     try:
         image = image.convert("RGB")
         pixel_values = processor(images=image, return_tensors="pt").pixel_values
-        generated_ids = model.generate(pixel_values)
         text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
         return text
     except Exception as e:
         return f"Error: {str(e)}"
 # Gradio UI

 import gradio as gr
 from transformers import TrOCRProcessor, VisionEncoderDecoderModel
 from PIL import Image
+import torch
 import spaces
 # Load TrOCR model
 @spaces.GPU
 def recognize_text(image):
     try:
+        # Convert image to RGB if it's not already
         image = image.convert("RGB")
+        print("Image converted to RGB.")
+        # Preprocess the image
         pixel_values = processor(images=image, return_tensors="pt").pixel_values
+        print("Image preprocessed. Pixel values shape:", pixel_values.shape)
+        # Generate text from the image
+        with torch.no_grad():  # Disable gradient calculation for inference
+            generated_ids = model.generate(pixel_values)
+            print("Generated IDs:", generated_ids)
+        # Decode the generated IDs to text
         text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
+        print("Decoded text:", text)
         return text
     except Exception as e:
+        print(f"Error: {str(e)}")
         return f"Error: {str(e)}"
 # Gradio UI