Spaces:

arosyihuddin
/

gradio-LegalNER

Sleeping

arosyihuddin commited on Jun 28, 2024

Commit

b9f1938

1 Parent(s): 1bf5976

add IndoNLU model

Files changed (6) hide show

app.py CHANGED Viewed

@@ -1,9 +1,7 @@
 from gradio_pdf import PDF
 from src.helper import *
 import gradio as gr
-from pathlib import Path
-dir_ = Path(__file__).parent
 with gr.Blocks() as ner:
   gr.Markdown("# Sistem Ekstraksi Informasi Dokumen Putusan Hukum")
@@ -24,7 +22,7 @@ with gr.Blocks() as ner:
   ]
   gr.Markdown("## Penjelasan Label")
   gr.DataFrame(keterangan_label, headers=["Label", "Keterangan"], height=200)
-  gr.Markdown("## Uji Coba Model dengan Potongan Kalimat")
   # Input Text
   with gr.Row():
     with gr.Column(scale=2):
@@ -48,7 +46,7 @@ with gr.Blocks() as ner:
     fn=text_extraction,
     )
-  gr.Markdown("## Ekstrak Entitas pada Dokumen Putusan Hukum")
   # Input PDF
   with gr.Row():
     with gr.Column(scale=2):
@@ -63,12 +61,12 @@ with gr.Blocks() as ner:
   button_pdf.click(fn=pdf_extraction, inputs=[doc, model_pdf], outputs=output_pdf, api_name="pdf")
   gr.Examples(
-    ["428_pid.b_2021_pn_jkt.brt_20240529091234.pdf",
-     "1558_pid.b_2020_pn_jkt.brt_20240529091451.pdf",
-     "329_pid.b_2023_pn_jkt.brt_20240529090837.pdf",
-     "168_Pid.Sus_2023_PN_Bkl.pdf",
-     "169_Pid.Sus_2023_PN_Bkl.pdf",
-     "167_Pid.Sus_2023_PN_Bkl.pdf"],
     inputs=[doc],
     outputs=output_pdf,
     fn=pdf_extraction,

 from gradio_pdf import PDF
 from src.helper import *
 import gradio as gr
+from gradio_pdf import PDF
 with gr.Blocks() as ner:
   gr.Markdown("# Sistem Ekstraksi Informasi Dokumen Putusan Hukum")
   ]
   gr.Markdown("## Penjelasan Label")
   gr.DataFrame(keterangan_label, headers=["Label", "Keterangan"], height=200)
+  gr.Markdown("## Ekstraksi Entitas pada Potongan Kalimat")
   # Input Text
   with gr.Row():
     with gr.Column(scale=2):
     fn=text_extraction,
     )
+  gr.Markdown("## Ekstraksi Entitas pada Dokumen Putusan Hukum")
   # Input PDF
   with gr.Row():
     with gr.Column(scale=2):
   button_pdf.click(fn=pdf_extraction, inputs=[doc, model_pdf], outputs=output_pdf, api_name="pdf")
   gr.Examples(
+    ["data/428_pid.b_2021_pn_jkt.brt_20240529091234.pdf",
+     "data/1558_pid.b_2020_pn_jkt.brt_20240529091451.pdf",
+     "data/329_pid.b_2023_pn_jkt.brt_20240529090837.pdf",
+     "data/168_Pid.Sus_2023_PN_Bkl.pdf",
+     "data/169_Pid.Sus_2023_PN_Bkl.pdf",
+     "data/167_Pid.Sus_2023_PN_Bkl.pdf"],
     inputs=[doc],
     outputs=output_pdf,
     fn=pdf_extraction,

model/indoBERT-indoNLU-Fold-5.pth ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:486b48b22c41570e5768fc574ff11eb61ca6b5b9751c06e7884108e52ca90c07
+size 495564052

src/__pycache__/helper.cpython-310.pyc CHANGED Viewed

Binary files a/src/__pycache__/helper.cpython-310.pyc and b/src/__pycache__/helper.cpython-310.pyc differ

src/__pycache__/legalNER.cpython-310.pyc CHANGED Viewed

Binary files a/src/__pycache__/legalNER.cpython-310.pyc and b/src/__pycache__/legalNER.cpython-310.pyc differ

src/helper.py CHANGED Viewed

@@ -2,6 +2,7 @@ from transformers import BertTokenizerFast, BertForTokenClassification
 import gradio as gr
 from src.legalNER import *
 ids_to_labels = {0: 'B_ADVO', 1: 'B_ARTV', 2: 'B_CRIA', 3: 'B_DEFN', 4: 'B_JUDG', 5: 'B_JUDP', 6: 'B_PENA', 7: 'B_PROS', 8: 'B_PUNI', 9: 'B_REGI', 10: 'B_TIMV', 11: 'B_VERN', 12: 'I_ADVO', 13: 'I_ARTV', 14: 'I_CRIA', 15: 'I_DEFN', 16: 'I_JUDG', 17: 'I_JUDP', 18: 'I_PENA', 19: 'I_PROS', 20: 'I_PUNI', 21: 'I_REGI', 22: 'I_TIMV', 23: 'I_VERN', 24: 'O'}
 indolem = 'indolem/indobert-base-uncased'
 indonlu = 'indobenchmark/indobert-base-p2'

 import gradio as gr
 from src.legalNER import *
 ids_to_labels = {0: 'B_ADVO', 1: 'B_ARTV', 2: 'B_CRIA', 3: 'B_DEFN', 4: 'B_JUDG', 5: 'B_JUDP', 6: 'B_PENA', 7: 'B_PROS', 8: 'B_PUNI', 9: 'B_REGI', 10: 'B_TIMV', 11: 'B_VERN', 12: 'I_ADVO', 13: 'I_ARTV', 14: 'I_CRIA', 15: 'I_DEFN', 16: 'I_JUDG', 17: 'I_JUDP', 18: 'I_PENA', 19: 'I_PROS', 20: 'I_PUNI', 21: 'I_REGI', 22: 'I_TIMV', 23: 'I_VERN', 24: 'O'}
 indolem = 'indolem/indobert-base-uncased'
 indonlu = 'indobenchmark/indobert-base-p2'

src/legalNER.py CHANGED Viewed

@@ -1,5 +1,10 @@
 import gradio as gr
 import torch
 class LegalNER():
   def __init__(self, model, tokenizer, ids_to_labels, check_point='IndoBERT (IndoLEM)'):
@@ -132,23 +137,23 @@ class LegalNER():
     result = ''
     for i, (label, data) in enumerate(sorted_entitu_result.items()):
       if label in ['PENA', 'ARTV']:
-        result += f'{i+1}. {self.label_convert[label]}\t = {data.capitalize()}\n'
       elif label in ['PROS']:
         if (i+1) >= 10:
-          result += f'{i+1}. {self.label_convert[label]}\t = {data.capitalize()}\n'
         else:
-          result += f'{i+1}. {self.label_convert[label]}\t\t = {data.capitalize()}\n'
       elif label in ['JUDP', 'CRIA']:
-        result += f'{i+1}. {self.label_convert[label]}\t\t\t = {data.capitalize()}\n'
       elif label in ['ADVO']:
-        result += f'{i+1}. {self.label_convert[label]}\t\t\t\t = {data.capitalize()}\n'
       elif label in ['REGI']:
         if (i+1) >= 10:
-          result += f'{i+1}. {self.label_convert[label]}\t\t\t\t\t = {data.capitalize()}\n'
         else:
-          result += f'{i+1}. {self.label_convert[label]}\t\t\t\t\t\t = {data.capitalize()}\n'
       else:
-        result += f'{i+1}. {self.label_convert[label]}\t\t = {data.capitalize()}\n'
     return result

 import gradio as gr
 import torch
+import requests
+import PyPDF2
+import re
+# import nltk
+# nltk.download('punkt')
 class LegalNER():
   def __init__(self, model, tokenizer, ids_to_labels, check_point='IndoBERT (IndoLEM)'):
     result = ''
     for i, (label, data) in enumerate(sorted_entitu_result.items()):
       if label in ['PENA', 'ARTV']:
+        result += f'{i+1}. {self.label_convert[label]}\t =   {data.capitalize()}\n'
       elif label in ['PROS']:
         if (i+1) >= 10:
+          result += f'{i+1}. {self.label_convert[label]}\t =   {data.capitalize()}\n'
         else:
+          result += f'{i+1}. {self.label_convert[label]}\t\t =   {data.capitalize()}\n'
       elif label in ['JUDP', 'CRIA']:
+        result += f'{i+1}. {self.label_convert[label]}\t\t\t =   {data.capitalize()}\n'
       elif label in ['ADVO']:
+        result += f'{i+1}. {self.label_convert[label]}\t\t\t\t =   {data.capitalize()}\n'
       elif label in ['REGI']:
         if (i+1) >= 10:
+          result += f'{i+1}. {self.label_convert[label]}\t\t\t\t\t =   {data.capitalize()}\n'
         else:
+          result += f'{i+1}. {self.label_convert[label]}\t\t\t\t\t\t =   {data.capitalize()}\n'
       else:
+        result += f'{i+1}. {self.label_convert[label]}\t\t =   {data.capitalize()}\n'
     return result