Tuesday, May 5, 2020

Sample Attachment Proposal free essay sample

I  am  also  highly  indebted  to  my  supervisors  Faisal  Shafait  and  Ilya   Mezhirov,  who  seemed  to  have  solutions  to  all  my  problems. Author The  report  presents  the  three  tasks  completed  during  summer  internship  at  IUPR   which  are  listed  below: 1. Detection    of    headlines    in    document    images    with    black    run ­lengths    and   OCRopus  performance  evaluation  in  detecting  headlines 2. Re ­engineering  the  zone ­classification  module 3. Evaluation  of  different  segmentation  algorithms  performance All  these  tasks  have  been  completed  successfully  and  results  were  according  to   expectations. The  detection   of   headlines  achieved  a  low  error  rate  of  2. 85%  as   against    6. 52    of    previously    used    methods. During    evaluation    of    segmentation   algorithms  XY ­cut  was  found  to  gain  a  lot  by  noise  cleanup,  which  is  an  interesting   result  as  it  strengthen  the  claim  of  XY ­cut  segmentation  algorithm  as  a  suitable   method    for    OCRopus. The    re ­engineering    and    porting    of    zone ­classification   module    to    OCRopus    makes    it    possible    for    OCRopus    to    have    a    text/image   segmentation  if  it  is  required  in  future. Author Abstract OCRopus  :  Introduction Though  the  field  of  optical  character  recognition(OCR)  is  considered  to  be  widely   explored,  the  development  of  an  efficient  system  for  use  in  real  world  situations   still  remains  a  challenge  for  developers. OCRopus  is  a  state ­of ­the ­art  document   analysis  and  OCR  system,  featuring  pluggable  layout  analysis,  pluggable  character   recognition,  statistical  natural  language  modeling,  multi ­lingual  capabilities  and  is   being  developed  at  IUPR. This  being  a  very  big  project,  I  was  assigned  the  tasks  of   developing  tools  for  layout ­analysis  and  evaluation. The  Goals: Following  goals  were  set  as  I  proceeded  in  my  work: 1. Conversion  of  ground ­truth ­data  in  MARG  database  from  XML  format   to  hOCR  micro ­format[1]. 2. Development  of  a  rule ­based  headline  detection  method  using  the  median   black  run ­length  of  the  lines. 3. Development    of    segmentation ­classification    module    and    evaluation    of   performance  of  different  segmentation  algorithms  as  against  noise. 1. XML  to  hOCR: hOCR    is    a    format    for    representing    OCR    output,    including    layout    information,   character    confidences,    bounding    boxes,    and    style    information. It    embeds    this   information    invisibly    in    standard    HTML. By    building    on    standard    HTML,    it   automatically    inherits    well ­defined    support    for    most    scripts,    languages,    and   common    layout    options. Furthermore,    unlike    previous    OCR    formats,    the recognized  text  and  OCR ­related  information  co ­exist  in  the  same  file  and  survives   editing  and  manipulation. hOCR  markup  is  independent  of  the  presentation. Due  to  all  above  qualities  of  hOCR  format,  it  is  highly  desirable  to  have  ground   truth  in  this  format. I  was  assigned  the  task  of  converting  the  MARG  database   ground  truth  into  hOCR  format. For  Ã‚  this  purpose  I  have  written  following  script. Script  Name  :  xml ­to ­hocr Language  Used:  Python Command ­line ­argument  form:  xml ­to ­hocr  FILE. XML FILE. XML  :  The  file  in  XML  format  to  be  converted  into  hOCR  micro  format. Note:    The    script    does    not    take    care    of    latex    characters    yet. It    would    be    an   improvement  to  incorporate  this  feature. 2. Headline  detection  Based  on  black  run ­length  and  its  Ã‚  Ã‚  Ã‚  Ã‚  integration   into  OCRopus: Detection  of  headlines  in  document  images  is  one  issue  that  is  mostly  overlooked   but  yet  is  highly  desirable  to  properly  format  the  output  of  OCR. OCRopus  had  till   now  used  a  rule  based  method  which  used  space  between  lines  as  the  criteria  for   detection  of  headlines. Though  this  method  worked  for  many  images,  it  also  failed   many  times. It  was  an  obvious  observation  that  black  run ­lengths  of  headlines  are   more  than  the  black  run ­length  of  the  normal  line,  and  we  tried  to  build  upon  this concept. We  used  median  black  run  length  of  a  line  as  the  deciding  criteria. The   median  was  used  instead  of  mean  because  mean  run  length  could  have  easily  been   affected  by  the  noise  merging  with  text  and  would  have  produce  errors. The  whole  approach  is  simple  as  discussed  below: 1. Calculate  the  median  black  run ­length  for  the  each  line  on  page. 2. Compare  this  run  length  for  each  line  with  the  lines  below  and  above  it. 3. If    black    run ­length    for   a    line   has    been   found   K1(a    parameter)    times    the   median   run ­length    of  line  below  it,  and  K2(another  parameter)  times  the   median  run ­length  of  the  line  above  it,set  it  as  a  headline. The  value  of  parameters  K1  and  K2  was  to  be  found  experimentally. After  many   times  evaluating  the  performance  of  the  program,  the  value  of  K1  and  K2  has  been   set  to  1. 5  and  1. 1  respectively. We  used  histogram  based  method  to  find  the  median  run ­length. A  histogram  of   the  number  of  occurrences  versus  run ­length  was  calculated,  once  we  have  such  a   histogram  we  normalize  it  with  the  largest  value  of  occurrence. Then  we  calculated   the  cumulative  distribution  function  for  this  normalized  histogram. The  point  when   cumulative  distribution  function  reches  a  value  of  0. 5,  corresponds  to  the  median   runlength. The    program    for   detection    of    headlines    was    written   in   C++    and   used    standard   OCRopus  classes. The  program  has  been  successfully  integrated  into  OCRopus  and Evaluation: We    also    designed    a    tool    which    evaluates    the    performance    of    the    OCRopus    in   detecting    headlines. As    according    to    OCRopus    standards,    this    tool    has    been   developed  to  work  with  files  in  hOCR  micro ­format. This  tool  comprises  of  two   programs: 1. The  first  program  takes  the  OCRopus  output  and  the  corresponding  ground   truth  file  in  hOCR  format  and     outputs  the  total  no  of  false  positives  and false  negatives  which  occurred  in  detection. It  also  outputs  the  total  no  of   true    headlines    which   are    present    in   the    ground ­truth. The    command    line   form  of  this  programs  is:

No comments:

Post a Comment

Note: Only a member of this blog may post a comment.