Tuesday, May 5, 2020
Sample Attachment Proposal free essay sample
Ià amà alsoà highlyà indebtedà toà myà supervisorsà Faisalà Shafaità andà Ilyaà Mezhirov,à whoà seemedà toà haveà solutionsà toà allà myà problems. Author Theà reportà presentsà theà threeà tasksà completedà duringà summerà internshipà atà IUPRà whichà areà listedà below: 1. Detection à of à headlines à in à document à images à with à black à runà lengths à andà OCRopusà performanceà evaluationà inà detectingà headlines 2. Reà engineeringà theà zoneà classificationà module 3. Evaluationà ofà differentà segmentationà algorithmsà performance Allà theseà tasksà haveà beenà completedà successfullyà andà resultsà wereà accordingà toà expectations. Theà detectionà ofà headlinesà achievedà aà lowà errorà rateà ofà 2. 85%à asà against à 6. 52 à of à previously à used à methods. During à evaluation à of à segmentationà algorithmsà XYà cutà wasà foundà toà gainà aà lotà byà noiseà cleanup,à whichà isà anà interestingà resultà asà ità strengthenà theà claimà ofà XYà cutà segmentationà algorithmà asà aà suitableà method à for à OCRopus. The à reà engineering à and à porting à of à zoneà classificationà module à to à OCRopus à makes à it à possible à for à OCRopus à to à have à a à text/imageà segmentationà ifà ità isà requiredà inà future. Author Abstract OCRopusà :à Introduction Thoughà theà fieldà ofà opticalà characterà recognition(OCR)à isà consideredà toà beà widelyà explored,à theà developmentà ofà anà efficientà systemà forà useà inà realà worldà situationsà stillà remainsà aà challengeà forà developers. OCRopusà isà aà stateà ofà theà artà documentà analysisà andà OCRà system,à featuringà pluggableà layoutà analysis,à pluggableà characterà recognition,à statisticalà naturalà languageà modeling,à multià lingualà capabilitiesà andà isà beingà developedà atà IUPR. Thisà beingà aà veryà bigà project,à Ià wasà assignedà theà tasksà ofà developingà toolsà forà layoutà analysisà andà evaluation. Theà Goals: Followingà goalsà wereà setà asà Ià proceededà inà myà work: 1. Conversionà ofà groundà truthà dataà inà MARGà databaseà fromà XMLà formatà toà hOCRà microà format[1]. 2. Developmentà ofà aà ruleà basedà headlineà detectionà methodà usingà theà medianà blackà runà lengthà ofà theà lines. 3. Development à of à segmentationà classification à module à and à evaluation à ofà performanceà ofà differentà segmentationà algorithmsà asà againstà noise. 1. XMLà toà hOCR: hOCR à is à a à format à for à representing à OCR à output, à including à layout à information,à character à confidences, à bounding à boxes, à and à style à information. It à embeds à thisà information à invisibly à in à standard à HTML. By à building à on à standard à HTML, à ità automatically à inherits à wellà defined à support à for à most à scripts, à languages, à andà common à layout à options. Furthermore, à unlike à previous à OCR à formats, à the recognizedà textà andà OCRà relatedà informationà coà existà inà theà sameà fileà andà survivesà editingà andà manipulation. hOCRà markupà isà independentà ofà theà presentation. Dueà toà allà aboveà qualitiesà ofà hOCRà format,à ità isà highlyà desirableà toà haveà groundà truthà inà thisà format. Ià wasà assignedà theà taskà ofà convertingà theà MARGà databaseà groundà truthà intoà hOCRà format. Forà à thisà purposeà Ià haveà writtenà followingà script. Scriptà Nameà :à xmlà toà hocr Languageà Used:à Python Commandà lineà argumentà form:à xmlà toà hocrà FILE. XML FILE. XMLà :à Theà fileà inà XMLà formatà toà beà convertedà intoà hOCRà microà format. Note: à The à script à does à not à take à care à of à latex à characters à yet. It à would à be à anà improvementà toà incorporateà thisà feature. 2. Headlineà detectionà Basedà onà blackà runà lengthà andà itsà à à à à integrationà intoà OCRopus: Detectionà ofà headlinesà inà documentà imagesà isà oneà issueà thatà isà mostlyà overlookedà butà yetà isà highlyà desirableà toà properlyà formatà theà outputà ofà OCR. OCRopusà hadà tillà nowà usedà aà ruleà basedà methodà whichà usedà spaceà betweenà linesà asà theà criteriaà forà detectionà ofà headlines. Thoughà thisà methodà workedà forà manyà images,à ità alsoà failedà manyà times. Ità wasà anà obviousà observationà thatà blackà runà lengthsà ofà headlinesà areà moreà thanà theà blackà runà lengthà ofà theà normalà line,à andà weà triedà toà buildà uponà this concept. Weà usedà medianà blackà runà lengthà ofà aà lineà asà theà decidingà criteria. Theà medianà wasà usedà insteadà ofà meanà becauseà meanà runà lengthà couldà haveà easilyà beenà affectedà byà theà noiseà mergingà withà textà andà wouldà haveà produceà errors. Theà wholeà approachà isà simpleà asà discussedà below: 1. Calculateà theà medianà blackà runà lengthà forà theà eachà lineà onà page. 2. Compareà thisà runà lengthà forà eachà lineà withà theà linesà belowà andà aboveà it. 3. If à black à runà length à forà a à lineà has à beenà foundà K1(a à parameter) à times à theà median à runà length à ofà lineà belowà it,à andà K2(anotherà parameter)à timesà theà medianà runà lengthà ofà theà lineà aboveà it,setà ità asà aà headline. Theà valueà ofà parametersà K1à andà K2à wasà toà beà foundà experimentally. Afterà manyà timesà evaluatingà theà performanceà ofà theà program,à theà valueà ofà K1à andà K2à hasà beenà setà toà 1. 5à andà 1. 1à respectively. Weà usedà histogramà basedà methodà toà findà theà medianà runà length. Aà histogramà ofà theà numberà ofà occurrencesà versusà runà lengthà wasà calculated,à onceà weà haveà suchà aà histogramà weà normalizeà ità withà theà largestà valueà ofà occurrence. Thenà weà calculatedà theà cumulativeà distributionà functionà forà thisà normalizedà histogram. Theà pointà whenà cumulativeà distributionà functionà rechesà aà valueà ofà 0. 5,à correspondsà toà theà medianà runlength. The à program à forà detection à of à headlines à was à written à in à C++ à andà used à standardà OCRopusà classes. Theà programà hasà beenà successfullyà integratedà intoà OCRopusà and Evaluation: We à also à designed à a à tool à which à evaluates à the à performance à of à the à OCRopus à inà detecting à headlines. As à according à to à OCRopus à standards, à this à tool à has à beenà developedà toà workà withà filesà inà hOCRà microà format. Thisà toolà comprisesà ofà twoà programs: 1. Theà firstà programà takesà theà OCRopusà outputà andà theà correspondingà groundà truthà fileà inà hOCRà formatà andà à outputsà theà totalà noà ofà falseà positivesà and falseà negativesà whichà occurredà inà detection. Ità alsoà outputsà theà totalà noà ofà true à headlines à whichà are à present à inà the à groundà truth. The à command à lineà formà ofà thisà programsà is:
Subscribe to:
Post Comments (Atom)
No comments:
Post a Comment
Note: Only a member of this blog may post a comment.