Acta Univ. Agric. Silvic. Mendelianae Brun. 2010, 58(6), 421-432 | DOI: 10.11118/actaun201058060421

EXPERIMENTÁLNÍ STANOVENÍ PARAMETRŮ VYBRANÝCH PRVKŮ DOKUMENTŮ Z RASTROVÝCH GRAFICKÝCH ZDROJŮ

Jiří Rybička, Dagmar Kelnarová, Petra Talandová
Ústav informatiky, Mendelova univerzita v Brně, Zemědělská 1, 613 00 Brno, Česká republika

Článek se zabývá experimentálním stanovením parametrů prvků dokumentů z rastrových obrazů. Formální kvalita dokumentu je považována za stejně důležitou jako jeho obsah, proto byl pro účely kvality analýzy dokumentů navržen formální model dokumentu, který je popsán v předcházejících pracích. Model popisuje stránku dokumentu jako množinu prvků různých typů, přičemž hlavní skupiny jsou textové a grafické objekty. Stránka dokumentu a všechny prvky jsou popsány množinou parametrů závisejících na typu prvku, přičemž nejdůležitější jsou typografické parametry textových objektů.
Hodnoty parametrů prvků jsou získávány z rastrových obrazů dokumentu, což je pro typografickou analýzu vhodnější, a dále mohou být použity i techniky zpracování obrazu. Obraz stránky je zpracován a segmentován na jednotlivé odstavce a jejich parametry jsou zpracovány v procesu analýzy obrazu odstavce.
Obraz je reprezentován jako matice černých a bílých pixelů, z nichž jsou počítány důležité odstavcové charakteristiky. Pro tento účel byla navržena sada algoritmů. Algoritmy jsou zaměřeny na získání parametrů z matice a vycházejí z typografických pravidel. Algoritmy byly testovány na množině obrazů celých stránek vysazeného textu. Přinášejí velmi dobré výsledky, typografické charakteristiky jsou zde evidentní. Obraz stránky proto může být analyzován bez pomoci typografa, a přesto mohou být získány požadované parametry, které lze přímo využít pro automatizované hodnocení typografické kvality.

rastrový obraz, rozpoznávání, dokument, odstavec, typografie, parametry textových objektů

Experimental determination of chosen document elements parameters from raster graphics sources

Visual appearance of documents and their formal quality is considered to be as important as the content quality. Formal and typographical quality of documents can be evaluated by an automated system that processes raster images of documents. A document is described by a formal model that treats a page as an object and also as a set of elements, whereas page elements include text and graphic object. All elements are described by their parameters depending on elements' type. For future evaluation, mainly text objects are important. This paper describes the experimental determination of chosen document elements parameters from raster images. Techniques for image processing are used, where an image is represented as a matrix of dots and parameter values are extracted. Algorithms for parameter extraction from raster images were designed and were aimed mainly at typographical parameters like indentation, alignment, font size or spacing. Algorithms were tested on a set of 100 images of paragraphs or pages and provide very good results. Extracted parameters can be directly used for typographical quality evaluation.

Keywords: raster image, recognition, document, paragraph, typography, text objects parameters
Grants and funding:

Článek vznikl v rámci výzkumného záměru MSM 6215648904/03/03/06.

Received: August 31, 2010; Published: July 17, 2014  Show citation

ACS AIP APA ASA Harvard Chicago IEEE ISO690 MLA NLM Turabian Vancouver
Rybička, J., Kelnarová, D., & Talandová, P. (2010). Experimental determination of chosen document elements parameters from raster graphics sources. Acta Universitatis Agriculturae et Silviculturae Mendelianae Brunensis58(6), 421-432. doi: 10.11118/actaun201058060421
Download citation

References

  1. BADEKAS, E., PAPAMARKOS, N., 2009: Estimation Of Appropriate Parameter Values For Document Binarization Techniques online. cit. 2010-08-26. Dostupné z http://ecal.ee.duth.gr/uploaded-files/Papaparkos/Journals/206-3193.pdf.
  2. BEITZEL, S., JENSEN, E., GROSSMAN, D., 2003: Retrieving OCR Text: A Survey of Current Approaches online. cit. 2010-08-02. Dostupné z http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.20.3743&rep=rep1&type=pdf.
  3. CAI, D. a kol., 2003: VIPS: a Vision-based Page Segmentation Algorithm online. cit. 2010-08-24. Dostupné z http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.118.638. DOI: 10.1.1.118.638
  4. CAO, J., MAO, B., LUO, J., 2010: A segmentation method for web page analysis using shrinking and dividing online. cit. 2010-08-26. Dostupné z http://pdfserve.informaworld.com/436593__920033458.pdf.
  5. EIKVIL, L., 1993: OCR Optical Character recognition online. cit. 2010-05-04. Dostupné z http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.25.3684. DOI: 10.1.1.25.3684
  6. KELNAROVÁ, D., 2010: Rozpoznávání prvků dokumentů z grafických předloh. Diplomová práce. Brno: Mendelova univerzita v Brně, 101 s.
  7. KUNC, M., BURGET, R., 2008: Klasifikace prvků dokumentu na základě vizuálních rysů online. cit. 2001-8-25. Dostupné z http://znalosti2008.fiit.stuba.sk/download/articles/znalosti2008-Kunc.pdf.
  8. ŠPANĚL, M., BERAN, V., 2010: Obrazové segmentační techniky: Přehled existujících metod online. 2006-01-19 cit. 2010-08-23. Dostupné z http://www.fit.vutbr.cz/~spanel/segmentace/.en.
  9. TALANDOVÁ, P., 2009: Automatizované hodnocení kvality dokumentů. Disertační práce. Brno: MZLU v Brně, 160 s.
  10. TALANDOVÁ, P., RYBIČKA, J., 2009: Stanovení metod automatizovaného hodnocení formální kvality dokumentů. Acta Univ. agric. et silvic. Mendel. Brun., sv. LVII, č. 6, s. 305-313. ISSN 1211-8516. Go to original source...

This is an open access article distributed under the terms of the Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License (CC BY NC ND 4.0), which permits non-comercial use, distribution, and reproduction in any medium, provided the original publication is properly cited. No use, distribution or reproduction is permitted which does not comply with these terms.