Acta Univ. Agric. Silvic. Mendelianae Brun. 2009, 57(6), 305-314 | DOI: 10.11118/actaun200957060305

STANOVENÍ METOD AUTOMATIZOVANÉHO HODNOCENÍ FORMÁLNÍ KVALITY DOKUMENTŮ

Petra Talandová, Jiří Rybička
Ústav informatiky, Mendelova zemědělská a lesnická univerzita v Brně, Zemědělská 1, 613 00 Brno, Česká republika

Článek je věnován automatizovanému hodnocení dokumentů z hlediska jejich formální kvality. Formální aspekty přispívají k lepší srozumitelnosti textu, a tedy snazšímu předání informací, proto je nezbytné jejich kontrole a hodnocení věnovat pozornost. Kvalita dokumentu je dána mírou shody reprezentace prvků dokumentu s požadovanými pravidly pro jejich vyjadřování.
Pro hodnocení kvality je navržen model, který vychází z různých úrovní dokumentu a formálně jej popisuje. Dokument je rozdělen na stránky a základem jsou prvky, ze kterých je stránka sestavena. Každému prvku je přiřazen typ, tj. funkce, kterou prvek plní v rámci stránky. Každý prvek je dále popsán množinou parametrů (atributů), které vystihují vlastnosti prvku. Jsou navrženy parametry, které jsou společné pro všechny typy prvků, další parametry jsou závislé na typu prvku.
Parametry prvků jsou vstupem pro hodnocení dokumentu podle typografických pravidel. Je proto zcela nezbytné, aby model věrohodně zobrazoval vlastnosti dokumentu. Na kvalitu modelu mají významný vliv metody, které se používají pro získání informací o prvcích, jejich typech a parametrech. Vzhledem k velkému množství existujících metod je navržena množina kritérií, která popisují požadavky na vhodné metody. Dále je stanoven způsob hodnocení metod podle těchto kritérií včetně možnosti využití vah. Metody, které vyhovují kritériím, lze aplikovat na dokument. Výsledkem je model reálného dokumentu, který je připraven pro automatizované hodnocení na základě typografických pravidel.

kvalita dokumentů, formální kvalita, automatizované hodnocení, model dokumentu, fyzická analýza, logická analýza, typografie

Method specification for automated evaluation of documents formal quality

Automated documents processing allows production of large amount of documents. Formal quality of the documents is very important as it contributes to better understanding and information transmission. The paper deals with the automated documents quality evaluation. This requires a design of a document model. The model contains the objects of which the pages are compiled, the types of objects and, the most important, the objects' parameters. The parameters of the object are very important as they are inputs for the document evaluation according to the typographical rules. The parameters are an important part of the model which should reliably describe the document. A set of criteria is designed, which are used to describe the requirements on appropriate methods for model formation. From large amount of methods, methods that meet the criteria can be applied to the document. The result is a model of a real document which can be used for the automatic evaluation based on the typographical rules.

Keywords: document quality, formal quality, automated evaluation, document model, physical analysis, logical analysis, typography
Grants and funding:

Článek vznikl v rámci výzkumného záměru MSM 6215648904/03/03/06.

Received: May 11, 2009; Published: October 7, 2014  Show citation

ACS AIP APA ASA Harvard Chicago IEEE ISO690 MLA NLM Turabian Vancouver
Talandová, P., & Rybička, J. (2009). Method specification for automated evaluation of documents formal quality. Acta Universitatis Agriculturae et Silviculturae Mendelianae Brunensis57(6), 305-314. doi: 10.11118/actaun200957060305
Download citation

References

  1. Bapst, F., Ingold, R., 1998: Using Typography in Document Image Analysis [online]. [cit. 2006-10-17]. Dostupné z http://citeseer.ist.psu.edu/bapst98using.html.
  2. Beusekom, J. van, 2006: Document Layout Analysis [online]. [cit. 2007-02-12]. Dostupné z http://www.iupr.org/~keysers/files/vanBeusekom-DA-Document-Layout-Analysis.pdf.
  3. Cattoni, R. a kol., 1998: Geometric Layout Analysis Techniques for Document Image Understanding: a Review [online]. [cit. 2007-03-27]. Dostupné z http://citeseer.ist.psu.edu/330609.html.
  4. Chao, H., Fan, J., 2004: Layout and Content Extraction for PDF Documents [online]. [cit. 2007-02-05]. Dostupné z http://www.springerlink.com/content/b928plaetk53ax91/fulltext.pdf.
  5. Doermann, D., Rivlin, E., Rosenfeld, A., 1998: The function of documents [online]. [cit. 2008-01-03]. Dostupné z http://www.cs.technion.ac.il/~ehudr/publications/pdf/DoermannRR98a.pdf
  6. Felici, J., 2003: The Complete Manual of Typography. Berkeley, Adobe Press. 384 s. ISBN: 0-321-12730-7.
  7. Fuss, C. a kol., 2004: Inferring Structure Information from Typography [online]. [cit. 2007-01-29]. Dostupné z http://www.springerlink.com/content/py61l7j8fufl4t0g/fulltext.pdf.
  8. Gori, M., Marinai, S., Soda, G., 2003: Artificial Neural Networks for Document Analysis and Recognition [online]. [cit. 2006-10-16]. Dostupné z www.dsi.unifi.it/~simone/ANNxDAR/TR-DSI-01-03.pdf.
  9. Haluza, P. a kol., 2008: Přístup studentů ke zpracování závěrečné práce. In: Motyčka, A. Informatika XXI/2008. Brno: Konvoj, s. 31-32. ISBN 978-80-7302-151-1.
  10. Harrington, S. a kol., 2004: Aesthetics measures for automated document layout [online]. [cit. 2008-01-28]. Dostupné z http://www.xerox.com/innovation/Aesthetic_Measures.pdf.
  11. Hitz, O., Robadey, L., Ingold, R., 1999: Using XML in Document Recognition [online]. [cit. 2007-02-05]. Dostupné z http://www.science.uva.nl/events/dlia99/finalpapers/hitz.pdf.
  12. Lovegrove, W., Brailsford, D., 1995: Document analysis of PDF files: methods, results and implications [online]. [cit. 2007-01-19]. Dostupné z http://cajun.cs.nott.ac.uk/compsci/epo/papers/volume8/issue2/2point26.pdf.
  13. Ma, H., Doermann, D., 2005: Font Identification Using the Grating Cell Texture Operator [online]. [cit. 2007-01-05]. Dostupné z http://lampsrv01.umiacs.umd.edu/pubs/Papers/hma-05/hma-05.pdf.
  14. Mao, S., Rosenfeld, A., Kanungo, T., 2003: Document Structure Analysis Algorithms: A Literature Survey [online]. [cit. 2007-01-19]. Dostupné z http://archive.nlm.nih.gov/pubs/mao/mao03.pdf.
  15. Mařík, V., Štěpánková, O., Lažanský, J. a kol., 1993: Umělá inteligence (1). 1. vyd. Praha: Academia. 264 s. ISBN 80-200-0496-3.
  16. Richy, H., André, J., 1996: Typographic sheets and structured documents [on-line]. [cit. 2007-01-23] http://cajun.cs.nott.ac.uk/compsci/epo/papers/volume8/issue2/2point5.pdf
  17. Rigamonti, M. a kol., 2005: Towards a Canonical and Structured Representation of PDF Documents through Reverse Engineering [online]. [cit. 2007-02-05]. Dostupné z http://diuf.unifr.ch/people/lalanned/Articles/ICDAR05Rigamonti.pdf.
  18. Sennhauser, R., 1993: Improving the recognition accuracy of text recognition systems using typographical constraints [online]. [cit. 2007-01-23]. Dostupné z http://cajun.cs.nott.ac.uk/compsci/epo/papers/volume6/issue3/seenhaus.pdf.
  19. Slocombe, D., Ambekar, J., 1998: Document Structure Identication: a New Paradigm [online]. [cit. 2007-03-26]. Dostupné z http://www.infoloom.com/gcaconfs/WEB/paris98/slocombe.HTM.
  20. Systémy managementu kvality - Základní principy a slovník. ČSN EN ISO 9000:2006.
  21. Talandová, P., 2007: Možnosti kontroly typografické kvality dokumentů. In: Firma a konkurenční prostředí 2007 - Sekce 6: IS/IT a konkurenceschopnost podniků. Brno: MSD, s. r. o., 2007, s. 77-82. ISBN 978-80-86633-88-6.

This is an open access article distributed under the terms of the Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License (CC BY NC ND 4.0), which permits non-comercial use, distribution, and reproduction in any medium, provided the original publication is properly cited. No use, distribution or reproduction is permitted which does not comply with these terms.