DFKI Document-97-04

[Back]

D-97-04



Sprache: Deutsch

by Claudia Wenzel, Markus Junker

Entwurf einer Patternbeschreibungssprache
für die Informationsextraktion
in der Dokumentanalyse

24 Seiten

Zusammenfassung

Dokumentanalyse befaßt sich mit der Extraktion von relevanten Informationen aus Dokumenten, die in Papierform vorliegen. Um die gewünschten Informationen in einem Text zu finden, können verschiedene Techniken angewendet werden. Sie reichen von einfachen Suchverfahren hin zum Versuch des vollständigen Parsens eines Textes. Häufig stammen diese Techniken aus dem Bereich der NLP, wo sie zur Verarbeitung von elektronischen Texten eingesetzt werden.

Unabhängig von der eingesetzten Technik benötigt man jedoch immer eine Sprache, mit der die Syntax und die Semantik der gesuchten Informationen beschrieben werden können. In die sem Dokument wird eine solche Sprache vorgestellt, die insbesondere den Erfordernissen der Dokumentanalyse Rechnung trägt, aber allerdings auch für die Verarbeitung elektronischer Texte genutzt werden kann. Derzeit wird die Sprache zur Informationsextraktion in und zur Klassifikation von deutschen Geschäftsbriefen eingesetzt.

Abstract

Document analysis is the research discipline which deals with the extraction of information of printed documents. Different techniques can be applied to find such relevant text passages, subsuming simple search techniques as well as complete text parsing. Most of these techniques have their origin in natural language processing (NLP) and are applied to electronically available texts.

In this document, we introduce a language for the description of relevant information in printed documents. This pattern language is designed independently of any technique used for the processing of expressions written with this language. It integrates syntactic and semantic features and is especially suitable for document analysis tasks. Currently, the language is used for text classification and information extraction of German business letters.

This document is available as Postscript.

The next abstract is here, and the previous abstract is here.

DFKI-Bibliothek (bib@dfki.uni-kl.de)

Note: This page was written to look best with CSS stylesheet support Level 1 or higher. Since you can see this, your browser obviously doesn't support CSS, or you have turned it off. We highly recommend you use a browser that supports and uses CSS, and review this page once you do. However, don't fear, we've tried to write this page to still work and be readable without CSS.