Textklassifikation

Textklassifikation

Die Textklassifikation ist ein sehr wichtiges Kriterium im Bereich der Informationsextraktion.

Bei unterschiedlich strukturierten Texten werden verschiedene Verfahren angewendet, die sich voneinander durch Merkmale wie Komplexität, Restriktionen oder den Ablauf der Extraktion unterscheiden. So gibt es z. B.: ein sprachbasiertes Verfahren (Perl) oder ein Wrapper-Induction-basiertes Verfahren. Daher ist es notwendig, die analysierten Texte zu klassifizieren.

Die Texte werden nach ihrer Strukturiertheit aufgeteilt:

  • Natürliche und unstrukturierte Plain-Texte,
  • Strukturierte Informationen,
  • Semi-strukturierte Texte.

Inhaltsverzeichnis

Natürliche und unstrukturierte Plain-Texte

Die natürlichen und unstrukturierten Plain-Texte werden mit Systemen bearbeitet, die eine morphologische und syntaktische Analyse ermöglichen. Dabei ist die Vorgehensweise sehr aufwendig und manchmal auch überflüssig, weil die gesuchten Informationen anhand einfacher Muster gefunden werden können.

Strukturierte Informationen

Bei den strukturierten Informationen handelt es sich vor allem um Tabellen und relationale Datenbanken. Hierbei wird keine linguistische Analyse benötigt sondern, um die gesuchten Informationen zu finden, reicht es nur aus, die Struktur zu erkennen.

Semi-strukturierte Texte

Die HTML-Dokumente werden als semi-strukturierte Texte bezeichnet und stellen eine große Herausforderung für die Informationsextraktion Systeme dar. Sie weisen eine uneinheitliche Struktur auf, teilweise sind durch die HTML-Tags markiert, teilweise sind das natürliche Texte. Um die Informationen zu extrahieren, müssen die Informationsextraktion Systeme die HTML-Struktur und die Textmuster erkennen. Dabei sind die HTML-Tags ein wichtiger Hinweis auf die Struktur.

Weblinks

Wiktionary Wiktionary: Textklassifikation – Bedeutungserklärungen, Wortherkunft, Synonyme, Übersetzungen

Wikimedia Foundation.

Игры ⚽ Нужен реферат?

Schlagen Sie auch in anderen Wörterbüchern nach:

  • Information Extraction — Unter Informationsextraktion (engl. Information Extraction, IE) versteht man die ingenieursmäßige Anwendung von Verfahren aus der praktischen Informatik, der künstlichen Intelligenz und der Computerlinguistik auf das Problem der automatischen… …   Deutsch Wikipedia

  • Informationsextraktion — Unter Informationsextraktion (engl. Information Extraction, IE) versteht man die ingenieursmäßige Anwendung von Verfahren aus der praktischen Informatik, der künstlichen Intelligenz und der Computerlinguistik auf das Problem der automatischen… …   Deutsch Wikipedia

  • Satzlänge — wird danach bestimmt, aus wie vielen kleineren Einheiten ein Satz besteht. So ist es möglich, die Satzlänge entsprechend der Zahl der Buchstaben oder auch anderer Schriftzeichen (etwa im Chinesischen), Laute, Phoneme, Morphe, Silben, Moren,… …   Deutsch Wikipedia

  • Crowd sourcing — Crowdsourcing bzw. Schwarmauslagerung bezeichnet im Gegensatz zum Outsourcing nicht die Auslagerung von Unternehmensaufgaben und strukturen an Drittunternehmen, sondern die Auslagerung auf die Intelligenz und die Arbeitskraft einer Masse von… …   Deutsch Wikipedia

  • Grammatisches Informationssystem — Das Grammatische Informationssystem (Grammis) ist ein am Institut für Deutsche Sprache (IDS) in Mannheim beheimatetes Online Projekt, das zum Ziel hat die oft schwer verständliche deutsche Grammatik leichter zugänglich und, soweit möglich,… …   Deutsch Wikipedia

  • Latent Dirichlet Allocation — (LDA) ist ein von David Blei, Andrew Ng und Michael I. Jordan im Jahre 2002 vorgestelltes generatives Wahrscheinlichkeitsmodell für Dokumente wie Text oder Bildkorpora. Dabei wird jedes Korpuselement (oft Dokument genannt) als eine Mischung von… …   Deutsch Wikipedia

  • Schwarmauslagerung — Crowdsourcing bzw. Schwarmauslagerung bezeichnet im Gegensatz zum Outsourcing nicht die Auslagerung von Unternehmensaufgaben und strukturen an Drittunternehmen, sondern die Auslagerung auf die Intelligenz und die Arbeitskraft einer Masse von… …   Deutsch Wikipedia

  • Textgattung — Dieser Artikel oder Abschnitt ist nicht allgemeinverständlich formuliert. Die Mängel sind unter Diskussion:Textsorte beschrieben. Wenn du diesen Baustein entfernst, begründe dies bitte auf der Artikeldiskussionsseite und ergänze den automatisch… …   Deutsch Wikipedia

  • Textsorte — Der Begriff Textsorte ist ein zentraler Begriff der Textlinguistik. Er beruht auf der Regelhaftigkeit von Merkmalen, die eine Klassifikation von Texten zu Textsorten ermöglichen. Inhaltsverzeichnis 1 Überblick 2 Textsortenforschung 3 Alltägliche… …   Deutsch Wikipedia

  • дискурс —         ДИСКУРС (discourse (англ.), Diskurs (нем.), discourse (фр.)) как термин происходит от латинского «discurrere» «обсуждение», «переговоры», даже «перебранка». Внимание к термину и понятию «Д .» было привлечено в ту историческую эпоху, когда …   Энциклопедия эпистемологии и философии науки

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”