Entitäten in Auszeichnungssprachen

Auszeichnungssprachen (Markup Languages) verwenden Entitäten (engl. entity bzw. entities, deutsch Einheiten, Gebilde), um wiederkehrende Informationseinheiten zu standardisieren.

Die heute weit verbreiteten Formate für Entitäten basieren auf SGML. Bei der Entwicklung von HTML und XML wurden Teile aus SGML übernommen, so auch einige Möglichkeiten zur Definition von Entitäten.

Sonderfall der Entitäten und bei weitem häufigster Vertreter ist das Character Entity, das gerade durch ein einzelnes Zeichen ersetzt werden soll. Dabei wird insbesondere eine mnemotechnische Abkürzung ersetzt durch die dezimal oder hexadezimal angegebene Zeichenkodierung.

Inhaltsverzeichnis

1 Anwendung
2 Zeichen-Entitäten
- 2.1 Ersetzung von Entitäten durch Schriftzeichen
- 2.2 Zukunft der Zeichenentitäten
3 Benannte Zeichenentitäten
4 Parameter-Entitäten
5 Weblinks

Anwendung

Mittels einer DTD wird vereinbart, jedes Vorkommen von &name; im Dokumententext durch eines oder mehrere Zeichen zu ersetzen.

Beispiele:

Hier wird vereinbart, alle &durch das Zeichen dezimal 38 zu ersetzen:

     <!ENTITY amp CDATA "&#38;" -- ampersand, Kaufmännisches Und; -->

(DTD-Format: HTML)

Dokumenten-Text mit klarer Bedeutung:

He is 6&foot; 2&inch; tall.

Zu diesem Dokument werden drei unterschiedliche DTD verwendet:

DTD für 7-bit-ASCII-Umgebung

           <!ENTITY foot   "&#39;"> <!-- ' -->
           <!ENTITY inch   "&#34;"> <!-- " -->

DTD für Multibyte-Unicode-Umgebung

           <!ENTITY foot   "&#8242;"> <!-- ′ -->
           <!ENTITY inch   "&#8243;"> <!-- ″ -->

DTD für Audiobook-Umgebung

           <!ENTITY foot   " foot ">
           <!ENTITY inch   " inch ">

Zeichen-Entitäten

Hier ist eine Entität durch genau ein Zeichen zu ersetzen.

Dabei sind zwei Fälle zu unterscheiden:

numerische Entitäten in der Form &#nnn;, wobei nnn die Codierung des einzusetzenden Zeichens ist.

Wird angewendet, wenn die direkte Eingabe dieses Zeichens nicht möglich ist; oder als Fluchtsymbol (Ersatzzeichen), wenn das betreffende Zeichen eine unerwünschte syntaktische Wirkung im Dokumententext hätte.

benannte Entitäten, bei denen statt einer Nummer ein leicht zu merkender name für das Zeichen vereinbart wurde.

Ersetzung von Entitäten durch Schriftzeichen

Der Ersatz einer Zeichenentität im Quelltext muss nicht zwingend 1:1 durch ein anderes Zeichen erfolgen. In europäisch kodierten Sprachen (lateinisch, griechisch) sind diakritische Zeichen üblich.

Beispiel:

Das Zeichen »é« kann wahlweise definiert sein als

<!ENTITY eacute "é">
<!ENTITY eacute "é"> — (hexadezimal)
<!ENTITY eacute "é">
<!ENTITY eacute "é">
<!ENTITY Kleines_E_mit_Strich_drüber_nach_rechts_oben "eˊ">

In den ersten beiden Definitionen wird das benannte durch eine numerische Entität ersetzt, im dritten durch ein einzelnes Unicode/ANSI-Zeichen und im vierten durch eine Kombination zweier Zeichen: ein Akut mit dem Grundbuchstaben e.

Es muss aber nicht immer so sein, dass ein Grundbuchstabe mit genau einem diakritischen Zeichen zusammentrifft; mehrere solcher Modifikationen können über, unter und neben dem Grundbuchstaben erfolgen.

In außereuropäischen Schriftsystemen existieren außerdem vielfältige Ligaturen, also unterschiedlichste Kombinationen zusammentreffender Einzelbuchstaben – als Beispiele sei Devanagari oder Tamilisch herausgegriffen. In anderen Fällen (beispielsweise im Arabischen) hängt die Gestalt des sich ergebenden Schriftzeichens vom Kontext, von der sprachlichen Bedeutung ab – und nicht nur vom Zusammentreffen numerisch kodierter Einzelzeichen, wie es leicht durch eine Software umgerechnet werden kann. Im Deutschen wäre als entsprechendes Beispiel die korrekte Verwendung des langen s und runden s zu nennen oder das Verbot von ff-, fi-, fl-Ligaturen über Silbengrenzen hinweg.

Nicht jede Kombination mehrerer Elemente zu einem Schriftzeichen ist jedoch mit einer eigenen Unicode-Nummer registriert. Deshalb muss auch künftig den Anwendern die Möglichkeit gegeben werden, spezifische Schriftzeichen als eigene character entities zu vereinbaren. Eine Entität kann ferner ein Verweis auf eine Grafik (Bitmap wie auch SVG) sein.

Beispiel:

In einer Sammlung von Texten in Koreanischer Schrift wird die Entität &ko_37; verwendet. Der Herausgeber verteilt die Dokumente zusammen mit den folgenden vier DTD.

<!ENTITY ko_37 " ㅕ">
<!ENTITY Encoding "UCS"> — Unicode
<!ENTITY ko_37 " yeo ">
<!ENTITY Encoding "romanization"> — Romanisierung
<!ENTITY ko_37 "¤Å">
<!ENTITY Encoding "EUC-KR"> — EUC-KR
<!ENTITY ko_37 "<img src='ko_37.png'>">
<!ENTITY Encoding "graphic glyphs"> — Ersatzgrafik

In den vielen Nutztexten werden dann die Zeichen mittels der &ko_nn; geschrieben. Zu Beginn jedes Textes kann ein Hinweis eingefügt sein wie etwa:

This document view is shown in &Encoding; (version: &koTXT-Version; - required: 1.2).

Damit werden die Leser informiert, welches DTD zurzeit eingebunden wird und können bei Darstellungsproblemen Abhilfe schaffen.

Zukunft der Zeichenentitäten

Mit der allmählichen Verbreitung von UTF-8, UTF-16, UCS-2 und UCS-4 in internationalen IT-Anwendungen nimmt die Notwendigkeit einer Kodierung von Schriftzeichen mittels character entities allmählich ab. Es wird aber noch viele Jahre dauern, bis weltweit das letzte Kommunikationsprotokoll und die letzte Software-Anwendung Multi-Byte-Zeichen fehlerfrei handhaben kann.

Daher bleibt die Notwendigkeit bestehen, für den Austausch mittels numerischer Entitäten selbst noch auf die Stufe us-ascii (7 bit) zurückfallen zu können. Die Konvertierung ist aber in beiden Richtungen verlustfrei möglich, sofern die general entities dabei nicht angetastet werden und sofern überhaupt eine spezifische Kodierung im Universal Character Set existiert.

Bedeutung wird die Darstellung als benannte Entity wohldefinierter Einzelzeichen langfristig nur für das Lesen und Schreiben von XML-Quelltext durch menschliche Bearbeiter behalten, wenn Zeichen außerhalb der jeweiligen Sprachwelt vorkommen (seien sie nun fremdsprachlich oder auch mathematisch). Zu erwarten ist, dass im Quelltext für die Betrachtung und Veränderung die Codierungen aus problematischen Zahlenbereichen on-the-fly in benannte Entitäten umgewandelt und bei Abspeicherung wieder in numerische Entitäten oder direkt als Zeichen codiert werden.

Das Namensschema liegt dann lediglich lokal beim Bearbeiter vor und dringt nicht nach außen; neben den verbreiteten durch SGML definierten englischen Namen können genauso gut auch deutsche, französische oder russische Entitätennamen angezeigt werden.

Benannte Zeichenentitäten waren 1986 unter den damaligen Bedingungen ein sinnvolles und notwendiges Konzept in SGML. Unter sich langsam ändernden Bedingungen und mittels benutzerfreundlicher grafischer Eingabehilfen besteht auf modernen Systemen diese Notwendigkeit nicht mehr, sofern Unicode-Zeichen definiert sind. Bei HTML – der häufigsten Anwendung – ist das der Fall.

Benannte Zeichenentitäten

Benannte Zeichenentitäten sind für den Menschen da, nicht für die Maschine.

Computer können problemlos fünfstellige Zeichencodierungen verarbeiten – nur Menschen haben ihre Schwierigkeiten damit.

Gebräuchliche Namensdefinitionen

SGML (1986)

Latin Letters

isolat1 Added Latin 1

isolat2 Added Latin 2

isodia Diacritical Marks

Graphics and Symbols

isonum Numeric and Special Graphic

isopub Publishing (Typographic)

isotech General Technical

isobox Box and Line Drawing

Added Mathematical Symbols

isoamsa Arrow Relations

isoamsb Binary Operators

isoamsc Delimiters

isoamsn Negated Relations

isoamso Ordinary

isoamsr Relations

Greek Characters

isogrk1 Greek Letters

isogrk2 Monotoniko Greek

isogrk3 Greek Symbols

isogrk4 Alternative Greek Symbols

Cyrillic Characters

isocyr1 Russian Cyrillic

isocyr2 Non-Russian Cyrillic

Dabei wurden nur die Namen und eine Beschreibung des Zeichens festgelegt; die Zuordnung von Codierungen konnte erst später mit Unicode erfolgen.

Definition unter www.w3.org/2003/entities/iso8879doc

HTML 2 (1995)

Ersatzzeichen für die HTML-Syntax: amp, lt, gt, quot
Benannte Zeichen für ISO 8859-1 (also Codierungen 160…255)

Deren Definition ist identisch mit SGML:isolat1, wiedergegeben als: www.w3.org/TR/REC-html40/HTMLlat1.ent

HTML 4 (1999)

Wie HTML 2, aber Definition 152 weiterer Codierungen >255 – für die Darstellung Unicode erforderlich (UTF-8).

Definitionen erhältlich unter

Diese URL erwecken den Eindruck, ein HTML-Browser müsste die Definitionen ständig aus dem Internet nachladen. Das ist nicht so; die Standardzeichen sind fest einprogrammiert, alle HTML anzeigenden Programme sollten sie „kennen“.

XML (1998)

Vordefiniert sind nur general entities (amp, lt, gt, apos, quot) als Ersatzzeichen der XML-Syntax.

Anwender können beliebige Entitäten selbst definieren oder die vorstehend benannten DTD aus SGML oder HTML einbinden.

XHTML (2000)

Wie HTML 4, aber von XML zusätzlich das ' geerbt.

(siehe dazu unten)

MathML

Definiert sind Hunderte von Sonderzeichen, wie sie für mathematische Formeln benötigt werden. Überwiegend werden eigene Namen verwendet, die fast immer länger als die bei HTML und SGML sind.

Für dasselbe Zeichen können mehrere Namen verwendet werden:

dezimal Zeichen	Entität	Definition
168 ¨	"`die`"	SGML:isodia
	"`Dot`"	SGML:isotech
	"`uml`"	HTML.2, SGML:isodia
913 Α	"`Agr`"	SGML:isogrk1
913 Α	"`Alpha`"	HTML.4
8598 ↖	"`nwarr`"	SGML:isoamsa north west arrow
	`↖`	HTML
	"`UpperLeftArrow`"	MathML
	"`nwarrow`"	MathML

Dem Zeichen »Α« ist dabei nicht anzusehen, ob es ein griechisches großes Alpha oder ein lateinisches A ist.

Anmerkung

Gelegentlich erfolgt der Einwand, mnemonische Entitäten würden die Arbeit unnötig kompliziert machen, weil die entsprechenden DTDs vereinbart und bereitgestellt werden müssten und man solle doch gleich die richtigen Zeichen tippen bzw. nur mit den numerischen Entitäten arbeiten.

Dazu einfach ein Beispiel in SGML:isocyr1 zum Vergleich:

□ □ □ □ □ □ □

&Rcy;&ucy;&scy;&scy;&kcy;&icy;&jcy;

= Russkij

= Русский

= Русский

Es kann durchaus sinnvoll sein, nach dem Editieren die benannten Entitäten automatisch in die numerische Form umzuwandeln, in diesem Format an Andere weiterzugeben – aber bei der nächsten Änderung durch menschliche Bearbeiter die numerischen Entitäten wieder mnemonisch darzustellen.

Die Darstellung als Entitäten hat weiterhin den Vorteil, dass unterschiedliche Zeichen mit unterschiedlicher Bedeutung, die sich bei der grafischen Darstellung sehr ähneln (z. B.: Hochkomma, Akzent, Apostroph, Anführungszeichen), eindeutig unterschieden werden können.

XHTML

Zuweilen wird behauptet, XHTML würde keine benannten Entitäten „verstehen“.

Dies ist definitiv nicht so.

XHTML enthält exakt alle Definitionen aus HTML 4.0, und in jeder Implementierung müssen alle benannten Entitäten bekannt sein (und sind es auch, üblicherweise hard-coded). Diese Weiterentwicklung betrifft inneres Format und Struktur der Elemente (tags), nicht aber den Nutztext und nicht die Entitäten.

Nicht jeder ältere Webbrowser ist aber bereits XHTML-fähig. Trotzdem werden XHTML-Dokumente hier meist richtig dargestellt, da die Unterschiede zwischen XHTML und HTML innerhalb der Fehlertoleranz liegen.

Allerdings traten Mitte der 2000er Jahre vermehrt Probleme in der Kommunikation mit Webservern auf: Sie stellen die Dokumente nicht mehr mit dem MIME-Typ text/html bereit, sondern als application/xml, text/xml und andere. Dies führt zurzeit tatsächlich zu Darstellungsproblemen, wenn (ältere) Browser daraufhin den Text nicht mehr als HTML erkennen.

Weiterhin gibt es XML-Anwendungen, die mit Textpassagen arbeiten und die dazu die vergleichbaren und bekannten HTML-Elemente nachempfunden haben. Aktuelles und häufigstes Beispiel sind schriftliche RSS-Feeds (News). Sie enthalten wie HTML <p>, <span>, <div> und auch <head> / <body>. Der Quelltext sieht daher aus, als ob es sich um HTML handeln würde. Da es aber gar kein HTML-Dokument ist, können benannte Entitäten nicht benutzt werden – sofern die entsprechenden DTD nicht eingebunden wurden oder die Darstellungssoftware (meist Webbrowser) die wohlbekannten Definitionen nicht von sich aus anwendet.

Parameter-Entitäten

Ein Sonderfall in SGML, XML usw. sind die parameter entities. Sie können nicht in Dokumenten, sondern nur innerhalb von DTD benutzt werden. Ansonsten haben sie die identische Syntax, jedoch steht statt & ein % am Beginn.

Weblinks

Kategorie:

Beschreibungssprache

Wikimedia Foundation.

Игры ⚽ Поможем написать реферат

Schlagen Sie auch in anderen Wörterbüchern nach:

Entities in Markup Languages — Die Artikel Entitäten in Auszeichnungssprachen und Zeichen Entität Referenz überschneiden sich thematisch. Hilf mit, die Artikel besser voneinander abzugrenzen oder zu vereinigen. Beteilige dich dazu an der Diskussion über diese Überschneidungen … Deutsch Wikipedia
DTD Declarations — Eine Dokumenttypdefinition (englisch Document Type Definition, DTD, auch Schema Definition oder DOCTYPE) ist ein Satz an Regeln, der benutzt wird, um Dokumente eines bestimmten Typs zu deklarieren. Ein Dokumenttyp ist dabei eine Klasse ähnlicher… … Deutsch Wikipedia
Doctype — Eine Dokumenttypdefinition (englisch Document Type Definition, DTD, auch Schema Definition oder DOCTYPE) ist ein Satz an Regeln, der benutzt wird, um Dokumente eines bestimmten Typs zu deklarieren. Ein Dokumenttyp ist dabei eine Klasse ähnlicher… … Deutsch Wikipedia
Document Typ Definition — Eine Dokumenttypdefinition (englisch Document Type Definition, DTD, auch Schema Definition oder DOCTYPE) ist ein Satz an Regeln, der benutzt wird, um Dokumente eines bestimmten Typs zu deklarieren. Ein Dokumenttyp ist dabei eine Klasse ähnlicher… … Deutsch Wikipedia
Document Type Definition — Eine Dokumenttypdefinition (englisch Document Type Definition, DTD, auch Schema Definition oder DOCTYPE) ist ein Satz an Regeln, der benutzt wird, um Dokumente eines bestimmten Typs zu deklarieren. Ein Dokumenttyp ist dabei eine Klasse ähnlicher… … Deutsch Wikipedia
Dokumenttyp-Definition — Eine Dokumenttypdefinition (englisch Document Type Definition, DTD, auch Schema Definition oder DOCTYPE) ist ein Satz an Regeln, der benutzt wird, um Dokumente eines bestimmten Typs zu deklarieren. Ein Dokumenttyp ist dabei eine Klasse ähnlicher… … Deutsch Wikipedia
Dokumenttyp-Deklaration — Eine Dokumenttypdefinition (englisch Document Type Definition, DTD, auch Schema Definition oder DOCTYPE) ist ein Satz an Regeln, der benutzt wird, um Dokumente eines bestimmten Typs zu deklarieren. Ein Dokumenttyp ist dabei eine Klasse ähnlicher… … Deutsch Wikipedia
Dokumenttypdefinition (XML) — Eine Dokumenttypdefinition (englisch Document Type Definition, DTD, auch Schema Definition oder DOCTYPE) ist ein Satz an Regeln, der benutzt wird, um Dokumente eines bestimmten Typs zu deklarieren. Ein Dokumenttyp ist dabei eine Klasse ähnlicher… … Deutsch Wikipedia
Dokumenttypdeklaration — Eine Dokumenttypdefinition (englisch Document Type Definition, DTD, auch Schema Definition oder DOCTYPE) ist ein Satz an Regeln, der benutzt wird, um Dokumente eines bestimmten Typs zu deklarieren. Ein Dokumenttyp ist dabei eine Klasse ähnlicher… … Deutsch Wikipedia
XML DTD — Eine Dokumenttypdefinition (englisch Document Type Definition, DTD, auch Schema Definition oder DOCTYPE) ist ein Satz an Regeln, der benutzt wird, um Dokumente eines bestimmten Typs zu deklarieren. Ein Dokumenttyp ist dabei eine Klasse ähnlicher… … Deutsch Wikipedia

Academic dictionaries and encyclopedias

Entitäten in Auszeichnungssprachen

Inhaltsverzeichnis

Anwendung

Zeichen-Entitäten

Ersetzung von Entitäten durch Schriftzeichen

Zukunft der Zeichenentitäten

Benannte Zeichenentitäten

Gebräuchliche Namensdefinitionen

Anmerkung

XHTML

Parameter-Entitäten

Weblinks

Schlagen Sie auch in anderen Wörterbüchern nach:

Share the article and excerpts

Academic dictionaries and encyclopedias

Deutsch Wikipedia

Entitäten in Auszeichnungssprachen

Inhaltsverzeichnis

Anwendung

Zeichen-Entitäten

Ersetzung von Entitäten durch Schriftzeichen

Zukunft der Zeichenentitäten

Benannte Zeichenentitäten

Gebräuchliche Namensdefinitionen

Anmerkung

XHTML

Parameter-Entitäten

Weblinks

Schlagen Sie auch in anderen Wörterbüchern nach:

Share the article and excerpts

Direct link