Wie sind die Zeichen im WIM-System codiert ?
<2013-08-31>
Alle Texte innerhalb des WIM-Systems werden als UNICODE-Zeichen gespeichert, über­tragen und darge­stellt. Hier wird erläutert, welche Auswir­kungen das für Autoren von Beiträgen hat.

Warum betrifft dieses Autoren von WIM-Beiträgen ?

Eigentlich sollte es den Autoren (und Nutzern) von Internetpräsenzen oder -Applikationen egal sein, welcher Zeichensatz im inneren vom WIM-System verwendet wird. Wenn jedoch Texte (/Daten) in das WIM-System eingespeist werden, kann es relevant werden. Auch wenn einzelne spezielle Zeichen bearbeitet werden sollen.

So werden innerhalb des WIM-Systems keine "named entities" (z. B. &nbsp; oder &shy;) verwendet, die nicht innerhalb vom XML-Standarf per Default definiert sind (&amp; &lt; &gt; &apos; &quot;). Alle (sonstigen) "named emtities" werden in die entsprechenden UNICODE-Zeichen übersetzt und dann weiterverarbeitet.

Welche Entitäten können im Quelltext auftauchen ?

Wenn sich Autoren ihre bearbeiteten Texte ansehen, können Sie im Quelltext ggf. die XML-konformen "named entities" oder in numerischer Form (tbd?) eingetragenen andere Entities entdecken. Normalerweise sollten zwar alle Zeichen in UNICODE (hier UTF-8) umgewandelt sein - das geschieht aber nicht immer vollständig.

So können Zeichen in der Form &#160; oder &#xA0; als Darstellungen für das im HTML verwendbare &nbsp; vorhanden sein. Steht ein &nbsp; im Quelltext, wird es bei nächster Gelegenheit in &#160; bzw. das UTF-8 -Zeichen dafür umgewandelt und gespeichert. Ein "&shy;" wird automatisch in ein "&#173;" bzw. das UTF-8 -Zeichen dafür gewandelt.

=> Die automatische Umwandlung weiterer in HTML definierter named entities ist momentan nicht implementiert. Ihre Verwendung produziert Fehler(meldungen).

Was passiert mit den "unsichtbaren" Zeichen &nbsp; und &shy; ?

Das umbruchvermeidende Leerzeichen (non-breaking space, &nbsp;) und das optionale Trennzeichen (soft hyphen, &shy;) werden normalerweise nicht dargestellt, bzw. sind (meist) nicht sichtbar, wenn sie dargestellt werden.

Daher werden sie in der Quelltext-Ansicht des Editors als &#160; (Leerzeichen) bzw. &#173; (optionale Silbentrennung) dargestellt. Zum Speichern und bei der Darstellung im Browser werden diese Entitäten in UTF-8 -Zeichen gewandelt - aber das sollte den Autoren egal sein.

In zukünftigen Versionen des Editors könnten die kryptischen Entitäten-Darstellungen auch in anderer Form angezeigt werden (tbd). Z. B. ein grauer Klecks für das spezielle Leerzeichen und ein schmaler senkrechter Strich für die optionale Trennungsstelle.

Themen hierzuAssciated topics:

UTF-8

Die Bildrechte werden in der Online-Version angegeben.For copyright notice look at the online version.

Bildrechte zu den in diese Datei eingebundenen Bild-Dateien:

Hinweise:
1. Die Bilder sind in der Reihenfolge ihres ersten Auftretens (im Quelltext dieser Seite) angeordnet.
2. Beim Anklicken eines der nachfolgenden Bezeichnungen, wird das zugehörige Bild angezeigt.
3, Die Bildrechte-Liste wird normalerweise nicht mitgedruckt,
4. Bildname und Rechteinhaber sind jeweils im Dateinamen des Bildes enthalten.