openWIM: Informationen zum openWIM-System

Wie sind die Zeichen im WIM-System codiert ?

<2013-08-31>

Alle Texte innerhalb des WIM-Systems werden als UNICODE-Zeichen gespeichert, übertragen und dargestellt. Hier wird erläutert, welche Auswirkungen das für Autoren von Beiträgen hat.

Warum betrifft dieses Autoren von WIM-Beiträgen ?

Eigentlich sollte es den Autoren (und Nutzern) von Internetpräsenzen oder -Applikationen egal sein, welcher Zeichensatz im inneren vom WIM-System verwendet wird. Wenn jedoch Texte (/Daten) in das WIM-System eingespeist werden, kann es relevant werden. Auch wenn einzelne spezielle Zeichen bearbeitet werden sollen.

So werden innerhalb des WIM-Systems keine "named entities" (z. B.   oder ) verwendet, die nicht innerhalb vom XML-Standarf per Default definiert sind (& < > ' "). Alle (sonstigen) "named emtities" werden in die entsprechenden UNICODE-Zeichen übersetzt und dann weiterverarbeitet.

Welche Entitäten können im Quelltext auftauchen ?

Wenn sich Autoren ihre bearbeiteten Texte ansehen, können Sie im Quelltext ggf. die XML-konformen "named entities" oder in numerischer Form (tbd?) eingetragenen andere Entities entdecken. Normalerweise sollten zwar alle Zeichen in UNICODE (hier UTF-8) umgewandelt sein - das geschieht aber nicht immer vollständig.

So können Zeichen in der Form   oder   als Darstellungen für das im HTML verwendbare   vorhanden sein. Steht ein   im Quelltext, wird es bei nächster Gelegenheit in   bzw. das UTF-8 -Zeichen dafür umgewandelt und gespeichert. Ein "" wird automatisch in ein "" bzw. das UTF-8 -Zeichen dafür gewandelt.

=> Die automatische Umwandlung weiterer in HTML definierter named entities ist momentan nicht implementiert. Ihre Verwendung produziert Fehler(meldungen).

Was passiert mit den "unsichtbaren" Zeichen   und  ?

Das umbruchvermeidende Leerzeichen (non-breaking space,  ) und das optionale Trennzeichen (soft hyphen, ) werden normalerweise nicht dargestellt, bzw. sind (meist) nicht sichtbar, wenn sie dargestellt werden.

Daher werden sie in der Quelltext-Ansicht des Editors als   (Leerzeichen) bzw.  (optionale Silbentrennung) dargestellt. Zum Speichern und bei der Darstellung im Browser werden diese Entitäten in UTF-8 -Zeichen gewandelt - aber das sollte den Autoren egal sein.

In zukünftigen Versionen des Editors könnten die kryptischen Entitäten-Darstellungen auch in anderer Form angezeigt werden (tbd). Z. B. ein grauer Klecks für das spezielle Leerzeichen und ein schmaler senkrechter Strich für die optionale Trennungsstelle.

Themen hierzuAssciated topics:

UTF-8

Warum betrifft dieses Autoren von WIM-Beiträgen ?

Welche Entitäten können im Quelltext auftauchen ?

Was passiert mit den "unsichtbaren" Zeichen &nbsp; und &shy; ?

Bildrechte zu den in diese Datei eingebundenen Bild-Dateien:

Was passiert mit den "unsichtbaren" Zeichen und ?