Diskussion:CESU-8
Kannst du mal ein konkretes Beispiel von Zeichen und ihrer Kodierung geben?-- Nichtich 19:04, 18. Okt 2005 (CEST)
Beispiele für solche Zeichen in Titeln von wiki-Artikeln: http://meta.wikimedia.org/wiki/User:Brion_VIBBER/Unicode_high_chars
Ich verstehe garnicht, warum es diese Kodierung überhaupt gibt. Wieso sollte irgendjemand Unicode so komisch kodieren wollen? Ist nicht ganz normales UTF-8 in JEDEM Fall die bessere Wahl? UTF-8 braucht weniger Speicherplatz und lässt sich einfacher (de)kodieren. Wenn man dieses komische CESU-8 lesen will muss man es ja zweimal dekodieren. Weiß hier jemand, wofür CESU-8 gut ist? 84.58.102.236 15:24, 25. Mai 2007 (CEST)
- Das entsteht, wenn man die Existenz von Unicode-Zeichen jenseits der ersten Gruppe (alles, was 32 Bit bei UTF-16 braucht) ignoriert, also "Unicode = 16 Bit" denkt, und dann einen UTF-8-Konverter schreibt.
- Eigentlich ist das nur ein Konverter UCS-2 -> UTF-8, aber wenn man ihn auf UTF-16 loslässt, kommt eben dieses CESU-8 heraus.
Verbreitung?
BearbeitenCESU-8 dürfte in der Praxis sehr wenig verbreitet sein, da kaum Notwendigkeit besteht, "hohe" Unicodes in derartige Datenbanken einzuspeichern. Die unteren 64K Zeichen enthalten alles wichtige, und für "hohe" sind Schriftarten nach wie vor Mangelware.
Richtig ist, es geistern viele UTF-16 <-> UTF-8-Routinen herum, die diesen Namen nicht verdienen, sondern die Surrogates nicht beachten. Der Einfachheit halber. Hohe Unicodes sind eh' selten, braucht keiner, oder sind in dem gerade zu programmierenden 8-bit-Mikrocontroller nicht vorgesehen. Daher besteht weiterhin die Gefahr, dass CESU-8 „plötzlich“ auftaucht, irgendwann später.
--86.56.10.171 03:23, 23. Feb. 2014 (CET)
- Na ja. Bei meinem ersten Projekt, für das ich meine Software auf Unicode umgestellt habe, werden drei derartiger Zeichen verwendet. Die kommen dann gleich tausendfach vor. Freimatz (Diskussion) 07:35, 3. Apr. 2015 (CEST)