Portal Diskussion:Unicode/Archiv/2016
Unicodeblock Arabisch: fehlendes Zeichen, Schraffur
Ist es gewollt, daß für das Zeichen U+061C nur ein Platzhalter dargestellt wird? Bei der unten eingebundenen Grafik heißt es „Codepoints fehlender Zeichen sind grau dargestellt, schraffierte Codepoints sind unbesetzt“. Ich sehe da gar kein grau …?! Gruß --Schniggendiller Diskussion 02:55, 19. Jan. 2016 (CET)
- Es handelt sich um ein unsichtbares Steuerzeichen. Da kann schlichtweg nichts dargestellt werden. Die Beschreibung unter dem Bild scheint hingegen veraltet zu sein; grau wurde wohl früher mal benutzt, jetzt benutzt man ein Kreuzmuster. -- Liliana • 11:17, 19. Jan. 2016 (CET)
hi in Unicodeblock Mathematische alphanumerische Symbole fehlt unter U+1D544 (120132) das N und auch das P --188.96.234.114 14:14, 20. Feb. 2016 (CET)
- Steht auch oben in der Einleitung: Einige Fraktur-, doppelt gestrichene und nicht-fette Schreibschrift-Buchstaben sowie die kursive Planck-Konstante ℎ finden sich im Unicodeblock Buchstabenähnliche Symbole. Ihre Plätze sind im Unicodeblock Mathematische alphanumerische Symbole frei gelassen worden. -- Liliana • 14:21, 20. Feb. 2016 (CET)
Fehlerhafte Beschreibung des Tabellenaufbaus
Da stimmt doch wohl etwas nicht:
"Das Unicode-Konsortium unterteilt die Liste in verschiedene „Blöcke“, die in der Wikipedia auf verschiedenen Unterseiten vorgestellt und erläutert werden.
Die Tabellen für jeden einzelnen Block enthalten in der ersten Spalte die Codenummer des Zeichens in hexadezimaler Darstellung, dann folgt die gleiche Nummer als Dezimalzahl in Klammern. Die zweite Spalte enthält das Zeichen so, wie es am Bildschirm oder auf dem Papier dargestellt wird, die dritte Spalte eine deutschsprachige Benennung des Zeichens und die vierte Spalte die (englischsprachige) offizielle Bezeichnung des Zeichens."
Denn die Vorlage Unicodetabelle/Kopf sieht so aus:
Unicodenummer | Zeichen (400 %) | . . . | Offizielle Bezeichnung | Beschreibung |
---|
Daher sollte es ja wohl heißen:
"... Die zweite Spalte enthält das Zeichen so, wie es am Bildschirm oder auf dem Papier dargestellt wird, die vorletzte Spalte die (englischsprachige) offizielle Bezeichnung des Zeichens und die letzte Spalte eine deutschsprachige Benennung des Zeichens."
Mit freundlichem Gruß, --188.102.29.25 11:06, 5. Mai 2016 (CEST)
Erledigt. ÅñŧóñŜûŝî (Ð) 18:35, 22. Sep. 2016 (CEST)
- Archivierung dieses Abschnittes wurde gewünscht von: ÅñŧóñŜûŝî (Ð) 18:32, 22. Sep. 2016 (CEST)
Unicode 9.0
Hat schon jemand vor, die ganzen Unicodeblock-Seiten auf Unicode 9.0 zu aktualisieren? Ansonsten würde ich mich dessen annehmen. --RandomGuy032 (Diskussion) 01:05, 24. Jul. 2016 (CEST)
Kannst du gerne machen. Am Besten fängst du mit den Ergänzungen bereits existierender Blöcke an. Es gibt auch zahlreiche logische Änderungen an bereits vorhandenen Zeichen. ÅñŧóñŜûŝî (Ð) 01:08, 24. Jul. 2016 (CEST)
32 reservierte "non-characters" in Unicodeblock Arabische Präsentationsformen-A
Wieso wurden in jenem Block 32 Codepoints als "non-characer" reserviert?
Im Artikel steht: „Der innerhalb des Blocks liegende Bereich von U+FDD0 bis U+FDEF kann nicht für die Codierung von Zeichen verwendet werden, da diese Bitfolgen für die interne UTF-Codierung benötigt werden.“
Aber was genau hat es damit auf sich? Es wäre toll, wenn der Artikel das genauer erläutern würde, denn mir ist keine UTF-Kodierung bekannt, die diese 32 Codepoints nutzt. --62.224.160.232RokerHRO (Diskussion) 16:47, 17. Aug. 2016 (CEST)
- Man brauchte einfach 32 Noncharacters und in Arabic Presentation Forms-A war noch Platz. Ich werde das bei Gelegenheit mal im Artikel ergänzen, sobald ich die Quelle wiederfinde. --RandomGuy032 (Diskussion) 14:48, 2. Sep. 2016 (CEST)
- Ich empfehle, bei den FAQs des Unicode-Konsortiums den Abschnitt Noncharacters von Anfang an durchzulesen. Dort wird übrigens auch die Frage Why are 32 of the noncharacters located in a block of Arabic characters? behandelt. — Ich bin sehr gespannt auf deine Quelle, RandomGuy032. Lieben Gruß —LiliCharlie (Disk.) 15:31, 2. Sep. 2016 (CEST)
- Das FAQ ist mir bekannt, aber ich könnte schwören, an anderer Stelle noch Ausführlicheres dazu gelesen zu haben. Vielleicht erinnere ich mich auch falsch. --RandomGuy032 (Diskussion) 16:04, 2. Sep. 2016 (CEST)
- Vielleicht ist deine Erinnerung aber auch sehr richtig. — Ich habe leider im Moment keine Zeit, die Archive der Unicode Mail List zu durchstöbern, mit denen ich bei meiner Suche anfangen würde. Lieben Gruß —LiliCharlie (Disk.) 17:47, 2. Sep. 2016 (CEST)
- P.S.: Das oben zitierte „für die interne UTF-Codierung benötigt“ halte ich für äußerst fragwürdig und möchte ich belegt haben. Ein Zusammenhang mit UTF ist mir unbekannt. Lieben Gruß —LiliCharlie (Disk.) 17:55, 2. Sep. 2016 (CEST)
- Das steht gewiss mit den Bitfolgen im Zusammenhang. Der o.g. Block "hat einfach nur das Pech" genau dort platziert zu sein, wo die nicht nutzbaren bitfolgen sind. Ich schaue mal genauer danach... ÅñŧóñŜûŝî (Ð) 20:44, 2. Sep. 2016 (CEST)
- ÅñŧóñŜûŝî schrieb: „Das steht gewiss mit den Bitfolgen im Zusammenhang.“
- Ach so.
- Auch ich hatte zwar einen Moment lang an einen Zusammenhang mit der Einführung von surrogate pairs gedacht, halte das aber für unwahrscheinlich. Noncharacters sind ihrem Namen zum Trotz keine Nicht-Zeichen, sondern dürfen und sollen genauso wie private use characters verwendet werden, wenn auch nur „zum internen Gebrauch“ (“for internal use”). Vermutest du auch bei irgendwelchen private use characters einen Zusammenhang mit Bitfolgen?. Lieben Gruß —LiliCharlie (Disk.) 21:33, 2. Sep. 2016 (CEST)
- Private Use sind einfach nur Codepoints, denen keine konkrete Bedeutung zugeordnet werden. Es sind keine reservierten Codepoints. Noncharacters sind jedoch gesperrte Codepoints. Sie sind weder mit einer (Zeichen-) Bedeutung belegt noch sind sie reserviert, also Teil des ggf. später genutzten "Vorrats" an Codepoints. Dieses “for internal use” kann eigentlich nur bedeuten, dass es einen technischen Grund gibt. Könnte aber sein, dass es um einen Konflikt mit einer anderen Codierung als UTF gibt. ÅñŧóñŜûŝî (Ð) 19:49, 3. Sep. 2016 (CEST)
- Das steht gewiss mit den Bitfolgen im Zusammenhang. Der o.g. Block "hat einfach nur das Pech" genau dort platziert zu sein, wo die nicht nutzbaren bitfolgen sind. Ich schaue mal genauer danach... ÅñŧóñŜûŝî (Ð) 20:44, 2. Sep. 2016 (CEST)
- Ich finde, die Frage nach dem Unterschied zwischen PUA-Zeichen und noncharacters wird hier in den FAQs klar beantwortet. Für PUA-Zeichen sollen zum Zwecke des Austauschs (z.B. per E-Mail) von den sich austauschenden Benutzern geteilte Konventionen geschaffen werden wie das ConScript Unicode Registry, SIL’s Private Use Area oder ähnliche, während noncharacters (die wie PUA-Zeichen über keine von Unicode vorgegebene Bedeutung verfügen) andere Aufgaben, nämlich solche ohne Austausch (d.h. innerhalb eines Computersystems) übernehmen sollen. Die zuletzt genannte Art der Zeichenbenutzung trägt den Namen internal use. — Dass 32 der noncharacters bei den Arabic Presentation Forms-A gelandet sind, lag laut dem Konsortium daran, dass das (aus technischen Gründen natürlich bevorzugte) BMP schon fast voll war und man sich klar geworden war, dass in diesem Block – und ich möchte hinzufügen: auch generell – keine weiteren reinen Präsentationsformen mehr hilfreich sein und definiert werden würden. Lieben Gruß —LiliCharlie (Disk.) 21:01, 3. Sep. 2016 (CEST)
- Du meinst, das das einfach nur 32 Codepoints zur Verwendung "daheim im stillen Kämmerlein" sind? ÅñŧóñŜûŝî (Ð) 21:58, 3. Sep. 2016 (CEST)
- Ja, oder noch genauer: daheim im stillen Compüterlein, wo die Apps nach Gutdünken der Programmierer die Bits’n’Bytes’n’Characters vom Benutzer unbemerkt verarbeiten. — Andererseits: obwohl ausdrücklich nicht dazu vorgesehen, besteht ja kein Verbot des Austauschs von noncharacters, sondern nur der Sicherheit halber ein Verbot, sie dann einfach löschen. Manchmal verlassen sie also doch ihr Zuhause uns machen sich auf die Reise in fremde Gefilde, wo man die Bedeutung, die sie daheim hatten, allerdings nicht kennt und zu schätzen weiß. Lieben Gruß —LiliCharlie (Disk.) 22:52, 3. Sep. 2016 (CEST)
- Das wäre dann aber kaum etwas anderes als PUAs. Allenfalls mit dem Unterschied, dass man da beispielsweise auch Steuerzeichen für Geräte unterbringen könnte. So könnte der Hersteller eines Druckers mit Endlospapier dort ein Zeichen zum Schneiden unterbringen oder ein Programmierer einem der Noncharacters die Bedeutung zuordnen, mit der heimlichen Datenübertragung an die NSA zu beginnen ;-( ... ÅñŧóñŜûŝî (Ð) 13:32, 4. Sep. 2016 (CEST)
- Ja, oder noch genauer: daheim im stillen Compüterlein, wo die Apps nach Gutdünken der Programmierer die Bits’n’Bytes’n’Characters vom Benutzer unbemerkt verarbeiten. — Andererseits: obwohl ausdrücklich nicht dazu vorgesehen, besteht ja kein Verbot des Austauschs von noncharacters, sondern nur der Sicherheit halber ein Verbot, sie dann einfach löschen. Manchmal verlassen sie also doch ihr Zuhause uns machen sich auf die Reise in fremde Gefilde, wo man die Bedeutung, die sie daheim hatten, allerdings nicht kennt und zu schätzen weiß. Lieben Gruß —LiliCharlie (Disk.) 22:52, 3. Sep. 2016 (CEST)
- Das Konsortium nennt als zwei Nutzungsbeispiele, dass “they might be used internally as a particular kind of object placeholder in a string. Or they might be used in a collation tailoring as a target for a weighting that comes between weights for "real" characters of different scripts, thus simplifying the support of "alphabetic index" implementations.” Deine Verwendungsvorschläge sind aber natürlich auch möglich und vielleicht sogar längst umgesetzt. ;-) Aber da nicht wie bei echten PUA-Zeichen Konventionen geschaffen (und zum Zwecke des Austauschs veröffentlicht) werden sollen, werden wir das wohl nie erfahren, es sei denn, wir gründen die Organisation NoncharacterLeaks aka InternalCharacterLeaks. :-( Lieben Gruß —LiliCharlie (Disk.) 14:35, 4. Sep. 2016 (CEST)
Zwischenstand
- Danke für eure Antworten bisher. Ich hätte ja nicht gedacht, dass meine Frage so eine intensive Diskussion auslöst. :-o
- Den Abschnitt in der FAQ ("but as of 2001, when the need for more BMP noncharacters became apparent") fand ich wenig befriedigend, da dort ja nicht steht, was denn genau den Bedarf ("need") für diese Noncharacters auslöste.
- Die 2. Erklärung ("For example, they might be used internally as a particular kind of object placeholder in a string. Or they might be used in a collation tailoring as a target for a weighting that comes between weights for "real" characters of different scripts, thus simplifying the support of "alphabetic index" implementations." fand ich da schon hilfreicher. Aber da macht es mich neugierig, ob es wirklich ein Programm (oder eine Unicode-Library) gibt, das diese Zeichen zu diesem Zwecke gebraucht. Weiß da jemand Genaueres?
- --RokerHRO (Diskussion) 20:34, 4. Sep. 2016 (CEST)
- Das ist auch echt ein ziemlich kryptisches Thema bei unicode.org. von den FAQs und den Antworten dzu mal abgesehen, gibt es wohl keine zusammengefasste Dokumentation oder Definition, was noncharacters sind oder bezwecken sollen. Einen Objektersetzungszeichen gibt es auch im Unicodeblock Spezielles unter U+FFFC. Ich versuche gerade, den "Unicode Technical Standard Nr. 10" zu kapieren. Insbesondere, was mit "collation tailoring" (dt. etwa "Zuschneiden der Sortierung") gemeint ist und was die Nonchars da bezwecken sollen. ÅñŧóñŜûŝî (Ð) 23:52, 4. Sep. 2016 (CEST)
- @Antonsusi: Im UTS #35, in dem es ebenfalls um collation geht, gibt es im letzten Kapitel mehrere Sätze, in denen ein Gebrauch von U+FDD0 (dem ersten noncharacter im Block Arabic Presentation Forms-A) beschrieben wird. Lieben Gruß —LiliCharlie (Disk.) 00:45, 5. Sep. 2016 (CEST)
Deutsche Beschreibungen in der Mathematik gebräuchlicher Buchstabenformen
Auf der Seite Unicodeblock_Mathematische_alphanumerische_Symbole fand ich, eher zufällig, Bezeichnungen wie
- Mathematischer fetter Großbuchstabe A
- Mathematischer Schreibschrift-Großbuchstabe A
Eine Diskussion dazu fand ich bei kurzer Durchsicht der Archive nicht.
Ich halte die Beschreibungen für wenig geeignet. Es gibt m.E. keine „mathematischen Buchstaben“, mindestens ist diese Formulierung zweifelhaft. Nicht ohne Grund heißt der Unicodeblock „Mathematische alphanumerische Symbole“ („Mathematical Alphanumeric Symbols“). Ein Indiz: in der deutschsprachigen WP ist „mathematischer Buchstabe“ nicht zu finden. Google hat drei Treffer, „mathematical letter“ bringt es auf 1220, die sich aber mindestens großteils auf eine andere Bedeutung beziehen oder, korrekter, „mathematical letter symbols“ bzw. „mathematical letter-like symbols“ behandeln.
Korrekter wäre m.E. etwa eine der folgenden Varianten, sicher sind noch andere Alternativen zu finden:
- Mathematische Schrift – fetter Großbuchstabe A
- Mathematische Schrift: fetter Großbuchstabe A
- Mathematische Schrift, fetter Großbuchstabe A
- Fetter Großbuchstabe A [in] der Mathematik
- Fetter Großbuchstabe A (mathematisch)
- Fetter Großbuchstabe A (Mathematik)
- Fetter Großbuchstabe A der mathematischen Schrift
- Fetter Großbuchstabe A (mathematische Schrift)
- Mathematisches Symbol fetter Großbuchstabe A
bzw.
- Mathematische Schreibschrift – Großbuchstabe A
- Mathematische Schreibschrift: Großbuchstabe A
- Mathematische Schreibschrift, Großbuchstabe A
- Schreibschrift-Großbuchstabe A [in] der Mathematik
- Schreibschrift-Großbuchstabe A (mathematisch)
- Schreibschrift-Großbuchstabe A (Mathematik)
- Großbuchstabe A der mathematischen Schreibschrift
- Großbuchstabe A (mathematische Schreibschrift)
- Mathematisches Symbol Schreibschrift-Großbuchstabe A
wobei natürlich auch der Begriff „mathematische Schrift“ noch kritisiert werden kann. Die jeweils letztgenannte Form erscheint mir mit Abstand am geeignetsten. (Ja, etwas länger ist sie…)
Da es sich um Beschreibungen handelt, kann keine Theoriefindung vorliegen. Das Ziel, aus den Übereinkünften,
- „Deutsche Bezeichnungen für Unicode-Symbole und zwar ausschließlich mit lateinischen Buchstaben ohne Sonderzeichen geschrieben“
ist aus demselben Grund hier nicht gültig. (Abgesehen davon, dass unklar ist, worauf es beruht, dass die bisherigen Beschreibungen dem auch nicht entsprechen und dass einige der vorgeschlagenen Beschreibungen dieser Bedingung genügen.) --Griot (Diskussion) 16:34, 20. Sep. 2016 (CEST)
Klammern sind nicht gut. Kurz und markant ist besser. Der Originaltext ist ja auch nicht besser. Insoweit belassen. Wenn ändern, dann die Typen:
- Mathematische Schrift Großbuchstabe A
- Mathematische Schrift fetter Großbuchstabe A
- Mathematische Schreibschrift Großbuchstabe A
- ÅñŧóñŜûŝî (Ð) 21:34, 20. Sep. 2016 (CEST)
- Rainer Seitel benutzt auf seiner umfangreich recherchierten Seite Unicode® 8.0 Zeichen und Symbole auf Deutsch Namen wie mathematisches kursives kleines m, mathematisches Skript großes Z, mathematisches Fraktur großes N, mathematisches serifenloses großes Y und mathematische dicktengleiche Ziffer Null, aber wirklich etabliert haben sich diese Namen wohl nicht. Lieben Gruß —LiliCharlie (Disk.) 22:38, 20. Sep. 2016 (CEST)
- Es muss ja auch nicht weit etabliert sein, denn fast immer wird international die offizielle, engl. Bezeichnung benutzt. Hier soll ja in erster Linie der engl. Text übersetzt werden, damit man auch ohne Englischkenntnisse versteht, was das für ein Zeichen sein soll. ÅñŧóñŜûŝî (Ð) 22:54, 20. Sep. 2016 (CEST)
- Rainer Seitel benutzt auf seiner umfangreich recherchierten Seite Unicode® 8.0 Zeichen und Symbole auf Deutsch Namen wie mathematisches kursives kleines m, mathematisches Skript großes Z, mathematisches Fraktur großes N, mathematisches serifenloses großes Y und mathematische dicktengleiche Ziffer Null, aber wirklich etabliert haben sich diese Namen wohl nicht. Lieben Gruß —LiliCharlie (Disk.) 22:38, 20. Sep. 2016 (CEST)
Diskussion:Han-Vereinheitlichung – Feedback erwünscht
Ich benötige Feedback zu Diskussion:Han-Vereinheitlichung#Tabellen nochmal mit Grafiken für die Zeichen?. Es geht um Darstellungsprobleme gleicher Unicode-Zeichen, die aber im Kurzzeichen-Chinesischen, Langzeichen-Ch., Japanischen und Koreanischen unterschiedlich aussehen. Danke. Lieben Gruß —LiliCharlie (Disk.) 20:10, 23. Feb. 2016 (CET)
- Diese Diskussion ist wohl eingeschlafen und insoweit erledigt. ÅñŧóñŜûŝî (Ð) 23:12, 13. Apr. 2020 (CEST)
- Archivierung dieses Abschnittes wurde gewünscht von: ÅñŧóñŜûŝî (Ð) 23:12, 13. Apr. 2020 (CEST)
Hilfe: Wie finde ich einen Codeblock?
Leider war mir nicht bewußt, daß es bei Wikipedia auch Eastereggs gibt.
Der Unicodeblock Verschiedene Symbole (engl. Miscellaneous Symbols, U+2600 bis U+26FF) enthält entsprechend seinem Namen ein Sammelsurium von Symbolen und Figuren aus verschiedensten Lebensbereichen, darunter Symbole für Wetterkarten, religiöse Symbole, astronomische Symbole, Schachfiguren, Spielkartenfarben, genealogische und esoterische Zeichen und vieles andere.
So hat es ganz schön gebraucht, bis ich entdeckte, daß sich hinter Unicodeblock die Liste der Unicodeblöcke und nicht das Lemma Der Unicodeblock verbirgt; da hilft auch kein Fettschreiben. Das sollte doch zumindest dann wenigstens an dieser Stelle nochmals stehen:
<proc> == Siehe auch == * Dingbats (U+2700–U+27FF) * Unicodeblock Verschiedene Symbole und Pfeile (2B00–2BFF) * etc. * p.p. * Liste der Unicodeblöcke </proc>
Und zwar sollte das imho auf jeder Unicodeblock-Seite so sein.
- Das heißt: da sollte ein Mensch mit Privs einen Editbot drüber laufen lassen. --188.102.30.59 11:49, 30. Apr. 2016 (CEST)
- Archivierung dieses Abschnittes wurde gewünscht von: ÅñŧóñŜûŝî (Ð) 23:12, 13. Apr. 2020 (CEST)