Wikipedia:Technik/Archiv/Hilfe:UTF-8-Probleme

(Weitergeleitet von Wikipedia:UTF-8)

Wikipedia verwendet die UTF-8-Zeichenkodierung, die es erlaubt, Sonderzeichen abzubilden, die es in traditionelleren Zeichensätzen wie ASCII nicht gibt.

Da Software mit UTF-8- bzw. Unicode-Unterstützung den Markt zwar fast 100-prozentig durchdrungen hat, aber nicht jedes mögliche Schriftzeichen in allen Schriftarten auf einem Rechner enthalten ist, kann es zu Darstellungsfehlern bei der Ausgabe von Schriftzeichen kommen. Die Verfügbarkeit besonderer Zeichen ist stets abhängig von der verwendeten Schriftart.

Diese Seite soll einen Überblick über die häufigsten Probleme und ihre Lösungen geben.

Webfonts

Bearbeiten

2013 wurde damit begonnen, Wikipedia-Seiten mit Webfonts zu unterstützen („ULS“).

  • Dazu muss im Browser JavaScript aktiviert sein.
  • Zurzeit (Herbst 2015) können dies nur angemeldete Benutzer in den Einstellungen anschalten.
    • Registerkarte „Benutzerdaten“ → „Weitere Spracheinstellungen“ → „Schriftarten“ → Auswahlbox „Schriftarten herunterladen, falls nötig“ aktivieren
    • Anschließend bei „Schriftart für … auswählen“ im Dropdown die gewünschte Schriftart auswählen.

Mehr Informationen zu den WebFonts auf Hilfe:Schriftunterstützung/Webfonts oder auf der MediaWiki-Seite Universal Language Selector/WebFonts (englisch).

Windows (Windows 7 und neuere)

Bearbeiten

Hinweis: Es wird nicht auf Probleme im Zusammenhang zu von Microsoft nicht mehr unterstützten Windows-Versionen und zu von MediaWiki (der Software, auf der die Wikipedia läuft) nicht mehr unterstützten Browsern eingegangen.

Warum werden statt Sonderzeichen Rechtecke / Fragezeichen angezeigt?

Bearbeiten

Während heute viele Schriften unterstützt werden, können nach wie vor einige aus europäischer Sicht „exotische“ Schriften (z. B. Lanna) oder neu hinzugekommene Emojis nicht dargestellt werden. Stattdessen zeigt der Browser kleine Rechtecke oder Fragezeichen an, etwa □□ oder ??.

Hierfür fehlen Schriftarten, die die entsprechenden Schriftzeichen anzeigen können. Dazu muss eine entsprechende Schriftart nachinstalliert werden, die diese Schriftzeichen unterstützt. Welche das sind, darüber gibt die entsprechende Wikipedia-Sprachversion zumindest auf einer englischsprachigen Hilfeseite Auskunft (Beispiel).

Windows 7: Für Emojis ist das Update KB2729094 zu installieren (was in der Regel das Programm „Windows Update“ durchführt).

Was muss ich beachten, wenn ich die benötigten Schriften nicht installiere?

Bearbeiten

„Da von dem Darstellungsproblem ja nur exotische Sonderzeichen betroffen sind, die ich in der Regel doch nicht verstehe, habe ich mir bisher nicht die Mühe gemacht, Schriftarten für die Darstellung zusätzlicher Zeichen zu installieren. Mit welchen Komplikationen muss ich rechnen?“

  • Beim Lesen in der Wikipedia ist nichts weiter zu beachten. Für nicht installierte Zeichen werden dann einfach die oben erwähnten Platzhalter (□, ¤ oder ?) angezeigt.
  • Beim Bearbeiten von Artikeln dürfen diese Platzhalter nicht verändert werden, damit die zugehörigen Sonderzeichen bei den anderen Benutzern weiterhin angezeigt werden können.

Warum zeigt mein Browser statt Sonderzeichen Zeichensalat an?

Bearbeiten

Problem: Statt Sonderzeichen werden unlesbare Zeichenketten angezeigt, etwa ð£ð¥Ðüð║ð▓ð░ statt Москва oder ├ñ statt ä. Das sind Unicode-Zeichen, die vom Browser nicht als solche interpretiert werden, sondern als Windows Codepage 850 oder Codepage 437. Die Sonderzeichen werden zwar beim Speichern nicht zerstört, jedoch ist es schwierig, den Text zu lesen und zu bearbeiten.

Lösung:
Internet Explorer
Obere Menüleiste: AnsichtCodierung: Unicode (UTF-8) auswählen
Firefox
Obere Menüleiste: AnsichtZeichencodierung: Unicode (UTF-8) auswählen

Hilft das nicht, gibt es womöglich keine Standardlösung.

Warum werden manche Zeichen nicht angezeigt?

Bearbeiten

Wenn Zeichen nicht angezeigt werden, sondern stattdessen Ersetzungszeichen wie z. B. □ oder? angezeigt wird, liegt es wahrscheinlich daran, dass der Browser keine passende Schrifttype für das Zeichen findet. Es gibt zahlreiche freie Font-Pakete, die zusammen viele Schriften umfassen (eine Auswahl liefert der Wikipedia-Artikel Open-Source-Font).

Allerdings musst du die Fonts (Schriftarten) nur installieren, wenn dich die entsprechenden Schriften auch interessieren (dann meist einfach in den Ordner /usr/X11R6/lib/X11/fonts/truetype kopieren). Du kannst aber auch ohne die entsprechende Schriftart Artikel der Wikipedia bearbeiten.

Unter Debian GNU/Linux kann man das Paket ttf-malayalam-fonts für Malayalam und ttf-kochi-mincho bzw. ttf-sazanami-mincho für Japanisch benutzen. Die entsprechenden -gothic-Pakete sollten auch funktionieren. Für Thailändisch eignet sich xfonts-thai. ttf-kacst ermöglicht das korrekte Anzeigen von Arabisch.

Warum zeigt mein Textbrowser statt Sonderzeichen Zeichensalat an?

Bearbeiten

Problem: Wenn das Terminal, in dem der Textbrowser (z. B. Lynx, w3m) läuft, eine andere Zeichenkodierung verwendet, werden statt Sonderzeichen unlesbare Zeichenketten angezeigt, etwa Ð?оÑ?ква statt Москва oder ä statt ä. Das sind UTF-8-kodierte Zeichen, die von der Konsole nicht als solche interpretiert werden, sondern als ISO 8859-1. Die Sonderzeichen werden zwar beim Speichern nicht zerstört, jedoch ist es schwierig, den Text zu lesen und zu bearbeiten.

Lösung:

  • Auf der Linux-Konsole: die Konsole enthält das Skript unicode_start. Es schaltet die Konsole in den UTF-8-Modus. Damit lässt sich die Wikipedia bearbeiten, evtl. werden aber einige Zeichen nicht angezeigt, dazu kann man die entsprechenden Konsolen-Schriften installieren. (Evtl. bietet sich auch die Verwendung von dynafont an.)
  • Im Terminal-Fenster: Manche Terminals (z. B. das gnome-terminal) lassen sich mit echo -e '\e%G' in den UTF-8-Modus schalten; wenn man eine UTF-8-Locale verwendet, ist das im Allgemeinen nicht nötig. Xterm sollte mit dem Skript uxterm aufgerufen werden.

Siehe auch: Step by step introduction to switching your debian installation to utf-8 encoding. (Memento vom 20. Mai 2009 im Internet Archive) (evtl. veraltet)

Browserempfehlungen für ältere Mac-Systeme siehe Hilfe:Wikipedia am Mac.

Textbrowser

Bearbeiten

Warum werden Sonderzeichen in Lynx transkribiert (in lateinische Buchstaben umgewandelt)?

Problem: Sonderzeichen werden automatisch in lateinische Umschrift gewandelt. So wird etwa aus dem kyrillischen Text Архангельск automatisch Arhangel'sk. Beim Abspeichern wird diese Umwandlung nicht rückgängig gemacht, so dass die kyrillischen Zeichen verloren gehen und die Seite damit zerstört wird.

Lösung: In den Optionen (über die Taste O erreichbar) findet sich eine Option Display character set. Hier muss UNICODE (UTF-8) eingestellt werden. Danach bleiben Sonderzeichen beim Speichern erhalten. Dies muss unbedingt gemacht werden, um die Wikipedia mit Lynx zu bearbeiten! Beim Ändern der Optionen ist darauf zu achten, dass die Checkbox Optionen permanent speichern (ganz oben auf der Optionen-Seite) aktiviert sein muss, damit die Einstellungen auch beim nächsten Programmstart erhalten bleiben. Werden Optionen dennoch nicht permanent gespeichert, kann das an der Schreibberechtigung von lynx.cfg liegen, deren Speicherort über die URL lynxcfg: angegeben wird.

Außerdem muss die Konsole in der Lage sein, Unicode-Zeichen anzuzeigen. Siehe hierzu Linux allgemein: Warum zeigt mein Textbrowser statt Sonderzeichen Zeichensalat an?

Warum werden Sonderzeichen im w3m falsch angezeigt?

Problem: Einige Akzente werden falsch angezeigt, z. B. Espan~ol statt Español. Andere Sonderzeichen (z. B. chinesisch) werden durch Fragezeichen ersetzt. Beim Speichern werden diese Sonderzeichen komplett gelöscht und die Seite somit zerstört.

Lösung: In den Optionen (über die Taste o erreichbar) muss in der Kategorie Charset Settings die Option Display Charset auf Unicode (UTF-8) gestellt werden. Dies muss unbedingt gemacht werden, um die Wikipedia mit w3m zu bearbeiten!

Außerdem muss die Konsole in der Lage sein, Unicode-Zeichen anzuzeigen.

Weitere Informationen

Bearbeiten