Zeichenkodierung - Das Grundproblem
1. Die Abschnitte
- Einführung
- Das Grundproblem
- HTML
- CSS
- MySQL Teil 1
- MySQL Teil 2
- PHP
- PHP und HTML
2. Zeichensätze bis zum Abwinken
Der Siegeszug des Computers begann ja bekanntlicherweise in den USA. Und weil die da ein ziemlich
geozentrischen Weltbild haben, kümmerten die sich
Anfangs auch nur um die Buchstaben ihres Alphabets. Das Ergebnis war der ASCII-Zeichensatz. Und auf dem bauten dann andere wie zum Beispiel ISO-8859-1
auf.
Leider führt das im Internet immer wieder zu Problemen, da die einzelnen Rechner nun weiß Gott nicht über jeden pisseligen Zeichensatz verfügen. Seit ihr mal auf einer japanischen Webseite gewesen? Im Normalfall seht ihr da nur Fragezeichen, weil eure Kiste damit nicht klarkommt.
3. Zeichensätze
Um dieses Problem aus der Welt zu schaffen, wurden unterschiedliche Zeichensätze geschaffen. So gibt es zum Beispiel für den
westeuropäischen Raum ISO-8859-1
, auch bekannt als Latin 1
. Daneben existieren noch welche für Japanisch,
Koreanisch, Arabisch, und was weiß ich nicht noch.
ASCII oder ANSI
Des Öfteren wird ANSI gerne als Synonym für ASCII genommen, auch wenn das nicht ganz stimmt. Selbst im Notepad++ findet man es. Darum werde ich auch das eine oder andere Mal die Bezeichnung ANSI verwenden.
Unicode
Damit wollte man endlich mal ein Zeichensystem schaffen, das möglichst viele "Buchstaben" umfasst. Die am weitesten verbreite Kodierung nennt sich UTF-8. Und damit wollen wir uns wie schon gesagt, beschäftigen.
Das Problem
Wenn man mit UTF-8 arbeitet, so müssen alle Daten, die Text beinhalten oder ausgeben, entsprechend kodiert werden. Und genau das ist der Grund, warum Anfänger immer wieder mit denselben Problemen konfrontiert werde.
4. Das erste Beispiel
Öffnet mal die inhalt.txt
mit eurem Editor. Wenn ihr die folgenden Texte zu sehen bekommt, ist alles feini feini.
Wenn nicht
..., dann habt ihr schon das erste Problem. Denn euer Editor spielt hier nicht mit. Wenn ihr zum Beispiel unter Windows XP die Datei mit einem schnöden Doppelklick geöffnet habt, so startet automatisch das betriebssystemeigene Notepad. Das kommt wunderbar mit kyrillischen und griechischen Buchstaben klar, macht aber bei arabischen Zeichen schlapp. Wenn ihr dagegen die Datei mit dem von mir empfohlenen Notepad++ öffnet, dann sieht alles gut aus.
zurück zum vorherigen Abschnitt weiter zum nächsten Abschnitt