Hauptmenü

Untermenü

Zeichenkodierung - Das Grundproblem

1. Die Abschnitte

2. Zeichensätze bis zum Abwinken

Der Siegeszug des Computers begann ja bekanntlicherweise in den USA. Und weil die da ein ziemlich geozentrischen Weltbild haben, kümmerten die sich Anfangs auch nur um die Buchstaben ihres Alphabets. Das Ergebnis war der ASCII-Zeichensatz. Und auf dem bauten dann andere wie zum Beispiel ISO-8859-1 auf.

Leider führt das im Internet immer wieder zu Problemen, da die einzelnen Rechner nun weiß Gott nicht über jeden pisseligen Zeichensatz verfügen. Seit ihr mal auf einer japanischen Webseite gewesen? Im Normalfall seht ihr da nur Fragezeichen, weil eure Kiste damit nicht klarkommt.

3. Zeichensätze

Um dieses Problem aus der Welt zu schaffen, wurden unterschiedliche Zeichensätze geschaffen. So gibt es zum Beispiel für den westeuropäischen Raum ISO-8859-1, auch bekannt als Latin 1. Daneben existieren noch welche für Japanisch, Koreanisch, Arabisch, und was weiß ich nicht noch.

ASCII oder ANSI

Des Öfteren wird ANSI gerne als Synonym für ASCII genommen, auch wenn das nicht ganz stimmt. Selbst im Notepad++ findet man es. Darum werde ich auch das eine oder andere Mal die Bezeichnung ANSI verwenden.

Unicode

Damit wollte man endlich mal ein Zeichensystem schaffen, das möglichst viele "Buchstaben" umfasst. Die am weitesten verbreite Kodierung nennt sich UTF-8. Und damit wollen wir uns wie schon gesagt, beschäftigen.

Das Problem

Wenn man mit UTF-8 arbeitet, so müssen alle Daten, die Text beinhalten oder ausgeben, entsprechend kodiert werden. Und genau das ist der Grund, warum Anfänger immer wieder mit denselben Problemen konfrontiert werde.

4. Das erste Beispiel

Öffnet mal die inhalt.txt mit eurem Editor. Wenn ihr die folgenden Texte zu sehen bekommt, ist alles feini feini.

UTF8-kodierter Text

Wenn nicht

..., dann habt ihr schon das erste Problem. Denn euer Editor spielt hier nicht mit. Wenn ihr zum Beispiel unter Windows XP die Datei mit einem schnöden Doppelklick geöffnet habt, so startet automatisch das betriebssystemeigene Notepad. Das kommt wunderbar mit kyrillischen und griechischen Buchstaben klar, macht aber bei arabischen Zeichen schlapp. Wenn ihr dagegen die Datei mit dem von mir empfohlenen Notepad++ öffnet, dann sieht alles gut aus.

zurück zum vorherigen Abschnitt weiter zum nächsten Abschnitt