Stand: 27. Juni 2015
über dieses Dokumentwas es hierin gibt
wo man die neuste Version bekommt
wie man den Verfasser kontaktiert
welche gesetzlichen Einschränkungen es gibtLizenzlosigkeit
Verfasserschutz
Vorbehalt für zusätzliche Einschränkungen für zukünftige Versionen
allgemeine Informationen über ZeichenkodierungenZweck
Zeichentabellen
Unterschiede zwischen den verschiedenen Zeichenkodierungen
die Details von den ZeichenkodierungenASCIIallgemeinesASCII-7
verwendete ZeichentabellenallgemeinesASCII-8
Größe
Kodierung
verwendete ZeichentabellenallgemeinesISO 8859-1
Größe
Kodierung
verwendete ZeichentabellenallgemeinesUCS-2BE
Größe
Kodierung
verwendete ZeichentabellenallgemeinesUCS-2LE
Größe
Kodierung
verwendete ZeichentabellenallgemeinesUCS-4BE
Größe
Kodierung
verwendete ZeichentabellenallgemeinesUCS-4LE
Größe
Kodierung
verwendete ZeichentabellenallgemeinesUTF-8
Größe
Kodierung
verwendete Zeichentabellenallgemeines
Größe
Kodierung
verwendete Zeichentabellen
weiteres Material zu diesem ThemaBibliotheken
Dokumente
Aufnahme von weiteren Materialien
was es hierin gibt
Dieses Dokument
- beschreibt verschiedene Zeichenkodierungen.
wo man die neuste Version bekommt
Derzeit nutze ich OnTheServer.de/Downloads/ um neue Versionen zugänglich zu machen. Sie müsste irgendwo dort in den Unterverzeichnissen sein; das kann sich hin und wieder ein bischen ändern.
Dort gibt es vielleicht auch dieses Dokument in anderen Sprachen.
Die Versions-Angabe von diesem Dokument steht oben rechts ("Stand: ...").
wie man den Verfasser kontaktiert
Der Verfasser von diesem Dokument kann mit der Hilfe von einer elektronischen Nachricht kontaktiert werden. Das hierfür eingerichtete Postfach ist mit der Hilfe von der folgenden Adresse erreichbar:Kontakt@On(entferne mich)TheServer.de
welche gesetzlichen Einschränkungen es gibt
Lizenzlosigkeit
Dieses Dokument
- ist an keine Lizenz gebunden.
- unterliegt nicht den Einschränkungen durch das Urhebergesetz.
- soll allgemeinfrei (public domain) behandelt werden. Also so, als wenn es sich um ein Eigentum von der Allgemeinheit handelt.
Im Übrigen soll alles, was man auf OnTheServer.de und den Subdomains öffentlich zugänglich findet, entsprechend behandelt werden.
Es gibt auf OnTheServer.de allerdings eine Ausnahme:Ich lege gelegentlich im Verzeichnis "OnTheServer.de/temp/" urheberrechtlich geschütztes Material ab.
Es ist nicht gestattet, auf irreführendeweise vorzutäuschen, dass das (ursprüngliche) Dokument an eine Lizenz gebunden wäre.
Verfasserschutz
Es ist nicht gestattet, auf irreführendeweise vorzutäuschen, dass man der (ursprüngliche) Verfasser vom Dokument wäre. Der (ursprüngliche) Verfasser muss jedoch nicht namentlich genannt werden.
Vorbehalt für zusätzliche Einschränkungen für zukünftige Versionen
Ich (der ursprüngliche Verfasser) behalte die Möglichkeit, Einschränkungen füraufzuerlegen. Von den Einschränkungen wären lediglich neue Versionen betroffen. Was bisher veröffentlicht wurde, erhält keine weiteren Einschränkungen.
- die Veränderung oder/und
- die Verbreitung
Von diesem Recht werde ich hoffentlich nie gebrauch machen müssen.
Zweck
Eine Zeichenkodierung dient als Hilfskonstrukt, um Zeichen, Wörte oder komplette Texte in einem digitalen System zu speichern.
Digitale Systeme sind besonderst gut für die Änderung und Speicherung vongeeignet. Nicht aber für die Änderung und Speicherung von
- Zahlen mit begrenzter Auflösung
- Formen,
- Geräuschen,
- Grafiken oder
- Schriftzeichen.
Ein digitales System ist meistens als ein binäres System realisiert. Das heißt, dass die Werte, die bearbeitet und gespeichert werden können,
- nicht nur begrenzt sind (das heißt: "digital sind"),
- sondern auch lediglich 2 verschiedene Zustände annehmen können (das heißt: "binär sind").
Hieraus ergibt sich die besonderst gute Eignung für die Speicherung vonund die besonderst schlechte Eignung für die Speicherung von
- Zahlen mit begrenzter Auflösung
- Formen,
- Geräuschen,
- Grafiken und
- Schriftzeichen.
Um dennoch Texte Ändern und Speichern zu können, wird meistens als erster Schritt einer gewissen Menge an Schriftzeichen jeweils eine eindeutige Zahl zugewiesen. Diese Zuweisungen werden "Zeichentabelle" genannt. Die Zeichentabelle könnte also folgende Definitionen umfassen:
- Dem Zeichen "A" wird die Zahl "0" zugewiesen.
- Dem Zeichen "B" wird die Zahl "1" zugewiesen.
- Dem Zeichen "C" wird die Zahl "2" zugewiesen.
Die Zahl "2" beispielsweise kann in einem binären System nicht direkt als "2" gespeichert werden, wie wir sie im Dezimalsystem kennen, sondern muss zunächst in das Binärsystem umgerechnet werden und kann dann als "10" gespeichert werden.
Wenn im binären System der Text "BAC" gespeichert werden soll, dann könnte also die Bitfolge "1010" gespeichert werden. Man könnte die Bitfolge später als
- "1 0 10" interpretieren, woraus sich der Text "BAC" ergeben würde, oder aber als
- "10 10" interpretieren, woraus sich der Text "CC" ergeben würde.
Um die Mehrdeutigkeit zu vermeiden kann eine Zeichenkodierung verwendet werden.
Die Zeichenkodierung definiert, wie ein Zeichen gespeichert wird und dies meistens auf eine Art, dass jedes Zeichen aus der gespeicherten Bitfolge eindeutig wieder ausgelesen werden kann.
Eine Zeichenkodierung könnte also folgende Definitionen umfassen:
- Die Zahl, die mit der Hilfe von der Zeichentabelle dem Zeichen zugewiesen wurde, wird als "2 Bit"-großer Wert gespeichert.
- Alle "2 Bit"-großen Werte werden in der selben Reihenfolge gespeichert, wie die Zeichen im Text sind.
Wenn also durch die Zeichenkodierung der Text "BAC" als Bitfolge gespeichert wird, dann ergibt sich die Bitfolge "010010".
Zeichentabellen
Im Speziellen in der Anfangszeit von den binären Systemen war Speicherplatz teuer. Daher wurden in eine Zeichentabelle in der Regel lediglich die Zeichen aufgenommen, die für den Zweck auch benötigt wurden. Zeichen die lediglich Nummern verbrauchen aber nie eingesetzt werden, sorgen dafür, dass die nachfolgenden Zeichen eine höhere Nummer zugewiesen bekommen, als notwendig wäre. Eine höhere Nummer benötigt tendenziell mehr Bits zur Speicherung.
Erst später, als Speichermedien mehr Speicherplatz bereit gestellt hatten und die Medien günstiger geworden sind, ist der Trend gekommen, bestehende Zeichentabellen zusammenzufassen, sodass möglicherweise auch Zeichen enthalten sind, die selten oder nie benötigt werden.
Eine recht alte aber bis heute noch weit verbreitete Zeichentabelle läuft unter dem Namen "American Standard Code for Information Interchange" ("ASCII"). Diese Zeichentabelle umfasst insgesamt 128 verschiedene Zeichen. Jedes Zeichen kann also mit der Hilfe von einem "7 Bit"-großen Wert eindeutig identifiziert und gespeichert werden. Ein "100 Zeichen"-langer Text benötigt somit 700 Bit Speicherplatz.
Es handelt sich allerdings keineswegs nur um Schriftzeichen, sondern auch um Steuerzeichen.
Die Zeichen "Wagenrücklauf" und "Zeilenvorschub" sind 2 Beispiele für Steuerzeichen aus der ASCII-Zeichentabelle. Sie sorgen dafür dass die nächsten Zeichen im Textnicht direkt nach den vorherigen Zeichen kommen, sondern am Anfang von der nächsten Zeile.
- auf dem Bildschirm oder
- auf dem ausgedruckten Papier
In nicht-englischen Sprachen gibt es Schriftzeichen, die in der ASCII-Zeichentabelle nicht enthalten sind. Das sind im Deutschen zum Beispiel die Umlauteund das scharfe "s"
- "Ä",
- "ä",
- "Ö",
- "ö",
- "Ü" und
- "ü"
- "ß".
Aus diesem Grund war die ASCII-Zeichentabelle nicht die einzige Zeichentabelle, die entstanden ist.
Die Vielzahl an verschiedenen Zeichentabellen, die bis heute verfügbar sind, hat für Inkompatibilität zwischen verschiedenen Programmen und Systemen gesorgt. Aus diesem Grund entstand ein Bedarf nach einer einheitlichen Zeichentabelle.
Anfangs hatten 2 unterschiedliche Gruppierungen versucht jeweils eine eigenständige, "einheitliche" Zeichentabelle auf den Markt zu werfen:
- Die Gruppierung "International Organization for Standardization" hatte die Zeichentabelle "ISO 10646" entworfen und
- die Gruppierung "Unicode Project" hatte die Zeichentabelle "Unicode Character Set" ("UCS") entworfen.
Heute gibt es nur noch 1 von diesen beiden ursprünglichen Zeichentabellen. Die Zeichentabelle läuft allerdings nochimmer unter beiden Namen.
Unterschiede zwischen den verschiedenen Zeichenkodierungen
ASCII-7 ASCII-8 ISO 8859-1 UCS-2 UCS-4 UTF-8 Geschwindigkeit: mittel hoch hoch hoch hoch gering Größe: gering gering gering mittel hoch mittel Implementierungsaufwand: mittel gering gering gering gering hoch Verbreitung: gering hoch mittel mittel gering mittel Zeichen: wenig wenig mittel viel viel viel
ASCII
allgemeines
Name: American Standard Code for Information Interchange (ASCII) Beschreibung: Unter dem Begriff "ASCII" wird im allgemeinen lediglich eine Zeichentabelle verstanden. Manche verstehen unter diesem Begriff allerdings auch eine Zeichenkodierung.
Es gibt 2 Zeichenkodierungen, die mit dem Begriff "ASCII" assoziiert werden:
- Die Zeichenkodierung "US-ASCII-Code", die jedes Zeichen als ein "7 Bit"-großen Wert speichert.
Diese Zeichenkodierung werde ich von nun an "ASCII-7" nennen.- Die Zeichenkodierung "erweiterter ASCII-Code", die jedes Zeichen als "8 Bit"-großen Wert speichert.
Diese Zeichenkodierung werde ich von nun an "ASCII-8" nennen.
Unter dem Begriff "erweiterter ASCII-Code" wird allerdings zum Teil auch eine von den "ISO 8859-*"-Zeichenkodierungen verstanden.
verwendete Zeichentabellen
Wertebereich: Zeichentabelle: 0 bis 127 American Standard Code for Information Interchange (ASCII)
ASCII-7
allgemeines
Name: American Standard Code for Information Interchange - 7 bit per character (ASCII-7) Beschreibung: Die Zeichenkodierung "ASCII-7" ist die Variante von der "ASCII"-Zeichenkodierung, bei welcher jedes Zeichen als ein "7 Bit"-großer Wert gespeichert wird.
Größe
Jedes Zeichen ist exakt "7 Bit"-groß.
Kodierung
Wertebereich: Kodierung: 0
bis
127
Byte Wertigkeit:
(bei einer "big endian"-kodierten Speicherung)- Wertigkeit:
(bei einer "little endian"-kodierten Speicherung)- Bit Wert: x x x x x x x Wertigkeit:
(bei einer "big endian"-kodierten Speicherung)26 25 24 23 22 21 20 Wertigkeit:
(bei einer "little endian"-kodierten Speicherung)26 25 24 23 22 21 20 Wertigkeit:
(von den Nutzdaten)26 25 24 23 22 21 20 Zweck: Nutzdaten
Die Bedeutungen von den Farben sind wie folgt:
Bedeutung: Farbe: Die Nutzdaten ergeben 1 Wert vom Variablentyp "Ganzzahl ohne Vorzeichen", der für 1 Zeichen aus der Zeichentabelle steht. grün hinterlegt
verwendete Zeichentabellen
Wertebereich: Zeichentabelle: 0 bis 127 American Standard Code for Information Interchange (ASCII)
ASCII-8
allgemeines
Name: American Standard Code for Information Interchange - 8 bit per character (ASCII-8) Beschreibung: Die Zeichenkodierung "ASCII-8" ist die Variante von der "ASCII"-Zeichenkodierung, bei welcher jedes Zeichen als ein "8 Bit"-großer Wert gespeichert wird.
Größe
Jedes Zeichen ist exakt "8 Bit"-groß.
Kodierung
Wertebereich: Kodierung: 0
bis
127
Byte Wertigkeit:
(bei einer "big endian"-kodierten Speicherung)2560 Wertigkeit:
(bei einer "little endian"-kodierten Speicherung)2560 Bit Wert: 0 x x x x x x x Wertigkeit:
(bei einer "big endian"-kodierten Speicherung)27 26 25 24 23 22 21 20 Wertigkeit:
(bei einer "little endian"-kodierten Speicherung)27 26 25 24 23 22 21 20 Wertigkeit:
(von den Nutzdaten)26 25 24 23 22 21 20 Zweck: auffüll-Bit Nutzdaten
Die Bedeutungen von den Farben sind wie folgt:
Bedeutung: Farbe: Das Feld dient dafür, dass ein Zeichen nicht "7 Bit"-groß ist, sondern "8 Bit"-groß. Hierdurch können einige CPU-Architekturen besser mit den Daten arbeiten. rot hinterlegt Die Nutzdaten ergeben 1 Wert vom Variablentyp "Ganzzahl ohne Vorzeichen", der für 1 Zeichen aus der Zeichentabelle steht. grün hinterlegt
verwendete Zeichentabellen
Wertebereich: Zeichentabelle: 0 bis 127 American Standard Code for Information Interchange (ASCII)
ISO 8859-1
allgemeines
Name: International Organization for Standardization 8859-1 (ISO 8859-1) Beschreibung: Diese Zeichenkodierung basiert auf der "ASCII-8"-Zeichenkodierung. Die bisher unbenutzten Werte werden allerdings für weitere Zeichen benutzt.
Die zusätzlichen Zeichen stammen, unter anderem, aus einigen Alphabeten von auf-Latein-basierenden Sprachen.
Größe
Jedes Zeichen ist exakt "8 Bit"-groß.
Kodierung
Wertebereich: Kodierung: 0
bis
255
Byte Wertigkeit:
(bei einer "big endian"-kodierten Speicherung)2560 Wertigkeit:
(bei einer "little endian"-kodierten Speicherung)2560 Bit Wert: x x x x x x x x Wertigkeit:
(bei einer "big endian"-kodierten Speicherung)27 26 25 24 23 22 21 20 Wertigkeit:
(bei einer "little endian"-kodierten Speicherung)27 26 25 24 23 22 21 20 Wertigkeit:
(von den Nutzdaten)27 26 25 24 23 22 21 20 Zweck: Nutzdaten
Die Bedeutungen von den Farben sind wie folgt:
Bedeutung: Farbe: Die Nutzdaten ergeben 1 Wert vom Variablentyp "Ganzzahl ohne Vorzeichen", der für 1 Zeichen aus der Zeichentabelle steht. grün hinterlegt
verwendete Zeichentabellen
Wertebereich: Zeichentabelle: 0 bis 127 American Standard Code for Information Interchange (ASCII) 128 bis 255 International Organization for Standardization 8859-1 (ISO 8859-1)
UCS-2BE
allgemeines
Name: Unicode Character Set - 2 byte per character; big endian encoded (UCS-2BE) Beschreibung: Diese Zeichenkodierung basiert, unter anderem, auf der "ISO 8859-1"-Zeichenkodierung. 1 Zeichen ist allerdings nicht mehr "1 Byte"-groß, sondern "2 Byte"-groß.
Die neu hinzugekommenen Werte wurden zum Teil mit Zeichen aus sonstigen, bereits bestandenen Zeichentabellen gefüllt und zum Teil mit Zeichen, die bisher noch in keiner Zeichentabelle enthalten waren.
Größe
Jedes Zeichen ist exakt "16 Bit"-groß.
Kodierung
Wertebereich: Kodierung: 0
bis
65.535
Byte Wertigkeit:
(bei einer "big endian"-kodierten Speicherung)2561 2560 Wertigkeit:
(bei einer "little endian"-kodierten Speicherung)2560 2561 Bit Wert: x x x x x x x x x x x x x x x x Wertigkeit:
(bei einer "big endian"-kodierten Speicherung)215 214 213 212 211 210 29 28 27 26 25 24 23 22 21 20 Wertigkeit:
(bei einer "little endian"-kodierten Speicherung)27 26 25 24 23 22 21 20 215 214 213 212 211 210 29 28 Wertigkeit:
(von den Nutzdaten)215 214 213 212 211 210 29 28 27 26 25 24 23 22 21 20 Zweck: Nutzdaten
Die Bedeutungen von den Farben sind wie folgt:
Bedeutung: Farbe: Die Nutzdaten ergeben 1 Wert vom Variablentyp "Ganzzahl ohne Vorzeichen", der für 1 Zeichen aus der Zeichentabelle steht. grün hinterlegt
verwendete Zeichentabellen
Wertebereich: Zeichentabelle: 0 bis 127 American Standard Code for Information Interchange (ASCII) 128 bis 255 International Organization for Standardization 8859-1 (ISO 8859-1) 256 bis 65.535 Unicode Character Set (UCS)
UCS-2LE
allgemeines
Name: Unicode Character Set - 2 byte per character; little endian encoded (UCS-2LE) Beschreibung: Diese Zeichenkodierung basiert, unter anderem, auf der "ISO 8859-1"-Zeichenkodierung. 1 Zeichen ist allerdings nicht mehr "1 Byte"-groß, sondern "2 Byte"-groß.
Die neu hinzugekommenen Werte wurden zum Teil mit Zeichen aus sonstigen, bereits bestandenen Zeichentabellen gefüllt und zum Teil mit Zeichen, die bisher noch in keiner Zeichentabelle enthalten waren.
Größe
Jedes Zeichen ist exakt "16 Bit"-groß.
Kodierung
Wertebereich: Kodierung: 0
bis
65.535
Byte Wertigkeit:
(bei einer "big endian"-kodierten Speicherung)2561 2560 Wertigkeit:
(bei einer "little endian"-kodierten Speicherung)2560 2561 Bit Wert: x x x x x x x x x x x x x x x x Wertigkeit:
(bei einer "big endian"-kodierten Speicherung)215 214 213 212 211 210 29 28 27 26 25 24 23 22 21 20 Wertigkeit:
(bei einer "little endian"-kodierten Speicherung)27 26 25 24 23 22 21 20 215 214 213 212 211 210 29 28 Wertigkeit:
(von den Nutzdaten)27 26 25 24 23 22 21 20 215 214 213 212 211 210 29 28 Zweck: Nutzdaten
Die Bedeutungen von den Farben sind wie folgt:
Bedeutung: Farbe: Die Nutzdaten ergeben 1 Wert vom Variablentyp "Ganzzahl ohne Vorzeichen", der für 1 Zeichen aus der Zeichentabelle steht. grün hinterlegt
verwendete Zeichentabellen
Wertebereich: Zeichentabelle: 0 bis 127 American Standard Code for Information Interchange (ASCII) 128 bis 255 International Organization for Standardization 8859-1 (ISO 8859-1) 256 bis 65.535 Unicode Character Set (UCS)
UCS-4BE
allgemeines
Name: Unicode Character Set - 4 byte per character; big endian encoded (UCS-4BE) Beschreibung: Diese Zeichenkodierung basiert, unter anderem, auf der "ISO 8859-1"-Zeichenkodierung. 1 Zeichen ist allerdings nicht mehr "1 Byte"-groß, sondern "4 Byte"-groß.
Die neu hinzugekommenen Werte wurden zum Teil mit Zeichen aus sonstigen, bereits bestandenen Zeichentabellen gefüllt und zum Teil mit Zeichen, die bisher noch in keiner Zeichentabelle enthalten waren.
Größe
Jedes Zeichen ist exakt "32 Bit"-groß.
Kodierung
Wertebereich: Kodierung: 0
bis
4.294.967.295
Byte Wertigkeit:
(bei einer "big endian"-kodierten Speicherung)2563 2562 2561 2560 Wertigkeit:
(bei einer "little endian"-kodierten Speicherung)2560 2561 2562 2563 Bit Wert: x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x Wertigkeit:
(bei einer "big endian"-kodierten Speicherung)231 230 229 228 227 226 225 224 223 222 221 220 219 218 217 216 215 214 213 212 211 210 29 28 27 26 25 24 23 22 21 20 Wertigkeit:
(bei einer "little endian"-kodierten Speicherung)27 26 25 24 23 22 21 20 215 214 213 212 211 210 29 28 223 222 221 220 219 218 217 216 231 230 229 228 227 226 225 224 Wertigkeit:
(von den Nutzdaten)231 230 229 228 227 226 225 224 223 222 221 220 219 218 217 216 215 214 213 212 211 210 29 28 27 26 25 24 23 22 21 20 Zweck: Nutzdaten
Die Bedeutungen von den Farben sind wie folgt:
Bedeutung: Farbe: Die Nutzdaten ergeben 1 Wert vom Variablentyp "Ganzzahl ohne Vorzeichen", der für 1 Zeichen aus der Zeichentabelle steht. grün hinterlegt
verwendete Zeichentabellen
Wertebereich: Zeichentabelle: 0 bis 127 American Standard Code for Information Interchange (ASCII) 128 bis 255 International Organization for Standardization 8859-1 (ISO 8859-1) 256 bis 4.294.967.295 Unicode Character Set (UCS)
UCS-4LE
allgemeines
Name: Unicode Character Set - 4 byte per character; little endian encoded (UCS-4LE) Beschreibung: Diese Zeichenkodierung basiert, unter anderem, auf der "ISO 8859-1"-Zeichenkodierung. 1 Zeichen ist allerdings nicht mehr "1 Byte"-groß, sondern "4 Byte"-groß.
Die neu hinzugekommenen Werte wurden zum Teil mit Zeichen aus sonstigen, bereits bestandenen Zeichentabellen gefüllt und zum Teil mit Zeichen, die bisher noch in keiner Zeichentabelle enthalten waren.
Größe
Jedes Zeichen ist exakt "32 Bit"-groß.
Kodierung
Wertebereich: Kodierung: 0
bis
4.294.967.295
Byte Wertigkeit:
(bei einer "big endian"-kodierten Speicherung)2563 2562 2561 2560 Wertigkeit:
(bei einer "little endian"-kodierten Speicherung)2560 2561 2562 2563 Bit Wert: x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x Wertigkeit:
(bei einer "big endian"-kodierten Speicherung)231 230 229 228 227 226 225 224 223 222 221 220 219 218 217 216 215 214 213 212 211 210 29 28 27 26 25 24 23 22 21 20 Wertigkeit:
(bei einer "little endian"-kodierten Speicherung)27 26 25 24 23 22 21 20 215 214 213 212 211 210 29 28 223 222 221 220 219 218 217 216 231 230 229 228 227 226 225 224 Wertigkeit:
(von den Nutzdaten)27 26 25 24 23 22 21 20 215 214 213 212 211 210 29 28 223 222 221 220 219 218 217 216 231 230 229 228 227 226 225 224 Zweck: Nutzdaten
Die Bedeutungen von den Farben sind wie folgt:
Bedeutung: Farbe: Die Nutzdaten ergeben 1 Wert vom Variablentyp "Ganzzahl ohne Vorzeichen", der für 1 Zeichen aus der Zeichentabelle steht. grün hinterlegt
verwendete Zeichentabellen
Wertebereich: Zeichentabelle: 0 bis 127 American Standard Code for Information Interchange (ASCII) 128 bis 255 International Organization for Standardization 8859-1 (ISO 8859-1) 256 bis 4.294.967.295 Unicode Character Set (UCS)
UTF-8
allgemeines
Name: Unicode Transformation Format - 8 bit per part (UTF-8) Beschreibung: Diese Zeichenkodierung basiert, unter anderem, auf der "UCS-4BE"-Zeichenkodierung. 1 Zeichen ist allerdings nicht mehr "4 Byte"-groß, sondern ihre Größe ist vom Wert abhängig.
Größe
Die Größe von einem Zeichen ist von ihrem Wert abhängig. 1 Zeichen kannsein.
- "1 Byte"-groß,
- "2 Byte"-groß,
- "3 Byte"-groß oder
- "4 Byte"-groß
Früher gab es auchWerte, damit alle Zeichen von der "UCS-4BE"-Zeichenkodierung gespeichert werden konnten. In neueren Versionen werden die höchstwertigsten Zeichen, welche sich mit der Hilfe von der "UCS-4BE"-Zeichenkodierung speichern lassen, nicht unterstützt.
- "5 Byte"-große und
- "6 Byte"-große
Kodierung
Wertebereich: Kodierung: 0
bis
127
Byte Wertigkeit:
(bei einer "big endian"-kodierten Speicherung)2560 Wertigkeit:
(bei einer "little endian"-kodierten Speicherung)2560 Bit Wert: 0 x x x x x x x Wertigkeit:
(bei einer "big endian"-kodierten Speicherung)27 26 25 24 23 22 21 20 Wertigkeit:
(bei einer "little endian"-kodierten Speicherung)27 26 25 24 23 22 21 20 Wertigkeit:
(von den Nutzdaten)26 25 24 23 22 21 20 Zweck: auffüll-Bit Nutzdaten 128
bis
2.047
Byte Wertigkeit:
(bei einer "big endian"-kodierten Speicherung)2561 2560 Wertigkeit:
(bei einer "little endian"-kodierten Speicherung)2560 2561 Bit Wert: 1 1 0 x x x x x 1 0 x x x x x x Wertigkeit:
(bei einer "big endian"-kodierten Speicherung)215 214 213 212 211 210 29 28 27 26 25 24 23 22 21 20 Wertigkeit:
(bei einer "little endian"-kodierten Speicherung)27 26 25 24 23 22 21 20 215 214 213 212 211 210 29 28 Wertigkeit:
(von den Nutzdaten)210 29 28 27 26 25 24 23 22 21 20 Zweck: Anzahl der Bytes Nutzdaten Markierung als Folgebyte Nutzdaten 2.048
bis
65.535
Byte Wertigkeit:
(bei einer "big endian"-kodierten Speicherung)2562 2561 2560 Wertigkeit:
(bei einer "little endian"-kodierten Speicherung)2560 2561 2562 Bit Wert: 1 1 1 0 x x x x 1 0 x x x x x x 1 0 x x x x x x Wertigkeit:
(bei einer "big endian"-kodierten Speicherung)223 222 221 220 219 218 217 216 215 214 213 212 211 210 29 28 27 26 25 24 23 22 21 20 Wertigkeit:
(bei einer "little endian"-kodierten Speicherung)27 26 25 24 23 22 21 20 215 214 213 212 211 210 29 28 223 222 221 220 219 218 217 216 Wertigkeit:
(von den Nutzdaten)215 214 213 212 211 210 29 28 27 26 25 24 23 22 21 20 Zweck: Anzahl der Bytes Nutzdaten Markierung als Folgebyte Nutzdaten Markierung als Folgebyte Nutzdaten 65.536
bis
2.097.151
Byte Wertigkeit:
(bei einer "big endian"-kodierten Speicherung)2563 2562 2561 2560 Wertigkeit:
(bei einer "little endian"-kodierten Speicherung)2560 2561 2562 2563 Bit Wert: 1 1 1 1 0 x x x 1 0 x x x x x x 1 0 x x x x x x 1 0 x x x x x x Wertigkeit:
(bei einer "big endian"-kodierten Speicherung)231 230 229 228 227 226 225 224 223 222 221 220 219 218 217 216 215 214 213 212 211 210 29 28 27 26 25 24 23 22 21 20 Wertigkeit:
(bei einer "little endian"-kodierten Speicherung)27 26 25 24 23 22 21 20 215 214 213 212 211 210 29 28 223 222 221 220 219 218 217 216 231 230 229 228 227 226 225 224 Wertigkeit:
(von den Nutzdaten)220 219 218 217 216 215 214 213 212 211 210 29 28 27 26 25 24 23 22 21 20 Zweck: Anzahl der Bytes Nutzdaten Markierung als Folgebyte Nutzdaten Markierung als Folgebyte Nutzdaten Markierung als Folgebyte Nutzdaten
Die Bedeutungen von den Farben sind wie folgt:
Bedeutung: Farbe: Das Feld dient dafür, dass ein Zeichen nicht "7 Bit"-groß ist, sondern "8 Bit"-groß. Hierdurch können einige CPU-Architekturen besser mit den Daten arbeiten. rot hinterlegt Das Feld dient dafür, um mit der Anzahl der Bits, die auf "1" gesetzt sind, anzugeben, aus wievielen Bytes das Zeichen im Gesamten besteht. gelb hinterlegt Die Nutzdaten ergeben 1 Wert vom Variablentyp "Ganzzahl ohne Vorzeichen", der für 1 Zeichen aus der Zeichentabelle steht. grün hinterlegt Das Feld dient dafür, um anzugeben, dass dieses Byte ein Folgebyte ist. blau hinterlegt
verwendete Zeichentabellen
Wertebereich: Zeichentabelle: 0 bis 127 American Standard Code for Information Interchange (ASCII) 128 bis 255 International Organization for Standardization 8859-1 (ISO 8859-1) 256 bis 65.535 Unicode Character Set (UCS)
Bibliotheken
Name Beschreibung: Weblink: vom Autor: von der Bibliothek: conversion/character_sets Dies ist eine kostenlose und allgemeinfreie Bibliothek, mit deren Hilfe und anhand von einer bestehenden Zeichenkette, die mit einer bestimmten Zeichenkodierung kodiert ist, eine neue Zeichenkette erzeugt werden kann, die mit einer anderen Zeichenkodierung kodiert ist. OnTheServer.de/Downloads/
Dokumente
Name vom Sprache: Umfang vom Inhalt: Weblink: Autor: Dokument: Klaus Keller Ascii- und ANSI-Tabelle deutsch
- behandelt die "ASCII"-Zeichenkodierung und -Zeichentabelle
- behandelt die "ISO 8859-1"-Zeichenkodierung und -Zeichentabelle
ASPhelper.de/referenz/ASCIIANSI.asp EBCDIC
- behandelt die "ASCII"-Zeichenkodierung und die -Zeichentabelle
- behandelt die "EBCDIC"-Zeichenkodierung und -Zeichentabelle
ASPhelper.de/referenz/EBCDIC.asp
Aufnahme von weiteren Materialien
Wenndann
- Sie weitere Materialien zu diesem Thema haben, von welchen Sie wollen, dass sie in diese Auflistungen aufgenommen werden,
- können Sie mir gerne die Materialien oder einen Link zu ihnen zusenden.
Sie dürfen durchaus auch Ihre eigenen Materialien zuschicken.
Bei den zugesendeten Materialien werde ich beurteilen, ob sie sich für die Auflistung eignen. Manche Materialien werden nicht aufgenommen, weil beispielsweise ein Hinweis enthalten ist, dassEs besteht kein Anspruch darauf, dass zugesendete Materialien aufgenommen werden.
- eine Verbreitung nicht gestattet ist oder
- nur unter Bedingungen, welche ich nicht erfüllen will.
Link zum Kapitel "wie man den Verfasser kontaktiert".