【文字コード】UTF-8について
目次
UTF-8とはなにか
Unicodeの変換方式です。Unicodeで表されている文字をコンピューターで表すために変換するときに使います。
UTF-8のコード表
Unicodeと文字集合(文字セット)
文字集合とは、文字をひとまとめにしたものを指します。
文字集合はたくさんの種類があり、Unicodeはそのうちの1つになります。
日本で主に使われている文字集合は
- ASCII : 128文字のみを表す
- JIS : 電子メールで使用される
- Shift-JIS : ASCIIに日本語を加えた
- EUC : Unixで使用される
国際的な標準規格
- Unicode : 世界で使われているすべてのコードをまとめている
Unicodeの変換方式がUTF-8とUTF-16
Unicodeでは世界中で使われている文字集合(アルファベット、日本語など)を「符号化文字集合」という形で、符号化しています。この符号のことをコードポイント
といい、「U+xxxx」という形式で表示します。
Unicodeはコンピューターで扱うためにコードポイントを変換する必要があります。
このコードポイント
をコンピューターで理解できるバイト形式に変換する方式がUTF-8
,UTF-16
,UTF-32
になります。
Shif-JISやJISコードと違い、Unicodeはそれ自体ではコンピューターで扱えるデータとしてはできていません。
8,16,32の違いはなにか
1文字を表示するために使う最小ビット数
です。ビットで表現すると
- UTF-8 : 8bit単位(1バイト),ASCII互換
- UTF-16 : 16bit単位(2バイト),非ASCII互換
- UTF-32 : 32bit単位(4バイト),非ASCII互換
となります。
基本はUTF-8を使っておけば問題ないはずです。
16と32は特殊な状況下で効果を発揮しますが、取り回しが悪くなります。
【文字コード】UTF-8について