【文字コード】UTF-8について

目次

UTF-8とはなにか

Unicodeの変換方式です。Unicodeで表されている文字をコンピューターで表すために変換するときに使います。

UTF-8のコード表

Unicodeと文字集合(文字セット)

文字集合とは、文字をひとまとめにしたものを指します。

文字集合はたくさんの種類があり、Unicodeはそのうちの1つになります。
日本で主に使われている文字集合は

  • ASCII : 128文字のみを表す
  • JIS : 電子メールで使用される
  • Shift-JIS : ASCIIに日本語を加えた
  • EUC : Unixで使用される

国際的な標準規格

  • Unicode : 世界で使われているすべてのコードをまとめている

Unicodeの変換方式がUTF-8とUTF-16

Unicodeでは世界中で使われている文字集合(アルファベット、日本語など)を「符号化文字集合」という形で、符号化しています。この符号のことをコードポイントといい、「U+xxxx」という形式で表示します。

Unicodeはコンピューターで扱うためにコードポイントを変換する必要があります。

このコードポイントをコンピューターで理解できるバイト形式に変換する方式がUTF-8,UTF-16,UTF-32になります。

Shif-JISやJISコードと違い、Unicodeはそれ自体ではコンピューターで扱えるデータとしてはできていません。

8,16,32の違いはなにか

1文字を表示するために使う最小ビット数です。ビットで表現すると

  • UTF-8 : 8bit単位(1バイト),ASCII互換
  • UTF-16 : 16bit単位(2バイト),非ASCII互換
  • UTF-32 : 32bit単位(4バイト),非ASCII互換

となります。

基本はUTF-8を使っておけば問題ないはずです。

16と32は特殊な状況下で効果を発揮しますが、取り回しが悪くなります。

Author

Daiki Iijima

Posted on

2021-11-04

Updated on

2024-04-17

Licensed under