2021-11-04に投稿2026-03-02に更新

【文字コード】UTF-8について

UTF-8とはなにか

Unicodeの変換方式です。Unicodeで表されている文字をコンピューターで表すために変換するときに使います。

UTF-8のコード表

文字集合とは、文字をひとまとめにしたものを指します。

文字集合はたくさんの種類があり、Unicodeはそのうちの１つになります。
日本で主に使われている文字集合は

国際的な標準規格

Unicodeでは世界中で使われている文字集合(アルファベット、日本語など)を「符号化文字集合」という形で、符号化しています。この符号のことをコードポイントといい、「U+xxxx」という形式で表示します。

Unicodeはコンピューターで扱うためにコードポイントを変換する必要があります。

このコードポイントをコンピューターで理解できるバイト形式に変換する方式がUTF-8,UTF-16,UTF-32になります。

Shif-JISやJISコードと違い、Unicodeはそれ自体ではコンピューターで扱えるデータとしてはできていません。

１文字を表示するために使う最小ビット数です。ビットで表現すると

となります。

基本はUTF-8を使っておけば問題ないはずです。

16と32は特殊な状況下で効果を発揮しますが、取り回しが悪くなります。

【文字コード】UTF-8について

Daiki Iijima

2021-11-04

2026-03-02