文字コード<UTF-8><Shift JIS>を比較する

htmlを作成してみるにあたり、保存する際の文字コードをどうするかという問題に当たったため、文字コードについて少し調べてみた。

以下に調べてみてわかったことを箇条書きで書いてみる。

 

<UTF-8>

Unicode文字集合体とする

・文字範囲が広く、どの言語の文字にも対応している

・文字によって割り振られたバイト数が違い、日本語の場合3バイト

・文字化けを起こす可能性が低い

 

<Shift JIS>

JIS X 0208文字集合体とする

・そのため、日本語については文字範囲として十分である

・一文字2バイト

・亜種が多く、環境によって文字化けが起こったりする

・日本国内の携帯で主に読めるコード

エンコードデータに制御文字を含む場合が多い

 

以上の点から、それぞれの文字コードを使用するメリット・デメリットを考えると、、

 

<UTF-8>

メリット

文字範囲が広いので、国内国外に関係なく広く利用することができる。文字化けなどが起こりにくいため、思わぬ動作が起こってしまうリスクが低い。

デメリット

日本語を主に使うならば、Shift JISと比較して一文字当たり1.5倍の容量を使ってしまう。日本国内の携帯で表示できないことが多い。

 

<Shift JIS>

メリット

日本語を使用するならば、UTF-8と比較して容量を少なくすることができる。また、国内の携帯向けならば、こちらでないと表示されない可能性がある。

デメリット

文字化けが起こる可能性がある。UTF-8と比較して文字範囲が狭いため、使用できない文字が多い。

 

といったところか。