用語「サロゲート」について
サロゲート
UTF-16 では、UCS-4 の BMP 以外の文字を参照するために、文字二つ分をペアとして使うことがあります。Shift_JIS などと違って、それ自体は無意味な文字同士を組み合わせますし、組み合わせの前半に使われる文字は前半にだけ、後半に使われる文字は後半にだけ使われますから、別の文字と誤認されることはありません。
この、別の文字を表現するために定義されている、それ自体意味を持たない文字を「サロゲート」と呼びます。
UCS-4 では、55296~57343 の文字が「サロゲート」として定義されています。これによって 1024 × 1024 = 1048576 の文字が表現できることになります。
- 「サロゲート」へのコメント (8件)