文字禍 -文字コード-

 MySQL 5.5でデータベース作成の際、文字コード「utf8mb4」を見かけたついでに4バイト文字について加筆しておこう。

 以前まとめた文字コードのページ   

 近年は2バイト文字(16進数で0000~FFFF、10進数で0~65535)に含まれない文字(JIS第3水準、JIS第4水準の漢字の一部など)が、普通に表示されるようになってきた。

 めっったに使われないけれども例えば
 山形県鶴岡市 櫛引 たらのき代
 という所は、ずっと『木荒』代と表記していたので
 𣗄代
  Unicode(16進数表示):235C4
 と表示された時は、喉につっかえていた小骨がとれたような感じがした。

 いわゆるサロゲートペアと呼ばれている4バイト文字は、
  サロゲート Surrogate:代用の ; ペア Pair:対
 Unicodeの
 上位サロゲート領域(2バイト) U+D800~U+DBFF ・・・ 1024文字
 と
 下位サロゲート領域(2バイト) U+DC00~U+DFFF ・・・ 1024文字
 を組み合わせて表示したもので、2バイト文字の 65536を大きく上回る100万以上(1024 × 1024 = 1048576)の文字を登録できる。
 ちなみに4バイトだけどUnicode(16進数表示)は8桁ではなく5桁
 U+10000~U+10FFFFへ割り当てて表記

 変則的なので、1文字だけど2文字とみなされたり、プログラミングする人は、めっったに使われない文字に振り回される可能性がある。

4バイト文字実用

 ついでに𣗄代以外で、小骨がとれたような感じがした日本国内の地名は

 福島県いわき市 常盤関船町 𣖔木作(ほうのきざく)
  Unicode(16進数表示):23594
 和歌山県串本町 野𣷓(野凪)
  Unicode(16進数表示):23DD3

 長野県長野市 &#x23639原山(たらら山)
  Unicode(16進数表示):23639
は、このWordPressでは表示されないけど『木寅』という字

 一方、小骨がつっかえたままの地名は今のところ

 神奈川県鎌倉市 勝上『献』(しょうじょうけん)
  勝上献とも表記されるが、厳密には『山かんむり+献』
  → glyphwiki.org/wiki/pyrite_x046-13-01
 兵庫県丹波篠山市 大たわ(大『山定』)、小倉たわ(小倉『山定』)
  → glyphwiki.org/wiki/pyrite_x046-08-01

 地名以外では、𩸽(ホッケ)も 4バイト文字
  Unicode(16進数表示): 29E3D

ICT
スポンサーリンク
ふシゼン
タイトルとURLをコピーしました