文字コード

Cambria Mathフォントを使用したUI偽装

Office製品(又はPower Point Viewer)に付属する数学記号フォントのCambtia Mathには、次のような特徴があります。 BMP外のコードポイントの文字(サロゲートペアで表現される文字)のグリフがある 数学記号のグリフが充実している(他のフォントは持っていない…

Shift_JISの動的に生成されたJavaScriptをUTF-8として解釈した場合に発生する問題

縺ソ" (Shift_JIS) → E3 81 83 5C 22 → ぃ\" (UTF-8)ということで、Shift_JISの2バイト目の5Cを単独の文字として解釈してしまうので、文字列の終端位置を誤認させることが可能です。 昔からよくあるShift_JISの2バイト目の 5Cの問題と同じことですけど。

冗長なUTF-8の判定のテストケースについて考える

判定が実装されているかどうかの表面的なチェックではなく、判定が正しいかどうかをチェックするには、慎重なテストケースの構成が必要です。とりあえず最低でもこれぐらいは必要でしょうが、まだ足りない気がします(特にパターンマッチングで検出させている…

いやな文字化け

Content-type ヘッダも meta も HTMLの構文も完全なはずなのに Shift_JIS のHTMLが UTF-8 で表示された。サーバ管理のミスだけど本当にミスが無いと再現しない問題なのか怪しいので後で調べてみる

冗長なUTF-8で記述された記号とシフトJISの文字列は区別がつかない

E0 80 A2 → UTF-8では冗長な3バイト表現の '"' → Shift_JIS では '烙「'