[JF:20042] Re: Web サイトの文字コードを UTF-8 に変更
Masanori Kobayasi
zap03216 @ nifty.ne.jp
2011年 1月 16日 (日) 00:19:37 JST
小林です。
On Sat, 15 Jan 2011 19:17:19 +0900,
mizuhara @ acm.org (水原 文) wrote:
> 私は普段IEは使ってないので気付かなかったのですが、この問題はJFに限らず、
> めちゃくちゃ影響の大きな話ですよね。
> HTTPへッダをいじれる環境にない人だって多いでしょうし…。
意外と話題になっていないのは、文字コードが ISO-2022-JP のサイトが
もうそんなに多くないからでしょうね。
> 文字エンコーディングの自動判別を無効にするというのはまだ理解できるので
> すが、METAタグまで無視するとは、MSはいったい何を考えているのでしょう。
XSS 対策で、Legacy Character Set 自体が問題にされている
感じがします。
http://blogs.msdn.com/b/dross/archive/2009/11/03/thoughts-on-legacy-character-sets.aspx
> 小林さんのおっしゃるとおり、文字エンコーディングをUTF-8に統一してしま
> うというのが一番正統的な解決法だと思うのですが、作業がたいへんだと思う
> ので、例えばAddCharsetディレクティブを使って:
>
> AddCharset ISO-2022-JP .html
> AddCharset EUC-JP .txt
>
> などと指定するとうまく行ったりしないでしょうか。
> (すみません、検証してません)
カーネル付属文書だと、サフィックスがない文書もけっこうあるので、
http://linuxjf.sourceforge.jp/JFdocs/kernel-docs-2.6/CodingStyle
なかなか難しそうです。
UTF-8 に統一する作業自体は、
・nkf -j を nkf -w に置換
・HTML ヘッダの charset=ISO-2022-JP を UTF-8 に置換
くらいで、わりと機械的にできそうな感じです。
--
小林雅典
JF メーリングリストの案内