[JF:20042] Re: Web サイトの文字コードを UTF-8 に変更

Masanori Kobayasi zap03216 @ nifty.ne.jp
2011年 1月 16日 (日) 00:19:37 JST


小林です。

On Sat, 15 Jan 2011 19:17:19 +0900,
mizuhara @ acm.org (水原 文) wrote:

> 私は普段IEは使ってないので気付かなかったのですが、この問題はJFに限らず、
> めちゃくちゃ影響の大きな話ですよね。
> HTTPへッダをいじれる環境にない人だって多いでしょうし…。

意外と話題になっていないのは、文字コードが ISO-2022-JP のサイトが
もうそんなに多くないからでしょうね。

> 文字エンコーディングの自動判別を無効にするというのはまだ理解できるので
> すが、METAタグまで無視するとは、MSはいったい何を考えているのでしょう。

XSS 対策で、Legacy Character Set 自体が問題にされている
感じがします。

http://blogs.msdn.com/b/dross/archive/2009/11/03/thoughts-on-legacy-character-sets.aspx

> 小林さんのおっしゃるとおり、文字エンコーディングをUTF-8に統一してしま
> うというのが一番正統的な解決法だと思うのですが、作業がたいへんだと思う
> ので、例えばAddCharsetディレクティブを使って:
> 
> AddCharset ISO-2022-JP .html
> AddCharset EUC-JP .txt
> 
> などと指定するとうまく行ったりしないでしょうか。
> (すみません、検証してません)

カーネル付属文書だと、サフィックスがない文書もけっこうあるので、

http://linuxjf.sourceforge.jp/JFdocs/kernel-docs-2.6/CodingStyle

なかなか難しそうです。

UTF-8 に統一する作業自体は、

・nkf -j を nkf -w に置換
・HTML ヘッダの charset=ISO-2022-JP を UTF-8 に置換

くらいで、わりと機械的にできそうな感じです。

-- 
小林雅典


JF メーリングリストの案内