[linux-users: 108951] sort や uniq で違う文字が同一視される

Kazuhiro NISHIYAMA zn @ mbf.nifty.com
2013年 10月 31日 (木) 15:53:09 JST


西山和広です。

U+2460 CIRCLED DIGIT ONE
U+2461 CIRCLED DIGIT TWO
U+2600 BLACK SUN WITH RAYS
などの文字が sort や uniq で同じものとして扱われているようで、
困っています。

いくつか試してみた結果などは
https://gist.github.com/znz/7244868
に書いています。

原因を調べていったところは glibc の locales のファイルで
LC_COLLATE から END LC_COLLATE の間に書かれていない文字が
同一視されているように思いました。

とりあえず LC_COLLATE=C にすれば問題はおきないように
見えるのですが、そういう解決方法しかないのでしょうか。


-- 
|ZnZ(ゼット エヌ ゼット)
|西山和広(Kazuhiro NISHIYAMA)


linux-users メーリングリストの案内