[linux-users: 108951] sort や uniq で違う文字が同一視される
Kazuhiro NISHIYAMA
zn @ mbf.nifty.com
2013年 10月 31日 (木) 15:53:09 JST
西山和広です。
U+2460 CIRCLED DIGIT ONE
U+2461 CIRCLED DIGIT TWO
U+2600 BLACK SUN WITH RAYS
などの文字が sort や uniq で同じものとして扱われているようで、
困っています。
いくつか試してみた結果などは
https://gist.github.com/znz/7244868
に書いています。
原因を調べていったところは glibc の locales のファイルで
LC_COLLATE から END LC_COLLATE の間に書かれていない文字が
同一視されているように思いました。
とりあえず LC_COLLATE=C にすれば問題はおきないように
見えるのですが、そういう解決方法しかないのでしょうか。
--
|ZnZ(ゼット エヌ ゼット)
|西山和広(Kazuhiro NISHIYAMA)
linux-users メーリングリストの案内