[vine-users:082228] 現在障害調査をしていて、dmesgについて質問です

T.Kabu kabu @ fvg-on.net
2013年 1月 24日 (木) 23:41:21 JST


こんばんわ、蕪木です。

現在、もともと物理サーバー上で動いていたVine5を、KVMの仮想環境に
移行して運用しているのですが、一つのVine5マシンは問題なく動作して
いるのですが、もう一つのVine5マシンは、とても動作が不安定で、正直
困り果てています。

環境的にはどちらもCPU=2core、MEM=2GB、HDD=100GBイメージで運用して
いるのですが、不安定な方はこれといった原因が特定できないままです。

現象としては特定の前触れなく突然ディスクIOができなくなってしまう
のですが、ディスクIOができないだけでオンメモリのプロセスは何とか
動くのでpsで見てみると、[pdflush]の片方やsyslogdなど、ディスクに
何かを吐き出すプロセスがSTAT=Dのままになっていて、そのまま一気に
ロードアベレージが上がって何もできない、という感じです。

topでみていると、片方のCPUコアがデッドロックしてしまっているよう
にも見えます。

ホストOS自体は元気なので、ちょこちょこパラメータや起動デーモンの
類をいじりながら調べているのですが、どうにもこうにも手詰まり状態
です。物理サーバーで動かしていたときから同様の症状が発生していた
ので、てっきりマシン交換(今回はKVMのVMの一つとしてddしましたが)
すれば治ると思ったのが甘かったようです。

−−−

で、皆さんにお聞きしたいことなのですが、たまたまVine5のVMが二つ
あって片方は元気に動いているので比較をしていたら、dmesgの内容で
判らないことが出てきました。

動作不安定な方は

> Initializing cgroup subsys cpuset
> Initializing cgroup subsys cpu
> Linux version 2.6.27-76vl5 (iwamoto @ natsume.home.local) (gcc version 4.1.2 (4.1.3 prerelease 20080708) (Vine Linux 4.1.2-21vl5)) #1 SMP Tue May 22 22:44:58 JST 2012
> Command line: ro root=/dev/VolGroup00/LogVol00 resume=swap:/dev/VolGroup00/LogVol01 vga=0x314
> KERNEL supported cpus:	←ココから
>   Intel GenuineIntel
>   AMD AuthenticAMD
>   Centaur CentaurHauls	←ココまで

上記のように「KERNEL supported cpus:」を出力したり、

> init_memory_mapping			←これとか
>  0000000000 - 007fe00000 page 2M	←これとか
>  007fe00000 - 007fffd000 page 4k	←これとか
> kernel direct mapping tables up to 7fffd000 @ 8000-c000
> last_map_addr: 7fffd000 end: 7fffd000	←これとか
> RAMDISK: 7fc18000 - 7ffec31e

があったりと、同じカーネル、同じベースVM環境なのに内容がだいぶ
違っているのです。確かにinitrdの中身で読み込んでいるモジュール
が一部違いますが、それにしてもそもそも最初のサポートCPUの表示
なんていったいどこで出力するようにしているのでしょう?

元々が、元気なほうはMegaRAIDを使ってたDELLのPE1850、不安定な方
はaacraidを使っていたSuperMicroから、それぞれddでぶっこ抜いて
持ってきたにしても、こんなに内容が違うのが、動作不良の原因究明
のヒントになるのでは?と思ったりもしています。

ちなみに現在は割当コアを1つにしたところ、ぜーんぜんおかしく
ならなくなってしまいました。(まぁなんとなく想像通り?)

でも数時間後に突然逝ってしまう事もあり、また逝き方も微妙に違う
ので安心(?!)はできませんが…このまま1コア割当のままというのも
まぁそれはそれでいいのですが芸がないというか気持ち悪いので…

−−−

dmesgを三種類添付しますので、どなたか何か違いというかこれじゃ
ない?というのがありましたらご指摘やご教授頂ければ幸いです。

A-OK-2core.dmesg 問題なく動作する2コアのVM-Aのdmesg
B-NG-2core.dmesg 動作不安定な2コアのVM-Bのdmesg
B-UC-1core.dmesg 動作不安定なVM-Bを1Coreで起動したときのdmesg

他のVMに影響があるといけないのでVM-AとVM-BのホストOS(サーバー)
は物理的には別物です…が両方ともCentOS6.3でCPUが5440か5450かの
違いだけなんで、これはあんまり関係ないような?と思っています。

よろしくお願いします。

-------------- next part --------------
A non-text attachment was scrubbed...
Name: A-OK-2core.dmesg
Type: application/octet-stream
Size: 15506 bytes
Desc: 無し
URL: <http://listserv.linux.or.jp/pipermail/vine-users/attachments/20130124/a6816d31/attachment-0003.obj>
-------------- next part --------------
A non-text attachment was scrubbed...
Name: B-NG-2core.dmesg
Type: application/octet-stream
Size: 15259 bytes
Desc: 無し
URL: <http://listserv.linux.or.jp/pipermail/vine-users/attachments/20130124/a6816d31/attachment-0004.obj>
-------------- next part --------------
A non-text attachment was scrubbed...
Name: B-UC-1core.dmesg
Type: application/octet-stream
Size: 14960 bytes
Desc: 無し
URL: <http://listserv.linux.or.jp/pipermail/vine-users/attachments/20130124/a6816d31/attachment-0005.obj>


vine-users メーリングリストの案内