Strona 1 z 2

[+] serwer vmware, co jakiś czas się zawiesza, eth0 nie odpowiada

: 26 sierpnia 2010, 10:09
autor: sector
Witam.
Mam serwer, na którym jest mysql, vmware i parę innych mniej istotnych usług. Problem jest w tym, że co jakiś czas serwer mi się zawiesza. Interfejs eth0 przestaje odpowiadać i polecenie ping nie dochodzi. Dioda od LAN-u się świeci, ale nic nie można zrobić oprócz restartu maszyny.

Czy ktoś ma jakiś pomysł co można zrobić, co sprawdzić, gdzie wejść aby sprawdzić co jest grane.

: 26 sierpnia 2010, 11:43
autor: Unit
sector pisze:... co jakiś czas serwer mi się zawiesza...
Określone pory dnia czy dowolnie ? może warto prześledzić cron-a.

: 26 sierpnia 2010, 11:45
autor: lolleq
W logach coś widać? Serwer jest przetaktowany? Mnie to wygląda na problem ze sprzętem - kiedyś tak miałem z trefną kartą sieciową. Rozumiem, że zawiesza się cały serwer a nie wirtualny pod VMware?

: 26 sierpnia 2010, 12:15
autor: sector
W cronie w sumie nic nie ma. Dodam, że serwer jest raczej wolno stojącym serwerem jedynie z VMware Server i apache, na którym jest zabbix z mysqlem. Nic więcej raczej nie ma.

Pory zawieszania się są dowolne. Maszyna przestaje odpowiadać w sieci. Ostatnio to było we wtorek o 21:00, a dzisiaj np. o 7:00 rano.

Serwer nie jest przetaktowany, a w logach nic nie znalazłem konkretnego i tak, zawiesza się cały.

Ostatnio miałem problem, ponieważ, ktoś mądry ustawił z 2 dysków tylko 5,5GB na system i mając jedynie 0,5GB wolnego miejsca padały mi wszystkie maszyny wirtualne (stan uśpienia/zawieszenia) twierdząc, że przepełnia się miejsce w /tmp. Gdy już się uporałem z ilością wolnego miejsca i mam go teraz 1,5GB to pojawił się problem z eth.

Nie jestem pewny, ale zauważyłem, że problem ten pojawia się (a w zasadzie raz się pojawił) gdy kopiowałem jakiś duży plik z/na maszynę. Wtedy po jakimś czasie, w trakcie operacji też przestał odpowiadać.

: 26 sierpnia 2010, 12:24
autor: Unit
Ale to jest problem z samym eth, czy w ogóle nic nie możesz zrobić będąc przy maszynie, oprócz restartu (takie zwisy raczej oznaczają problemy ze sprzętem)?

: 26 sierpnia 2010, 14:41
autor: sector
Właśnie na 100% nie jestem pewny. Sprawdzę to następnym razem gdy będę przy maszynie. Bo gdy to się stało dzisiaj, nie było mnie w pracy i kolega wcisnął ,,reset''. Następnym razem spróbuję uruchomić monitor od serwera i zobaczysz czy odpowiada czy nie. Dodam, że ten serwer nie był aktualizowany od bardzo dawna i nic nie było w nim zmieniane, a wcześniej działał bez problemu.

: 28 sierpnia 2010, 17:07
autor: Pacek
Spróbuj zrobić jeszcze:

Kod: Zaznacz cały

ifconfig
i sprawdź, czy tam są jakieś błędy transmisji. Spróbuj również zmienić port w przełączniku. Jak to nie pomoże to przetestuj wszystko na linii:
karta sieciowa serwera -->kabel--->przełącznik/ruter
Ja mogę tylko powiedzieć, że po tych burzach co ostatnio były, u moich klientów wyrzuciłem jeden ruter i jeden przełącznik do śmieci. Objawy miały takie:
- ruter pingować go można, przydziela adresy IP w sieci ale nie można się na niego zalogować oraz nie rutuje sygnału z i do internetu. Reset do ustawień fabrycznych nic nie daje.
- przełącznik - losowo działa albo nie działa, czasami zapalają się kontrolki i sieć nie działa, czasami kontrolki się nie palą a sieć działa. Ogólnie czeski film.

: 31 sierpnia 2010, 09:54
autor: sector
No dobra. Wiedziałem, że w końcu przyjdzie ten dzień. Dziś po raz kolejny maszyna się zawiesiła. Nie można się dostać przez SSH czy przez monitor podłączony do serwera. Jedynie twardy reset pomaga.

Co udało mi się ustalić to to, że na pewno się nie przegrzewa -> puściłem cron'a z sensorami w tle. Temperatura chwile przed zawiechą w normie.
Zasilacz raczej tez odpada bo to Tagan 400W a maszyna na 100% nie ciągnie aż tyle.

Przeglądnąłem logi i co mi wydaję się podejrzane to 2 sprawy.

Po pierwsze mam co chwile błędy z postfix'a w syslog.log

Kod: Zaznacz cały

Aug 31 06:28:31 vmware postfix/smtpd[8134]: connect from localhost[127.0.0.1]
Aug 31 06:28:31 vmware postfix/smtpd[8134]: lost connection after CONNECT from localhost[127.0.0.1]
Aug 31 06:28:31 vmware postfix/smtpd[8134]: disconnect from localhost[127.0.0.1]
Aug 31 06:29:01 vmware /USR/SBIN/CRON[8433]: (root) CMD (date >> /var/log/sensors.log | sensors >> /var/log/sensors.log)
Aug 31 06:29:31 vmware postfix/smtpd[8134]: connect from localhost[127.0.0.1]
Aug 31 06:29:31 vmware postfix/smtpd[8134]: lost connection after CONNECT from localhost[127.0.0.1]
Aug 31 06:29:31 vmware postfix/smtpd[8134]: disconnect from localhost[127.0.0.1]
Aug 31 06:30:01 vmware /USR/SBIN/CRON[8446]: (root) CMD (date >> /var/log/sensors.log | sensors >> /var/log/sensors.log)
Aug 31 06:30:31 vmware postfix/smtpd[8134]: connect from localhost[127.0.0.1]
Aug 31 06:30:31 vmware postfix/smtpd[8134]: lost connection after CONNECT from localhost[127.0.0.1]
Aug 31 06:30:31 vmware postfix/smtpd[8134]: disconnect from localhost[127.0.0.1]
Aug 31 06:31:01 vmware /USR/SBIN/CRON[8457]: (root) CMD (date >> /var/log/sensors.log | sensors >> /var/log/sensors.log)
Aug 31 06:31:31 vmware postfix/smtpd[8134]: connect from localhost[127.0.0.1]
Aug 31 06:31:31 vmware postfix/smtpd[8134]: lost connection after CONNECT from localhost[127.0.0.1]
Ostatni komunikat przed zawieszeniem się serwera to DISCONNECT

Kod: Zaznacz cały

Aug 31 08:53:31 vmware postfix/smtpd[9470]: connect from localhost[127.0.0.1]
Aug 31 08:53:31 vmware postfix/smtpd[9470]: lost connection after CONNECT from localhost[127.0.0.1]
[B]Aug 31 08:53:31 vmware postfix/smtpd[9470]: disconnect from localhost[127.0.0.1][/B]
Ciężko mi uwierzyć w sumie, że to postfix powoduje taki stan rzeczy, ale może jest do tego zdolny?
Po googlowaniu udało mi się znaleźć informacje, że można tego uniknąć zmieniając max procesów. Nie pomogło.

Druga sprawa to w kern.log

Kod: Zaznacz cały

Aug 30 15:05:57 vmware kernel: [285283.873131] vmmon: Had to deallocate locked 64668 pages from vm driver ffff810198c08400
Aug 30 15:05:57 vmware kernel: [285283.879615] vmmon: Had to deallocate AWE 5753 pages from vm driver ffff810198c08400
Aug 30 15:06:31 vmware kernel: [285318.437421] /dev/vmnet: open called by PID 29512 (vmware-vmx)
Aug 30 15:06:31 vmware kernel: [285318.437421] /dev/vmnet: port on hub 0 successfully opened
Aug 30 16:01:19 vmware kernel: [288645.172038] /dev/vmnet: open called by PID 26500 (vmware-vmx)
Aug 30 16:01:19 vmware kernel: [288645.172054] /dev/vmnet: port on hub 0 successfully opened
Aug 30 16:01:41 vmware kernel: [288666.682825] vmmon: Had to deallocate locked 65533 pages from vm driver ffff810198185c00
[B]Aug 30 16:01:41 vmware kernel: [288666.686823] vmmon: Had to deallocate AWE 4611 pages from vm driver ffff810198185c00
Aug 31 06:25:50 vmware kernel: Kernel logging (proc) stopped.
Aug 31 06:25:50 vmware kernel: imklog 3.18.6, log source = /proc/kmsg started.[/B]
Aug 31 08:56:55 vmware kernel: imklog 3.18.6, log source = /proc/kmsg started.
Aug 31 08:56:55 vmware kernel: [    0.000000] Initializing cgroup subsys cpuset
Aug 31 08:56:55 vmware kernel: [    0.000000] Initializing cgroup subsys cpu
Około 16 wszyscy już zamykają maszyny i nikt nie korzysta z serwera. Dziwi mnie ta wiadomość jednak z godziny 06:25. Następna wiadomość to już info po restarcie.

Nic innego nie znalazłem co by wyglądało dziwnie.
Być może to jakieś błędy ze sprzętem? Dziś postaram się przetestować dysk oraz ram. Nie wygląda też na to, że są błędy na eth0.

Kod: Zaznacz cały

eth0      Link encap:Ethernet  HWaddr 00:16:e6:88:a5:ee
          inet addr:192.1.1.3  Bcast:192.1.1.255  Mask:255.255.255.0
          inet6 addr: fe80::216:e6ff:fe88:a5ee/64 Scope:Link
          UP BROADCAST RUNNING MULTICAST  MTU:1500  Metric:1
          RX packets:305418 errors:0 dropped:0 overruns:0 frame:0
          TX packets:176643 errors:0 dropped:0 overruns:0 carrier:0
          collisions:0 txqueuelen:1000
          RX bytes:21316602 (20.3 MiB)  TX bytes:456153737 (435.0 MiB)
          Interrupt:16

lo        Link encap:Local Loopback
          inet addr:127.0.0.1  Mask:255.0.0.0
          inet6 addr: ::1/128 Scope:Host
          UP LOOPBACK RUNNING  MTU:16436  Metric:1
          RX packets:146728 errors:0 dropped:0 overruns:0 frame:0
          TX packets:146728 errors:0 dropped:0 overruns:0 carrier:0
          collisions:0 txqueuelen:0
          RX bytes:18349311 (17.4 MiB)  TX bytes:18349311 (17.4 MiB)

vmnet1    Link encap:Ethernet  HWaddr 00:50:56:c0:00:01
          inet addr:172.16.149.1  Bcast:172.16.149.255  Mask:255.255.255.0
          inet6 addr: fe80::250:56ff:fec0:1/64 Scope:Link
          UP BROADCAST RUNNING MULTICAST  MTU:1500  Metric:1
          RX packets:0 errors:0 dropped:0 overruns:0 frame:0
          TX packets:6 errors:0 dropped:0 overruns:0 carrier:0
          collisions:0 txqueuelen:1000
          RX bytes:0 (0.0 B)  TX bytes:0 (0.0 B)

vmnet8    Link encap:Ethernet  HWaddr 00:50:56:c0:00:08
          inet addr:192.168.43.1  Bcast:192.168.43.255  Mask:255.255.255.0
          inet6 addr: fe80::250:56ff:fec0:8/64 Scope:Link
          UP BROADCAST RUNNING MULTICAST  MTU:1500  Metric:1
          RX packets:0 errors:0 dropped:0 overruns:0 frame:0
          TX packets:6 errors:0 dropped:0 overruns:0 carrier:0
          collisions:0 txqueuelen:1000
          RX bytes:0 (0.0 B)  TX bytes:0 (0.0 B)


Dodam, ze Debian , na którym wszystko jest po instalowane to Etch.

Czy ktoś ma może jakiś pomysł?

: 31 sierpnia 2010, 10:01
autor: lolleq
Dziwi mnie ta wiadomość jednak z godziny 06:25. Następna wiadomość to już info po restarcie.
To jakieś zadanie z crona raczej, standardowa instalacja ma na 0625 coś tam ustawione, cron.daily zdaje się.

: 31 sierpnia 2010, 10:55
autor: cyryllo
Ja bym jeszcze spróbował podłączyć inną kartę eth a tą potencjalnie uszkodzoną wyłączyć, kilka zmian w plikach i sprawdzić.