[+] serwer vmware, co jaki
[+] serwer vmware, co jakiś czas się zawiesza, eth0 nie odpowiada
Witam.
Mam serwer, na którym jest mysql, vmware i parę innych mniej istotnych usług. Problem jest w tym, że co jakiś czas serwer mi się zawiesza. Interfejs eth0 przestaje odpowiadać i polecenie ping nie dochodzi. Dioda od LAN-u się świeci, ale nic nie można zrobić oprócz restartu maszyny.
Czy ktoś ma jakiś pomysł co można zrobić, co sprawdzić, gdzie wejść aby sprawdzić co jest grane.
Mam serwer, na którym jest mysql, vmware i parę innych mniej istotnych usług. Problem jest w tym, że co jakiś czas serwer mi się zawiesza. Interfejs eth0 przestaje odpowiadać i polecenie ping nie dochodzi. Dioda od LAN-u się świeci, ale nic nie można zrobić oprócz restartu maszyny.
Czy ktoś ma jakiś pomysł co można zrobić, co sprawdzić, gdzie wejść aby sprawdzić co jest grane.
W cronie w sumie nic nie ma. Dodam, że serwer jest raczej wolno stojącym serwerem jedynie z VMware Server i apache, na którym jest zabbix z mysqlem. Nic więcej raczej nie ma.
Pory zawieszania się są dowolne. Maszyna przestaje odpowiadać w sieci. Ostatnio to było we wtorek o 21:00, a dzisiaj np. o 7:00 rano.
Serwer nie jest przetaktowany, a w logach nic nie znalazłem konkretnego i tak, zawiesza się cały.
Ostatnio miałem problem, ponieważ, ktoś mądry ustawił z 2 dysków tylko 5,5GB na system i mając jedynie 0,5GB wolnego miejsca padały mi wszystkie maszyny wirtualne (stan uśpienia/zawieszenia) twierdząc, że przepełnia się miejsce w /tmp. Gdy już się uporałem z ilością wolnego miejsca i mam go teraz 1,5GB to pojawił się problem z eth.
Nie jestem pewny, ale zauważyłem, że problem ten pojawia się (a w zasadzie raz się pojawił) gdy kopiowałem jakiś duży plik z/na maszynę. Wtedy po jakimś czasie, w trakcie operacji też przestał odpowiadać.
Pory zawieszania się są dowolne. Maszyna przestaje odpowiadać w sieci. Ostatnio to było we wtorek o 21:00, a dzisiaj np. o 7:00 rano.
Serwer nie jest przetaktowany, a w logach nic nie znalazłem konkretnego i tak, zawiesza się cały.
Ostatnio miałem problem, ponieważ, ktoś mądry ustawił z 2 dysków tylko 5,5GB na system i mając jedynie 0,5GB wolnego miejsca padały mi wszystkie maszyny wirtualne (stan uśpienia/zawieszenia) twierdząc, że przepełnia się miejsce w /tmp. Gdy już się uporałem z ilością wolnego miejsca i mam go teraz 1,5GB to pojawił się problem z eth.
Nie jestem pewny, ale zauważyłem, że problem ten pojawia się (a w zasadzie raz się pojawił) gdy kopiowałem jakiś duży plik z/na maszynę. Wtedy po jakimś czasie, w trakcie operacji też przestał odpowiadać.
Właśnie na 100% nie jestem pewny. Sprawdzę to następnym razem gdy będę przy maszynie. Bo gdy to się stało dzisiaj, nie było mnie w pracy i kolega wcisnął ,,reset''. Następnym razem spróbuję uruchomić monitor od serwera i zobaczysz czy odpowiada czy nie. Dodam, że ten serwer nie był aktualizowany od bardzo dawna i nic nie było w nim zmieniane, a wcześniej działał bez problemu.
Spróbuj zrobić jeszcze:
i sprawdź, czy tam są jakieś błędy transmisji. Spróbuj również zmienić port w przełączniku. Jak to nie pomoże to przetestuj wszystko na linii:
karta sieciowa serwera -->kabel--->przełącznik/ruter
Ja mogę tylko powiedzieć, że po tych burzach co ostatnio były, u moich klientów wyrzuciłem jeden ruter i jeden przełącznik do śmieci. Objawy miały takie:
- ruter pingować go można, przydziela adresy IP w sieci ale nie można się na niego zalogować oraz nie rutuje sygnału z i do internetu. Reset do ustawień fabrycznych nic nie daje.
- przełącznik - losowo działa albo nie działa, czasami zapalają się kontrolki i sieć nie działa, czasami kontrolki się nie palą a sieć działa. Ogólnie czeski film.
Kod: Zaznacz cały
ifconfig
karta sieciowa serwera -->kabel--->przełącznik/ruter
Ja mogę tylko powiedzieć, że po tych burzach co ostatnio były, u moich klientów wyrzuciłem jeden ruter i jeden przełącznik do śmieci. Objawy miały takie:
- ruter pingować go można, przydziela adresy IP w sieci ale nie można się na niego zalogować oraz nie rutuje sygnału z i do internetu. Reset do ustawień fabrycznych nic nie daje.
- przełącznik - losowo działa albo nie działa, czasami zapalają się kontrolki i sieć nie działa, czasami kontrolki się nie palą a sieć działa. Ogólnie czeski film.
No dobra. Wiedziałem, że w końcu przyjdzie ten dzień. Dziś po raz kolejny maszyna się zawiesiła. Nie można się dostać przez SSH czy przez monitor podłączony do serwera. Jedynie twardy reset pomaga.
Co udało mi się ustalić to to, że na pewno się nie przegrzewa -> puściłem cron'a z sensorami w tle. Temperatura chwile przed zawiechą w normie.
Zasilacz raczej tez odpada bo to Tagan 400W a maszyna na 100% nie ciągnie aż tyle.
Przeglądnąłem logi i co mi wydaję się podejrzane to 2 sprawy.
Po pierwsze mam co chwile błędy z postfix'a w syslog.logOstatni komunikat przed zawieszeniem się serwera to DISCONNECT
Ciężko mi uwierzyć w sumie, że to postfix powoduje taki stan rzeczy, ale może jest do tego zdolny?
Po googlowaniu udało mi się znaleźć informacje, że można tego uniknąć zmieniając max procesów. Nie pomogło.
Druga sprawa to w kern.log
Około 16 wszyscy już zamykają maszyny i nikt nie korzysta z serwera. Dziwi mnie ta wiadomość jednak z godziny 06:25. Następna wiadomość to już info po restarcie.
Nic innego nie znalazłem co by wyglądało dziwnie.
Być może to jakieś błędy ze sprzętem? Dziś postaram się przetestować dysk oraz ram. Nie wygląda też na to, że są błędy na eth0.
Dodam, ze Debian , na którym wszystko jest po instalowane to Etch.
Czy ktoś ma może jakiś pomysł?
Co udało mi się ustalić to to, że na pewno się nie przegrzewa -> puściłem cron'a z sensorami w tle. Temperatura chwile przed zawiechą w normie.
Zasilacz raczej tez odpada bo to Tagan 400W a maszyna na 100% nie ciągnie aż tyle.
Przeglądnąłem logi i co mi wydaję się podejrzane to 2 sprawy.
Po pierwsze mam co chwile błędy z postfix'a w syslog.log
Kod: Zaznacz cały
Aug 31 06:28:31 vmware postfix/smtpd[8134]: connect from localhost[127.0.0.1]
Aug 31 06:28:31 vmware postfix/smtpd[8134]: lost connection after CONNECT from localhost[127.0.0.1]
Aug 31 06:28:31 vmware postfix/smtpd[8134]: disconnect from localhost[127.0.0.1]
Aug 31 06:29:01 vmware /USR/SBIN/CRON[8433]: (root) CMD (date >> /var/log/sensors.log | sensors >> /var/log/sensors.log)
Aug 31 06:29:31 vmware postfix/smtpd[8134]: connect from localhost[127.0.0.1]
Aug 31 06:29:31 vmware postfix/smtpd[8134]: lost connection after CONNECT from localhost[127.0.0.1]
Aug 31 06:29:31 vmware postfix/smtpd[8134]: disconnect from localhost[127.0.0.1]
Aug 31 06:30:01 vmware /USR/SBIN/CRON[8446]: (root) CMD (date >> /var/log/sensors.log | sensors >> /var/log/sensors.log)
Aug 31 06:30:31 vmware postfix/smtpd[8134]: connect from localhost[127.0.0.1]
Aug 31 06:30:31 vmware postfix/smtpd[8134]: lost connection after CONNECT from localhost[127.0.0.1]
Aug 31 06:30:31 vmware postfix/smtpd[8134]: disconnect from localhost[127.0.0.1]
Aug 31 06:31:01 vmware /USR/SBIN/CRON[8457]: (root) CMD (date >> /var/log/sensors.log | sensors >> /var/log/sensors.log)
Aug 31 06:31:31 vmware postfix/smtpd[8134]: connect from localhost[127.0.0.1]
Aug 31 06:31:31 vmware postfix/smtpd[8134]: lost connection after CONNECT from localhost[127.0.0.1]
Kod: Zaznacz cały
Aug 31 08:53:31 vmware postfix/smtpd[9470]: connect from localhost[127.0.0.1]
Aug 31 08:53:31 vmware postfix/smtpd[9470]: lost connection after CONNECT from localhost[127.0.0.1]
[B]Aug 31 08:53:31 vmware postfix/smtpd[9470]: disconnect from localhost[127.0.0.1][/B]
Po googlowaniu udało mi się znaleźć informacje, że można tego uniknąć zmieniając max procesów. Nie pomogło.
Druga sprawa to w kern.log
Kod: Zaznacz cały
Aug 30 15:05:57 vmware kernel: [285283.873131] vmmon: Had to deallocate locked 64668 pages from vm driver ffff810198c08400
Aug 30 15:05:57 vmware kernel: [285283.879615] vmmon: Had to deallocate AWE 5753 pages from vm driver ffff810198c08400
Aug 30 15:06:31 vmware kernel: [285318.437421] /dev/vmnet: open called by PID 29512 (vmware-vmx)
Aug 30 15:06:31 vmware kernel: [285318.437421] /dev/vmnet: port on hub 0 successfully opened
Aug 30 16:01:19 vmware kernel: [288645.172038] /dev/vmnet: open called by PID 26500 (vmware-vmx)
Aug 30 16:01:19 vmware kernel: [288645.172054] /dev/vmnet: port on hub 0 successfully opened
Aug 30 16:01:41 vmware kernel: [288666.682825] vmmon: Had to deallocate locked 65533 pages from vm driver ffff810198185c00
[B]Aug 30 16:01:41 vmware kernel: [288666.686823] vmmon: Had to deallocate AWE 4611 pages from vm driver ffff810198185c00
Aug 31 06:25:50 vmware kernel: Kernel logging (proc) stopped.
Aug 31 06:25:50 vmware kernel: imklog 3.18.6, log source = /proc/kmsg started.[/B]
Aug 31 08:56:55 vmware kernel: imklog 3.18.6, log source = /proc/kmsg started.
Aug 31 08:56:55 vmware kernel: [ 0.000000] Initializing cgroup subsys cpuset
Aug 31 08:56:55 vmware kernel: [ 0.000000] Initializing cgroup subsys cpu
Nic innego nie znalazłem co by wyglądało dziwnie.
Być może to jakieś błędy ze sprzętem? Dziś postaram się przetestować dysk oraz ram. Nie wygląda też na to, że są błędy na eth0.
Kod: Zaznacz cały
eth0 Link encap:Ethernet HWaddr 00:16:e6:88:a5:ee
inet addr:192.1.1.3 Bcast:192.1.1.255 Mask:255.255.255.0
inet6 addr: fe80::216:e6ff:fe88:a5ee/64 Scope:Link
UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1
RX packets:305418 errors:0 dropped:0 overruns:0 frame:0
TX packets:176643 errors:0 dropped:0 overruns:0 carrier:0
collisions:0 txqueuelen:1000
RX bytes:21316602 (20.3 MiB) TX bytes:456153737 (435.0 MiB)
Interrupt:16
lo Link encap:Local Loopback
inet addr:127.0.0.1 Mask:255.0.0.0
inet6 addr: ::1/128 Scope:Host
UP LOOPBACK RUNNING MTU:16436 Metric:1
RX packets:146728 errors:0 dropped:0 overruns:0 frame:0
TX packets:146728 errors:0 dropped:0 overruns:0 carrier:0
collisions:0 txqueuelen:0
RX bytes:18349311 (17.4 MiB) TX bytes:18349311 (17.4 MiB)
vmnet1 Link encap:Ethernet HWaddr 00:50:56:c0:00:01
inet addr:172.16.149.1 Bcast:172.16.149.255 Mask:255.255.255.0
inet6 addr: fe80::250:56ff:fec0:1/64 Scope:Link
UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1
RX packets:0 errors:0 dropped:0 overruns:0 frame:0
TX packets:6 errors:0 dropped:0 overruns:0 carrier:0
collisions:0 txqueuelen:1000
RX bytes:0 (0.0 B) TX bytes:0 (0.0 B)
vmnet8 Link encap:Ethernet HWaddr 00:50:56:c0:00:08
inet addr:192.168.43.1 Bcast:192.168.43.255 Mask:255.255.255.0
inet6 addr: fe80::250:56ff:fec0:8/64 Scope:Link
UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1
RX packets:0 errors:0 dropped:0 overruns:0 frame:0
TX packets:6 errors:0 dropped:0 overruns:0 carrier:0
collisions:0 txqueuelen:1000
RX bytes:0 (0.0 B) TX bytes:0 (0.0 B)
Dodam, ze Debian , na którym wszystko jest po instalowane to Etch.
Czy ktoś ma może jakiś pomysł?