Strona 1 z 1

problem z hlds i ext3

: 15 czerwca 2007, 14:52
autor: micro
Witam,

od pewnego czasu mam problem, z którym w żaden sposób nie mogę sobie poradzić, ani nigdzie w sieci znaleźć opisu podobnego zdarzenia.

Problem polega na nagłym i praktycznie bezpodstawnym rozsypywaniu się systemu plików ext3.
Maszyna jest przeznaczona wyłącznie pod serwery hlds i nie ma na niej innych usług.

Objawy są następujące:
Serwery nagle i praktycznie bez powodu zaczynają bardzo zajmować czas procesora, co objawia się spadkiem grywalności (tzw lagi) co może trwać od kilku minut, do kilku godzin. Podczas którejś zmiany mapy usługa (któryś z hlds) przestaje odpowiadać i "wisi" nawet kilka minut choć powinna po 3s od zakończenia jednej mapy rozpocząć ładowanie kolejnej.
Jednocześnie netmonitor pokazuje, że maszyna cały czas odpowiada na pingi.
Jeśli w tym czasie jestem podłączony do serwera (putty), "zamraża" mi konsolę. Jeśli w trakcie takiego "zwisu" odpalę kolejną konsolę i próbuję się zalogować - okno puttiego otwiera się, lecz brak zgłoszenia do logowania (login as :) Po około 3-5 minutach serwer hlds, konsola wracają do życia, ale system plików jest rozjechany co sprawia, że mimo, iż jestem zalogowany nie mogę wykonać jakiego kolwiek polecenia z poziomu roota (reboot, shutdown, netstat, itp) Przy próbie wykonania poleceń tego typu otrzymuję komunikat "błąd wejścia/wyjścia". Gdy przeglądam zawartość dysku przy pomocy mc, pliki w kluczowych katalogach są na czerwono, poprzedzone znakiem "?" z datą 1 stycznia 1970. Oczywiście żadne logi nie są zapisywane, a odczytanie istniejących - niemożliwe :(
Problem występuje od około 2 miesięcy.

Opis maszyny:

płyta główna: ASUS P5PE-VM, 865G, DualDDR400
Procesor: Pentium D 3,6GHz
Ram: 2GB DDR2
Dysk SATA 160 GB (nie pamiętam producenta :( )
Sys: Debian 2.6.18-4-686
Maszyna stoi w podsieci z pełnym mapowaniem wszystkich portów na publiczny adres IP. Dodatkowo jest odseparowana od pozostałych maszyn w tej sieci wlanem.

Z usług uruchomione są jedynie 2 serwery counter-strike 1.6 z zainstalowanym metamodem 1.9 i amxx 1.76B
SSH chodzi na 'lewym' porcie. Iptables dopuszcza jedynie połączenia UDP na portach 27015, 27016 oraz established i related. Dodatkowo uruchomiony jest portsentry.

Jeśli są potrzebne jakieś dodatkowe informacje, które pomogą rozwiązać mój problem - piszcie. Postaram się dostarczyć je w jak najbardziej wyczerpujący sposób.

: 15 czerwca 2007, 15:34
autor: Rad
Mi to wygląda na problem sprzętowy - może po prostu siadają ci dyski.

: 15 czerwca 2007, 15:41
autor: micro
Dysk jest nówka. Wcześniej był IDE Maxtora 20 GB. W przypadku dysku ide wywalało dysk i pojawiał się komunikat o problemie z dma, bez względu na to czy dma było włączone czy też nie. Wymiana dysku była konieczna z powodu fizycznego uszkodzenia dysku (również był fabrycznie nowy) Problemy pojawiły się nagle, praktycznie bez powodu.
Możliwe, że jest to problem sprzętowy, lecz nie wynikający z samego dysku. W sumie zmieniałem 3x dyski, każdy innego producenta.

//EDIT:
Dziś wkurzyłem się i przywiozłem maszynę do domu by przeinstalować system i rekompilować jajo. Po zmianie ip na to z mojej sieci domowej zauważyłem dziwną rzecz
Pingi do omawianego serwerka:

Kod: Zaznacz cały

Odpowiedź z 192.168.0.8: bajtów=32 czas=1ms TTL=64
Odpowiedź z 192.168.0.8: bajtów=32 czas=1ms TTL=64
Odpowiedź z 192.168.0.8: bajtów=32 czas<1 ms TTL=64
Odpowiedź z 192.168.0.8: bajtów=32 czas=1ms TTL=64
Odpowiedź z 192.168.0.8: bajtów=32 czas<1 ms TTL=64
Odpowiedź z 192.168.0.8: bajtów=32 czas=1ms TTL=64
Odpowiedź z 192.168.0.8: bajtów=32 czas=1ms TTL=64
Odpowiedź z 192.168.0.8: bajtów=32 czas<1 ms TTL=64
Odpowiedź z 192.168.0.8: bajtów=32 czas=1ms TTL=64
Odpowiedź z 192.168.0.8: bajtów=32 czas<1 ms TTL=64
Odpowiedź z 192.168.0.8: bajtów=32 czas=1ms TTL=64
Odpowiedź z 192.168.0.8: bajtów=32 czas<1 ms TTL=64
Odpowiedź z 192.168.0.8: bajtów=32 czas=1ms TTL=64
Odpowiedź z 192.168.0.8: bajtów=32 czas<1 ms TTL=64
Odpowiedź z 192.168.0.8: bajtów=32 czas=1ms TTL=64
Odpowiedź z 192.168.0.8: bajtów=32 czas<1 ms TTL=64
Odpowiedź z 192.168.0.8: bajtów=32 czas=1ms TTL=64
Odpowiedź z 192.168.0.8: bajtów=32 czas<1 ms TTL=64
Odpowiedź z 192.168.0.8: bajtów=32 czas=1ms TTL=64
Odpowiedź z 192.168.0.8: bajtów=32 czas<1 ms TTL=64
Odpowiedź z 192.168.0.8: bajtów=32 czas=1ms TTL=64
Dla porównania pingi do różnych innych urządzeń
Ping do bramki

Kod: Zaznacz cały

Odpowiedź z 192.168.0.1: bajtów=32 czas<1 ms TTL=64
Odpowiedź z 192.168.0.1: bajtów=32 czas<1 ms TTL=64
Odpowiedź z 192.168.0.1: bajtów=32 czas<1 ms TTL=64
Odpowiedź z 192.168.0.1: bajtów=32 czas<1 ms TTL=64
Odpowiedź z 192.168.0.1: bajtów=32 czas<1 ms TTL=64
Ping do serwera na debianie z sambą, mysql, apache, itp:

Kod: Zaznacz cały

Odpowiedź z 192.168.0.2: bajtów=32 czas<1 ms TTL=64
Odpowiedź z 192.168.0.2: bajtów=32 czas<1 ms TTL=64
Odpowiedź z 192.168.0.2: bajtów=32 czas<1 ms TTL=64
Odpowiedź z 192.168.0.2: bajtów=32 czas<1 ms TTL=64
Odpowiedź z 192.168.0.2: bajtów=32 czas<1 ms TTL=64
Pingi do laptopa podłączonego przez WiFi na 2,4 GHz przez accessa tonze:

Kod: Zaznacz cały

Odpowiedź z 192.168.0.4: bajtów=32 czas<1 ms TTL=128
Odpowiedź z 192.168.0.4: bajtów=32 czas<1 ms TTL=128
Odpowiedź z 192.168.0.4: bajtów=32 czas<1 ms TTL=128
Odpowiedź z 192.168.0.4: bajtów=32 czas<1 ms TTL=128
Odpowiedź z 192.168.0.4: bajtów=32 czas<1 ms TTL=128
Dziwne są te opóźnienia... Zobaczymy co będzie po rekompilacji...

//edit:
Wygląda na to, że po zmianie ext3 na reiserfs sprawa ucichła. Nie mniej poczekam tydzień. Jeśli nic się nie wydarzy - uznam, że ten konkretny problem został rozwiązany.
Drugi serwer też z ext3 ale na sarge chodzi bezproblemowo od blisko roku (ani razu nie był restartowany)

//edit2:
Problem stwarzał etch i ext3.
Po zmianie systemu plików część moich problemów została rozwiązana.