Router failover - jak najlepiej to zrobi

Post autor: **LordRuthwen** » 05 lipca 2013, 13:14

Witam.
Zastanawiam się w jaki sposób najlepiej zorganizować mechanizm failover na dwóch routerach opartych o Debiana.
Uproszczony schemat połączeń:

Załącznik fail-over.jpg nie jest już dostępny

Maszyny są tak dobrane i skonfigurowane obecnie, że przepychają przez siebie około 1,3 Gb ruchu na sekundę.
Ruch jest filtrowany po adresach MAC (iptables) oraz działa na nich serwer DHCP - zarówno reguły iptables jak i strefy DHCP są generowane po każdej zmianie dla określonej tablicy na nowo.
Sieci LAN są w osobnych VLAN-ach, część idzie przez Router 1 a część przez Router 2.
Adresy WAN routerów są w jednej podsieci, są już za AS, więc nie ma z tym problemu.

Co bym chciał osiągnąć:
W razie awarii jednej maszyny żeby całość ruchu szła przez drugą, po przywróceniu do życia, żeby przestała przepuszczać ruch i ewentualnie wyłączyła interfejsy od strony LAN.
Fizycznych kart sieciowych jest na tyle, że mogę sobie pozwolić na nie używanie kilku, więc awaryjny ruch można przepuścić przez nie, maszyny też wydolą (testowane, nawet mam jeszcze sporo zapasu).
Może mi ktoś zaproponować czego użyć do takiego rozwiązania?
Jak najlepiej zsynchronizować pliki z ustawieniami stref dhcp oraz iptables?

Co do pierwszego, myślałem żeby użyć do tego OSPF z różnymi wagami tras, jednak nie mam pomysłu na mechanizm pilnujący i włączający/wyłączający interfejsy.

Bastian · Post autor: **Bastian** » 07 lipca 2013, 11:45

Po drugie: co prawda nie miałem do czynienia z Linux HAclustrem ale mam do czynienia z VCS (Veritas Cluster Server) i tam można definiować redundantne grupę resourceową dla sieci, podejrzewam, że w HAClustrze też to można bez problemu zrobić i zdefiniować reguły kiedy ma się przełączyć na drugie node.

Dodane:
Chociaż tak sobie myślę, że ja to bym chyba sam sobie taki mechanizm oskryptował...

Post autor: **LordRuthwen** » 07 lipca 2013, 15:57

O to też mi chodzi, jakieś propozycje jak to powinno działać? Na jakiej zasadzie?

Bastian · Post autor: **Bastian** » 08 lipca 2013, 20:00

Musisz pomiędzy ruterem 1 a ruterem2 zrobić połączenie punkt-punkt, na którym będzie działał heartbeat. W twoim rozwiązaniu failover ma działać na zasadzie master-slave tzn. że jak padnie połączenie główne to zapasowe ma być dopiero użyte. Zatem na nodzie slave skryptujesz mechanizm, który heartbeatem odpytuje mastera o warunki, które ten musi spełnić aby slave nie podjął żadnej akcji (czy serwer w ogóle żyje, czy heartbeat chodzi, czy jest ping do sieci, dla której jest bramą itp). Jeżeli jeden z tych warunków nie zostanie spełniony, uwalnia się konfigurator sieci na slave i ten staje się bramą. Oczywiście heartbeat cały czas pracuje i odpytuje mastera, czekając aż wszystkie warunki znów zostaną spełnione. Gdy w końcu tak sie stanie uwalnia się dekonfigurator na slave, i master znów jest bramą. Jak widzisz algorytm nie jest najprostszy i wymaga testów, żeby był niezawodny ale to ciekawy task

Router failover - jak najlepiej to zrobi

Router failover - jak najlepiej to zrobić na kilku maszynach?