Привет, незнакомец!

Похоже, вы здесь новенький. Чтобы принять участие, нажмите одну из кнопок ниже!

Epic Fail

отредактировано июня 2016 Раздел: Troubleshooting
Предлагаю тему для смелых. Давайте делиться историями, при которых у нас добавилось седых волос на всех частях тела.
Сам и начну.

Я работаю в финансовом энтерпрайзе. У нас есть два ЦОДа, которые соединены чистым L2 и работают, по большому счету, как один большой ЦОД.
Три разных environments - LAN, DMZ, Users. В каждом из них в каждом из ЦОДов в коре стоят по 2 нексуса.
Так-же к каждому из них подрублено по одному CheckPoint-у. Они поделены на VSX-ы, по одному на каждый environment. Работают как active-passive-passive-passive, с активным в первом ЦОДе.
Sync и MGMT ЧП бегает через DMZ.
Сегодня я апгрейдил Nexus DMZ во втором ЦОДе. Убрал из ЦОДа все VM-ы, удостоверился что он не HSRP/VRRP active ни для какого VLANa.
Посылаю его в рестарт и вижу, как все VPNы по всей фирме начинают дохнуть один за другим.
А произошло следующее:
ЧП который был подсоединен к нексусу, который я послал на ребут, резко потерял свой sync и MGMT. А порты в другие environments все еще живы.
С его точки зрения - все вокруг сдохли и он единственный теперь спасет ситуацию.
Соответственно - он начал поднимать VPNы со всеми подряд. Классический split-brain.
Решилось все после того, как нексус поднялся и все VPNы были вручную перезапущены.
Тэги темы:

Комментарии

  • История, которая до седых волос не довела, но нервы попортила.
    Пусконаладил Cisco LAN (Cat6500, 4500X, 2960X) + WLAN (AC5508 + AP2600i) у госзаказчика. Настройка беспроводных контроллеров была не совсем тривиальна - по требованию заказчика на первом этапе все, кто подключается к вайфаю, должны оказаться в DMZ, а не во внутренней сети. Для это использовалась архитектура guest anchor controller: трафик от точек доступа доходил по CAPWAP туннелю до внутреннего контроллера, а тот уже по другому CAPWAP туннелю запуливал этот трафик в DMZ за файроволом CheckPoint.

    В общем, идет вторая неделя командировки, сдаю Заказчику работу, все нормально - пинги пингуются, вайфай вайфаится, устройства в Cisco Network Assistant (бесплатный Cisco GUI, на Cisco Prime денег не хватило) красиво отображаются. Внезапно падает вайфай. В ходе траблушитинга выясняется, что почти все настройки, связанные с guest anchor controller стерлись на обоих контроллерах. Поменял 3 прошивки на контроллерах, завел кейс в Cisco TAC, там уже хотели менять железки... А потом местный админ обратил внимание на то, что вайфай пропадает, когда он заходит в Cisco Network Assistant. Оказалось, это бесплатное ПО затирало мои настройки! После того, как контроллеры были удалены из CNA, проблемы кончились.
  • отредактировано июня 2016
    Расскажу в 39 подкасте :)
    http://linkmeup.ru/blog/240.html
    Потом, если будет необходимость продублирую сюда.
Войдите или Зарегистрируйтесь чтобы комментировать.