Meraki MX (Routed Mode)のWarm-Spare構成時の筐体障害交換の手順をまとめました。 なお、本手順はあくまでも一例となります。環境や交換方法の指針によって手順の変更が必要になる可能性があります。
ドキュメントには該当するトピックがないため、筆者が個人的にまとめた内容となります。該当のドキュメントがない点は、2021年12月頃にサポートに問い合わせて確認しております。
作業手順は安全性が高い手順に寄せるようにしましたが、シンプルな手順と複雑な手順がある場合は、複雑化による作業ミスを避けるためにシンプルな方を採択しております。
また、その他の理由として、Meraki MXは間接リンク障害が約300秒 (5分)であり、1秒のサービス断も許されないような環境にはそもそも向いていないため、 サービス断時間より作業ミスによる二次被害のリスクを重いと筆者は判断しました。
本作業では筐体交換に伴ってサービス断が発生する可能性があるため、片肺運用の継続時間よりサービス断時間を気にされる場合はメンテナンス時間を適宜設けてください。
想定シナリオ
Meraki MXをRouted ModeのWarm-Spare構成にて、Primary MXに障害が発生して筐体交換を行うシナリオを想定しています。
VIP (Virtual IP)は未使用の想定です。VIPを使用している場合は、物理的な交換タイミングでDual Activeになった際に、VIPの奪い合いが発生してフラップする可能性があります。
なお、VIPの未使用時であってもDual Activeとなると、仕様上はサービス影響が発生する可能性があります。代替機にはIPアドレス情報などの事前設定はしていない想定です。
代替機はPrimary MXだけでなくSecondary MXの代替にもなり得るためです。代替機は予めInventoryに登録してある状態を想定しています。
検証時の情報
本手順はMX64 (Version: MX 16.16)で検証しております。 筆者はあくまでも個人であり、MX64は2台しか所持していないため、障害機と代替機は同一のデバイスになっております。 また、検証時はInternet回線は各MXに1回線の収容で行いました。図上では考慮漏れを防ぐために各MXに2回線の収容想定のイメージ図にしております。
手順
正常時の状態
まず前提となる構成を正常時の状態を示します。
障害発生時の状態
本記事ではPrimary MXに障害が発生したと想定しております。
作業対象に誤りがないか正確に確認してください。
障害対象の電源をオフ
障害対象のMXの電源をオフにして不意な再起動のループやInterfaceのフラップが起きないようにします。 後の作業で代替機の作業電源を確保する意味合いも含んでいます。
代替機に電源を接続
故障機が使用していた電源を流用して代替機を立ち上げます。
代替機のLocal Status Pageで初期設定
作業端末から代替機のLocal Status Pageへアクセスを行います。作業端末でURL: http://mx.meraki.com/ を開きます。
Configure タブを開きます。Meraki Cloudへの接続前後で資格情報が異なります。
本段階ではMeraki Cloudへの接続前 (Before)の想定になります。Parameter Sheetなどの設定情報の控えを元にして、Uplinkの設定を行います。
Dashboardで機器を交換
Meraki Dashboardで機器の交換を行います。詳細な手順を解説してきます。
障害機の画面へ移動
障害機の画面へ移動します。
本記事ではPrimary MXが障害機として想定しているため、メニュー: Security & SD-WAN > Appliance status
に移動します。
作業対象 (障害機)の確認
障害機が作業対象になっているか確認してください。
障害機をNetworkから削除
障害機の画面で Remove appliance form network...
ボタンを押下して、障害機をNetworkから削除します。
Networkから障害機を削除すると、MXが1台しかNetworkに存在していないためWarm-Spareを組んでいない状態になります。
代替機でWarm-Spareの組み直し
Configure warm spare
ボタンを押下して、交換機でWarm-Spareを組みなおします。Parameter Sheetなどの設定情報の控えを元にして、Warm-Spareを設定し直してください。
代替機の追加後の状態
代替機の追加後は、本来SpareだったMXがPrimaryとなり、後から追加した代替機がSpareとなります。
この段階ではPrimaryとSpareの役割は入れ替えないでください。入れ替えてしまうと後の作業でサービス断が長引く可能性があります。
故障機をラックから取り外して代替機と交換
故障機をラックから取り外して代替機と交換します。
ケーブル結線における注意点ですが、Uplink側とLAN側の結線順序のよってサービス影響の観点が異なるため留意してください。
代替機の結線順序
環境に応じて、Uplink側とLAN側のどちらから作業するかを決めてください。
Uplink側からケーブルを繋ぐと、設定が同期された時点でDual Masterになります。
LAN側からケーブルを繋ぐと、DHCPで不意にアドレスが払い出される可能性があります。
設定の同期前 (初期化状態)ではDHCP Serverが動作しているため、先にUplinkを繋がないと意図しないアドレスが払い出されてしまう可能性があります。
代替機のFirmware Upgrade
代替機がNetworkのFirmware Versionと一致していない場合は、設定の同期後にFirmware Upgradeが走り再起動が発生します。
LEDの点灯・点滅の状態を物理的にも目視してFirmware Upgradeの進行状態を確認してください。
予備機がSpareの状態だと再起動が発生しても、基本的にはサービス影響が発生しないため、この段階まではPrimaryとSpareを入れ替えない手順にしています。
LEDの情報に関しては、下記のDocから該当モデルの Installation Guide を参照してください。
故障機と代替機の交換後
この時点で、故障機と代替機の交換後は済みましたが、正常時と比べるとPrimaryとSpareが変化している点に留意してください。
PrimaryとSpareの入れ替え
PrimaryとSpareの状態を入れ替えます。
Dashboard上では入れ替えマークのボタンを押下します。
交換の完了後
交換の完了後は、疎通確認などをして動作に問題がないか適宜確認してください。