My Home NW Lab

逸般の誤家庭のネットワーク

Meraki MX (Routed Mode)のWarm-Spare構成時の筐体障害交換の一例

Meraki MX (Routed Mode)のWarm-Spare構成時の筐体障害交換の手順をまとめました。 なお、本手順はあくまでも一例となります。環境や交換方法の指針によって手順の変更が必要になる可能性があります。

ドキュメントには該当するトピックがないため、筆者が個人的にまとめた内容となります。該当のドキュメントがない点は、2021年12月頃にサポートに問い合わせて確認しております。

作業手順は安全性が高い手順に寄せるようにしましたが、シンプルな手順と複雑な手順がある場合は、複雑化による作業ミスを避けるためにシンプルな方を採択しております。

また、その他の理由として、Meraki MXは間接リンク障害が約300秒 (5分)であり、1秒のサービス断も許されないような環境にはそもそも向いていないため、 サービス断時間より作業ミスのよる二次被害のリスクを重いと筆者は判断しました。

本作業では筐体交換に伴ってサービス断が発生する可能性があるため、片肺運用の継続時間よりサービス断時間を気にされる場合はメンテナンス時間を適宜設けてください。

想定シナリオ

  • Meraki MXをRouted ModeのWarm-Spare構成にて、Primary MXに障害が発生して筐体交換を行うシナリオを想定しています。

  • VIP (Virtual IP)は未使用の想定です。VIPを使用している場合は、物理的な交換タイミングでDual Activeになった際に、VIPの奪い合いが発生してフラップする可能性があります。
    なお、VIPの未使用時であってもDual Activeとなると、仕様上はサービス影響が発生する可能性があります。

  • 代替機にはIPアドレス情報などの事前設定はしていない想定です。
    代替機はPrimary MXだけでなくSecondary MXの代替にもなり得るためです。

  • 代替機は予めInventoryに登録してある状態を想定しています。

検証時の情報

本手順はMX64 (Version: MX 16.16)で検証しております。 筆者はあくまでも個人であり、MX64は2台しか所持していないため、障害機と代替機は同一のデバイスになっております。 また、検証時はInternet回線は各MXに1回線の収容で行いました。図上では考慮漏れを防ぐために各MXに2回線の収容想定のイメージ図にしております。

手順

正常時の状態

まず前提となる構成を正常時の状態を示します。

正常時の状態

障害発生時の状態

本記事ではPrimary MXに障害が発生したと想定しております。
作業対象に誤りがないか正確に確認してください。

障害発生時の状態

Meraki Dashboard上での障害確認の例

障害対象の電源をオフ

障害対象のMXの電源をオフにして不意な再起動のループやInterfaceのフラップが起きないようにします。 後の作業で代替機の作業電源を確保する意味合いも含んでいます。

03_障害対象の電源をオフ

代替機に電源を接続

故障機が使用していた電源を流用して代替機を立ち上げます。

代替機に電源を接続

代替機のLocal Status Pageで初期設定

代替機のLocal Status Pageで初期設定

  • Meraki MXのLAN側に作業端末を接続して、作業端末にDHCPIPアドレスが割り振られたかを確認します。

  • 作業端末から代替機のLocal Status Pageへアクセスを行います。作業端末でURL: http://mx.meraki.com/ を開きます。

    MXのLocal Status Pageへの接続

  • Configure タブを開きます。Meraki Cloudへの接続前後で資格情報が異なります。
    本段階ではMeraki Cloudへの接続前 (Before)の想定になります。

    資格情報の入力画面

    • Meraki Cloudへの接続前 (Before)

      項目 入力値
      Username Serial Numberを入力します。
      Password なし
    • Meraki Cloudへの接続後 (After)

      項目 入力値
      Username admin
      Password Network-wide > General の Local credentials の Password 情報を入力します。
  • Parameter Sheetなどの設定情報の控えを元にして、Uplinkの設定を行います。

    Local Status PageのUplink configuration

Dashboardで機器を交換

Meraki Dashboardで機器の交換を行います。詳細な手順を解説してきます。

Dashboardで機器を交換

障害機の画面へ移動

障害機の画面へ移動します。
本記事ではPrimary MXが障害機として想定しているため、メニュー: Security & SD-WAN > Appliance status に移動します。

障害機の画面へ移動

作業対象 (障害機)の確認

障害機が作業対象になっているか確認してください。

作業対象 (障害機)の確認

障害機をNetworkから削除

障害機の画面で Remove appliance form network... ボタンを押下して、障害機をNetworkから削除します。

障害機をNetworkから削除 (1/2)

障害機をNetworkから削除 (2/2)

Networkから障害機を削除すると、MXが1台しかNetworkに存在していないためWarm-Spareを組んでいない状態になります。

代替機でWarm-Spareの組み直し

  • Configure warm spare ボタンを押下して、交換機でWarm-Spareを組みなおします。

    代替機でWarm-Spareの組み直し (1/2)

  • Parameter Sheetなどの設定情報の控えを元にして、Warm-Spareを設定し直してください。

    代替機でWarm-Spareの組み直し (2/2)

代替機の追加後の状態

代替機の追加後は、本来SpareだったMXがPrimaryとなり、後から追加した代替機がSpareとなります。
この段階ではPrimaryとSpareの役割は入れ替えないでください。入れ替えてしまうと後の作業でサービス断が長引く可能性があります。

代替機の追加後の状態

故障機をラックから取り外して代替機と交換

故障機をラックから取り外して代替機と交換します。
ケーブル結線における注意点ですが、Uplink側とLAN側の結線順序のよってサービス影響の観点が異なるため留意してください。

故障機をラックから取り外して代替機と交換

代替機の結線順序

環境に応じて、Uplink側とLAN側のどちらから作業するかを決めてください。

代替機の結線順序

  • Uplink側からケーブルを繋ぐと、設定が同期された時点でDual Masterになります。

  • LAN側からケーブルを繋ぐと、DHCPで不意にアドレスが払い出される可能性があります。
    設定の同期前 (初期化状態)ではDHCP Serverが動作しているため、先にUplinkを繋がないと意図しないアドレスが払い出されてしまう可能性があります。

代替機のFirmware Upgrade

代替機がNetworkのFirmware Versionと一致していない場合は、設定の同期後にFirmware Upgradeが走り再起動が発生します。
LEDの点灯・点滅の状態を物理的にも目視してFirmware Upgradeの進行状態を確認してください。
予備機がSpareの状態だと再起動が発生しても、基本的にはサービス影響が発生しないため、この段階まではPrimaryとSpareを入れ替えない手順にしています。

LEDの情報に関しては、下記のDocから該当モデルの Installation Guide を参照してください。

documentation.meraki.com

故障機と代替機の交換後

この時点で、故障機と代替機の交換後は済みましたが、正常時と比べるとPrimaryとSpareが変化している点に留意してください。

故障機と代替機の交換後

PrimaryとSpareの入れ替え

PrimaryとSpareの状態を入れ替えます。

PrimaryとSpareの入れ替え

Dashboard上では入れ替えマークのボタンを押下します。

Dashboard上でのPrimaryとSpareの入れ替え (1/2)

Dashboard上でのPrimaryとSpareの入れ替え (2/2)

交換の完了後

交換の完了後は、疎通確認などをして動作に問題がないか適宜確認してください。

交換の完了後