JANOG49にて「光トランシーバーの壊れ方、過去三年間の故障解析結果を眺めながら安定運用の為の方策を考える」と題したセッションを行いましたが発表内容がタイトルと整合性が悪かったこともあり多くの質問をいただきましたのでまとめました。

部品選別で高信頼の製品を作ることはできないか

高信頼性が要求される宇宙関係の部品をみると、数世代古い世代の技術を適用せざるを得なくなるのではないか。

通電時間の累計カウンター

OCP summit 2018での話だったような記憶が。トランシーバー側の実装ではなくスイッチのドライバーによる実装。過去のメモを再度探します。

FCS error

光トランシーバーに限らず、インターフェースのエラーとしてFCS errorの監視は重要です。光トランシーバーの故障前兆指標にもなります。レーザーのスペクトラムが乱れる故障の場合は光のパワーは変化せず障害判定できません。

対向機器に触れられない時のモニター

送信バイアス電流の傾向観察でしょうか。

ホットスタンバイ、寿命

予備の状態で通電しているのは「寿命」を消費する事になるが、正常な状態での部品寿命は5年を超えると思われるので。高信頼性を要求される環境ではお勧めする。

DDMの値について

QSFPで定義されているDDMの値は電圧、送信レーザーBIAS電流、送信レーザー出力、受信レーザーパワーです。AOCなど一部の製品はサポートしていません。

この値はSFFの定義ではプラスマイナス3dBとかなり甘い定義であり、実力としてもプラスマイナス1.5dB程度の精度です。絶対値の測定は校正を行わない限り難しいのです。しかし、相対値は0.2dB程度の精度が期待出来ますので変化量を観測する意味はあります。

MUX/DEMUXがトランシーバーに内蔵されている100G LR4/CWDM4などでは送信パワーの測定はMUXの手前であるため、位置整合が悪いとDDMの値より低い値が実際の出力である事があります。受信側も同様でDEMUXの後で測定していますのでコネクター部での入力値より低い観測値である事があります。

そのため、送信側の値はあまり活用されていません。送信側は、フィードバック制御されているBIAS電流を観測するケースが多いです。BIAS電流の上昇はLDの劣化を予見するという発表もされています。

OCPUS18 – Failure Prediction Mechanism for Pluggable Optical Interconnect at Facebook Data Centers

http://www.wavesplitter.jp/index.php/191/facebook

受信側を継続モニターしてもLDの故障時は突然落ちるので予見には使えない場合が多いと思われます。

DDMの値の所得に関する機器側の実装

多くにイーサネットスイッチでは"show"系のコマンドでDDMの値が表示されます。一部の機種では送信パワーは表示されないものもあります。独自MIBによる値所得をサポートしているベンダーもありますが標準MIBは定義されていません。バッチでCLIを実行してスクリプトにより値を所得している運用が見受けられます。

OCP summitでは様々な光トランシーバーの管理APIが提案されています。

https://github.com/opencomputeproject/oom

ホワイトボックス系のスイッチなら石田 渉さんがやっているやつを。

 

言い訳

お昼のリハーサルでは問題なく動いたlogicoolのプレセンターによるスライドの一部拡大機構が動作せず、図示できないままに説明する事により時間配分等も狂ってしまいました。その前の日曜日に富士スピードウェイで走ったレースでもスタート前にパンクが発覚して出足から狂ったと言うのに。

どうも外部ディスプレイを接続した後に、パワーポイントをプレゼンテーション表示に切り替えるとnote PCの画面が説明文や前後のスライドが表示される発表者モードになり、logicoolのプレゼンターによる拡大表示もこちらに対して機能します。HDMI出力の画面には全く影響を与えない。

HDMI接続をする前にプレゼンテーションモードにしてからHDMI接続をするとミラー出力になり、プレゼンターの正常に機能するようです。何回か前のJANOGで某西野がはまったのを横で笑っていた罰でしょう。


コメント欄を読み込み中