失敗はきちんと分析して次に繋げましょう。

qiita.com

年末の恒例になってますが、毎度楽しませてもらっています。やらかしちゃったご本人からすると楽しまれても困りますよっていうお言葉を返されそうですが、失敗を起こした経緯から再発防止策の検討、その後の運用など非常に勉強になるコンテンツとして学ばせてもらっています。

自分の多過ぎるオペミス物語として特に印象深く残っているものは、windowsサーバに配置されていたバッチファイルを編集しようと思ってクリック(実行)してしまったことです。シンプルですねと突っ込みされそうですが本番環境にあるサーバでしかも平日お昼の絶対に止まってはいけないサーバ室でやかしてしまい、ケツバットでは済まないのは自分でも瞬時に理解しました。それでも当時の自分を褒めてやりたいのは、OSシャットダウンが開始してから起こったことやオペレーションしたことの時系列をメモしていたこと、OS停止状態からOSの起動、サービスとして起動していたアプリケーションの正常性確認を行うなど焦らずに対処出来ていたことです。最短距離で復旧出来たのはやらかした最中でも比較的良い対応だったのではと思います。

その後、報告書を作成する中で再発防止策の検討ということになります。技術的に言えばadministratorアカウントは使わずに運用のアカウントを作る、サービス実行ユーザ(アプリケーション、運用ジョブ、監視など)の権限を整理するといったことを提案、オペレーションについてはワンオペ禁止、手順書レビューをきちんとやる、手順書以外の操作を行わないなど基本的なことを提案することになりました。派遣先での出来事でしたのでその後の落とし込みなどはいろいろあったのですが、自分のオペミスそのものに文句を言われたり指摘されるようなことはありませんでした。きちんとリカバリー出来ていたことについて、それなりの評価をいただいた記憶があります。

この手の話はやらかしちゃった本人だけに責任を負わせるような組織体質だったりするとかなりヤバいですね。そんなブラックな会社、今時あるのだろうかと思ってはいるのですが時代錯誤の会社ってまだまだありそうな気もしています。そんな会社はさっさと辞めることをおすすめします。

やらかしちゃったのであれば、当事者をと確認者、管理者側の方々も一緒にオペミスの分析をするような組織体質は必要です。様々な知見を集めて再発防止に繋げる、対策も技術的にできるものと人為的なものがあると思いますし、オペミスの共有によってその後の運用での危険予知に役立つこともあります。オペミスは大きなマイナスポイントでもありますが、きちんと向き合えばプラスポイントに割り振ることは可能だと思っています。皆さんもやらかしちゃった暁には、恐れずに向き合ってまいりましょう。