Blog Brocade Japan

Meetup: 94%のインシデント対応を自動化する方法: Facebook、Neptune.io、そして自動修復

by dzimine on ‎05-17-2017 01:35 PM - last edited on ‎05-17-2017 07:28 PM by aokuhara (1,068 Views)

--- StackStorm Blog 翻訳記事「Meetup: How to automate 94% incident responses: Facebook, Neptune.io, autoremediation」 Dmitri Zimine ---

 

先日、自動修復とイベントドリブンの自動化に関するすばらしいMeetupセッションが開催されました。今回の開催場所は、サンフランシスコのMake Schoolです。新たなスポンサであるNeptune.ioに感謝いたします。サウスベイからのドライブで大きな収穫を得ることができました。

 

event-driven-automation-3.png

 

Facebook Infrastructure Orchestrationチームから、FBARが紹介されました。しかし、今回はこれまで何度も紹介されてきたFBARの話ではありません。新しい、改良されたFBARを含む、System Lifecycle Automationの話題を取り上げます。FBの関係者はこれを公開していません。ビデオもなければ、スライドの投稿もありません。じかに体験してください。体験するだけの価値があります。

 

FBARには2つのタイプの修復があります。1つはSREチームによって構築され、すぐに利用できるもので、もう1つはアプリケーションの所有者が構築するものです。どのような結果になったでしょうか?

94%のアラームが人間の介入なしでクリアされます。

 

fbar_stats-1024x664.jpg

 

自動修復の効果は、この数から見ても一目瞭然です。「FBのスケールにおいては、2%の手作業でさえ重労働です」とGabriel dos Santos氏は語っています。

 

James Mills氏は、自動復旧のインパクトを抑える設定、「自動化の暴走」の回避、ジョブの優先順位付け、ホストの大量のバッチ処理の自動化などの詳細な話題を取り上げました。FBが「大量」と言う場合、次のような意味があります。

 

  • 1ヶ月当たり何億もの個別のジョブ
  • 1ヶ月当たり何千年分にも相当するランタイム
  • 1秒当たり数百もの要求

次に、Neptune.ioの創設者であるKiran Gollu氏は自動化された診断と修復の必要性とビジネス価値を強調し、かなり多くの運用では、自動化は"if"(仮定)ではなく、"when"(条件)であると述べました。診断と修復の自動化が必要になるのは、単にインシデント応答チームの時間と成熟度の問題です。

 

現在、インシデントのMTTR95%が依然として手動です。

 

次のような共感の声が聞かれます。以前はFB生産技術者で、現在はUberのSREであるRick Boone氏は、「FBではFBARを使用していましたが、今ではUberでも同様のものが必要です」と述べています。それなら、StackStormがぴったりでしょう。

 

素晴らしいデモがないとつまらないかもしれませんが、わたしたちはNeptune.ioのライブ・ビデオを楽しみました。Neptune.ioはホストされた自動修復ソリューションで、セットアップが非常に簡単です。また、使いやすいイベント統合UIとなじみのある自動修復の概念が採用されています。StackStormとNeptune.ioは技術的には競合していますが、自動修復への情熱は共通しています。

 

Neptune.ioのソリューションのある面は非常に優れており、Neptuneの成長と成功を心から願っています。

 

kiran_demo-1024x620.jpg

 

もちろん、Meetupの醍醐味は同じ目的を持つ仲間との出会いです。わたしたちはたったの670人の小さなグループに過ぎませんが、経験豊富なDevOps実践者とソート・リーダーで構成されており、運用の自動化に対する知識と情熱を持っています。互いのストーリーを聞き、見方を学び、課題となる問題を提示して、答えを探すといった有意義な時間をすごしました。

 

何よりも、イベント相関、業界でのライブのイベント処理のステート、FBAR、StackStorm、Neptune.ioに依然としてこの機能が欠けている技術的な理由を話し合い、問題の解決方法に関する意見を交換しました。まさに専用ブログにふさわしいトピックです。

 

刺激になる話題を用意しており、次回のセッションの話し手を招待する予定です。あなたのストーリーはどのようなものですか? シェアしたいですか? トピックを提案してください。それには、自動修復のMeetupのページに進み、大きな赤い「Suggest a Meetup」ボタンを押してください。

 

slack_discussion.png

 

現在、stackstorm community slackで同じトピックが扱われています。

 

また、イベントドリブンの自動化に関する継続的な会話(CC)を希望される場合は、StackStorm Slackチャンネル(stackstorm.com/community-signup)に登録してください。

それでは次回まで。

 

DZ。