GitHub Availability Report: February 2024

GitHubアベイラビリティレポート:2024年2月

Image of Ishikawa Setsuna

2月、GitHubのサービス全体でパフォーマンスが低下する2つのインシデントが発生しました。

2月26日 18:34 UTC (53分間継続)
2月29日 09:32 UTC (142分間継続)

2月26日と2月29日、バックグラウンドジョブサービスに関連する2つのインシデントが発生し、GitHubサービスに処理遅延が発生しました。2月26日のインシデントは63分間、2月28日のインシデントは142分間続きました。

2月26日のインシデントは、ジョブキューイングサービスの容量制限と自動フェイルオーバーシステムの障害に関連していました。Webhooks や GitHub Actions、UI の更新に遅延が発生しました(プルリクエストの UI 更新の遅延など)。私たちは手動でセカンダリクラスタにフェイルオーバーすることで、このインシデントを緩和しました。この過程でデータが失われることはありませんでした。

2月29日のインシデントでは、Webhooks、GitHub Actions、GitHub Issuesの各サービスにも処理遅延が発生し、UTC 11:05~11:27の22分間に95%の遅延が発生しました。9:32 UTCに自動化されたフェイルオーバーがトラフィックのルーティングに成功しましたが、10:32 UTCにプライマリへの不適切なリストアが行われたため、11:21 UTCに修正が行われ、11:27 UTCに完全なリストアが行われるまで、健全なサービスがバックログを消化し始めるまで、キューに入れられたジョブが大幅に増加しました。

短期的なインシデントの再発を防ぐため、この2つのインシデントに基づいて、自動化の改善、フォールバック・プロセスの信頼性向上、バックグラウンド・ジョブ・キューイング・サービスの容量拡大という3つの分野で、大幅な改善を行いました。長期的には、ジョブ処理プラットフォームの全体的なスケーラビリティと信頼性を向上させるため、より重要な取り組みがすでに進行中です。


ステータスの変化やインシデント発生後の総括に関するリアルタイムの最新情報については、私たちのステータス・ページをフォローしてください。私たちが取り組んでいることについてもっと知りたい方は、GitHubエンジニアリングブログをご覧ください。

The post GitHub Availability Report: February 2024 appeared first on GitHub Blog.