サーバー障害と今後の対応

8sMQwJs7_400x400.jpgofer2
2020/10/20 04:07
皆さん、こんにちは。このたびのことにつきましては大変申し訳ございませんでした。本件を調査しており、再発防止に努めているところです。そのため、いま現在は高負荷の予想される状況に備えてサーバースケールを手動で増減させているところです。例えばこれはファーストサタデーといったイベントで行われています。そうは言うものの、プレイヤーの皆さんは相手陣営を驚愕させるのみならず、私たちへこうしたことの実現を達成したのだと示したいとお考えでしょう。そのため、今後に向けてこうしたことに対する幾つかの緩和策を検討しているところです。

  1. 週末期にはサーバー機能を常時拡張させておきます。
  2. ルーティング・サーバーの処理を最適化することで、多くのトラフィック処理が実現できるようにします。
  3. 可能であれば、サーバーの機能増減が自動的に行われるようにします。
  4. 計算負荷の高いコンポーネントは分離させ、リンク形成が原因で全てのゲーム機能が停止してしまわないようにします。

こうした選択肢を検討し、どれが迅速に開発へ取り組むことができ、どれが複雑で実装に時間を要するかを確認したいと思います。最後に、これはむしろ私個人の責となりますが、アラート通知設定に問題がありました。今回は午前01時18分に発生していたものの、電話通知が適切に組まれていなかったため、起きることができませんでした。大変申し訳ございません。通知を再設定したうえで3度検証し、問題発生時には適切に通知で目覚めることができるようにしました。今回は私が目覚めるより前に問題対応に本来は携わらないはずの他のスタッフが修正してくれましたが、そういった経緯で対応に遅れが生じてしまったのです。

ofer2
2020/10/20 04:07(Forum)
Server is laggy again
Hi everyone, I'm really sorry about this event. We have been looking into the incident and are looking into some ways to make sure that this doesnt happen again. For context, we currently manually scale up / down servers for when we expect there to be periods of high usage. E.g. we typically do this for first saturday. That being said, we do want to make sure that players can not only surprise the other faction, but also us in being able to do things like this. So, we are looking at a few different possible mitigations for this in the future: 1. always scaling up servers on the weekend, 2. optimizing the routing servers to be able to handle more traffic overall, 3. potentially make it so that the servers automatically scale up and down, and lastly 4. separate out the computationally expensive components to make sure that links/linking doesnt bring down the game for everyone else. We will be looking into these options and trying to see what we can incorporate into development quickly and which may be left for later because they're more complicated to implement. Lastly, this one was my fault in particular, I had an issue with alert notifications. The event occurred at 1:18 AM our time and the notification on my phone was incorrectly configured and so it did not wake me up. I'm really sorry about this. I have reconfigured the notification and tested it three times to make sure that it actually notifies me properly to wake me up if an event does occur. Other people who werent supposed to be the ones to handle issues woke up before me and fixed it, but that is why there was such a delay.