【在校生保護者の皆様へ】ロイロノート ・スクールのアクセス改善について
ロイロノート・スクール
調査状況と改善の見通しについて
4月13日(月)より午前中の数時間サーバー接続への遅延が発生しており、
大変ご迷惑をおかけしております。
安定したサービスをご提供できず大変申し訳ございません。
現在の調査状況と改善の見通しをご報告させていただきます。
大きな原因としては2つあります。
急激なアクセス数の増大と利用方法がこれまでと大きく変わったことです。
原因1:急激なアクセス数の増大
これまでの最大のアクセス数は、今年2月の6千7百万回/日でした。
それが4月13日に入り、2億7千万回/日と4倍以上のアクセスに増大しています。
4月に入り新規に利用し始める学校が増えていることもありますが、
コロナウイルスによる休校継続によって既存導入校での利用方法が
大きく変化したことが大きな原因だと分析しています。
原因2:利用方法の大きな変化
特定の時間帯に負荷が集中する
毎日8:30、9:45、10:00、10:45、11:00、12:00ごろにピークがきます。
日々の健康観察や起床確認、宿題の提出などが、
これらの時刻に設定されていることが多いのではないかと推測しています。
切りのいい時刻は全国でタイミングが合いやすいため、
可能であれば提出する時間をこれらの時間を避けるなどして
負荷の分散にご協力いただけると大変助かります。
学校からでなく家庭から使われるようになった
これまで学校一括で導入されたiPadやChromebookなどで利用されることが多かったのが、スマートフォンや自宅の共用パソコンなどさまざまな環境で利用されるようになりました。
利用されるプラットフォームが多岐にわたるようになったのも問題を特定するのに時間がかかっている要因の1つです。
問題が長引いている原因
問題が長引いてしまい大変申し訳ございません。
ロイロノート・スクールのサーバーシステムは、
負荷に応じてサーバーの数が自動的に増え、
アクセスが増えても分散されて耐えられるような作りになっています。
現在も日中は200台程度のサーバーが動いています。
しかしながら、データが集まるデータベースは複数台に分散するのが難しいため、
サーバー自体のスペックをあげる形で負荷に対応しています。
実際にデータベースが4月13日からのアクセス数に対して耐えられない状況でしたので、
データベースサーバーのスペックアップを行いました。
現在はAWS(Amazon Web Services)で利用できる最高スペック(96vCPU)のものを利用しております。しかし、その後も問題が発生し続けていました。
問題が起きる直前まではCPU負荷が10%前後とだいぶ余裕があるのですが、
前述のアクセスが集中するタイミングで突如CPUへの負荷が上がり、
すべての通信が遅延するという問題が発生しています。
この問題の究明に時間がかかっておりましたが、分析を続けて原因が見えてきました。
改善の見通し
4月29日(水)にようやくデータベースの負荷が突然上がる原因が見えてきたため、
その対策を5月1日(金)の深夜 0:00~1:00のメンテナンスで適用しました。
しかし、まだアプリケーション側にもこの問題が起きやすいコードがあることも判明しているため、引き続き対策を講じております。
5月1日の午前中は前述の問題は発生せず安定しておりました。
一歩一歩ですが、解決に近づいております。
再発防止対策
すでにAPM(アプリケーションパフォーマンス管理)の本格的な導入を行っています。
またアクセスログの監視を強化し、
利用方法の変化やそれに伴う負荷などにも迅速に対応できる体制を整えていきます。
現在のサーバーの稼働状況は下記からご確認いただけます。
https://status.loilonote.app/ja
現在、サーバー過負荷を抑える為に一時的に機能制限を行っております。
森村学園初等部では「送る」にカードが送られた時の赤バッチがつかないよう、制限されております。
引き続き、安定したサービスご提供できるよう全力で努めてまいります。
株式会社LoiLo
森村学園初等部