$ cat post.md
Какие серверные проблемы я раньше считал редкими, пока не начал ловить их регулярно
О скучных, но повторяющихся сбоях, которые не выглядят страшными на старте, зато стабильно отнимают время в эксплуатации.
Когда смотришь на инфраструктуру со стороны, кажется, что основные инциденты должны быть драматичными. Падение базы, сломанный диск, огромная утечка памяти. На практике куда чаще мешают вещи скучнее: закончившееся место, забытый сертификат, разросшиеся логи, контейнер, который формально жив, но уже давно не приносит пользы.
Именно такие проблемы раздражают сильнее всего, потому что кажутся “слишком мелкими”, чтобы о них думать заранее. Но если не думать, они начинают возвращаться как плохая привычка.
Сейчас я намного спокойнее отношусь к продакшену именно потому, что перестал считать такие вещи случайностью. Они не случайные. Это нормальная часть эксплуатации.
Что теперь всегда в поле зрения
- Диск и рост логов.
- Сроки действия сертификатов.
- Поведение контейнеров после рестарта.
- Свободная память и swap.