Сейчас, когда недавние кошмары уже почти оставили меня, допивая пол-литру горькой травяной настойки и предвкушая неделю заслуженных отгулов (при условии, что всё будет работать), я предаюсь размышлениям об эволюции админа/инженера, бренности существования такового и вероятной грядущей смене профессии. Воспоминания уносят меня в прошлое.
Мы строили сетки на псевдосвитчах и ходили с гордо поднятой головой — ведь это не «кокс» и даже не «хабы», а настоящая, качественно сделанная сеть на восьмижильной витой паре! Чуть позже мы додумались ставить эти коробочки на бесперебойники, чтобы защититься от капризов электриков — ведь это непрерывность и доступность сервисов. Наконец, нас допустили к «цискам» и прочим управляемым свитчам — вот это были контроль и надёжность!
Мы поняли: линки должны резервироваться, а свитчи должны быть модульными, с дублированием основных элементов — отказоустойчивость за счёт внутренней избыточности. Всё ключевое оборудование должно дублироваться по схеме N+1 с возможностью автоматического горячего переключения без участия оператора, соединяться по двум или более независимым каналам, каждый из которых обладает достаточными характеристиками, а на складе должен существовать запас оборудования на случай срочной замены. Данные ключевых сервисов ЦОД должны резервно копироваться на географически удалённый носитель.
Может, мне всего лишь нужно почистить карму (хотя в моих руках до сих пор оживает оборудование, которое просто отказывалось работать раньше), но есть что-то неуловимо неправильное в том, что:
— За полгода у нас сгорело два высоконадёжных энтерпрайз-коммутатора с MTBF ~27 лет.
— Система, в которой каждый сервис представлен кластером, построенная на железе с полным аппаратным резервированием N+N и софте от лидера отрасли (я не про MS) разваливается в среднем раз в три дня.
— Хранилка, которую в нашей конфигурации убить теоретически невозможно, молча уходит на покой.
— Холодильная машина, которая на самом деле состоит из двух в одном корпусе, в каждой из которых всё дублировано дважды, выключается по неправдоподобной ошибке так, что системы предотвращения катастроф не успевают отработать, а в машзале взрывается АГПТ, чуть не став причиной моей гибели.
А может быть, чем ближе мы к идеалу, чем выше прокачиваем свои профессиональные навыки, тем сильнее механизм, который отвечает за то, чтобы жизнь оставалась интересной, поднимает сложность и непредсказуемость неисправностей в ущерб реализму. Может, всё? Прокачался? Может, пора менять профессию? Или искать-таки возможность предотвратить невозможное?