Единый центр управления сетью Мегафон — что это и как он работает

Привет.

В Мегафон отмечают 30-летие компании, что начала свой путь в Санкт-Петербурге. Порядка тридцати журналистов разных изданий отправились в Петербург, чтобы пообщаться с командой Мегафон, а заодно посетить два объекта — стадион Газпром Арена на Крестовском острове, а также единый центр управления сетью Мегафон. Так вышло, что был на обоих объектах неоднократно, у нас были даже статьи об этом. Но интересно посмотреть в динамике на то, что происходит, оценить, как меняется оборудование и с какими проблемами сталкивается оператор. Давайте начнем наше путешествие с ЕЦУС, аббревиатура хорошо знакома энергетикам, у которых также есть единые центры управления сетью. Интересно, что на Газпром Арене также есть свой ЕЦУС, но последнее слово обозначает стадион.

У Мегафона два центра управления сетью, они дублируют свои функции, один находится на 16-ой линии Васильевского острова в Петербурге, второй — в Самаре. Многократное резервирование всех систем, от связи до энергетики. В летнее время проводят тренировки, когда управляемо передают управление Самаре, имитируют аварию первого уровня, когда отказывает большинство систем. Важно быстро передать ключевые функции в Самару, чтобы второй центр подхватил их.

Несколько рядов с креслами идут амфитеатром вниз, на стене огромный 19-метровый экран, на нем выводится статус различных систем — от дата-центров до биллинга или роуминга. Стена не нужна операторам, они отвечают за свои системы и подсистемы, видят все на своих мониторах. Стена, скорее, помощник для главного оперативного дежурного, которого сокращенно называют ГОД, что созвучно с английским словом «бог». Местный юмор, что показывает положение оперативного дежурного в табели о рангах, он как капитан, что отвечает за корабль в конкретный момент времени.

По центру нас ведет его директор — Влас Тарасов (опечатки нет, именно Влас). Короткий рассказ о центре, объяснение того, что тут происходит. Мне же интересно попытаться рассказать о том, что изменилось за десять лет его существования. На рабочих столах вижу все те же мониторы HP, кажется, что они вечные.

Говорят, что техника профессиональная и почти не выходит из строя, мониторами довольны. А вот замена профессиональных гарнитур Jabra/Plantronics на каких-то китайцев, марку которых не назвали, вызывает жалобы. Работают хуже, чаще выходят из строя. Но стоят дешевле. Если у вас возник вопрос, а зачем нужны гарнитуры, то ответ простой — инженеры осуществляют поддержку партнеров, в том числе B2B-клиентов компании.

Нас просят не фотографировать никакие цифры на стене, все это коммерческая тайна. Но рассматривать и задавать вопросы, пожалуйста. Утыкаюсь взглядом в большой блок с роумингом, где указываются голосовые звонки, процент неудачных соединений. Чем больше прямоугольник на экране, тем большее число звонков между Россией и этой страной. Меня удивляет вовсе не Голландия (там много сотрудников Яндекс и корпоративных клиентов, что не считают деньги на звонки), а то, что сравнимый объем занимает роуминг с Украиной. Выглядит сенсацией, учитывая, что звонки на российские номера украинские операторы публично закрыли и вроде как связи нет. Статистика доказывает ровно обратное, звонки идут и их много. Отличная иллюстрация тезиса, что для другой стороны тут ничего личного, только бизнес и возможность заработать деньги на таких звонках. Большие прямоугольники у Казахстана, Киргизстана, Китая, Швеции. Последняя страна для меня удивительна, не думал, что у нас такой активный роуминг.

На стене схематично нарисована сеть Мегафон, стыки с другими операторами, узлы обмена трафиком в Европе. Огромная карта, что показывает работу сети, и, когда осознаешь расстояния нашей страны, то, конечно, все это поражает.

В ЕЦУС стекается различная информация со всей страны, тут аккумулируют все данные от оборудования, во многом могут предсказать, когда возникает нестандартное поведение и службе эксплуатации нужно обратить внимание на конкретные элементы базовых станций или другого оборудования. Все в ЕЦУС крутится вокруг цифр, их потоки заполняют системы, чтобы затем вылиться на карту в графиках и цифрах. Любое отклонение от нормы тут же показывается на карте, например, в Магаданской области сбоит такая услуга как VoLTE, она влияет на качество звонков и их доступность. На карте зеленый цвет меняется на желтый, доступность 94.5%. Формально это авария пятого уровня, самая незначительная из возможных. На деле идет плановая замена оборудования и через двадцать минут карта вновь зеленая, нет никаких отклонений от нормы.

В центре принята классификация аварий по пяти уровням инцидентов, в день обрабатывается до нескольких тысяч инцидентов, большинство из которых относятся к пятому уровню. И тут помогает резервирование сети, всего оборудования. Хорошо это видно по списку коммутаторов, что разбросаны по разным регионам. Где-то названия остались обычными, где-то видно, что это замена (SWAP). Мелкие инциденты не требуют моментальной реакции, их устранение может занимать до 12 часов. Для инцидентов масштабных, первой или второй категории, скорость исправления меньше, до двух часов. Аварий такого рода практически не случается, если не считать перерубленного кабеля каким-нибудь трактористом где-то посреди бескрайних российских полей. От такого никто не застрахован.

Сезонность поломок присутствует, также как и изменение параметров работы сети в зависимости от времени года и… хочется написать настроения, но нет, погоды. Идет дождь и радиосигнал распространяется иначе, также как летом, когда деревья покрываются зеленью. Стихийным бедствием для всех операторов становится тополиный пух, он никак не влияет на радиосигнал, но забивает климат-системы, вентиляторы и нужно чаще их обслуживать, отправлять бригады техников, чтобы они все чистили от пуха. Жарким летом климат важен как никогда и это повышенный износ оборудования. Зимой напротив нужно согревать оборудование, особенно в местах, где температуры падают ниже 25 градусов и держатся на этом уровне долго. Большие событие в ЕЦУС видно, оборудование, размещенное по всей стране, играет роль большой сети датчиков — видно напряжение, температуру и другие параметры.

Мучаю Власа вопросами о том, можно ли предсказывать задолго до сбоев то, как они будут происходить, есть ли какая-то модель, что учитывает разные параметры. Из ответов понимаю, что пока такой модели не существует, причем это осознанный выбор, когда контролируют ключевые системы инженеры, что тонко их чувствуют. Не по наитию, а именно понимая, что и как работает.

Для меня стало открытием то, что в ЕЦУС даже отслеживают платежные шлюзы, пополнение денег со стороны клиентов. Тут несомненный лидер — Сбер, он идет с огромным отрывом. Прохождение платежей — это косвенный параметр, что показывает насколько быстро и качественно работает система.

Другой любопытный параметр — это запросы к приложению Мегафон. Меня интересует, что с 8 утра до 18 часов это наибольшее число обращений, затем оно спадает до минимума примерно к 2-3 часам ночи и начинает постепенно отрастать к утру. Это информация со всей страны, из разных часовых поясов, но понятно, что Москва, Питер и центральный регион, дают основной вклад.

Придумываю замысловатые вопросы, например, есть ли какие-то изменения на сети, когда появляются новые продукты, например, добавляют тарифные планы, где больше трафика. Ответ звучит просто — нет, ничего такого не происходит. Все изменения постепенные, не бывает пробросов. Но сторонние сервисы хорошо видно в аналитике оператора, меня подводят к графику, где показывается загрузка Telegram, то, как пользуются этим мессенджером на сети Мегафон. График выглядит как череда пиков и ущелий. Каждый пик — это появление сообщений в каналах, то, что люди начинают читать. Провал, отсутствие новой информации. Выглядит как подарок для тех, кто любит копаться в цифрах и изучать разные аспекты работы сторонних сервисов. Наглядно.

Рассказывать про разные параметры не вижу смысла, все равно они не интересны широкой публике. К слову сказать, все параметры сети Yota, также контролируют в ЕЦУС, что логично.

В выходные за рабочими столами минимум людей, нет той суеты, что наблюдается в обычные дни. Планирование работ на объектах, активное взаимодействие с другими службами, все это замирает на выходных, создается ощущение определенной пустоты. Но это обманчивое впечатление, примерно, как если вы посетите центр ночью. В реальности тут достаточно бойко идет работа с разными системами.

Сеть мобильного оператора безо всяких сомнений — это критическая инфраструктура и если кто-то попытается ее вывести из строя, то нам всем будет, ой, как несладко. Задаю откровенно провокационный вопрос: «А что будет, если по какому-то стечению обстоятельств из строя выйдет оба центра управления сетью? Есть ли планы на этот случай?»

Вопрос откровенно гадский, не хотел бы быть на месте отвечающего. Ответ мне нравится: “Надеемся, что до такого никогда не дойдет, но каждый инженер знает, что делать в таком случае. У нас есть запасные рабочие места в разных офисах, доступ к системам и четкие инструкции, что нужно делать. Каждый знает, как действовать”.

Успокаивает то, что ответ не выглядит наигранным, попытались предусмотреть разные ситуации, понимают плюсы и минусы централизации управления сетью (в России не все операторы делают подобное, а центр от Мегафон действительно выглядит как космический корабль, его строили в лучшие годы индустрии и с большим размахом, тут есть чем гордиться).

Для меня любопытно то, что за эти годы центр мало изменился, не появилось чего-то нового, никаких кричащих технологий. Но нет и чувства тлена, когда на твоих глазах все стареет, расползается и становится нерабочим. Похоже, что этот механизм не просто используется ежедневно, 24 на 7. Все выглядит как рабочий инструмент, за которым ухаживают и который доказал свою полезность.

Жаль, что нельзя фотографировать стену и мониторы сотрудников, там много любопытного. Но это тайна, как коммерческая, так, подозреваю, не только она, и соблюдать режим секретности нужно, так как подобные экскурсии на такие объекты вовсе не обыденность, для компании это всегда определенные риски.

Постарался немного передать дух этого места, надеюсь, что мне это удалось. Завтра поговорю про то, как устроена связь на Газпром Арене, там много интересных решений, пусть они и созданы в 2016 году и кажутся устаревшими, хотя таковыми вовсе не являются. Пионерские решения того времени, что продолжают работать и сегодня.

Источник

Добавить комментарий

Этот сайт использует Akismet для борьбы со спамом. Узнайте, как обрабатываются ваши данные комментариев.