Интервью с инсайдером МегаФона – причины сбоя, настроения в компании и другое

Привет.

После сбоев 19 мая и 13 июня мне было интересно узнать, что именно происходит внутри МегаФона, причем не услышать официальную, выверенную позицию, просеянную через сито PR-отдела и юристов, а узнать вести с полей. Нашлось несколько инженеров, что смогли рассказать о происходившем и причинах этих событий, их взгляд на историю интересен, так как впервые дает технические детали и убирает те упрощения, что были в обсуждениях этих аварий до того. По понятным причинам назвать имена этих людей я не могу, они рискуют слишком многим, чтобы не быть анонимными. Мы же получаем уникальную возможность заглянуть внутрь компании и узнать технические подробности происходящего. В итоге я взял для этого материала один из записанных разговоров, убрал лишнее и попытался дать выжимку из полуторачасовой записи.

Э.М. Привет. Первый вопрос – почему ты согласился рассказать подноготную происходившего в МегаФоне? Информация не публичная, и наверняка твои слова наделают переполоха внутри компании, тебя будут искать.

И.М. (Инженер МегаФона) Привет. Не знаю, мне кажется это правильным на фоне той ереси, что обсуждается вокруг, особенно в сети со всевозможными анонимными текстами. Читаю Mobile-Review давно, не всегда и со всем согласен, но посчитал, что могу рассказать о произошедшем подробно, чтобы дать другую точку зрения. Мои коллеги связаны различными условностями и не могут этого сделать публично.

Э.М. Хорошо, давай начнем с самого простого – 19 мая был сбой, когда в Москве и области, Центральном регионе не работала голосовая связь, у многих не было интернета. В МегаФоне назвали причину сбоя, это оборудование от HP, но не вдавались в подробности о том, что конкретно отказало и почему.

И.М. 99% обсуждений этой проблемы говорили о сбое HLR и том, что мы выбрали серверы HP, а они не очень качественные для телекома. Такие комментарии от неизвестных людей смешат, потому что в моем мире нет некачественных серверов, есть сервера, что соответствуют заявленным характеристикам, и есть те, что не соответствуют. Вторые либо имеют брак и моментально заменяются, либо просто не могут попасть в дата-центр любой компании, МегаФон тут не исключение, а скорее правило. Например, в AT&T стоят сервера HP, никаких проблем с ними нет, это ровно такие же железки, как у других производителей. Наш мир стал плоским, люди слышат имя или марку, у них рождается ассоциация, и понеслась душа по кочкам.

Э.М. То есть сбоя в оборудовании HP не было?

И.М. Конечно, был, но это не сбой серверов HP. Представить оператора как некое подобие компьютера очень заманчиво, но у нас уже уровень сложности выше. По сравнению с тем, что было десять лет назад, мы перешли на принципиально другой уровень. Чтобы объяснить, как работает наша система, можно посмотреть, как была устроена наша сеть в прошлом или как работает тот же МТС сегодня. Иллюстрация в виде МТС хороша тем, что там используется классическая компоновка систем, есть финансирование и все строится правильно, но скучно.

Вот смотри, Россия – большая страна, в которой есть множество «островков», кто-то делит страну по городам и регионам, кто-то по оборудованию, которое стоит в этих регионах. В МТС в Москве используют инфраструктуру от Nokia, на Северном Кавказе - Huawei, на юге России – Ericsson. Это в прямом смысле зоопарк решений и технологий, которые необходимо между собой совмещать, и эта проблема рано или поздно встает перед любым оператором. Тот же МТС в этом плане очень похож на Билайн, там используется такой же зоопарк. Но это не создает проблемы, если принять идеологическое решение о том, как устроена твоя сеть. Как в учебнике по истории Средних веков, феодалы и раздробленные земли, что формально имеют сюзерена, а реально живут по своей программе и повестке дня. Ровно так и живут операторы в России, у них нет единой системы для управления своими абонентами, связи биллинга и сети. В других странах проблематика очень схожа, и первые робкие шаги в направлении унификации делают только сейчас.

В выигрышном положении те, кто использует только решения одного поставщика, но для оператора такая зависимость пагубна. В какой-то момент, если вы складываете все яйца в одну корзину, вам начинают выкручивать руки. Если предположить, что кто-то совершит прорыв в технологическом оборудовании, вы будете привязаны к вашему поставщику навечно. Поэтому в России и многих других странах операторы сталкивают лбами поставщиков, торгуются и получают наилучшие условия. Но проблема в том, что с точки зрения моей работы это создает тот самый зоопарк решений и искать проблемы на сети становится не так просто, равно как и повышается вероятность сбоев. Это хорошо видно на сети Билайн, где большая часть сбоев связана с зоопарком решений и низкой управляемостью. Наверху нарисовали красивую картинку, что вся сеть работает, как единое целое, но ничего подобного на практике не существует. Это всего лишь картинка.

У нас наблюдается период феодализма, когда существует разное оборудование, оно слабо управляется из единого центра или вовсе не управляется, и всегда есть человек на местах, кто может что-то сделать. У каждого оператора отличается вопрос укрупнения региона, на каком уровне вы управляете сетью.

То, что я рассказываю, общеизвестно на рынке, но, попытавшись объяснить это своим домочадцам, я натолкнулся на непонимание, в голове обычного человека оператор устроен, как компьютер, он либо работает, либо нет. Но это неправильная аналогия. Нет такого компьютера, где содержатся все данные о сети и абонентах, который позволял бы ими управлять из одного места. В качестве доказательства достаточно вспомнить, что вы до сих пор не можете уехать жить в другой регион и перенести свой номер за собой, у вас будет роуминг вне домашнего региона. Один и тот же оператор не позволяет это сделать! Почему? Ответ очевиден, это та самая феодализация сотовых сетей, нет единого «компьютера», который всем управляет из одного центра.

Э.М. Прости, что перебиваю, но кажется, что ты льешь много воды, чтобы не рассказывать про сбой оборудования HP, все сказанное интересно, но не совсем по теме.

И.М. Напротив, нам нужно танцевать от печки, чтобы понять, о чем мы говорим. Иначе получится как до того, когда все говорят вроде об одном и том же, а на деле никакого смысла в этих словах нет. Итак, продолжаем. Еще в 2012 году у нас задумались о том, как оператор должен эволюционировать, чтобы качественно обслуживать своих абонентов. Ведь с каждым днем сервисов становится все больше, а значит, нужна некая система для управления, и при этом она должна быть создана на годы вперед. Ты знаешь, мы в хорошем смысле этого слова «повернуты» на качестве связи. Люди часто жалуются на конкретные проблемы, они есть у всех, а любой связист скажет, что проблемы – это часть работы. Если бы проблем не существовало, то я и тысячи других инженеров остались бы без работы как таковой.

В 2012 году наш менеджмент стал искать решение, как перейти от феодального строя к единой системе, где будут не островки отдельных решений, а тот самый единый «компьютер», из которого все управляется. Таких решений в мире на тот момент не было совсем, никто ничего нам предложить не мог. Фактически мы были первопроходцами на неизведанной территории и понимали, что мы хотим получить на выходе, но не знали, как это можно реализовать. У нас было гетерогенное оборудование, неоднородная среда в разных регионах, и частью работы стало привести все это к общему знаменателю, что и было быстро сделано. Но самым интересным направлением стало связывание разных дата-центров, ЦОДов в единую сеть, в которой также есть специальные комплексы по управлению сетью, у нас их называют ЕЦУС.

Это следующая ступенька в развитии любого оператора, мы вбираем под единое управление всю разнообразную технику, вне зависимости от того, что за производители ее поставили. Это сложнейший комплекс, реализация которого позволяет не только избавиться от региональной привязки SIM-карт, но и реализовывать на сети услуги, которые при прошлой идеологии были физически невозможны. Поиски компании, которая сможет реализовать частично такой проект, привели нас к HP, что в итоге вылилось в запуск системы в 2013 году. Это не просто какой-то набор серверов, это базы данных, которые дублируются в шести дата-центрах. То есть, система максимально распределена как географически, так и по разным узлам внутри одной площадки. В теории это позволяет оператору управлять любыми услугами для конкретного абонента из каждого из этих шести центров. У других операторов обычно один такой центр и один, ну, максимум два запасных, у нас избыточное резервирование, и это отражение той самой повернутости на безопасности и работе сети.

Э.М. Так что получается, не работает система резервирования, которую создавал HP?

И.М. Твой вопрос – это очевидное упрощение, это не просто система резервирования данных, это не back up в обычном понимании этого слова. Это система, которая должна на лету, в режиме реального времени обрабатывать и синхронизировать все базы данных во всех точках страны. Но мы с первых дней столкнулись с тем, что нагрузки в этой системе оказались выше рассчитываемых, а со стороны HP решения вопроса, которое бы нас удовлетворило, не было. Три года у нас ушло на то, чтобы шаг за шагом менять эту систему, переписывать софт и экспериментировать на живой сети, целью было сделать то, что мы изначально задумали. К сожалению, эта цель оказалась труднодостижимой, и я не хочу спекулировать на тему того, кто виноват в этой ситуации. Задачи такого масштаба невозможно решить моментально, просто нет примеров для подражания. Каждая сеть оператора уникальна по тем решениям, что используются. Добавим сюда биллинг, самые разные сервисные платформы, и все станет еще сложнее.

Э.М. Так не бывает, всегда есть тот, кто должен за все отвечать и кто виноват в тех или иных решениях. Что за благостная картина мира, в которой все дружат и все работает? Сбой был серьезным, первым сбоем такого масштаба в МегаФоне. Так?

И.М. Конечно, так. Поверь, что когда случается такого масштаба сбой, выводы делают на всех уровнях, в том числе у нас полностью меняются приоритеты, техническая служба начинает работать в экстренном режиме, не просто отслеживая все параметры сети в моменте, а рассматривая то, как развивается ситуация. Это другой уровень вовлеченности. Сбой системы от HP произошел в UDR, это домашний регистр, мостик между биллингом и сетью. Внутри UDR у нас живет сразу вся информация, это как 2G, 3G, 4G сети, так и IMS подсистема, аналогов этой системы в России нет ни у кого, да и в мире их можно пересчитать по пальцам одной руки. Нам как оператору это позволяет комфортно управлять тарифами и планами, запускать одновременно услуги в разных регионах. Для абонента это не так важно, как то, чтобы у него была связь, его технические моменты не должны волновать, и у нас так всегда и было, более того, так и будет в будущем.

Сбой связан с повышенной нагрузкой на UDR, она нарастала лавинообразно и была связана с ошибками в программном обеспечении, мы не могли их оперативно отследить и устранить. Ситуация неординарная, и она решалась как в наших центрах управления сетью, мы задействовали все возможные резервы, так и в HP Enterprise, там сформировали рабочую группу, чтобы максимально быстро разрешить эту проблему. Но найти решение моментально было невозможно, мы на уровне организации оказались слабо подготовленными к масштабному отказу целой системы. Выводы из этого сделаны, и теперь вся технологическая цепочка будет выглядеть иначе, более того, появится страховка от таких сбоев. Семь часов сбоя 19 мая – это хорошая прививка от подобных ситуаций в будущем.

Э.М. Постой, но был же и второй сбой, пусть не такой масштабный, который вы ликвидировали быстрее, но он случился по тому же сценарию.

И.М. Позволь привести аналогию с землетрясением. После основного удара всегда есть повторные толчки, они уже слабее. У нас произошло ровно то же самое, система за прошедшее время не могла быть заменена на что-то другое, мы спешно нарастили резервы, попросили других партнеров максимально помочь в этом. Но отказаться от системы мы не могли, поэтому подготовились к тому, что повторение ситуаций возможно и нам необходимо уметь с ними справляться. Для технарей сейчас задача номер один – в максимально короткие сроки перекроить систему так, чтобы возможные отказы не сказывались на абонентах, а они этого не видели. Это нормальный подход, и так всегда было. Люди не знают, что оборудование отказывает, и это является нормой, до них эта ситуация просто не доходит, они продолжают пользоваться услугами и не замечают проблем. А вот для инженеров отказы – это норма жизни, это то, с чем мы работаем постоянно.

Э.М. То есть отказы будут продолжаться?

И.М. Скорее нет, чем да. Повторение ситуации 19 мая, на мой взгляд, невозможно, хотя загадывать не хочу, еще накликаю беду. Можно говорить, что в худших сценариях будет происходить не отказ в обслуживании, а деградация тех или иных сервисов и услуг, для большинства абонентов это происходит незаметно, и они не обращают на это внимания.

Э.М. Объясни, что такое деградация сервисов?

И.М. Можно, вначале скажу про сбой 13 июня, чтобы проиллюстрировать, что он был не таким значительным, как это раздули в СМИ? Во-первых, он длился всего около 2 часов. Во-вторых, он затронул не больше 1.8 млн наших абонентов в нескольких городах, основной отказ шел в Москве, там это было 1.3 млн абонентов. В это число входят как те, кто звонил в это время, так и те, кто не знал про сбой, таковых примерно половина от условно пострадавших. То есть, многие люди просто не знали, что был сбой. А вот деградация голосовых сервисов затронула большее число абонентов, люди зачастую не могли позвонить, потенциально проблема касалась 4 млн абонентов. А вот статистика о том, насколько упало число голосовых вызовов по сравнению с таким же днем неделей раньше: 45% в Москве, в Центральном регионе на 28%, в других регионах на 15%. Это два часа деградации сервисов, когда звонки не проходили сразу, то есть число успешных дозвонов сократилось.

Э.М. Статистика лукава, людям не объяснить этого, если они попали в число тех, у кого связи не было.

И.М. Все верно, это так. Тем не менее, мы отработали 13 июня намного лучше, чем могли бы. То, что сбой произошел, неправильно, но для нас это было ожидаемым в той или иной мере, и мы ликвидировали проблему быстро, повторения 19 мая не было. Хотя и тогда техническая служба работала отлично и действовала по регламенту. Например, я могу рассказать, как выглядело поминутно происходившее (примечание, в итоге вы видите табличку, чтобы не пересказывать все технические подробности).

Время (МСК) Подразделение Событие
11:08 ЕЦУС-ОТУ-OC Выявлена деградация вызовов (Setup Failures) в СтФ и ЦФ по Traffica Views более 10%.
11:09 ЕЦУС-ОТУ-OC Выявлена авария на UDR СтФ от FE и BE о переполнении очередей и других проблемах
11:10 ЕЦУС-ОТУ-OC Открыт инцидент по возникшей деградации
11:12 ЕЦУС-ОТУ-OC Открыт инцидент по аварийным сообщениям на UDR, производится переключение на резервный UDR в ПФ
11:19 ЕЦУС-ИТ-СП Поступает информация о просадке трафика по услуге ВАТС
11:23 ЕЦУС-ИТ-СП Выявлена деградация сервисов Мегалабс: Мультифон (B2B, B2C, STMB), ВАТС, МАТС, 8-800, Мобильное информирование, Мобильная коммерция, Радар, Навигатор, Контроль Кадров. УК повышен до А3

Э.М. Тебе ситуация не напоминает горе от ума? Вы создавали сложную систему, и потом она дала такой масштабный сбой. Может, стоит от нее отказаться?

И.М. Больше всего я боюсь, что акционеры в какой-то момент решат, что мы пошли неправильным путем, и из-за этого сбоя откажутся от развития этого направления. Пока нет никаких признаков, что это может произойти, но на всякий случай постучу по дереву. Проблема в той самой феодальной раздробленности, все операторы должны будут решать эти вопросы, мы не исключение. Но у нас уже большой опыт в решении этого вопроса, те же МТС, Билайн, Теле2 должны будут пройти по нашему пути, что, возможно, позволит им не набить шишек, но это означает усложнение их систем. Доказательством этого является то, что за моими товарищами, строившими и развивающими эту систему, развернута настоящая охота, их готовы оторвать с руками и ногами наши коллеги, им нужен их опыт. Весь рынок движется в сторону, куда мы отправились в 2013 году, и это путешествие еще не окончено.

Э.М. Ты видел интервью вашего операционного директора в «Коммерсанте»?

И.М. Да, видел.

Интервью можно найти вот тут.

Э.М. Что думаешь о сказанном?

И.М. Все правильно, хотя многое она не стала раскрывать по каким-то причинам. Но, видимо, интервью было больше про планы, а не про сбой на сети. Для менеджера уровня Серебрениковой сказано даже слишком много, говорить ровно так же неанонимно я себе позволить не могу. С другой стороны, все причины и следствия описаны верно, но это некоторое упрощение ситуации для массовой аудитории. Для специалиста интервью не отвечает на вопросы, что произошло.

Э.М. А ты можешь сказать для специалистов, что произошло?

И.М. Да, конечно. Причина аварии в переполнении подмножества SSD-устройств, поддерживающих записи абонентов в московских диапазонах IMSI. Потенциал файловых разделов превысили за счет включения системного флага, который добавлял подписчиков в DIT. Произошло резкое увеличение нагрузки на подмножество периферийных устройств. Так понятно? Думаю, что это для многих людей звучит как абракадабра, а я попытался объяснить, чем мы тут занимаемся ежедневно и почему это важно.

Э.М. Как думаешь, абоненты побегут из МегаФона к другим операторам?

И.М. Я технарь, к маркетингу отношения не имею. Но не думаю, что это произойдет, сеть как была, так и остается по объективным параметрам лучшей в стране, инвестиции не сокращаются, и мы первыми выкатываем новые решения. Пусть звучит слишком бравурно, но это реальность для нашей компании. Мы привыкли быть первыми в технологиях, это одна из причин, почему я работаю здесь, мне интересно быть на переднем плане технологий. Скажу даже больше – сейчас я даже рад, что эти сбои случились. Благодаря им, мы должны стать самым надежным оператором страны, а может, и всей галактики (смеется). Поверь, денег на это сейчас жалеть никто не будет.

P.S. Этот материал необычен, поэтому прошу не судить строго. Это взгляд на ситуацию изнутри МегаФона, в котором нет драмы и трагедии, что несколько противоречит многим публикациям в СМИ за последние недели. Наверное, на этом в истории можно ставить точку.

От себя же добавлю, МегаФон настолько ушел в отрыв, что его сбои для большинства мировых операторов – это сбои из будущего. Уверен, что за ними внимательно следят все просто потому, что рано или поздно и МТС, и Билайн столкнутся с необходимостью заводить все свое хозяйство под единый зонтик. Без этого внедрение 5G с его миллионами новых абонентов-датчиков и потоками информации, в сотни раз превышающими то, что есть сейчас, просто невозможно.

Эльдар Муртазин ([email protected])

Опубликовано — 26 июня 2017 г.

Поделиться

Мы в социальных сетях:

Новости:

13.05.2021 MediaTek представила предфлагманский чипсет Dimensity 900 5G

13.05.2021 Cайты, имеющие 500 тысяч пользователей из России, должны будут открыть местные филиалы

13.05.2021 Amazon представила обновления своих умных дисплеев Echo Show 8 и Echo Show 5

13.05.2021 МТС ввел удобный тариф без абонентской платы - «МТС Нон-стоп»

13.05.2021 Zenfone 8 Flip – вариант Galaxy A80 от ASUS

13.05.2021 Поставки мониторов в этом году достигнут 150 млн

13.05.2021 Состоялся анонс модной версии «умных» часов Samsung Galaxy Watch3 TOUS

13.05.2021 Tele2 выходит на Яндекс.Маркет

13.05.2021 OPPO представила чехол для смартфона, позволяющий управлять устройствами умного дома

13.05.2021 TWS-наушники с активным шумоподавлением Xiaomi FlipBuds Pro

13.05.2021 В России до конца следующего года появится госстандарт для искусственного интеллекта

13.05.2021 ASUS Zenfone 8 – компактный флагман на Snapdragon 888

12.05.2021 Компания Genesis представила внешность своего первого универсала G70 Shooting Brake

12.05.2021 В России разработан высокоточный гироскоп для беспилотников

12.05.2021 В Россию привезли новую версию смарт-часов HUAWEI WATCH FIT, Elegant Edition

12.05.2021 Раскрыты ключевые особенности смартфона POCO M3 Pro 5G

12.05.2021 Honor 50: стали известны дизайн и другие подробности о смартфоне

12.05.2021 Чипсет Exynos 2200 от Samsung будет устанавливаться и в смартфоны, и в ноутбуки

12.05.2021 МТС начала подключать многоквартирные дома к интернету вещей

12.05.2021 iPhone 13 будет толще и получит более крупные камеры по сравнению с iPhone 12

12.05.2021 Xiaomi договорилась с властями США об исключении из чёрного списка

12.05.2021 Xiaomi выпустила обновлённую версию умного пульта Agara Cube T1 Pro

Hit

12.05.2021 Игровые ноутбуки с NVIDIA GeForce RTX 3050 Ti уже в России!

12.05.2021 Индийский завод Foxconn сократил производство в два раза

12.05.2021 Lenovo отказалась от очного участия в предстоящем в июне Mobile World Congress

Подписка
 
© Mobile-review.com, 2002-2021. All rights reserved.