Авторизация, база данных и чат сервера — война продолжается!

Команда CCP всегда ищет способы, с помощью которых мы можем увеличить наши возможности, чтобы такие масштабным событиям, как недавний бой в UALX-3, проходили более плавно и без перерывов.

Мы всегда выбирали более сложный путь, когда речь заходила о разработке виртуальных миров, фокусируя внимание на одиночных системах, открытых мирах, где действия имеют последствия и выбор одного может повлиять на всю игровую среду и влиять на сотни тысяч игроков.

New Eden — это цифровой холст, написанный пятнадцатью годами невероятных историй, в том числе исторические битвы в 6VDT-H, M-OEE8, B-R5RB, Asakai, Nisuwa и многие другие системы, которые стали известны за огромные сражения и массовые военные действия.

Каждый раз, когда возникает битва такой величины, мы собираем данные, которые помогают нам в внесении изменений, которые позволяют нам повысить производительность. Эти данные также позволяют нам сделать осознанный выбор в отношении модернизации оборудования, например, тех, которые были выполнены, когда мы заменили всю инфраструктуру кластера Tranquility обновлением до Tranquility Tech III.

Тем не менее, несмотря на обновления, с начала 2018 года мы столкнулись с несколькими проблемами, которые повлияли на производительность Tranquility, причем не только в масштабных мероприятиях, но и в других областях.

График решение запросов

Первые проблемы начались в ноябре-декабре 2017 года с небольших проблем связанных с базой данных, изначально вызвавшими незначительное увеличение времени ежедневного простоя. Это привело к серии трех существенных сбоев кластера в конце февраля и марте, в преддверии мартовского релиза. Во время этого первоначального набора вопросов мы рассмотрели различные резолюции, которые в конечном итоге не разрешили основную проблему.

Когда мы подошли к дате развертывания обновления в марте 2018 года, который включал выпуск нового бэкэнда чата, мы снова столкнулись с проблемами базы данных 20 марта, непосредственно в день развертывания релиза.

Это подчеркнуло совершенно отдельную проблему с чат-системой, поскольку пилоты пытались войти на сервер для входа в систему, тем самым подавляя(DDoS-я) новый облачный чат-кластер запросами на соединение, при попытки пере подключиться к игре. Эти события также выделили несколько других проблем, которые были быстро решены, а также проблему масштабируемости, с которой мы столкнулись.

Стабильность проблемы продолжала оставаться в течение апреля, что усугублялось еще несколькими проблемами с базой данных, которые приводили к массовым отключениям и повторным подключением пилотов, добавляя дополнительную нагрузку на чат-кластер.

Чтобы еще больше усложнить ситуацию, Tranquility стала целью серии DDoS-атак между Fanfest 2018 и выпуском EVE Online: Into The Abyss, которые добавили дополнительный удар по системе.

Эти атаки наряду с проблемами конфигурации нашей службы отражения DDoS атак, которая не учитывала кластер чата, который теперь размещается за пределами инфраструктуры Tranquility, означало, что наша служба отражения DDoS атак, вызвало проблемы с подключением к чату.

К счастью, с обновлением сервера баз данных до SQL 2017, которое мы провели в мае, помогло решить проблемы с базой данных, за которые мы переживали. Тем не менее проблемы с чатом сохраняются, в настоящее время являются основным направлением для команды разработки, работающей над новой системой.

Непосредственные проблемы с производительностью были в основном решены в день развертывания, а последующие проблемы с подключением, которые были выделены во время DDoS-атак, были так же решены в этот период. В то время как значительное количество вопросов было закрыто, все еще сохраняются проблемы с несогласованностью каналов, которые в настоящее время разрабатываются.

Дополнительный уровень сложности был добавлен с началом отдельных проблем с серверами входа. Эти проблемы усилились после выпуска Into The Abyss и добавили еще больше внимания к чат-системе.

Проблемы с серверами, на которых размещена наша система единого входа, а также служба, которая предоставляет маркеры входа в панель запуска, привели к тому, что пилоты видели онлайн Tranquility, но не могли подключиться из-за того, что система запуска не получала правильную информацию от наших серверов входа.

В целом, ряд вопросов в разных областях нашей инфраструктуры, управляемых различными командами специалистов, совпал, и создал идеальный шторм, который мы все еще в настоящее время пытаемся преодолеть в момент выпуска этой записи в блоге.

До сих пор это лето было одним из самых загруженных за последние несколько лет, и проблемы, которые продолжаются, создали более интенсивную нагрузку, чем мы ожидали на Tranquility.

С добавлением новых систем Abyssal Deadspace, наряду с несколькими крупными боями и постоянными потребностями игроков в сборе ресурсов, которые тратят час за часом, добывая сырье, компоненты и чертежи, чтобы подпитывать мировую военную машину. Это лето стало более активным, чем мы ожидали.

Итак, каков план?

Мы хотим продолжать предоставлять инструменты для ведения конфликтов библейских масштабов.

Мы также хотим удостовериться, что у нас по-прежнему есть место для роста, чтобы приспособиться к более крупным сражениям и более ожесточенным боям.

Независимо от уровня активности, который произошел в течение лета, мы знаем, что воздействие этих проблем на настроения со стороны сообщества было серьезным.

Мы работаем с несколькими ракурсами, чтобы знать, что производительность и надежность Tranquility улучшится сразу и быстро вернутся к уровню, который ожидают и заслуживают наши пилоты.

Проблемы с базой данных:

Обновление до SQL 2017 разрешило проблемы, с которыми мы столкнулись в базе данных EVE Online, однако мы в настоящее время отслеживаем производительность и рассматриваем пути дальнейшего повышения надежности и оперативности.

Уменьшение DDoS:

Мы работали с нашим провайдером по защите от DDoS, чтобы убедиться, что, когда мы станем объектом атаки, наша инфраструктура правильно будет обрабатывать процесс очистки трафика и что наши службы не пострадают. Несколько изменений конфигурации были сделаны в тесном сотрудничестве с нашим партнером, чтобы убедиться, что эти проблемы не повторяются.

Проблемы с системой чата:

Продолжается работа по улучшению подключения к чат-кластеру и устранению проблем, которые вызывают у игроков потерю связи. У нас было две команды, посвященные изучению этих проблем в течение мая и июня, а третья теперь изучает более затяжные проблемы несоответствия в связности и канале.

Проблемы с обслуживанием входа в систему:

В CCP была сформирована целевая группа по инженерной надежности, чтобы рассмотреть проблемы как с сервисом входа в систему, так и с чат-кластером. Их внимание будет сосредоточено на повышении надежности и сокращении числа проблем, которые испытывают наши пилоты.

Добавление дополнительного оборудования:

В то время как больше аппаратных средств не всегда является правильным решением, добавление большего количества узлов SOL (серверных blade-серверов, которые обрабатывают солнечные системы в EVE) к Tranquility, дает нам больше накладных расходов, чтобы распределить нагрузку на большее количество аппаратного обеспечения.

Это дает кластеру больше пространства для дыхания в целом и повышает производительность. Хотя оно не решает проблему загрузки одного узла во время крупномасштабного взаимодействия, он позволяет нам назначать другие системы в другое место и давать этим боям немного больше мощности и небольшые передышки.

Обычно у нас есть дополнительное FLEX шасси в режиме ожидания, необходимое чтобы поменять местами оборудование, которое находится в эксплуатации, если нам нужно выполнить техническое обслуживание. Из-за высокой нагрузки на кластер, сейчас мы поместили это шасси и все его узлы в рабочую ротацию, чтобы дать больше мощности для размещения систем турниров Alliance, а также больше распространения для нагрузки, которая ведет к более высокой активности, чем обычно.

Покупка оборудования:

В дополнение к добавлению существующих серверов, которые мы обычно использовали для замены ПО, мы также говорили с нашими партнерами по оборудованию, и в настоящее время мы ожидаем поставки следующего нового оборудования:

  • 4x SOL Узлы с 2x процессорами Intel Xeon Gold 5122 4C 105W 3.6GHz.
  • 1x SOL Узел с процессором Intel Xeon Gold 6134 8C 130W 3.2GHz для сравнения.

Они будут добавлены в кластер, чтобы проверить их производительность и посмотреть, как они справляются с таким количеством космических кораблей, оттуда мы будем лучше информированы о следующих шагах.

Что мы будем делать дальше?

После длительного простоя в марте из-за проблем с развертыванием нового чата и последующих проблем мы выпустили подарок в виде СП для всех тех пилотов, которые были активны во время мартовского релиза вместе с публикацией этого блог.

Пилоты найдут подарок, на счет каждого персонажа, которые считались активными 20 марта 2018 года, подарок в 250 000 очков умения.

(Для справки мы определяем «активные» учетные записи, которые входили в игру в период 30 дней до указанной даты.)

В то время как война в Новом-Эдеме бушует для наших пилотов, для нас война продолжается здесь, в CCP.

Мы знаем, что это нескончаемый бой, но, несмотря на это, мы всегда стремимся к достижению и преданности капсулеров по всему миру.

Мы хотим, чтобы сообщество осознало, что мы полностью понимаем опасения по поводу надежности и производительности и как можно скорее будем решать эти проблемы.

Наши капсулеры заслуживают лучшего. Мы пытаемся оправдать ваши ожидания, чтобы быть уверенными, что производительность и надежность вернутся к ожидаемому уровню и продолжат улучшаться.

Наше сообщество — это все для нас. Мы не были подготовлены к такому увеличению активности, и мы подвели наших пилотов.

Мы искренне извиняемся за это.