логин:        пароль:    
 курс на 19/12/2022: 200 кр. за 1 екр. (+0.00%)
Текущий бонус опыта: нет бонуса, бонус благородства: нет бонуса
 
 
Обозрение текущих технических рабочих процессов | 24/11/11 13:25 
[center]Имеется на данный момент:[/center] 1) Большое количество мощных серверов - всё оборудование являлось лучшим в своём классе на момент покупки в 2007 году. По факту на момент приобретения серверов требовалось минимум 8 жестких дисков, максимум процессоров и максимум возможной памяти. На тот момент единственная модель в мире, которая удовлетворяла данным требованиям, была Tyan VX50. 2) Центральное хранилище - отказоустойчивый кластер. Это пара серверов, данные на которых зеркалируются в реальном времени. В случае отказа любого из этих серверов данные доступны автоматически. [center]Проблемы:[/center] 1) По мере работы серверов городов выяснилось, что самым слабым звеном является материнская плата этих серверов, которая чем дальше, тем чаще выходила из строя. Но альтернативы этим серверам на тот момент просто не было, не существовало в мире других моделей. В любой структуре крупного проекта как combats всегда, так или иначе, присутствует какое-либо хранилище данных. В данном случае каждые 15 минут данные по игрокам складываются на центральное хранилище. Кроме того, раз в день делаются резервные копии на центральное хранилище с данными по всем игрокам с каждого города за весь день. В случае сбоя любого из серверов/городов, происходит следующее: а) Поднимается резервный сервер, подключается на место дефектного б) Сервер контактирует с центральным хранилищем, и т.к. была резкая остановка (сбой), то многие файлы оказываются битыми. Как результат - происходит автоматическое возвращение данных с центрального хранилища. 2) В центральном хранилище используется система Lustre, она прекрасно работала больше года, но по мере увеличения данных начались проблемы. Связаны они, как это выяснилось, с версией 1.8.5. Как результат, 3 дня назад было принято решение апгрейда до версии 2.1. Чтобы иметь возможность возврата назад, если что-то пойдет не так, было принято решение отключить 2 сервер кластера, и сделать апгрейд первого сервера. Решили подождать сутки-двое, посмотреть на стабильность центрального хранилища и если всё ОК, то апгрейдить и 2 сервер кластера. Это было сделано 2 дня назад. Проблема в том, что именно на 2 сервере кластера (пассивном) находился скрипт ночного резервирования данных, и поскольку 2 сервер был отключен, ночное резервирование данных не было сделано за последние 2 дня. Когда город Abandoned Plains израсходовал все ресурсы (полностью израсходована память и своп), сервер потерял контакт с центральным хранилищем и открытые файлы на этом хранилище оказались битыми. Именно в этот момент и выяснилось, что бэкапы именно этого города имеются только 2-дневной давности... Игроки это заметили как откат 2-дневной давности, и нам (тех. команде) ничего не остается кроме как принести свои извинения. Это человеческая ошибка, бесспорно, и уже приняты меры чтобы не зависеть больше от отключения одного из серверов кластера и подобная ситуация не повторилась. Вылезло это только сейчас, поскольку центральное хранилище работало как часы несколько лет без единого аппаратного сбоя, и сервера не перегружались и не отключались. [center]Теперь по планам на будущее и работах, которые ведутся в настоящий момент:[/center] 1) Идет глобальное обновление оборудования - все эти сервера с нестабильными материнскими платами меняются на новые мощнейшие сервера (Как пример каждый из серверов имеет по 4 х 12ядерных процессоров AMD, 128GB RAM, самые быстрые диски которые существуют для данного класса) 2) После апгрейда центрального кластера до версии 2.1 Lustre должны исчезнуть аппаратные сбои и потеря центрального хранилища на городах. 3) Снята зависимость цепной реакции (в случае аппаратного сбоя одного из городов это моментально сказывалось на остальных городах) 4) Весь проект переходит на центральное отказоустойчивое хранилище с внедрением виртуализации - это даст преимущества на случай если все-таки даже на новом железе произойдет какой-либо сбой, можно будет поднять город в течение секунд на соседнем сервере, данный процесс будет полностью автоматизирован. 5) Будет включена глобальная система балансировки нагрузки - в зависимости от того где именно меньше нагрузка (сервера в виртуальной структуре) город может плавно переехать на тот сервер, делается это в течение 10-15 секунд без какой-либо остановки или недоступности. 6) Внедрение де-централизованной системы хранения данных. В случае сбоя одного из серверов все данные будут доступны на всех городах. 7) За счет виртуализации и перехода на мощное новое оборудование уменьшится нагрузка на города, что в свою очередь даст возможность уйти от периодически возникающих "Bad Gateway" или "Internal Server Error". Также за счет де-централизованной системы хранилища данных исчезнет зависимость от центрального хранилища. Когда все планы по миграции и модернизации будут внедрены в жизнь (в планах закончить это всё до лета 2012 года, т.к. каждый из элементов требует тестирования и аккуратного внедрения - оно занимает время), Combats будет значительно более шустрым и отказоустойчивым. Все лаги и технические ошибки, которые имеют место быть сейчас, должны исчезнуть.
Поделиться новостью
Всего комментариев: 51 Страниц: 3
 << начало  << предыдущие 1 2 3  
Невидимка [26.11.2011 00:48]
> Intel проигрывает по производительности в данном >конкретном случае, а под архитектуру Sparc пришлось бы >переписывать весь проект. Дело не в деньгах. С чего бы вдруг переписывать, gcc отлично компилит и под спарком, асм вставок много? )) Перл и под него скомпилить можно )

Невидимка [26.11.2011 00:55]
> Intel проигрывает по производительности в данном конкретном случае Расскажите, а как это вы так посчитали что АМД проигрывает в этом случае Интэл? )) Замеряли колличество кэш-попаданий в кэше первого-второго уровня? )) По всем характеристикам (кэш первого уровня, внутренняя шина, механизм угадывания инструкций на конвеере итд) Интэл лучше. Просто интересно стало как это вы посчитали ))
[26.11.11 01:13] Естественно на счётах, деревянных.

Невидимка [26.11.2011 01:15]
> Естественно на счётах, деревянных. Тогда понятно )) Норм железо )) Осталось только код хороший писать )

Невидимка [26.11.2011 01:18]
> Слишком сырая и медленная. Как-то странно что она может быть медленной, учітывая то, что она использует самобалансировочные Black Red Trees. То что сырая, возможно, но она активно развивается.

Невидимка [26.11.2011 01:21]
Вроде как BTRFS и ценится за скорость.
[26.11.11 01:32] Медленная в плане девелопмента, использовать файловую систему, где можно потерять данные?Уверены?

  [26.11.2011 04:04]
ПРОСТО кошмар! Я на столько далёк ) что не понял половины слов)Но приятно , что ведеться такая работа) Пока я ругаюсь в чате, жду жору, копаю пещеры) НАпадаю напами) хожу в излом) СПАСИБО и УДАЧИ

Невидимка [26.11.2011 11:58]
> Медленная в плане девелопмента, использовать файловую систему, где можно потерять данные?Уверены? Ну, скажем так. а) Действительно, утилиты checkdisk для неё нет. Но напісать её не проблема. Многие так и делают. б) Мне казалось что в наше время существуют бесперебойники для таких дел. в) Медленная что именно? Разработка ФС, или ПО на ней? Перлу то пофиг, у вас интерфейсы работы с ФС не меняются. Какая вообще разница для разработчика какая ФС? Вы же не пишете свой драйвер прямого чтения.
[27.11.11 04:32] Пошли в скролл.

  [27.11.2011 23:14]
лучше бы уворотов усилили ... ))

  [16.02.2012 22:43]
Чуть не прослезился)) Впервые админия обратилась к игрокам, да еще и с такими подробностями, да еще и извинившись и с расписанным планом действий))) ужасно приятно

  [09.05.2012 17:53]
Читал все это на НГ, вроде в скролле Повелителя Земли. Думал уже вот вот и лагов не будет, а тут решили опять анонсировать)))

  [23.12.2020 18:39]
Куку

Всего комментариев: 51 Страниц: 3
 << начало  << предыдущие 1 2 3  
Комментирование закрыто для гостей и пользователей с нулевым уровнем
 
 © 2010–2024 «combats.com»