|
24/11/11 13:25
|
|
|
[center]Имеется на данный момент:[/center] 1) Большое количество мощных серверов - всё оборудование являлось лучшим в своём классе на момент покупки в 2007 году. По факту на момент приобретения серверов требовалось минимум 8 жестких дисков, максимум процессоров и максимум возможной памяти. На тот момент единственная модель в мире, которая удовлетворяла данным требованиям, была Tyan VX50. 2) Центральное хранилище - отказоустойчивый кластер. Это пара серверов, данные на которых зеркалируются в реальном времени. В случае отказа любого из этих серверов данные доступны автоматически. [center]Проблемы:[/center] 1) По мере работы серверов городов выяснилось, что самым слабым звеном является материнская плата этих серверов, которая чем дальше, тем чаще выходила из строя. Но альтернативы этим серверам на тот момент просто не было, не существовало в мире других моделей. В любой структуре крупного проекта как combats всегда, так или иначе, присутствует какое-либо хранилище данных. В данном случае каждые 15 минут данные по игрокам складываются на центральное хранилище. Кроме того, раз в день делаются резервные копии на центральное хранилище с данными по всем игрокам с каждого города за весь день. В случае сбоя любого из серверов/городов, происходит следующее: а) Поднимается резервный сервер, подключается на место дефектного б) Сервер контактирует с центральным хранилищем, и т.к. была резкая остановка (сбой), то многие файлы оказываются битыми. Как результат - происходит автоматическое возвращение данных с центрального хранилища. 2) В центральном хранилище используется система Lustre, она прекрасно работала больше года, но по мере увеличения данных начались проблемы. Связаны они, как это выяснилось, с версией 1.8.5. Как результат, 3 дня назад было принято решение апгрейда до версии 2.1. Чтобы иметь возможность возврата назад, если что-то пойдет не так, было принято решение отключить 2 сервер кластера, и сделать апгрейд первого сервера. Решили подождать сутки-двое, посмотреть на стабильность центрального хранилища и если всё ОК, то апгрейдить и 2 сервер кластера. Это было сделано 2 дня назад. Проблема в том, что именно на 2 сервере кластера (пассивном) находился скрипт ночного резервирования данных, и поскольку 2 сервер был отключен, ночное резервирование данных не было сделано за последние 2 дня. Когда город Abandoned Plains израсходовал все ресурсы (полностью израсходована память и своп), сервер потерял контакт с центральным хранилищем и открытые файлы на этом хранилище оказались битыми. Именно в этот момент и выяснилось, что бэкапы именно этого города имеются только 2-дневной давности... Игроки это заметили как откат 2-дневной давности, и нам (тех. команде) ничего не остается кроме как принести свои извинения. Это человеческая ошибка, бесспорно, и уже приняты меры чтобы не зависеть больше от отключения одного из серверов кластера и подобная ситуация не повторилась. Вылезло это только сейчас, поскольку центральное хранилище работало как часы несколько лет без единого аппаратного сбоя, и сервера не перегружались и не отключались. [center]Теперь по планам на будущее и работах, которые ведутся в настоящий момент:[/center] 1) Идет глобальное обновление оборудования - все эти сервера с нестабильными материнскими платами меняются на новые мощнейшие сервера (Как пример каждый из серверов имеет по 4 х 12ядерных процессоров AMD, 128GB RAM, самые быстрые диски которые существуют для данного класса) 2) После апгрейда центрального кластера до версии 2.1 Lustre должны исчезнуть аппаратные сбои и потеря центрального хранилища на городах. 3) Снята зависимость цепной реакции (в случае аппаратного сбоя одного из городов это моментально сказывалось на остальных городах) 4) Весь проект переходит на центральное отказоустойчивое хранилище с внедрением виртуализации - это даст преимущества на случай если все-таки даже на новом железе произойдет какой-либо сбой, можно будет поднять город в течение секунд на соседнем сервере, данный процесс будет полностью автоматизирован. 5) Будет включена глобальная система балансировки нагрузки - в зависимости от того где именно меньше нагрузка (сервера в виртуальной структуре) город может плавно переехать на тот сервер, делается это в течение 10-15 секунд без какой-либо остановки или недоступности. 6) Внедрение де-централизованной системы хранения данных. В случае сбоя одного из серверов все данные будут доступны на всех городах. 7) За счет виртуализации и перехода на мощное новое оборудование уменьшится нагрузка на города, что в свою очередь даст возможность уйти от периодически возникающих "Bad Gateway" или "Internal Server Error". Также за счет де-централизованной системы хранилища данных исчезнет зависимость от центрального хранилища. Когда все планы по миграции и модернизации будут внедрены в жизнь (в планах закончить это всё до лета 2012 года, т.к. каждый из элементов требует тестирования и аккуратного внедрения - оно занимает время), Combats будет значительно более шустрым и отказоустойчивым. Все лаги и технические ошибки, которые имеют место быть сейчас, должны исчезнуть.
|
|
|
|
|
|
архивариус [8] [24.11.11 14:59] Детально обсуждать не могу, вопросы конфиденциальности и безопасности.
Что логично... в бщем думаю что дизайн решения тоже не дураки разрабатывали. Желаю удачного переезда
|
|
|
master seven [10]  |
[24.11.2011 15:43] |
|
в последнее время из за откатов у многих пропали вещи и кр. будет ли возмещение?
|
|
|
skick [10]  |
[24.11.2011 16:33] |
|
[i]Приятно когда вводят в курс. Всегда бы так. Спасибо.
[/i]
+ 1
|
|
|
Tmb Wolf [7]  |
[24.11.2011 16:35] |
|
Спасибо за разъяснения!
|
|
|
FLASHka [10]  |
[24.11.2011 20:40] |
|
и?
|
|
|
Power_Off [9]  |
[24.11.2011 21:30] |
|
1. 4 х 12ядерных процессоров AMD, 128GB RAM - почему не интел ?
2. Люстра 2.1 - чем не устроил NTFS
3. И на кой вам упал Linux в таком деле - вы мазахисты-пианисты-альтуисты-ананисты !
Вы из одного гГг перелазиете в другое ГгГ.
4. Windows - отдайте вы эту несщасную 1 тыс рублей и начните работать с нормальной системой. Бросайте это всенародное творчество.
Новость просто убила.
|
|
|
Peredok [9]  |
[24.11.2011 21:35] |
|
Спасибо за инфу. Удачи и поменьше головняка с железом!!
|
|
|
Oregon [10]  |
[24.11.2011 22:18] |
|
do leta 2012....(((
pridetsa zhdat'....
|
|
|
Рифмодел [9]  |
[24.11.2011 23:16] |
|
Ох как бы все делалось как написано, но будем надеяться, что в данном случае все именно так и случиться.
Если можно о сроках завершения этих манипуляций?
Заранее спасибо.
|
|
|
Morry-lost [9]  |
[24.11.2011 23:22] |
|
крик отчаяния? раньше админы не делились этим
|
|
|
Невидимка |
[25.11.2011 02:00] |
|
Сильно удивило что AMD, а не Intel или SPARC :)
Денег пожалели? )
архивариус [8]  [25.11.11 14:16] Intel проигрывает по производительности в данном конкретном случае, а под архитектуру Sparc пришлось бы переписывать весь проект. Дело не в деньгах.
|
|
|
Невидимка |
[25.11.2011 02:50] |
|
Правильно, что АМД взяли.. Интелу только пылесосы делать, по цене шатла.
Интересна информация по поводу жестких дисков какие устанавливают, марку не упоминули :)
|
|
|
Невидимка |
[25.11.2011 03:03] |
|
> Правильно, что АМД взяли..
Ага, тока стоит он дешевле и ширпотреб штампует, до недавнего времени они выпускали процессоры с возможностью перепрошивки микрокоманд незакрытой ))
С украденой и тупо реализованой технологией у интела )
Отстой одним словом )
|
|
|
Невидимка |
[25.11.2011 03:51] |
|
BTRFS не помешала бы с такими объёмами данных. И перекомпилить мервера с включенной оптимизацией для типа процессора. Gentoo Linux наше всё в этом деле.
архивариус [8]  [26.11.11 01:15] Слишком сырая и медленная. Кроме того: As of November 2011, the planned filesystem check program has not been implemented. This means that it is currently possible to corrupt a btrfs filesystem and lose all files if your machine crashes or loses power on disks that don't handle flush requests correctly.
|
|
|
VIVA-Nex [9]  |
[25.11.2011 09:09] |
|
Звучит как предвыборная агитация))))
|
|
|
|
кстати да, выбор АМД меня несколько удивил ))))
|
|
|
Комментирование закрыто
|
|