логин:        пароль:    
 курс на 19/12/2022: 200 кр. за 1 екр. (+0.00%)
Текущий бонус опыта: +500%, бонус благородства: +100%
 
 
Обозрение текущих технических рабочих процессов | 24/11/11 13:25 
[center]Имеется на данный момент:[/center] 1) Большое количество мощных серверов - всё оборудование являлось лучшим в своём классе на момент покупки в 2007 году. По факту на момент приобретения серверов требовалось минимум 8 жестких дисков, максимум процессоров и максимум возможной памяти. На тот момент единственная модель в мире, которая удовлетворяла данным требованиям, была Tyan VX50. 2) Центральное хранилище - отказоустойчивый кластер. Это пара серверов, данные на которых зеркалируются в реальном времени. В случае отказа любого из этих серверов данные доступны автоматически. [center]Проблемы:[/center] 1) По мере работы серверов городов выяснилось, что самым слабым звеном является материнская плата этих серверов, которая чем дальше, тем чаще выходила из строя. Но альтернативы этим серверам на тот момент просто не было, не существовало в мире других моделей. В любой структуре крупного проекта как combats всегда, так или иначе, присутствует какое-либо хранилище данных. В данном случае каждые 15 минут данные по игрокам складываются на центральное хранилище. Кроме того, раз в день делаются резервные копии на центральное хранилище с данными по всем игрокам с каждого города за весь день. В случае сбоя любого из серверов/городов, происходит следующее: а) Поднимается резервный сервер, подключается на место дефектного б) Сервер контактирует с центральным хранилищем, и т.к. была резкая остановка (сбой), то многие файлы оказываются битыми. Как результат - происходит автоматическое возвращение данных с центрального хранилища. 2) В центральном хранилище используется система Lustre, она прекрасно работала больше года, но по мере увеличения данных начались проблемы. Связаны они, как это выяснилось, с версией 1.8.5. Как результат, 3 дня назад было принято решение апгрейда до версии 2.1. Чтобы иметь возможность возврата назад, если что-то пойдет не так, было принято решение отключить 2 сервер кластера, и сделать апгрейд первого сервера. Решили подождать сутки-двое, посмотреть на стабильность центрального хранилища и если всё ОК, то апгрейдить и 2 сервер кластера. Это было сделано 2 дня назад. Проблема в том, что именно на 2 сервере кластера (пассивном) находился скрипт ночного резервирования данных, и поскольку 2 сервер был отключен, ночное резервирование данных не было сделано за последние 2 дня. Когда город Abandoned Plains израсходовал все ресурсы (полностью израсходована память и своп), сервер потерял контакт с центральным хранилищем и открытые файлы на этом хранилище оказались битыми. Именно в этот момент и выяснилось, что бэкапы именно этого города имеются только 2-дневной давности... Игроки это заметили как откат 2-дневной давности, и нам (тех. команде) ничего не остается кроме как принести свои извинения. Это человеческая ошибка, бесспорно, и уже приняты меры чтобы не зависеть больше от отключения одного из серверов кластера и подобная ситуация не повторилась. Вылезло это только сейчас, поскольку центральное хранилище работало как часы несколько лет без единого аппаратного сбоя, и сервера не перегружались и не отключались. [center]Теперь по планам на будущее и работах, которые ведутся в настоящий момент:[/center] 1) Идет глобальное обновление оборудования - все эти сервера с нестабильными материнскими платами меняются на новые мощнейшие сервера (Как пример каждый из серверов имеет по 4 х 12ядерных процессоров AMD, 128GB RAM, самые быстрые диски которые существуют для данного класса) 2) После апгрейда центрального кластера до версии 2.1 Lustre должны исчезнуть аппаратные сбои и потеря центрального хранилища на городах. 3) Снята зависимость цепной реакции (в случае аппаратного сбоя одного из городов это моментально сказывалось на остальных городах) 4) Весь проект переходит на центральное отказоустойчивое хранилище с внедрением виртуализации - это даст преимущества на случай если все-таки даже на новом железе произойдет какой-либо сбой, можно будет поднять город в течение секунд на соседнем сервере, данный процесс будет полностью автоматизирован. 5) Будет включена глобальная система балансировки нагрузки - в зависимости от того где именно меньше нагрузка (сервера в виртуальной структуре) город может плавно переехать на тот сервер, делается это в течение 10-15 секунд без какой-либо остановки или недоступности. 6) Внедрение де-централизованной системы хранения данных. В случае сбоя одного из серверов все данные будут доступны на всех городах. 7) За счет виртуализации и перехода на мощное новое оборудование уменьшится нагрузка на города, что в свою очередь даст возможность уйти от периодически возникающих "Bad Gateway" или "Internal Server Error". Также за счет де-централизованной системы хранилища данных исчезнет зависимость от центрального хранилища. Когда все планы по миграции и модернизации будут внедрены в жизнь (в планах закончить это всё до лета 2012 года, т.к. каждый из элементов требует тестирования и аккуратного внедрения - оно занимает время), Combats будет значительно более шустрым и отказоустойчивым. Все лаги и технические ошибки, которые имеют место быть сейчас, должны исчезнуть.
Поделиться новостью
Всего комментариев: 51 Страниц: 3
 << начало  << предыдущие 1 2 3 следующие >>  последние >>  
  [24.11.2011 15:18]
архивариус [8] [24.11.11 14:59] Детально обсуждать не могу, вопросы конфиденциальности и безопасности. Что логично... в бщем думаю что дизайн решения тоже не дураки разрабатывали. Желаю удачного переезда

  [24.11.2011 15:43]
в последнее время из за откатов у многих пропали вещи и кр. будет ли возмещение?

  [24.11.2011 16:33]
[i]Приятно когда вводят в курс. Всегда бы так. Спасибо. [/i] + 1

  [24.11.2011 16:35]
Спасибо за разъяснения!

  [24.11.2011 20:40]
и?

  [24.11.2011 21:30]
1. 4 х 12ядерных процессоров AMD, 128GB RAM - почему не интел ? 2. Люстра 2.1 - чем не устроил NTFS 3. И на кой вам упал Linux в таком деле - вы мазахисты-пианисты-альтуисты-ананисты ! Вы из одного гГг перелазиете в другое ГгГ. 4. Windows - отдайте вы эту несщасную 1 тыс рублей и начните работать с нормальной системой. Бросайте это всенародное творчество. Новость просто убила.

  [24.11.2011 21:32]
Такой новостью можно хвастаться только перед игроками БК, они все равно 0 в любых вопросах. Я то думал там админы-мозги, а тут блин ... фи
[25.11.11 14:17] Хвастаться нечем, дешевая реклама нужна только чайникам.

  [24.11.2011 21:35]
Спасибо за инфу. Удачи и поменьше головняка с железом!!

  [24.11.2011 22:18]
do leta 2012....((( pridetsa zhdat'....

  [24.11.2011 23:16]
Ох как бы все делалось как написано, но будем надеяться, что в данном случае все именно так и случиться. Если можно о сроках завершения этих манипуляций? Заранее спасибо.

  [24.11.2011 23:22]
крик отчаяния? раньше админы не делились этим

  [25.11.2011 01:45]
В рэйд аппаратный запилино?
[25.11.11 14:17] Естественно.

  [25.11.2011 01:59]
Интересно было бы узнать ещё какие у вас контроллеры жесткого диска стоят, интеловские? Используете ли AHCI? А вообще, если честно, то этой конфигурации железа хватит на 10 БК, надо оптимизировать не хардварную часть, а алгоритмы, код, базы данных итд.
[25.11.11 14:16] Чтобы здесь не флудить, в скролл Повелителю Металла по тех. вопросам

Невидимка [25.11.2011 02:00]
Сильно удивило что AMD, а не Intel или SPARC :) Денег пожалели? )
[25.11.11 14:16] Intel проигрывает по производительности в данном конкретном случае, а под архитектуру Sparc пришлось бы переписывать весь проект. Дело не в деньгах.

Невидимка [25.11.2011 02:50]
Правильно, что АМД взяли.. Интелу только пылесосы делать, по цене шатла. Интересна информация по поводу жестких дисков какие устанавливают, марку не упоминули :)

Невидимка [25.11.2011 03:03]
> Правильно, что АМД взяли.. Ага, тока стоит он дешевле и ширпотреб штампует, до недавнего времени они выпускали процессоры с возможностью перепрошивки микрокоманд незакрытой )) С украденой и тупо реализованой технологией у интела ) Отстой одним словом )

Невидимка [25.11.2011 03:51]
BTRFS не помешала бы с такими объёмами данных. И перекомпилить мервера с включенной оптимизацией для типа процессора. Gentoo Linux наше всё в этом деле.
[26.11.11 01:15] Слишком сырая и медленная. Кроме того: As of November 2011, the planned filesystem check program has not been implemented. This means that it is currently possible to corrupt a btrfs filesystem and lose all files if your machine crashes or loses power on disks that don't handle flush requests correctly.

  [25.11.2011 09:09]
Звучит как предвыборная агитация))))

  [25.11.2011 12:37]
кстати да, выбор АМД меня несколько удивил ))))

  [25.11.2011 14:13]
редактировал [25.11.11 14:14]
--- Power_Off [9] --- 1. 4 х 12ядерных процессоров AMD, 128GB RAM - почему не интел ? По производительности АМД именно в данном конкретном случае дает больше, результаты тестов. --- 2. Люстра 2.1 - чем не устроил NTFS NTFS проигрывает по производительности, опять же не дает всего функционала который есть в Lustre. --- 3. И на кой вам упал Linux в таком деле - вы мазахисты-пианисты-альтуисты-ананисты ! Чем Linux не угодил? Больше возможностей для диагностики библиотек и ядра, плюс ко всему не требуется диких ресурсозатрат на поддержку основной ОСи (помимо приложений, о чём вообще отдельный разговор) --- Вы из одного гГг перелазиете в другое ГгГ. Хм. Каждому нравится своё гГг. Кому-то надежное и прочное, кому-то мелкомягкое. --- 4. Windows - отдайте вы эту несщасную 1 тыс рублей и начните работать с нормальной системой. Бросайте это всенародное творчество. Не говорите ерунды, для наших нужд подходит больше Linux. Кстати, MCSE+T есть не только у вас. --- Новость просто убила. Стенка вот там, биться можно об неё.

Всего комментариев: 51 Страниц: 3
 << начало  << предыдущие 1 2 3 следующие >>  последние >>  
Комментирование закрыто для гостей и пользователей с нулевым уровнем
 
 © 2010–2024 «combats.com»