логин:        пароль:    
 курс на 19/12/2022: 200 кр. за 1 екр. (+0.00%)
Текущий бонус опыта: +75%, бонус благородства: нет бонуса
 
 
Заземлили | 05/12/12 02:51 
Уважаемые игроки!
Учитывая многочисленные вопросы и жалобы на нестабильность игры в последнее время, думаю стоит прояснить реальное положение дел.
Дело в том, что в Combats используется традиционная схема с серверами, где часть серверов несут функции городов, и 3 пары серверов-кластеров несут функции центральных хранилищ.
[center]
http://lib.combats.com/ph/14990/src/UJDUm3aIMXX5MwuBj2QkYARSeAqq1E39ibcgymM6g.jpg
[/center]
 
    Как говорилось ранее, используется система Lustre, которая считается одной из самых лучших кластерных систем для взаимодействия между серверами городов и центральными хранилищами данных (в том числе и данных игроков).
    Оборудование новое, надежное, технологии отлаженые и провереные, настроено дублирование центрального хранилища.
http://img.combats.com/i/angels/land.jpg
О причинах
Cлучилось непредвиденное, что в принципе случается чрезвычайно редко (шанс примерно один на 500.000):
    Используются свитчи Cisco, 3 уровня, это очень надежное оборудование и считается самым стабильным в мире для этого класса. Так вот, 30 ноября ночью внезапно один из портов свитча (на рисунке сверху)  сменил свою скорость – со стандартного 1 Gbit/sec на 10 Mbit/sec! Как видно из диаграммы, трафик ходит между серверами и центральным хранилищем сразу по 2 link'ам, периодически он попадал и на второй link. А это означает, что сервера с городами пытаюся обработать трафик в 1.000 Mbit/sec через всего-навсего 10 Mbit/sec. Говоря обычным языком – это всё равно что попытаться опустошить целиком весь мешок зерна через кольцо от брелка, желая сделать это за секунду.
    Естественно, образуется очередь, сервера с городами ждут пока “зернышки” пройдут по очереди к серверу хранилища, и используют они в этом случае всегда тот же самый линк, по которому от них уже шел трафик к этому хранилищу. Ждут, ждут, ждут....и в результате сервер хранилища, который занят в это время получением трафика от другого сервера, считает что “не вижу остальных, значит они померли, я очищаю свою статистику и не воспринимаю больше трафик от них в ближайшие 2 минуты. Посмотрим поднимутся они или нет через 2 минуты”. Если в течение 2 минут сервер города всё-таки “достучится” до хранилища, коннект восстанавливается, и делается новая попытка передачи данных. Проблема в том, что за 2 минуты сам сервер города посчитает хранилище тоже мертвым, и остановит поток данных т.к. их как бы некуда посылать.
    В результате имеем неполноценные файлы, и если это файлы с данными игроков, такие файлы были длиной 0, т.е. пустые. Вот почему в последнее время происходили массовые “потери” персонажей. Естественно, команда support старалась в максимально короткие сроки их восстанавливать, но время шло над исправлением происходяшего.
    А оказалось всё просто – дефект одного из портов свитча Cisco, и этот дефект был “плавающим”, то появлялся, то исчезал, и отследить его было практически невозможно.
Как только мы отключили второй линк с хранилища, все симптомы этих проблем исчезли.
 
Статус на данный момент
 
    Сейчас идет восстановление остатков по пропавшим персонажам, если у кого-то исчезли персонажи – сообщите персонажу   Rand [12]  или оставьте заявку в support.
 
О положительном
 
    Для того, чтобы избежать ситуации по зависимости от проходимости сетевых контактов /интерфейсов и загрузки их трафиком (оно уже достаточно скоро достигнет гигабитных скоростей), принято решение перевести все соединения между серверами и центральными хранилищами на технологию Infiniband QDR, что должно дать существенный прирост мощи в плане скорости работы с дисковой системой по всем серверам/городам/хранилищам. В данный момент эта скорость ограничивается скоростью проходимости портов Cisco свитча и равна 1 GBit/sec, после обновления оборудования (ориентировочно через 2 недели, ждем заказанное оборудование) скорость составит 40 Gbit/sec.

    Технология Infiniband достаточно сильно отличается от традиционной сетевой коммуникации, и используется зачастую в построении супер-компьютеров и кластеров.
 
Желаем приятной игры и приносим извинения за вызванные неудобства.

Поделиться новостью
Всего комментариев: 32 Страниц: 2
  1 2 следующие >>  последние >>  
  [05.12.2012 03:16]
Вот это инфа! Все разжевано и разложено по полочкам. Спасибо.

  [05.12.2012 03:31]
Mr Ganj сиди сиди.сынок) ыы)_

  [05.12.2012 04:01]
спасибо

  [05.12.2012 04:10]
Спасибо что ввели в курс! Надеемся что в этот новый год, чем-либо нас порадуете!=)

  [05.12.2012 04:22]
отлично! ждем с нетерпением. приятно когда админия делится инфой. з.ы. да и мне приятно было услышать про технологию, сам сисадмин а про такое не слыхал)

Невидимка [05.12.2012 04:32]
+20 к честности!

  [05.12.2012 04:38]
Спасибо ) Я рад, что наш проект не стоит на месте и борется со всеми трудностями =)

  [05.12.2012 07:01]
Что-то странное вы описываете, я хоть уже 2 года с Cisco не работаю, но всегда можно было агрегировать потоки через EtherChannel или хотя бы поставить принудительно скорость на 1 Гбит. А еще был замечательный Nexus который поддерживал FiberChannel (или как он там называется), вроде серверы черещ Ethernet никогда не соединяли.
[05.12.12 12:10] Линк аггрегирование естественно включено, через Etherchannel, только вот смена скорости на порту как раз и повлияла на функционал того, что часть пакетов шла через 1 интерфейс, а часть затыкалась в 10 мбитный. Прописывание принудительно на 1 гбит возможно, только по практике оно чаще глючит, чем если оставить на автомате - зависит от того что на другом конце провода. A насчет FC - максимум 8 гбит/сек, тогда как IB в нашем варианте 40 гбит/сек

  [05.12.2012 09:08]
Спасибо за инфо!

  [05.12.2012 09:45]
Всего не понял, но внушает...

  [05.12.2012 10:15]
спосибо за инф.)))

  [05.12.2012 10:58]
Спасибо за подробное объяснение. Успехов в решении проблем.

  [05.12.2012 11:08]
Огромный респект админии, после такого информирования даже совестно ругаться)

  [05.12.2012 11:11]
Спасибо за подробное объяснение. Успехов в решении проблем

  [05.12.2012 11:26]
Спасибо большое за информацию. Это нужно делать сразу и у народа не будет негатива к игре. Еще один вопрос, который часто задают - Раньше игроков было в 10 раз больше и так не лагало. С чем связано?
[05.12.12 12:15] Много причин разного плана: 1) Увеличилась нагрузка на диски (решили заменой контроллеров, недавно совсем) 2) Проходимость сети - приходится аггрегировать линки (связка нескольких физических интерфейсов серверов в 1 логический) чтобы увеличить суммарную скорость трафика 3) Наличие огромного размера файлов, которые растут с течением времени - при выборке данных из таких файлов тратится время. Сейчас ведутся работы по измению всей структуры по работе с данными, меняется на корню, но займет время т.к. объем работы громадный. 4) Кое-какие баги, которые периодически вылезают из-за задержек по пункту 3.

  [05.12.2012 11:47]
ребята спасибо :)

  [05.12.2012 12:48]
Спасибо вам что прояснили ситуацию. Только вчера я задумался о том что надо бы повысить скорость самого проекта. Удачи!!!

  [05.12.2012 13:26]
Если вы мне снимите форумное заклинание, я обещаю что буду везде и всегда прославлять наш проект! Хотите я даже у себя в такси сделаю визитки с логотипом и адресом сайта! атвечаю. Спасибо за понимание (:

  [05.12.2012 14:10]
я ничего не почнимаю, но круто что вы объясняете :) гвоорит о том что вам не всё равно.. удачно и быстрее починить а то образы топорщиц не дождусь, нарисуйте уже пожалуста

  [05.12.2012 14:43]
Лучше образы уворотов бесплатные появились бы ))) а то у уворотов фуфел один а не образы )))

Всего комментариев: 32 Страниц: 2
  1 2 следующие >>  последние >>  
Комментирование закрыто
 
 © 2010–2025 «combats.com»