Теоретические основы программно-конфигурируемых сетей

Общие сведения об управляемых сетях

Большинство экспертов уверены в том, что технология Ethernet станет основой для построения единой, конвергентной сетевой инфраструктуры ЦОД. Институт IEEE разрабатывает стандарты, которые должны обеспечить гарантированную полосу пропускания и контроль потока для трафика с учетом его приоритета, а также более усовершенствованные механизмы управления потоками. С этими нововведениями Ethernet сможет заменить в ЦОД существующие сети Fibre Channel [11] и Infiniband [12], а также существенно повысить производительность работы новых Storage Area Network (SAN) систем на основе iSCSI.

Поддержка мобильности виртуальных машин, технология Fibre Channel over Ethernet (FCoE) [13] и другие новые приложения требуют построения крупномасштабных сетей, функционирующих на втором уровне модели OSI.

Постоянно совершенствуясь, Ethernet превратилась сегодня в наиболее масштабируемую и экономически эффективную технологию для построения сетей TCP/IP.

Трафик локальных вычислительных сетей (ЛВС) менее всего зависит от характеристик сети, но активно использует свойственные Ethemet-технологии широковещательной/групповой рассылки, виртуальных ЛВС (Virtual Local Area Network, VLAN). Для эффективной работы SAN необходима малая задержка и передача пакетов без потерь. Для реализации высокопроизводительных вычислительных систем (High-Performance Computing Cluster) требуется еще меньшая задержка и широкая полоса пропускания. Последние достижения в области технологии iSCSI привели к тому, что все больше заказчиков рассматривают ее как надежное решение для сетей SAN.

Благодаря своей гибкости, Ethernet сегодня доминирует в большинстве сетевых сред. Современные технологии обеспечивают скорость 10 Гбит/с (на один канал), в ближайшем будущем скорость возрастет до 100-Гбит/с, а в более отдаленной перспективе возможно появление терабитного варианта Ethernet. В результате в настоящее время Ethernet рассматривается в качестве основного кандидата для конвергентной инфраструктуры ЦОД.

Традиционные Ethernet сети обладают архитектурными недостатками, связанными с принципом доступа к несущей среде: непредсказуемым временем задержки, увеличением нагрузки на центральные процессоры серверов, снижением производительности существующей инфраструктуры в результате использования части пропускной способности сети для передачи трафика сети хранения; проблемами с обеспечением безопасности передаваемого трафика. Традиционная технология Ethernet не пригодна для передачи критичного к потерям трафика, в частности, трафика сетей хранения, не может играть роль надежного транспорта канального уровня.

Над вопросом усовершенствования традиционного протокола Ethernet на протяжении ряда лет работали несколько организаций. Итогом их труда стал набор усовершенствований, получивших название Converged Enhanced Ethernet (CEE), Data Center Bridging (DCB) [14] и Cisco Data Center Ethernet (DCE) [15]. В их основе лежат одни и те же базовые спецификации. Вместе с тем необходимо учитывать, что DCE содержит расширенный набор возможностей по сравнению с СЕЕ и DCB.

Data Center Ethernet представляет собой архитектуру на базе набора открытых стандартов расширений Ethernet, которая предназначена для улучшения и расширения функционала классического Ethernet в соответствии с требованиями, предъявляемыми к Ethernet как к конвергентному транспорту современного ЦОД.

DCE включает в себя два основных компонента: набор расширений Ethernet и аппаратные средства, обеспечивающие внутреннюю передачу трафика без потерь (Lossless Ethernet Switch Fabric).

Термин Lossless Ethernet определяет тип коммутаторов Ethernet, которые имеют ряд дополнительных функциональных возможностей, основной из которых является возможность передачи данных без потерь, вследствие перегрузок сети (lossless). В lossless сетях, достаточно важно блокировать операции I/O, поскольку в отличие от TCP/IP потеря одного пакета, обычно ведет к прерыванию передачи последовательности данных и требует повторной передачи всей последовательности протоколом верхнего уровнявместо повторной передачи только нескольких потерянных блоков.

Cisco Data Center Ethernet (Cisco DCE) включает в себя два основных компонента: набор расширений Ethernet и аппаратные средства, обеспечивающие внутреннюю передачу трафика без потерь. Набор расширений Cisco DCE содержит как обязательный, так и опциональный функционал.

К обязательному функционалу относятся следующие расширения:

а) механизм управления потоком на основе приоритетов (Priority-based Flow Control, PFC) [16]. PFC расширяет функционал стандартного механизма PAUSE (описанного в стандарте IEEE 802.3х). Если механизм PAUSE вызывает прекращение передачи всего трафика по каналу Ethernet, то механизм PFC разделяет его на восемь виртуальных полос (virtual line) и позволяет управлять передачей трафика на основе приоритетов раздельно для каждой линии. Таким образом, можно создать линию без потерь (losslesslane) для чувствительного к потерям трафика (такого как Fibre Channel) и использовать остальные линии в стандартном режиме сброса пакетов для обычного трафика IP. Механизм Priority-based Flow Control описан в стандарте IEEE 802.1Qbb ;

  • б) Enhanced Transmission Selection (ETS) обеспечивает управление разделением пропускной способности консолидированного канала для разных типов линий, решая задачу совместной передачи разных типов трафика без ущерба для качества. Этот инструмент описан в стандарте IEEE 802.1Qaz [17];
  • в) Data Center Bridging eXchange (DCBX) отвечает за обнаружение и автоматическое согласование ряда параметров, включая управление полосой и потоком по классам, а также управление перегрузками и логическим состоянием полос. Кроме того, с помощью механизма DCBX взаимодействующие устройства определяют совместимость соседнего устройства с DCE, т.е. очерчивают логическую границу домена DCE в сети ЦОД. Механизм Data Center Bridginge Xchange описан в стандарте IEEE 802.1Qaz;
  • г) Layer 2 Multi-Pathing (L2MP). В отличие от классического протокола SpanningTree, блокирующего множественные соединения между узлами, механизм L2MP обеспечивает возможность одновременного использования нескольких параллельных путей, благодаря чему пропускная способность расходуется более эффективно. Механизм Layer 2 Multi-Pathing описан в стандарте IEEE 802.1Qau [18].

Вторая составляющей архитектуры DCE — «коммутационная фабрика без потерь» (Lossless Ethernet Switch Fabric) — является не менее важной, чем набор расширений Ethernet. Для того чтобы обеспечить реальную передачу трафика Ethernet без потерь, необходимо реализовать два обязательных требования: механизм приостановки передачи трафика по каналу в соответствии с классом трафика, такой как PFC, и метод приостановки трафика от входящего к исходящему порту через внутреннюю коммутационную фабрику.

Передача трафика без потерь внутри коммутационной фабрики достигается за счет объединения механизма PFC для приостановки трафика на входном порту коммутатора и механизма управления очередями на выходном порту коммутатора для предотвращения передачи пакетов внутри фабрики в случае недоступности выходного порта (механизм Virtual Output Queues, VOQ [19]). Таким образом, при соблюдении двух упомянутых выше требований реализуется полноценный сквозной Ethernet без потерь.

Технология Brocade Virtual Cluster Switching (VCS) [20] позволяет компаниям уменьшить сложность и снизить стоимость их сетевой инфраструктуры за счет использования новой архитектуры Ethemet-фабрики для ЦОД. VCS увеличивает масштабируемость и эффективность использования сети, кардинально упрощает архитектуру и увеличивает доступность приложений, что необходимо для современных центров обработки данных использующих виртуализацию. VCS включает набор динамических сервисов расширяющих функционал и обеспечивающих защиту инвестиций заказчиков, что делает эту технологию основой для построения сетей виртуальных ЦОД (см. рисунок 25).

Ethemet-фабрика VCS [20]

Рисунок 25 - Ethemet-фабрика VCS [20]

Ethemet-фабрика позволяет обойти такие ограничения традиционной многоуровневой архитектуры ЦОД как: а) образование петель трафика при неправильной настройке протокола STP;

  • б) блокировку части портов и невозможность их использования для передачи трафика;
  • в) задержки и потери пакетов при изменениях топологии сети;
  • г) сложность в настройке большого количества устройств.

VCS позволяет отойти от идеологии настройки и функционирования коммутаторов как самостоятельных устройств, имеющих собственные уровни управления и передачи данных. Теперь коммутаторы работают в составе фабрики, имеющей единый интерфейс управления и передачи данных вне зависимости от количества подключенных к фабрике устройств, количества и типа соединений между ними. Новые коммутаторы, подключаемые к фабрике, присоединяются и настраиваются автоматически без вмешательства администратора. Снаружи фабрика выглядит как логически единый коммутатор с множеством внешних портов.

Одним из прогрессивных методов канальной коммутации в Интернет является технология многопротокольной коммутации на основе меток (Multiprotocol Label Switching — MPLS). MPLS - масштабируемый независимый механизмом передачи данных. В сети MPLS, пакетам данных присваиваются особые метки. Решение о передаче пакета данных другому узлу сети (коммутация) осуществляется только на основании метки без необходимости изучения пакета данных. Такая технология сделала возможным создание виртуального канала связи независимо от среды передачи и использующего любой протокол канального и сетевого уровней.

Классификация трафика по нескольким параметрам позволяет маршрутизировать потоки трафика каждого класса по специально оптимизированному пути администратором сети.

При точном планировании маршрутов и правил технология MPLS обеспечивает высокий уровень контроля над трафиком. Это является предпосылкой к более производительной работе сетей, позволяет гарантировать качество услуг, позволяющее адаптировать сеть к потребностям пользователей. Критерии, применимые в MPLS сетях для классификации пакетов различаются в зависимости от задач.

Компьютерные сети в ЦОД, как правило, строятся на базе протокола Ethernet. В основе работы коммутатора Ethernet лежит принцип программного управления на основе таблицы коммутации. Управление таблицами коммутации дает возможность произвольным образом управлять поведением и скоростными характеристиками и отдельного коммутатора, и параметрами передаваемых потоков данных в масштабах всей сети Ethernet.

При обработке пакетов данных коммутатор Ethernet обращается к таблице коммутации. На основании полученной информации, в том числе адреса порта получателя, параметров качества обслуживания, коммутационная матрица осуществляет дальнейшую обработку и передачу данных на целевой выходной порт (см. рисунок 26).

Обработка и продвижение данных в коммутаторе [21]

Рисунок 26 - Обработка и продвижение данных в коммутаторе [21]

Основная идея ПКС состоит в том, чтобы не изменяя существующего сетевого оборудования, отделить (перехватить) управление этим оборудованием (маршрутизаторами и коммутаторами) за счет создания специального программного обеспечения, которое может работать на обычном отдельном компьютере и которое находится под контролем администратора Сети.

Для реализации этой идеи специалистами из Стенфорда и Беркли был разработан открытый протокол OpenFlow для управления маршрутизацией и коммутацией в Сети, не ориентированный на продукты какого-то отдельного производителя. С помощью этого протокола специалисты сами могут определять и контролировать: кто с кем, при каких условиях и с каким качеством может взаимодействовать в Сети. Все маршрутизаторы и коммутаторы объединяются под управлением Сетевой Операционной Системы (СОС), которая обеспечивает приложениям доступ к управлению сетью и которая постоянно отслеживает конфигурацию средств Сети.

В коммутаторе OpenFlow реализован только уровень передачи данных. Вместо процессора обработки используется более простой контроллер, в задачи которого входит принятие поступающего кадра, извлечения из него МАС-адреса и немедленной передаче кадра коммутационной матрице если адрес есть в таблице. Если адрес отсутствует, коммутатор отправляет запрос на центральный контроллер сети OpenFlow и на основании ответа добавляет необходимые записи в таблицу коммутации. После этого коммутатор осуществляет обработку кадра.

Концепция гибридного коммутатора OpenFlow предполагает наличие в коммутаторе и традиционного уровня управления, и контроллера OpenFlow. Это позволяет реализовать функциональность OpenFlow в действующих сетях Ethernet и, в частности, осуществлять разработку нового программного обеспечения и протоколов, не мешая работе остальных пользователей сети.

Согласно рекомендациям ISO 7498-4 существуют следующие функции средств управления сетью: а) управление именованием и конфигурацией сети, заключается в настройке компонентов сети, таких как идентификаторы и сетевые адреса, местоположение, настройка параметров сетевых операционных систем, создание и поддержание схемы сети в актуальном состоянии.

  • б) обработка ошибок, заключается в поиске неисправностей в работе сети и устранении их последствий.
  • в) определение производительности, заключается в оценке на основе накопленных статистических данных о работе сети времени отказа и траффика. Позволяет планировать расширение сети.
  • г) управление безопасностью, заключается в сохранении целостности данных, контроле доступа к данным, аутентификации, ключей шифрования, управлении внешним доступом, полномочиями и паролями, стыковка с другими сетями.
  • д) мониторинг работы сети, заключается в надзоре за имеющимся оборудованием и ресурсами.

Вышеуказанные функции средств управления сетью охватывают не только анализ и мониторинг работы сети, которые нужны для настройки сети, но и различные меры воздействия на сеть, такие как управление структурой сети и безопасностью. Обычно создание плана настройки и модернизации сети рассматривается отдельно от системы управления сетью, не смотря на то, что существуют системы управления, включающие в себя экспертные системы. Их задача состоит в определении совместно с администратором сети плана по ее настройке. На сегодняшний момент среди систем управления просматриваются два направления:

а) объединение функций управления системами с сетями в одном программном средстве;

б) разделение системы управления на несколько разрозненных контроллеров, которые собирают информацию о работе сети и состоянии устройств и систем и выполняют некоторые управляющие действия.

Протокол SNMP (Simple Network Management Protocol) является одним из наиболее распространенных протоколов управления сетью. Основным преимуществом этого протокола является независимость от производителей, простота и доступность. Он позволяет получать от устройств информацию об их состоянии, производительности и других параметрах, хранящихся в базе данных сетевых устройств - Management Information Base (MIB). Структура этой базы определяется набором имен переменных, их типов и допустимыми операциями на д ними.

Сравнение компьютерных сетей с программно-конфигурируемыми сетями на основе технологии OpenFlow демонстрирует значительные преимущества последних для построения вычислительных центров обработки данных, т.к. программно- конфигурируемые сети с помощью стандартного способа управления таблицами потока в маршрутизаторах позволяют эффективно организовывать потоки данных в сетях за счет их группировки и изоляции, что дает возможность эффективно управлять и локализовать трафик исполняющихся в центрах обработки данных вычислительных задач.

В общем случае показатель эффективности функционирования компьютерной сети (КС) как человеко-машинной системы представляет собой количественно (реже качественно) оцениваемую характеристику с учетом выходных временных, точностных и надежностных показателей трудовой деятельности человека-оператора (пользователей, управленческого и обслуживающего персонала сети); параметров и характеристик (аппаратных, программных и информационных средств сети, рассматриваемых с системных позиций); параметров и характеристик, определяющих условия функционирования сети. Далее рассматриваются только количественно оцениваемые показатели эффективности КС.

Показатели эффективности сети W определяются процессами ее функционирования, они являются функционалом от этого процесса. В соответствии с конкретизацией понятия эффективности показатели множества W разделяются на три группы:

где Wa - показатели целевой эффективности функционирования сети, или эффективности использования сети по целевому назначению, количественная мера соответствия сети своему назначению;

WT — показатели технической эффективности сети, количественная мера, отражающая техническое совершенство КС;

W-з - показатели экономической эффективности функционирования КС, количественная мера экономической целесообразности использования сети.

Принадлежность того или иного показателя эффективности к одной из указанных групп не всегда бывает однозначной. Это определяется назначением сети и целями ее исследования.

Показатели целевой эффективности КС (Wlt). Любая компьютерная сеть, используемая той или иной организацией (или отдельными людьми), прямо или опосредованно участвует в достижении целей деятельности этой организации, в решении конкретных задач. Показатели множества Wu предназначены для количественной оценки степени этого участия. С их помощью оценивается эффект (целевой результат), получаемый за счет решения тех или иных прикладных задач с использованием общесетевых ресурсов (аппаратных, программных, информационных), а не с использованием других, менее эффективных, средств.

Показатели множества W4 отличаются большим многообразием. Для их количественной оценки применяются самые различные единицы измерения.

Примеры показателей целевой эффективности:

  • а) временные показатели целевого использования сетевых структур в управлении деятельностью предприятия, характеризующие повышение оперативности управления. Это повышение достигается использованием вычислительных мощностей сети для оперативной реализации алгоритмов управления и коммуникационных средств для доставки результатов выработки управленческих решений по назначению;
  • б) точностные (WTH), надежностные (W„) и временные (W„) показатели, применяемые в системах специального назначения для оценки эффективности использования в них сетевых структур. Например, прирост (за счет использования сети) вероятности выполнения некоторого задания, сокращение времени на выполнение этого задания, повышение точности решения некоторой задачи;
  • в) показатели целевой эффективности КС при решении задач планирования хозяйственной деятельности на различных уровнях (отрасль, подотрасль, объединение, фирма, предприятие).

Могут быть две группы этих показателей:

  • 1) показатели эффективности использования ресурсов сети для составления краткосрочных, текущих планов. Эффект определяется тем, что разработка планов при этом осуществляется быстрее, точнее и полнее, с учетом большего количества факторов;
  • 2) показатели эффективности использования сетевых структур для составления долгосрочных, перспективных планов. В этом случае эффект определяется не только тем, что разработанный с применением КС перспективный план будет получен быстрее и окажется точнее и полнее, но и тем, что он вообще стал возможным благодаря использованию сетевых ресурсов;
  • г) показатели, характеризующие повышение качества продукции, технология производства которой включает использование КС (например, использование ЛВС на предприятиях);
  • д) показатели, характеризующие экономику производства продукции с применением сетевых структур (например, повышение производительности труда, увеличение объема выпускаемой продукции, снижение ее себестоимости, увеличение доли экспортируемой продукции), если цель использования КС заключается именно в улучшении характеристик производственно-хозяйственной деятельности предприятия или организации. В этом случае показатели целевой эффективности одновременно являются и показателями экономической эффективности.

Показатели технической эффективности КС (WT). Показатели этой группы используются для оценки компьютерной сети как сложной аппаратно-программно- информационной кибернетической человеко-машинной системы при работе ее в различных режимах и условиях. При этом не принимается во внимание эффект, получаемый за счет реализации результатов решения задач (удовлетворения запросов) пользователей сети. Оцениваются только технические возможности КС. Оценка с помощью показателей W, может осуществляться как для всей сети, так и отдельных ее систем, подсистем, звеньев и узлов.

Примеры показателей технической эффективности КС:

а)Тзс - суммарная задержка в сети, вносимая в передачу данных пользователя, т.е. время доставки сообщения от отправителя к получателю. Эта задержка зависит от длины маршрута, скорости передачи электрических сигналов, несущих информацию, пропускной способности канала связи, времени на прием, обработку и передачу информации в каждом промежуточном узле связи;

  • б) V„ - скорость передачи пакетов: количество пакетов, передаваемых по сети за единицу времени;
  • в) Упд - фактическая пропускная способность сети: средний поток данных, фактически передаваемых через сеть (измеряется в Кбит/с, Мбит/с). В отличие от физической пропускной способности канала или линии связи VK, которая определяется возможностями и свойствами передающей среды и является одним из главных ее параметров, фактическая пропускная способность зависит от величины VK, но также определяется и многими другими факторами, например, используемыми методами доступа в передающую среду, загрузкой канала, задержкой передаваемой информации в промежуточных узлах связи.

Показатели экономической эффективности использования КС (W3). Для оценки экономической эффективности всей сети или отдельных ее элементов и звеньев могут использоваться две группы показателей: интегральные показатели и частные показатели.

Эффективность вычислительных систем и сетей в значительной мере определяется их производительностью. Компьютерные сети как распределенные системы обладают высокой производительностью, что в свою очередь достигается за счет распараллеливания вычислительных работ между несколькими рабочими станциями сети.

Выделим несколько основных показателей производительности сети:

  • - время ответа (отклика, реакции);
  • - пропускная способность;
  • - задержка передачи пакета и вариация задержки передачи (джиттер).

Время реакции сети, определяемое как интервал времени между

возникновением запроса пользователя к какому-либо сетевому приложению и получением ответа на этот запрос, является, вообще говоря, основным показателем производительности сети с точки зрения любого пользователя сети. Этот показатель зависит от многих факторов: от загрузки сегментов сети, включая сервер, коммутаторы и маршрутизатор, через которые проходит данный запрос, от типа приложения, от времени дня и других.

В связи с этим используют также усредненную величину этого показателя, так называемую средневзвешенную оценку времени реакции сети по пользователям, серверам и времени дня.

Как составляющие во время реакции сети обычно входят время подготовки запросов на рабочих станциях пользователей, время передачи запросов между пользователями и сервером через сегменты сети, время обработки запросов на сервере, время передачи ответов от сервера к пользователю и время обработки получаемых от сервера ответов на рабочей станции пользователя.

При общем анализе производительности сети важно знать эти составляющие времени реакции. Именно они позволяют оценить показатели производительности отдельных элементов сети, выявить ее узкие места и, если таковые имеются, то решить вопросы по модернизации сети для устранения узких мест.

Пропускная способность сети или ее сегмента характеризуется объемом данных в битах, переданных сетью или ее сегментом в единицу времени (обычно в секунду). Таким образом, пропускная способность измеряется либо в битах в секунду, либо в пакетах в секунду. Она связана со скоростью передачи пакетов между различными узлами сети по каналам связи и поэтому характеризует функцию транспортировки сообщений. Пропускная способность выступает в качестве входного параметра при расчетах показателей производительности сети, в том числе времени реакции сети.

В научной литературе выделяют мгновенную, максимальную и среднюю пропускную способность.

Средняя пропускная способность определяется делением общего объема переданных данных на время их передачи, например, час, день или неделя.

Мгновенная пропускная способность определяется за очень короткий промежуток времени (от 10 мс до 1 с).

Максимальная пропускная способность - это наибольшая пропускная способность, измеренная в течение заданного периода наблюдения. Она в основном характеризует возможность сети справляться с пиковыми нагрузками, когда все пользователи одновременно подключаются к сети и формируют свои запросы к файлам и базам данных.

При проектировании, настройке и оптимизации сети на базе пилотных сетей используют такие показатели, как средняя и максимальная пропускные способности. Они позволяют оценить работу сети на большом промежутке времени, в течение которого чередуются пики и спады интенсивности трафика.

Обычно пропускную способность измеряют между любыми двумя узлами сети, например, между рабочей станцией пользователя и сервером, а также между входным и выходным портами маршрутизатора. При анализе производительности сети необходимо знать пропускную способность отдельных элементов сети и ее сегментов.

В связи с последовательным способом передачи пакетов сообщений узлами сети пропускная способность составного пути в сети будет равна минимальной из пропускных способностей составляющих участков маршрута. Поэтому для повышения пропускной способности составного пути необходимо анализировать самые медленные участки.

Из теории массового обслуживания известно, что если средняя интенсивность передаваемого по составному пути трафика будет выше средней пропускной способности самого медленного участка, то очередь пакетов к этому устройству будет расти теоретически до бесконечности. На практике же передача пакетов продолжится лишь до тех пор, пока не заполнится его буфер, а затем пакеты просто будут отброшены.

При исследовании компьютерных сетей также используют общую пропускную способность сети, определяемую средним объемом информации (количеством пакетов), переданной между всеми узлами сети в единицу времени. Эту общую пропускную способность сети и принимают за ее производительность. По аналогии, в теории вычислительных систем, под производительностью вычислительной системы понимают среднее количество заданий, решаемых системой в единицу времени.

Задержка передачи пакетов определяется как интервал времени между моментом поступления пакета на вход какого-либо сетевого ресурса или сегмента сети и моментом появления его на выходе этого ресурса или сегмента сети. Этот показатель производительности в теории массового обслуживания равносилен времени пребывания требования в системе, равное времени ожидания требования в очереди плюс время его обслуживания.

Максимальная задержка передачи и вариация задержки являются также качественными показателями сети. Обычно не все типы трафика чувствительны к задержкам передачи. Например, в локальных вычислительных сетях, задержки не превышают сотен миллисекунд. Такие задержки передачи пакетов, порождаемые файловой службой, службой электронной почты или службой печати, мало влияют на качество этих служб с точки зрения пользователя сети. Иное дело наблюдается при передаче голосовых и видеоданных в мультисервисных сетях, когда задержки передачи пакетов могут приводить к значительному снижению качества предоставляемой пользователю информации.

Для распределенного вычислительного ЦОД помимо характеристик производительности, отражающих работу сети в целом, большое значение имеют показатели, учитывающие обработку вычислительных задач, а также функционирование СХД.

К числу характеристик производительности, принимающих во внимание вычислительные задачи, можно отнести:

  • а) время выполнения эталонного набора задач;
  • б) среднюю загруженность вычислительных ядер при выполнении эталонного набора задач.

Время выполнения эталонного набора задач определяется как разность между временем завершением исполнения последней задачи и временем запуска первой задачи из набора. Данный интегральный целевой показатель позволяет количественно оценить прикладную составляющую эффективности работы распределенного вычислительного ЦОД на сформированном наборе пользовательских вычислительных задач. Эталонный набор должен включать параллельные прикладные задачи с высокой интенсивностью обмена трафиком, отражающие специфику использования современных вычислительных ЦОД. К числу последних можно отнести кодирование видео и аудио данных, компьютерное моделирование, синтез белковых структур, цифровую обработку сигналов, виртуальные испытательные стенды.

Показатель средней загруженности вычислительных ядер при выполнении эталонного набора задач характеризует процент использования (загрузки) вычислительных ядер реальных или виртуальных узлов ЦОД. Существуют вариации в вычислении данного показателя - можно учитывать загрузку абсолютно всех вычислительных ядер системы на протяжении всего расчетного времени или исключать из рассмотрения загрузку свободных вычислительных ядер в те моменты времени, когда очередь задач вычислительной системы пуста. Использование второго варианта позволяет снизить влияние особенностей набора задач, в том числе учесть время простоя ресурсов вычислительной системы в начале и в конце выполнения задач эталонного набора.

К числу показателей, характеризующих производительность работы СХД распределенного вычислительного ЦОД, можно отнести установившуюся скорость чтения данных и установившуюся скорость записи при выполнении эталонного набора задач. Данные характеристики вычисляются следующим образом: промежуток времени обработки задач эталонного набора разбивается на небольшие интервалы равной длины, на каждом из них определяются средние значения скорости чтения и записи, а затем для определения соответствующих установившихся значений вычисляются максимумы средних величин по всем интервалам. В отличие от средних значений чтения и записи по всему промежутку времени обработки задач данные показатели являются более репрезентативными.

В процессе функционирования распределенного вычислительного ЦОД также возникают непроизводительные инфраструктурные издержки, связанные с обслуживанием эталонного набора задач. Они могут быть описаны с помощью следующих показателей:

а) среднее время вычисления прогнозных значений коммуникационных

параметров задачи;

б) среднее время вычисления оптимального расписания выполнения

задач.

Первый показатель отражает среднее время, затрачиваемое системой на моделирование состояния компьютерной сети и определение эффективного способа перенастройки параметров маршрутизации под каждую задачу эталонного набора. Второй - среднее время, которое тратит планировщик системы на пересчет текущего расписания при возникновении одного из событий - появления в очереди новой задачи из эталонного набора или завершения уже запущенной.

К числу основных непроизводительных показателей эффективности, характеризующих особенности функционирования распределенных вычислительных ЦОД можно отнести сбалансированность загрузки ресурсов: вычислительных ядер, оперативной памяти, дисковых накопителей. С точки зрения целей исследования наиболее адекватной характеристикой является сбалансированность загрузки вычислительных ядер (реальных или виртуальных), которая определяется, как вариация показателя средней загруженности вычислительного ядра по всем вычислительным ядрам системы на протяжении всего расчетного времени. Небольшие значения данной характеристики позволяют судить о равномерной загрузке вычислительных ресурсов ЦОД.

Показатели эффективности вычислительных систем и компьютерных сетей могут быть определены как проведением экспериментов на реальных системах и сетях, так и путем их математического моделирования.

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ   След >