Всесторонний анализ качества работы больших суперкомпьютерных комплексов
Воеводин В.В.

В настоящее время проблема недостаточной эффективности работы суперкомпьютерных комплексов во многом связана с тем, что администраторы таких систем не всегда могут своевременно обнаруживать и устранять причины снижения эффективности. Это в большей степени касается не выхода из строя оборудования (такие случаи можно отслеживать с помощью систем мониторинга), а неявного снижения эффективности работы определенных компонентов суперкомпьютера при условии, что внешне они продолжают работать корректно. Возникновение подобной ситуации связано с тем, что на данный момент нет достаточно гибких и удобных средств для оперативного и комплексного анализа всех характеристик качества работы вычислительных систем. Существующие решения либо позволяют анализировать только небольшую часть таких характеристик, либо представляют собой не универсальные решения, удовлетворяющие только небольшой набор конкретных нужд администраторов определенной системы. В настоящей статье описывается системный подход к решению этого вопроса, который позволит проводить комплексный анализ различных аспектов работы суперкомпьютеров, связанных в первую очередь с выполнением суперкомпьютерных приложений. Разрабатываемый на основе этого подхода программный инструмент предназначен для сбора в рамках единой модели всех наиболее важных данных о свойствах и качестве выполняющихся на суперкомпьютере задач – данные об эффективности их выполнения, размере и длительности, наличии характерных или аномальных сценариев поведения, использовании прикладных пакетов и библиотек и др. С помощью гибких возможностей по агрегации будет задаваться нужная степень детализации, с какой необходимо предоставлять полученную информацию – по отдельным пользователям, проектам, прикладным пакетам, предметным областям, разделам суперкомпьютера, временным диапазонам и др. Это позволит создавать сотни и тысячи различных представлений для анализа состояния суперкомпьютера, что поможет администраторам выбирать наиболее подходящий для них вариант.

Ключевые слова: суперкомпьютер, параллельные вычисления, суперкомпьютерные приложения, производительность, анализ эффективности, данные мониторинга.

Название статьи, аннотация и ключевые слова на английском языке

  • Воеводин В.В. – Московский государственный университет им. М.В. Ломоносова, Научно-исследовательский вычислительный центр, Ленинские горы, 119991, Москва; ст. науч. cотр., e-mail: vadim@parallel.ru