Описание
HPC TaskMaster представляет собой систему мониторинга эффективности задач, специально разработанную для суперкомпьютера cHARISMa в Высшей школе экономики. Основная цель системы заключается в оказании помощи пользователям в выполнении расчетов и предоставлении подробного отчета о работе задач, что позволяет выявлять неэффективные или некорректно запущенные вычисления и оптимизировать использование вычислительных ресурсов.
Система позволяет пользователям тщательно следить за выполнением своих задач, анализируя запуск и результаты расчетов. В зависимости от состояния задач (завершенные или выполняющиеся) доступна сводная статистика, что помогает оперативно выявлять проблемы и освобождать ресурсы для более актуальных задач. Автоматизированная структура отчетов включает данные о времени выполнения, количестве использованных узлов и ядер, а также информацию о любых потенциальных проблемах.
HPC TaskMaster требует от пользователей единой учетной записи НИУ ВШЭ для авторизации и доступна в личном кабинете суперкомпьютерного комплекса. Пользователи могут регистрировать свои вычисления и наблюдать за процессом выполнения задач в реальном времени, что дает возможность быстро реагировать на изменения.
Ключевыми возможностями системы являются детализированные отчеты о производительности задач, аналитику по компонентам суперкомпьютера, а также графики, отражающие загрузку процессоров и GPU. Пользователи могут просматривать агрегационные метрики, выявлять неэффективное использование ресурсов и получать рекомендации по оптимизации.
HPC TaskMaster поддерживает различные платформы, так как функционирует в учебной среде НИУ ВШЭ, интегрируясь с инфраструктурой суперкомпьютера cHARISMa. Система актуальна для исследователей, занимающихся высокопроизводительными вычислениями, машинным обучением и другими ресурсозатратными задачами в области научных исследований и промышленности.
Среди уникальных характеристик системы стоит отметить высокую степень автоматизации анализа, поддержку различных типов расчётов, включая интерактивные и пакетные задачи, а также возможность сохранения и экспорта отчетов для дальнейшего анализа. Пользователи могут генерировать PDF и Excel отчеты, что облегчает предоставление статистики и аналитической информации.
Система также предоставляет информацию о типовых проблемах и их решениях, таких как неэффективное выделение ресурсов, а также низкую загрузку ядра и GPU. Это позволяет пользователям понимать, где именно возникают узкие места и как их можно устранить для повышения общей эффективности выполнения задач.
Если вы обнаружили ошибку, пожалуйста, уведомите нас — выделите текст с ошибкой и нажмите клавиши Ctrl+Enter. Отключите блокировщик рекламы, если после нажатия комбинации кнопок не срабатывает всплывающее окно.