HPC 可能产生瓶颈的地方很多,包括 CPU ,内存,本地磁盘,网络存储,计算网络,操作系统等,通过 PBS 可以进行相关资源的使用和调用监控,了解当前和历史状态,进行优化。具体优化可以从以下四个方面开始:
- 采用更高速的网络互联: 选用高带宽的 InfiniBand 网络如200G,实现大量数据的并行处理,提升 HPC 网络环境的运行效率和性能表现 。
- 采用高可用性存储系统:选择具备自动故障检测与快速恢复重建能力的高可用性存储系统,提高数据重构的速度和系统的可用性。
- 优化作业调度策略:合理的作业调度策略可以显著提升 HPC 系统的吞吐和效率。基于用户定义的组织结构树来实现作业的优先级动态计算,有助于实现更加公平和高效的资源分配
4.完善故障检测机制:完善故障检测和自动恢复机制,实现作业执行的失败检测和失败作业的自动重新提交,减少对系统的影响。