原因如下
數據加載相關。
1)存儲和計算跨城了,跨城加載數據太慢導致 GPU 利用率低。
説明:例如數據存儲在“深圳 ceph”,但是 GPU 計算集羣在“重慶”,那就涉及跨城使用了,影響很大。
優化:要麼遷移數據,要麼更換計算資源,確保存儲及計算是同城的。
2)存儲介質性能太差。
説明:不同存儲介質讀寫性能比較:本機 SSD > ceph > cfs-1.5 > hdfs > mdfs。