Donanım ve Gömülü Sistemler

GPU’lar isyanda! Meta Llama 3 dil modeli kullanıcıları üzdü

Meta Llama 3 modeli 54 gün içinde tam 419 kez arızalandı. Ölçeklenebilirlik sorunları, GPU hataları ve daha bir çok arıza pes dedirtti.

Meta’nın yeni araştırma raporuna göre, 405 milyar parametreli Llama 3 modelini eğitmek için kullanılan 16384 NVIDIA H100 GPU’luk küme, tam anlamıyla bir baş belası oldu. 54 gün içinde tam 419 kez arızalandı. Bu, ortalama olarak her üç saatte bir arıza demek.

Meta Llama 3 dil modeli her üç saatte bir arızalanıyor

Llama 3 dil modeli sisteminin ölçeği ve görevlerin senkronizasyonu öyle hassas ki, tek bir GPU bile arızalansa tüm eğitim süreci duruyor ve yeniden başlamak gerekiyor. Meta ekibinin raporuna göre, bu 419 arızanın 148’i (%30.1) çeşitli GPU sorunlarından, 72’si (%17.2) ise GPU’nun yüksek bant genişlikli belleğinden (HBM3) kaynaklandı. İnanılmaz ama gerçek, 54 gün içinde sadece iki CPU arızası yaşandı. Diğer beklenmedik kesintilerin yüzde 41.3’ü ise yazılım hataları, ağ kabloları ve adaptör sorunlarından kaynaklandı.

Meta ekibi, bu kaostan çıkmak için harika bir dizi araç ve strateji geliştirdi. Görev başlatma ve kontrol noktası sürelerini kısaltma, PyTorch’un NCCL uçuş kaydedicisini kullanarak performans sorunlarını teşhis etme ve geri kalan GPU’ları tanımlama gibi adımlar attılar. Ayrıca, çevresel faktörlerin etkilerini de dikkate aldılar; öğle saatlerindeki sıcaklık dalgalanmalarının GPU performansına etkisi ve aynı anda çalışan büyük miktarda GPU’nun veri merkezi elektrik şebekesi üzerindeki baskısı gibi faktörleri göz önünde bulundurdular.

405 milyar patametreli Meta Llama 3 gibi yapay zeka modellerinin parametre sayısı arttıkça, bu tür devasa eğitim kümeleri daha da yaygınlaşacak. Örneğin, xAI planında yer alan 100 bin H100 grafik kartı kümesi, gelecekteki AI eğitimlerinde daha fazla zorluğun ortaya çıkabileceğini gösteriyor. Bu yüzden Meta’nın şimdiden bu sorunları çözme çabaları, gelecekteki daha büyük ölçekli projeler için kritik öneme sahip.

Meta, yüzde 90’ın üzerinde etkili eğitim süresi sağlamayı başardı. Ancak, bu arızalar olmasaydı çok daha verimli olabilirdi. Bu deneyimler, Meta’nın gelecekteki projelerinde daha sağlam ve dayanıklı sistemler geliştirmesine yardımcı olacak.

Kaynak

İlgili Makaleler

Başa dön tuşu