Clockwork.io, der Marktführer im Bereich Software-Driven AI Fabrics™ – einer programmierbaren, herstellerneutralen Software-Layer, die groß angelegte GPU-Cluster für Echtzeit-Beobachtbarkeit, Fehlertoleranz und deterministische Leistung optimiert – gab heute die allgemeine Verfügbarkeit von TorchPass Workload Fault Tolerance bekannt. Diese neue Klasse softwaregesteuerter Fehlertoleranz beseitigt einen der kostspieligsten Ausfallmodi beim groß angelegten KI-Training: katastrophale Job-Neustarts aufgrund von Infrastrukturfehlern. TorchPass wird als Kernfunktion der Clockwork.io […]
continue reading