Oltre al Tensor SoC sui telefoni Pixel, Google ha sviluppato altri chip personalizzati, il cui sviluppo adesso avviene esclusivamente attraverso il cloud. In precedenza, il team dell’infrastruttura di sviluppo dei chip di Google utilizzava “dozzine di rack e centinaia di server” in un data center. Successivamente, questo team “ha esplorato una soluzione ibrida utilizzando l’ambiente di progettazione software interno di Google e alcuni carichi di lavoro di Electronic Design Automation (EDA) inviati a Google Cloud“.
La divisione chip alla fine ha deciso di migrare completamente al cloud con l’aiuto di un team interno “Alphabet Cloud” che è responsabile di “aiutare i team di Alphabet ad accelerare l’adozione delle offerte uniche di Google Cloud per accelerare lo sviluppo e la scalabilità, proprio come la piattaforma di un cliente la squadra lo farebbe”.
Il team utilizza Google Kubernetes Engine (GKE) per i container, oltre a Cloud Storage, Filestore, Cloud Spanner, Big Query e Pub/Sub per i dati. Questa transizione ha consentito al gruppo di chip di utilizzare gli algoritmi ML esistenti di Google Cloud per “navigare in modo efficiente in ampi spazi di ricerca e applicare ottimizzazioni uniche in varie fasi della progettazione del chip”.
Ciò ha comportato un processo di progettazione dei chip più breve, un time-to-market ridotto, aree di prodotto ampliate per gli acceleratori ML e una maggiore efficienza.
Poiché è più facile aggiungere più risorse di calcolo, “i progettisti di chip sono stati in grado di eseguire più lavori per eliminare i bug“.
Da quando è passato a Google Cloud, il team ha aumentato del 170% gli invii di lavoro giornalieri nell’ultimo anno, mantenendo una latenza di programmazione fissa. Il carico di lavoro è supportato su oltre 250 cluster GKE che si estendono su più regioni Google Cloud.
Dal punto di vista aziendale, c’è stata una riduzione dei costi operativi, una più rapida individuazione dei bug dell’infrastruttura e una riduzione del tempo dedicato alla manutenzione del data center.