Z840: la workstation che racchiude la potenza di un super computer

627

Hewlett-Packard è un nome che ha fatto la storia dei personal computer ed è sulla breccia da oltre 30 anni. L’azienda americana ha sempre puntato sulla qualità delle proprie macchine, qualità che si traduce non solo in potenza di calcolo e completezza di configurazione, ma anche in un processo di progettazione, costruzione e validazione che ha lo scopo di garantire un funzionamento ottimale e affidabile per lunghi periodi di utilizzo intenso e in condizioni critiche. Uno dei settori di maggior forza per Hp è quello delle workstation professionali, con una vasta gamma di soluzioni portatili e fisse che soddisfano le esigenze del singolo utente di un piccolo studio professionale, fino a quelle di un gruppo di professionisti che operano all’interno di un reparto di progettazione o analisi. Non è un caso, infatti, che Hp può dichiarare di essere il costruttore che vende il maggior numero di workstation nel mondo anno dopo anno, fin dal 2010.

L’attuale linea di prodotti professionali è identificata come serie Z e comprende i tre modelli desktop Z840, Z640 e Z440, un modello all-in-one Z1 G2 e due configurazioni portatili ZBook 15 G2 e ZBook 17 G2.

Tutte queste macchine sono pensate per supportare chi utilizza applicativi esigenti dal punto di vista della potenza di calcolo, come la progettazione industriale e la ricerca scientifica, e che al tempo stesso necessità di affidabilità in ogni condizione di lavoro. Le workstation desktop, delle quali il modello Z840 è oggetto di questa nostra prova, sono ideali per lo studio della fluidodinamica, l’analisi a elementi finiti, la prospezione geologica petrolifera e la progettazione Cad di assiemi complessi come quelli tipici dei settori aerospaziale e automotive.

La configurazione base Z840 permette di realizzare workstation top di gamma all’interno di un telaio minitower squadrato e massiccio (montabile in un rack 5U) che può contenere fino a due Cpu Intel dual Xeon con 18 core fisici ciascuno e una serie di acceleratori basati su Gpu di ultima generazione. In altre parole, un vero concentrato di potenza. In passato, per avere a disposizione una potenza di calcolo simile era necessario ricorrere a numerosi computer in cluster, che occupavano molto più spazio, richiedevano molta più manutenzione e consumavano molta più energia oltre che richiedere un’attenta gestione dello smaltimento del calore prodotto.

Più in dettaglio, la configurazione Z840 che abbiamo provato in laboratorio utilizza due processori Intel Xeon E5-2699 v3 a 2,30 GHz di frequenza base (che può salire a 3,60 GHz in modalità turbo), con 45 MByte di Smart Cache ognuno.

Questi processori Xeon dispongono di 18 core fisici e grazie alla tecnologia HyperThreading sono in grado di svolgere 36 thread in simultanea; nel complesso la Z840 così configurata permette la gestione e l’esecuzione di 72 thread in parallelo.

Ciascun processore è affiancato da 32 Gbyte di memoria Ddr4 a 2.133 MHz e con tecnologia Ecc registered, per un totale di 64 Gbyte suddivisi in 8 moduli da 8 Gbyte. La scheda madre, realizzata attorno al chipset Intel C612 (Wellsburg) permette di installare fino a 16 moduli per un totale di 2 Tbyte di memoria e supporta la tecnologia Numa (Non-Uniform Memory Access); sul fronte dell’espandibilità offre sette zoccoli Pci Express: quattro Pci Express 3.0 X16, due Pci Express 3.0 X8 e uno slot Pci Express 2.0 di tipo X1. Uno degli slot X16 è occupato dall’acceleratore grafico Nvidia Quadro K4200 basato su una Gpu con architettura Kepler e dotato di 4Gbyte di memoria locale.

La connettività con l’infrastruttura di rete esterna è assicurata da due porte Ethernet di classe Gigabit che servono a garantire ridondanza e sufficiente banda per il trasferimento di grandi moli di dati sulla workstation. Quest’ultima permette di approntare sistemi di archiviazione complessi e di grandi capacità: il controller integrato Lsi Sas 2308 supporta fino a sei unità Sata 3.0 o fino a otto unità Sas. La configurazione da noi ricevuta dispone di un disco Seagate Savvio 10K.6 Sas con capacità di 600 Gbyte e velocità di rotazione dei piattelli di 10.000 rpm e di un disco Ssd Micron M550 con interfaccia Sata 3.0 e capacità di 250 Gbyte. Questi sono alloggiati in cassetti estraibili e disposti trasversalmente che nel complesso possono ospitare fino a otto unità da 2,5 pollici attraverso specifici adattatori da utilizzare in ogni scomparto. L’interno della workstation è suddiviso in settori chiusi da coperchi sagomati che servono a convogliare l’aria di raffreddamento, a ridurre il rumore e a semplificare la manutenzione; le zone dove non si lavora sono protette da manovre accidentale.

Sottolineiamo che la Z840 così come le altre workstation sono progettate e realizzate in modo che non sia necessario l’utilizzo di strumenti di lavoro per eseguire la manutenzione e la sostituzione dei componenti. Per quanto riguarda il raffreddamento delle Cpu, Hp ha montato due grossi dissipatori passivi sui processori, con i radiatori immersi in un flusso d’aria generato da ventole separate la cui velocità è regolata singolarmente dalla scheda madre in funzione delle temperature rilevate dalla rete di sensori posti all’interno della workstation.

Durante le nostre prove è bastato poco tempo per accorgerci che le risorse hardware di questa Z840 sono tali che è difficile saturare i cicli di calcolo dei processori, tanto che solo il test Cinebench R15 è stato in grado di sfruttare tutta la potenza di calcolo dei due Xeon. Gli altri software che siamo soliti impiegare per mettere sotto stress l’hardware, anche quelli più esigenti di risorse di calcolo, hanno impiegato soltanto la metà dei core fisici (e di conseguenza anche quelli virtuali), mentre gli altri, corrispondenti alla seconda Cpu, rimanevano inutilizzati. Il problema nasce dal fatto che quando Windows rileva più di 64 core (fisici e virtuali insieme) li divide salomonicamente in due gruppi (Windows Processors Groups, Wpg), in modo che ciascun gruppo non superi il limite di 64 core. Soltanto Windows 7 a 64 bit, Windows Server 2008 R2 e le versioni successive supportano i Wpg, le release precedenti di Windows sono limitate a 64 core massimi.

Nel caso di questa configurazione,

quindi, nel primo gruppo sono 18 core fisici e altrettanti virtuali (36 in totale), nel secondo gruppo gli altri. Di default, un applicativo non gestisce i Wpg (per farlo deve impiegare codice ad hoc), quindi ha accesso solo ai core del primo gruppo. Lo sfruttamento anche del secondo Wpg è perciò totalmente a carico dell’applicativo, che deve possedere la capacità di organizzare i thread in modo che siano suddivisi e indirizzati ai due gruppi. Come abbiamo detto, Cinebench riconosce e attiva tutti i core disponibili, sia fisici sia virtuali. I risultati che abbiamo ottenuto sono lusinghieri: il benchmark con l’Hyper-Threading abilitato è di 4.129, mentre con l’Hyper-Threading disabilitato abbiamo ottenuto 3.545, un peggioramento del 16,5%. Per avere un riferimento, con una workstation dotata di due Xeon X5680 con sei core fisici ciascuno e una Quadro 5000 il risultato è stato 1.543. Secondo quanto afferma Maxon, il produttore di Cinebench, il benchmark è in grado di suddividere il rendering fino a 256 thread, così da sfruttare appieno altrettanti core, fisici e virtuali. Simili prestazioni caratterizzano anche Cinema 4D, l’applicativo di modellazione 3D e di animazione sempre di Maxon.

Con gli altri software, ci sono due strade per aggirare la loro incapacità di gestire i Wpg: disabilitare l’Hyper-Theading oppure creare una macchina virtuale con

assegnata una parte dei core (l’asseRna-zione può essere asimmetrica) e far girare una seconda sessione dell’applicativo, che naturalmente deve lavorare su un’altra sezione del progetto. Per esempio nel caso di rendering di mi video, in una sessione il programma calcola i fraine pari, nell’altra i fraine dispari. Entrambe le soluzioni comportano mia perdita di potenza di calcolo, naturalmente.

Nel caso dell’Hyper-Theading si ha una riduzione del 10 – 20% di performance (come abbiamo visto con Cinebench), mentre con la macchina virtuale il calo è del 3 – 15%. Nonostante le perdite di performance, entrambi i metodi sono preferibili all’utilizzo di solo la metà dei core.

Per mettere alle prova queste affermazioni, abbiamo usato 3ds Max 2015 di Autodesk e abbiamo lanciato i rendering della nostra scena campione, con mental ray e con iray. Il primo motore di rendering usa solo le Cpu, il secondo allarga il campo d’azione anche alla Gpu. Abbiamo quindi verificato i tempi di calcolo con Hyper-Theading abilitato e disabilitato, naturalmente con le stesse impostazioni del progetto (risoluzione 1.920 x 1.080 pixel e 500 cicli nel caso di iray). Ebbene, in tutti i casi i core attivi sono stati sfruttati al 100%, con tempi di 328 e 246 secondi con mental ray (HyperTheading attivo e disattivo, rispettivamente), mentre con iray (con anche la Gpu della scheda K4200 attiva) i valori rilevati sono stati di 277 e 201 secondi. In sostanza, spegnendo l’Hyper-Theading, cioè passando da 18 core fisici più 18 core virtuali a 36 core fisici, il miglioramento con mental ray è stato del 25%, con iray il guadagno è stato pari al 27,4%. Chiarito che effettivamente è meglio disabilitare l’Hyper-Theading piuttosto che perdere l’uso della metà dei core fisici e virtuali, rimane comunque il rammarico che le prestazioni del computer sarebbero maggiori del 10 – 20% circa se il software riuscisse a sfruttare tutte le risorse con l’Hyper Theading. Come abbiamo già detto questo è possibile solo con applicativi in grado di gestire più Wpg. È plausibile pensare che nel prossimo futuro i produttori di software rilasceranno aggiornamenti dei propri programmi, così da permettere loro di usare tutti i core disponibili.

Sempre con 3ds Max e iray, abbiamo voluto vedere come miglioravano i tempi di rendering aumentando gradualmente i core coinvolti nei calcoli, da un minimo di due (uno per Cpu) fino al massimo di 36, con l’Hyper-Theading disabilitato e con la Gpu della K4200 in azione.

Per spegnere i core assegnati al task abbiamo usato il comando che appare con mi clic del tasto destro nel pannello Gestirne attività/Dettagli. Il risultato di questo test è stato interessante.

Come ci aspettavamo, aumentando i core i tempi non si riducono in maniera lineare, poiché il sistema perde progressivamente sempre più efficienza a causa del trasferimento di dati tra i vari core. Oltre i 28 core il guadagno di prestazioni è veramente ridotto, per diventare trascurabile oltre i 32 core. Un ulteriore incremento dei core non produrrebbe praticamente alcun effetto benefico. La marcata flessione delle prestazioni con pochi core (intorno a quattro) è difficilmente spiegabile; potrebbe essere dovuta a un’anomala gestione da parte di Windows dei pochi core attivi rispetto a quelli spenti.

Con iray abbiamo verificato quanto la Gpu della scheda K4200 incida sulle prestazioni globali. Abbiamo quindi lanciato il rendering di test (sempre 1.920 x 1.080 pixel e 500 cicli) dapprima con i soli core fisici, poi con l’aggiunta della Gpu e infine solo con quest’ultima. Per abilitare e disabilitare i vari componenti hardware abbiamo usato l’interfaccia di iray. I tempi che abbiamo ottenuto sono di 287, 201 e 565 secondi, rispettivamente. Il miglioramento con la Gpu è quindi del 30%, non molto in effetti, ma due Xeon con 36 core totali non sono uno scherzo, inoltre la K4200 non è il prodotto più potente di Nvidia, visto che possiede “solo” 1.344 nodi Cuda di calcolo (giusto per un confronto, la top di gamma Quadro M6000 ne ha 3.072). Con Premiere Pro CC di Adobe abbiamo lanciato il rendering del nostro progetto di prova, composto da filmati Ultra Hd e da numerosi effetti che possono sfruttare la Gpu. Il motore di rendering Mercury è impostabile in modo da usare o meno la Gpu e i tempi che abbiamo ottenuto sono veramente molto diversi: 3 ore e 28 minuti solo con le Cpu, mentre con la Gpu il tempo è precipitato a poco più di 5 minuti. Da notare che durante i calcoli i core delle Cpu non erano occupati al 100%. Una differenza di tempo così importante ci porta a dire che con questo software conviene decisamente puntare su una scheda video potente piuttosto che su una ricca dotazione di core Cpu. I test fatti con Cadalist e AutoCad 2015 hanno confermato la potenza della macchina di Hp, con un indice 3D pari a 1.032 e quello 2D 345. Rispetto alla workstation che abbiamo usato come riferimento con Cinebench, il miglioramento è notevole, dato che quest’ultima ha dato i valori 360 e 255, rispettivamente. Il netto incremento nel caso del test 3D è probabilmente merito della scheda K4200 con Gpu Kepler e 1.344 nodi di calcolo, più performante della Quadro 5000 con Gpu Fermi e 352 nodi.

Un’ultima considerazione a proposito del consumo di energia di Z840. Come è facile immaginare, la richiesta di corrente varia in funzione del carico dei processori e l’incremento quando tutte le Cpu sono al lavoro è notevole: si passa da 128 watt quando il computer è inattivo a poco più di 450 watt durante il rendering di Cinebench. Nel caso la macchina debba lavorare con i processori al 100% per lungo tempo (giorni, settimane) il costo dell’energia necessaria diventa un fattore significativo nelle spese di gestione di un’azienda.

In definitiva, Z840 ha dimostrato di essere una macchina estremamente potente, silenziosa e costruita a regola d’arte. Ma per giustificare il suo acquisto bisogna essere sicuri di poterla sfruttare al 100%, altrimenti, con la maggior parte dei programmi disponibili attualmente, una porzione della sua capacità di calcolo rimane inutilizzata. E questo vuol dire aver sprecato un bel po’ di denaro visto che il costo su strada della configurazione con doppio processore Xeon a 18 core fisici supera i 22.000 euro contro il prezzo del modello base che si attesta intorno a 2.500 euro.

Condividi