Η Nvidia κυκλοφόρησε το chip Groq 3 LPU, το οποίο επιταχύνει την inference των μοντέλων AI έως το επίπεδο token.

Η Nvidia αποκαλύπτει νέες δυνατότητες της πλατφόρμας Vera Rubin

Στο συνέδριο GTC αυτής της χρονιάς ο γενικός διευθυντής της Nvidia, Τζένσεν Χουάνγκ, ανακοίνωσε την επέκταση της πλατφόρμας Vera Rubin. Στον πυρήνα των νέων δυνατοτήτων βρίσκεται η πνευματική ιδιοκτησία που αποκτήθηκε από την εταιρεία Groq, και στο σύνολο του Rubin ενσωματώθηκε ο χип *Groq 3 LPU* – ένας επιταχυντής inference σχεδιασμένος για την εξαγωγή tokens με υψηλή ταχύτητα και χαμηλό καθυστέρηση.

Τι υπάρχει ήδη στη Vera Rubin
Η πλατφόρμα αποτελείται από έξι βασικά στοιχεία, που η Nvidia συγκεντρώνει σε μονάδες και κλιμακώνει σε μεγάλες AI‑κατασκευές:

Στοιχείο	Περιγραφή
GPU Rubin	Κάρτα γραφικών με 288 GB HBM4
CPU Vera	Κεντρική επεξεργαστική μονάδα
NVLink 6	Σύστημα ενδοσυσκευής κλιμάκωσης
ConnectX‑9	Έξυπνος δικτυακός προσαρμογέας BlueField‑4
Spectrum‑X	Διακομιστής επεξεργασίας δεδομένων
Switch	Μετασχηματιστής ενδοσυσκευής κλιμάκωσης με ενσωματωμένη οπτική

Ο Groq 3 LPU προστίθεται πλέον ως νέο δομικό στοιχείο που θα χρησιμοποιείται κατά την ανάπτυξη μεγάλων συστημάτων.

Γιατί ξεχωρίζει ο Groq 3 LPU
Η κύρια διαφορά είναι η αρχιτεκτονική μνήμης. Ενώ οι περισσότεροι επιταχυντές χρησιμοποιούν HBM ως λειτουργική μνήμη, κάθε Groq 3 LPU διαθέτει 500 MB SRAM. Σύγκριση:

Παράμετρο	GPU Rubin (HBM4)	Groq 3 LPU (SRAM)
Χωρητικότητα	288 GB	0,5 GB
Ταχύτητα μετάδοσης	~22 TB/s	έως 150 TB/s

Για εργασίες inference που είναι ευαίσθητες στην ταχύτητα μετάδοσης, η προτίμηση για το SRAM είναι σαφής. Γι’ αυτό η Nvidia εντάσσει τον Groq 3 στο Rubin – ώστε να αυξήσει την ταχύτητα εξαγωγής tokens.

Στήλη Groq 3 LPX
Η στήλη περιλαμβάνει 256 chips Groq 3 LPU, προσφέροντας:

- 128 GB SRAM
- Συνολική ταχύτητα μετάδοσης 40 PB/s
- Εσωτερική διεπαφή 640 TB/s

Ο διευθυντής υποκαταστήματος για υπερκλιμακούμενες λύσεις, Ιάν Μπάκ, ονόμασε αυτή τη στήλη ως συσυνεργάτη του Rubin, τονίζοντας το ρόλο της στη βελτίωση της απόδοσης αποκωδικοποίησης σε κάθε επίπεδο μοντέλου και token.

Επίδραση στις πολυσύστηματικές λύσεις
Ο Μπάκ ανέφερε ότι η Groq 3 LPX θα είναι κρίσιμος παράγοντας για το μελλοντικό AI‑πλαίσιο – τις πολυσυστημικές λύσεις. Όταν οι πράκτορες ανταλλάσσουν δεδομένα άμεσα, και όχι μέσω chatbot, οι απαιτήσεις απόκρισης αλλάζουν: από 100 tokens/s έως πάνω από 1 500+ tokens/s.

Ανταγωνιστές και προοπτικές
Στον κείμενο αναφέρεται ένας ανταγωνιστής – η Cerebras, που χρησιμοποιεί το Wafer‑Scale Engine (WSE) με τεράστια SRAM για χαμηλότερη καθυστέρηση inference. Η OpenAI έχει ήδη ενσωματώσει την Cerebras στα κορυφαία μοντέλα της λόγω της βολικής καθυστέρησης.

Ο Μπάκ ανέφερε επίσης ότι η εμφάνιση του Groq 3 LPU μπορεί να μειώσει την εξάρτηση από τον επιταχυντή Rubin CPX. Ενώ η Nvidia εστιάζει στην ενσωμάτωση της στήλης Groq 3 LPX με τη πλατφόρμα, και τα δύο chips προορίζονται για ενίσχυση του inference χωρίς την ανάγκη μεγάλων όγκων μνήμης GDDR7.

Συμπέρασμα:

Ο νέος χип Groq 3 LPU και η στήλη LPX ενισχύουν τη Vera Rubin στον τομέα χαμηλής καθυστέρησης inference, ανοίγοντας τον δρόμο για ταχύτερες πολυσυστημικές AI‑λύσεις και ανταγωνισμό με παίκτες όπως η Cerebras.

Η Nvidia κυκλοφόρησε το chip Groq 3 LPU, το οποίο επιταχύνει την inference των μοντέλων AI έως το επίπεδο token.

Related news

Η SpaceX κατηγορεί την Blue Origin για δημιουργία παρεμβολών από τις δέκτες της TeraWave, οι οποίες μπορεί να επηρεάσουν 10 εκατομμύρια χρήστες του Starlink.

Η Microsoft αγνοεί τις ευπάθειες στο Windows που εντόπισε ένας ερευνητής – τώρα αυτές ήδη εκμεταλλεύονται από χάκερς

Το Google Gemini έφτασε τα 750 εκατομμύρια ενεργούς χρήστες ανά μήνα, αφήνοντας το ChatGPT μόλις σε μικρή απόσταση από τον ηγέτη.

Η Nothing παρουσίασε την βήτα έκδοση του Essential Apps – μιας πλατφόρμας για τη δημιουργία μικρών εφαρμογών με τη χρήση τεχνητής νοημοσύνης

Σχόλια (0)

Συνδεθείτε για να σχολιάσετε

Η Nvidia κυκλοφόρησε το chip Groq 3 LPU, το οποίο επιταχύνει την inference των μοντέλων AI έως το επίπεδο token.

Related news

Η SpaceX κατηγορεί την Blue Origin για δημιουργία παρεμβολών από τις δέκτες της TeraWave, οι οποίες μπορεί να επηρεάσουν 10 εκατομμύρια χρήστες του Starlink.

Η Microsoft αγνοεί τις ευπάθειες στο Windows που εντόπισε ένας ερευνητής – τώρα αυτές ήδη εκμεταλλεύονται από χάκερς

Το Google Gemini έφτασε τα 750 εκατομμύρια ενεργούς χρήστες ανά μήνα, αφήνοντας το ChatGPT μόλις σε μικρή απόσταση από τον ηγέτη.

Η Nothing παρουσίασε την βήτα έκδοση του Essential Apps – μιας πλατφόρμας για τη δημιουργία μικρών εφαρμογών με τη χρήση τεχνητής νοημοσύνης

Συνδεθείτε για να σχολιάσετε

Η Nvidia κυκλοφόρησε το chip Groq 3 LPU, το οποίο επιταχύνει την inference των μοντέλων AI έως το επίπεδο token.

Η Nothing παρουσίασε την βήτα έκδοση του Essential Apps – μιας πλατφόρμας για τη δημιουργία μικρών εφαρμογών με τη χρήση τεχνητής νοημοσύνης