Η Google μειώθηκε την κατανάλωση μνήμης των μοντέλων AI έξι φορές, διατηρώντας την ακρίβεια, χάρη στον αλγόριθμο TurboQuant

Συνοπτική περιγραφή

Η Google Research παρουσίασε έναν νέο τρόπο συμπίεσης του KV‑cache μεγάλων γλωσσικών μοντέλων – TurboQuant. Ο αλγόριθμος μειώνει την ακρίβεια του cache σε 3 bits (4 bits, αν προσθέσουμε διόρθωση σφαλμάτων), χωρίς να βλάπτει την ακρίβεια των απαντήσεων και χωρίς επιπλέον εκπαίδευση. Σε επιταχυντές Nvidia H100, το TurboQuant αύξησε την απόδοση του υπολογισμού των logits προσοχής 8‑φορές και μειώθηκε το μέγεθος του KV‑cache έξι φορές.

Τι είναι το KV‑cache και γιατί είναι σημαντικό
* Το KV‑cache αποθηκεύει κλειδιά (K) και τιμές (V), που προκύπτουν κατά τον υπολογισμό της μηχανής προσοχής.
Αυτό επιτρέπει στο μοντέλο να μην τα επαναϋπολογίζει σε κάθε βήμα δημιουργίας tokens.
* Καθώς το παράθυρο συμφραζομένων μεγαλώνει, το cache αυξάνεται εκθετικά, οδηγώντας σε υψηλές απαιτήσεις μνήμης.
* Παραδοσιακές μεθόδους κβαντοποίησης μειώνουν το μέγεθος του cache αλλά απαιτούν αποθήκευση σταθερών κβαντοποίησης (λεξικά), παρόμοια με ZIP/RAR.
Αυτά τα λεξικά δημιουργούν σημαντικά πρόσθετα έξοδα.

Πώς λειτουργεί το TurboQuant
Το TurboQuant αποτελείται από δύο φάσεις και απομακρύνει εντελώς τα λεξικά.

Φάση	Τι γίνεται	Γιατί είναι σημαντικό
1. PolarQuant	Μετατροπή διανυσμάτων από καρτεσιανές συντεταγμένες σε πολικές (ακτίνα + γωνία).	Οι γωνιακές κατανομές είναι προβλέψιμες και συγκεντρωτικές, οπότε δεν χρειάζεται ακριβής φάση κανονικοποίησης κάθε μπλοκ. Προκύπτει υψηλής ποιότητας συμπίεση χωρίς λεξικά.
2. 1‑bit επίπεδο διόρθωσης σφαλμάτων	Εφαρμογή κβαντοποιημένου αλγορίθμου Johnson–Lindenstrauss· η υπολειπόμενη σφάλμα περιορίζεται σε ένα bit.	Αφαιρεί συστηματική ανακρίβεια στους υπολογισμούς προσοχής με ελάχιστα πρόσθετα έξοδα.

Πρακτικά αποτελέσματα
| Δοκιμή | Αλγόριθμοι | Αποτελέσματα |
|--------|------------|--------------|
| LongBench, Needle In A Haystack, ZeroSCROLLS, RULER, L‑Eval (Gemma & Mistral) | TurboQuant vs KIVI | TurboQuant: ελάχιστη συμπίεση 6× του KV‑cache· σε εργασίες αναζήτησης «συρρίκης στο σάκο» χωρίς απώλεια ακρίβειας. Σ το LongBench όχι χειρότερο, και μερικές φορές καλύτερο από το KIVI. |
| Διανυσματική αναζήτηση (GloVe) | TurboQuant vs Product Quantization, RabbiQ | Ακόμη και χωρίς εκπαίδευση, το TurboQuant ξεπέρασε τους εκπαιδευμένους ανταγωνιστές σε ποιότητα αποτελεσμάτων και κατανάλωση μνήμης. |

Συμπεράσματα
* Το TurboQuant επιτυγχάνει ισχυρή συμπίεση του KV‑cache έως 3–4 bits χωρίς απώλεια ακρίβειας και χωρίς πρόσθετη εκπαίδευση.
* Η απόδοση σε Nvidia H100 αυξήθηκε 8×, ενώ το μέγεθος του cache μειώθηκε έξι φορές.
* Ο αλγόριθμος λειτουργεί τόσο για μεγάλα γλωσσικά μοντέλα όσο και για εργασίες διανυσματικής αναζήτησης, χωρίς ανάγκη λεπτομερούς παραμετροποίησης.

Έτσι, το TurboQuant είναι έτοιμο για πρακτική χρήση ακόμη και υπό υψηλή φόρτιση και ανοίγει νέες δυνατότητες για αποδοτική εργασία με μεγάλα μοντέλα.

Η Google μειώθηκε την κατανάλωση μνήμης των μοντέλων AI έξι φορές, διατηρώντας την ακρίβεια, χάρη στον αλγόριθμο TurboQuant

Related news

Η εταιρεία της Καλιφόρνιας δημιούργησε ένα κεφαλαίο κράνος που επιτρέπει την ανάγνωση σκέψεων χωρίς βλάβες στον εγκέφαλο

Οι μηχανικοί δημιούργησαν μια συσκευή που επιτρέπει την τοποθέτηση ηλεκτρονικών εξαρτημάτων σε ζωντανούς ιστούς και ιατρικά εμφυτεύματα χωρίς βλάβες

Οι αστρονόμοι μπορούν πλέον να ανακατασκευάσουν την ιστορία της γαλαξίας, βασιζόμενοι μόνο σε μία φωτογραφία

Η Apple ξανά νίκησε τη Masimo στη μάχη για την ακρίβεια μέτρησης του επιπέδου οξυγόνου στο αίμα

Σχόλια (0)

Συνδεθείτε για να σχολιάσετε