Η Google μειώθηκε την κατανάλωση μνήμης των μοντέλων AI έξι φορές, διατηρώντας την ακρίβεια, χάρη στον αλγόριθμο TurboQuant

Η Google μειώθηκε την κατανάλωση μνήμης των μοντέλων AI έξι φορές, διατηρώντας την ακρίβεια, χάρη στον αλγόριθμο TurboQuant

9 hardware

Συνοπτική περιγραφή

Η Google Research παρουσίασε έναν νέο τρόπο συμπίεσης του KV‑cache μεγάλων γλωσσικών μοντέλων – TurboQuant. Ο αλγόριθμος μειώνει την ακρίβεια του cache σε 3 bits (4 bits, αν προσθέσουμε διόρθωση σφαλμάτων), χωρίς να βλάπτει την ακρίβεια των απαντήσεων και χωρίς επιπλέον εκπαίδευση. Σε επιταχυντές Nvidia H100, το TurboQuant αύξησε την απόδοση του υπολογισμού των logits προσοχής 8‑φορές και μειώθηκε το μέγεθος του KV‑cache έξι φορές.

Τι είναι το KV‑cache και γιατί είναι σημαντικό
* Το KV‑cache αποθηκεύει κλειδιά (K) και τιμές (V), που προκύπτουν κατά τον υπολογισμό της μηχανής προσοχής.
Αυτό επιτρέπει στο μοντέλο να μην τα επαναϋπολογίζει σε κάθε βήμα δημιουργίας tokens.
* Καθώς το παράθυρο συμφραζομένων μεγαλώνει, το cache αυξάνεται εκθετικά, οδηγώντας σε υψηλές απαιτήσεις μνήμης.
* Παραδοσιακές μεθόδους κβαντοποίησης μειώνουν το μέγεθος του cache αλλά απαιτούν αποθήκευση σταθερών κβαντοποίησης (λεξικά), παρόμοια με ZIP/RAR.
Αυτά τα λεξικά δημιουργούν σημαντικά πρόσθετα έξοδα.

Πώς λειτουργεί το TurboQuant
Το TurboQuant αποτελείται από δύο φάσεις και απομακρύνει εντελώς τα λεξικά.

ΦάσηΤι γίνεταιΓιατί είναι σημαντικό
1. PolarQuantΜετατροπή διανυσμάτων από καρτεσιανές συντεταγμένες σε πολικές (ακτίνα + γωνία).Οι γωνιακές κατανομές είναι προβλέψιμες και συγκεντρωτικές, οπότε δεν χρειάζεται ακριβής φάση κανονικοποίησης κάθε μπλοκ. Προκύπτει υψηλής ποιότητας συμπίεση χωρίς λεξικά.
2. 1‑bit επίπεδο διόρθωσης σφαλμάτωνΕφαρμογή κβαντοποιημένου αλγορίθμου Johnson–Lindenstrauss· η υπολειπόμενη σφάλμα περιορίζεται σε ένα bit.Αφαιρεί συστηματική ανακρίβεια στους υπολογισμούς προσοχής με ελάχιστα πρόσθετα έξοδα.

Πρακτικά αποτελέσματα
| Δοκιμή | Αλγόριθμοι | Αποτελέσματα |
|--------|------------|--------------|
| LongBench, Needle In A Haystack, ZeroSCROLLS, RULER, L‑Eval (Gemma & Mistral) | TurboQuant vs KIVI | TurboQuant: ελάχιστη συμπίεση 6× του KV‑cache· σε εργασίες αναζήτησης «συρρίκης στο σάκο» χωρίς απώλεια ακρίβειας. Σ το LongBench όχι χειρότερο, και μερικές φορές καλύτερο από το KIVI. |
| Διανυσματική αναζήτηση (GloVe) | TurboQuant vs Product Quantization, RabbiQ | Ακόμη και χωρίς εκπαίδευση, το TurboQuant ξεπέρασε τους εκπαιδευμένους ανταγωνιστές σε ποιότητα αποτελεσμάτων και κατανάλωση μνήμης. |

Συμπεράσματα
* Το TurboQuant επιτυγχάνει ισχυρή συμπίεση του KV‑cache έως 3–4 bits χωρίς απώλεια ακρίβειας και χωρίς πρόσθετη εκπαίδευση.
* Η απόδοση σε Nvidia H100 αυξήθηκε 8×, ενώ το μέγεθος του cache μειώθηκε έξι φορές.
* Ο αλγόριθμος λειτουργεί τόσο για μεγάλα γλωσσικά μοντέλα όσο και για εργασίες διανυσματικής αναζήτησης, χωρίς ανάγκη λεπτομερούς παραμετροποίησης.

Έτσι, το TurboQuant είναι έτοιμο για πρακτική χρήση ακόμη και υπό υψηλή φόρτιση και ανοίγει νέες δυνατότητες για αποδοτική εργασία με μεγάλα μοντέλα.

Σχόλια (0)

Μοιραστείτε τη γνώμη σας — παρακαλώ να είστε ευγενικοί και εντός θέματος.

Δεν υπάρχουν ακόμη σχόλια. Αφήστε ένα σχόλιο και μοιραστείτε τη γνώμη σας!

Για να αφήσετε σχόλιο, παρακαλώ συνδεθείτε.

Συνδεθείτε για να σχολιάσετε