Η Google μειώθηκε την κατανάλωση μνήμης των μοντέλων AI έξι φορές, διατηρώντας την ακρίβεια, χάρη στον αλγόριθμο TurboQuant
Συνοπτική περιγραφή
Η Google Research παρουσίασε έναν νέο τρόπο συμπίεσης του KV‑cache μεγάλων γλωσσικών μοντέλων – TurboQuant. Ο αλγόριθμος μειώνει την ακρίβεια του cache σε 3 bits (4 bits, αν προσθέσουμε διόρθωση σφαλμάτων), χωρίς να βλάπτει την ακρίβεια των απαντήσεων και χωρίς επιπλέον εκπαίδευση. Σε επιταχυντές Nvidia H100, το TurboQuant αύξησε την απόδοση του υπολογισμού των logits προσοχής 8‑φορές και μειώθηκε το μέγεθος του KV‑cache έξι φορές.
Τι είναι το KV‑cache και γιατί είναι σημαντικό
* Το KV‑cache αποθηκεύει κλειδιά (K) και τιμές (V), που προκύπτουν κατά τον υπολογισμό της μηχανής προσοχής.
Αυτό επιτρέπει στο μοντέλο να μην τα επαναϋπολογίζει σε κάθε βήμα δημιουργίας tokens.
* Καθώς το παράθυρο συμφραζομένων μεγαλώνει, το cache αυξάνεται εκθετικά, οδηγώντας σε υψηλές απαιτήσεις μνήμης.
* Παραδοσιακές μεθόδους κβαντοποίησης μειώνουν το μέγεθος του cache αλλά απαιτούν αποθήκευση σταθερών κβαντοποίησης (λεξικά), παρόμοια με ZIP/RAR.
Αυτά τα λεξικά δημιουργούν σημαντικά πρόσθετα έξοδα.
Πώς λειτουργεί το TurboQuant
Το TurboQuant αποτελείται από δύο φάσεις και απομακρύνει εντελώς τα λεξικά.
| Φάση | Τι γίνεται | Γιατί είναι σημαντικό |
|---|---|---|
| 1. PolarQuant | Μετατροπή διανυσμάτων από καρτεσιανές συντεταγμένες σε πολικές (ακτίνα + γωνία). | Οι γωνιακές κατανομές είναι προβλέψιμες και συγκεντρωτικές, οπότε δεν χρειάζεται ακριβής φάση κανονικοποίησης κάθε μπλοκ. Προκύπτει υψηλής ποιότητας συμπίεση χωρίς λεξικά. |
| 2. 1‑bit επίπεδο διόρθωσης σφαλμάτων | Εφαρμογή κβαντοποιημένου αλγορίθμου Johnson–Lindenstrauss· η υπολειπόμενη σφάλμα περιορίζεται σε ένα bit. | Αφαιρεί συστηματική ανακρίβεια στους υπολογισμούς προσοχής με ελάχιστα πρόσθετα έξοδα. |
Πρακτικά αποτελέσματα
| Δοκιμή | Αλγόριθμοι | Αποτελέσματα |
|--------|------------|--------------|
| LongBench, Needle In A Haystack, ZeroSCROLLS, RULER, L‑Eval (Gemma & Mistral) | TurboQuant vs KIVI | TurboQuant: ελάχιστη συμπίεση 6× του KV‑cache· σε εργασίες αναζήτησης «συρρίκης στο σάκο» χωρίς απώλεια ακρίβειας. Σ το LongBench όχι χειρότερο, και μερικές φορές καλύτερο από το KIVI. |
| Διανυσματική αναζήτηση (GloVe) | TurboQuant vs Product Quantization, RabbiQ | Ακόμη και χωρίς εκπαίδευση, το TurboQuant ξεπέρασε τους εκπαιδευμένους ανταγωνιστές σε ποιότητα αποτελεσμάτων και κατανάλωση μνήμης. |
Συμπεράσματα
* Το TurboQuant επιτυγχάνει ισχυρή συμπίεση του KV‑cache έως 3–4 bits χωρίς απώλεια ακρίβειας και χωρίς πρόσθετη εκπαίδευση.
* Η απόδοση σε Nvidia H100 αυξήθηκε 8×, ενώ το μέγεθος του cache μειώθηκε έξι φορές.
* Ο αλγόριθμος λειτουργεί τόσο για μεγάλα γλωσσικά μοντέλα όσο και για εργασίες διανυσματικής αναζήτησης, χωρίς ανάγκη λεπτομερούς παραμετροποίησης.
Έτσι, το TurboQuant είναι έτοιμο για πρακτική χρήση ακόμη και υπό υψηλή φόρτιση και ανοίγει νέες δυνατότητες για αποδοτική εργασία με μεγάλα μοντέλα.
Σχόλια (0)
Μοιραστείτε τη γνώμη σας — παρακαλώ να είστε ευγενικοί και εντός θέματος.
Συνδεθείτε για να σχολιάσετε