Η Xiaomi ανέπτυξε ένα μοντέλο AI με 4,7 δισεκατομμύρια παραμέτρους, συνδυάζοντας οπτική αντίληψη, ομιλία και έλεγχο για ρομπότ.

Η Xiaomi εισέρχεται στην αγορά της ρομποτικής

Ο κινεζικός γίγαντας των κινητών συσκευών και του έξυπνου σπιτιού, γνωστός ως Xiaomi, ανακοίνωσε ένα νέο βήμα: την ανάπτυξη ενός δικού της μοντέλου τεχνητής νοημοσύνης για ρομπότ. Η εταιρεία παρουσίασε το Xiaomi‑Robotics‑0, σύστημα ανοιχτού κώδικα που συνδυάζει οπτική αναγνώριση, κατανόηση γλώσσας και έλεγχο ενέργειας σε πραγματικό χρόνο. Το μοντέλο έχει 4,7 milliard παραμέτρους και έχει ήδη θέσει αρκετά νέα рекорды τόσο σε προσομοιώσεις όσο και στην πράξη.

Πώς λειτουργεί το μοντέλο
Το ρομπότ συνήθως περνάει από τον κύκλο «αντίληψη → λήψη αποφάσεων → ενέργεια». Το Xiaomi‑Robotics‑0 ισορροπεί μεταξύ ευρείας κατανόησης της κατάστασης και ακριβούς ελέγχου της κινητικότητας χάρη στην αρχιτεκτονική Mixture‑of‑Transformers (MoT).

1. Ο οπλο-γλωσσικός μοντέλος (VLM) – το «καρδιά» του συστήματος.

* Εκπαιδεύεται να ερμηνεύει εντολές, ακόμη και ασαφείς (“παρακαλώ, βάλτε το πετσέτα”).
* Κατανοεί χωροπολιτικές σχέσεις βασιζόμενος σε υψηλής ποιότητας εικόνες.
* Εργασίες: ανίχνευση αντικειμένων, απαντήσεις σε οπτικά ερωτήματα και λογική συλλογή.

2. Ο ειδικός ενέργειας (Action Expert) – γεννήτρια κινήσεων.

* Βασίζεται σε διασπορά μετασχηματιστή (DiT).
* Δεν παράγει μία ενέργεια κάθε φορά· δημιουργεί ακολουθίες ενεργειών μέσω αντιστοίχισης ροών, εξασφαλίζοντας ομαλότητα και ακρίβεια.

Εκπαίδευση χωρίς απώλεια κατανόησης
Τα συνηθισμένα VLM χάνουν μέρος των δεξιοτήτων αντίληψής τους κατά την εκπαίδευση σε φυσικά προβλήματα. Η Xiaomi αντιμετώπισε αυτό το ζήτημα, εκπαιδεύοντας ταυτόχρονα το μοντέλο με πολυμορφικά δεδομένα (εικόνες + κείμενο) και δεδομένα ενέργειας. Η διαδικασία εκπαίδευσης αποτελείται από αρκετά στάδια:

1. Πρόταση ενεργειών – το VLM προβλέπει πιθανούς διανομείς ενεργειών στις εικόνες, συγχρονίζοντας την εσωτερική αναπαράσταση με τις πραγματικές λειτουργίες.

2. Μετά από αυτό το VLM «απενεργοποιείται», και το DiT περνάει ξεχωριστή εκπαίδευση για τη δημιουργία ακριβών ακολουθιών από θόρυβο, βασιζόμενο σε κλειδιά χαρακτηριστικά, όχι σε γλωσσικά tokens.

Μείωση καθυστερήσεων
Για την εξάλειψη των παύσεων μεταξύ προβλέψεων του μοντέλου και πραγματικών κινήσεων του ρομπότ χρησιμοποιείται ασύγχρονη παράδοση: οι υπολογισμοί της AI και οι ενέργειες του ρομπότ διαχωρίζονται. Αυτό επιτρέπει στα ρομπότ να κινούνται συνεχώς ακόμη και όταν απαιτείται πρόσθετος υπολογισμός.

* Clean Action Prefix – μέθοδος επαναφοράς προηγούμενης προβλεπόμενης ενέργειας, εξασφαλίζοντας ομαλότητα χωρίς σπρώχους.
* Μάσκα προσοχής επικεντρώνεται στη τρέχουσα οπτική σειρά, αγνοώντας τα παρελθοντικά καταστάσεις, καθιστώντας το ρομπότ πιο ανταποκρινόμενο σε ξαφνικές αλλαγές του περιβάλλοντος.

Αποτελέσματα
Σε προσομοιωτικές πλατφόρμες LIBERO, CALVIN και SimplerEnv το Xiaomi‑Robotics‑0 ξεπέρασε περίπου 30 αντιπάλους. Σε πραγματικό ρομπότ με δύο χειριστές, το μοντέλο αντιμετώπισε επιτυχώς σύνθετες εργασίες: βράσυνση πετσέτας, αποσυναρμολόγηση κατασκευαστικού σετ. Το ρομπότ παρουσίασε σταθερή συντονισμένη λειτουργία χεριών και ματιών, χειρίζοντας αντικείμενα με εξίσου αποτελεσματικότητα σε διάφορα σενάρια.

Έτσι η Xiaomi όχι μόνο επέκτεινε το χαρτοφυλάκιό της προϊόντων, αλλά έθεσε τα θεμέλια για περαιτέρω έρευνα στον χώρο του «φυσικού νοήματος» των ρομπότ.

Η Xiaomi ανέπτυξε ένα μοντέλο AI με 4,7 δισεκατομμύρια παραμέτρους, συνδυάζοντας οπτική αντίληψη, ομιλία και έλεγχο για ρομπότ.

Related news

Η εταιρεία της Καλιφόρνιας δημιούργησε ένα κεφαλαίο κράνος που επιτρέπει την ανάγνωση σκέψεων χωρίς βλάβες στον εγκέφαλο

Οι μηχανικοί δημιούργησαν μια συσκευή που επιτρέπει την τοποθέτηση ηλεκτρονικών εξαρτημάτων σε ζωντανούς ιστούς και ιατρικά εμφυτεύματα χωρίς βλάβες

Οι αστρονόμοι μπορούν πλέον να ανακατασκευάσουν την ιστορία της γαλαξίας, βασιζόμενοι μόνο σε μία φωτογραφία

Η Apple ξανά νίκησε τη Masimo στη μάχη για την ακρίβεια μέτρησης του επιπέδου οξυγόνου στο αίμα

Σχόλια (0)

Συνδεθείτε για να σχολιάσετε