Η Apple έχει εκπαιδεύσει συμπαγή μοντέλα τεχνητής νοημοσύνης ώστε να περιγράφουν καλύτερα τις εικόνες από τα μεγαλύτερα ανταγωνιστικά μοντέλα.

Η Apple έχει εκπαιδεύσει συμπαγή μοντέλα τεχνητής νοημοσύνης ώστε να περιγράφουν καλύτερα τις εικόνες από τα μεγαλύτερα ανταγωνιστικά μοντέλα.

22 software

Η Apple αποκαλύπτει την νέα τεχνολογία «RubiCap» για περιγραφές εικόνων

Οι επιστήμονες της εταιρείας Apple δημιούργησαν μια μέθοδο με το όνομα *RubiCap*, η οποία επιτρέπει σε μικρές μοντέλα AI να παράγουν πιο ακριβείς και λεπτομερείς περιγραφές εικόνων από τις μεγάλες αντίστοιχες.

Πώς λειτουργεί το RubiCap
1. Ανάλυση της εικόνας

Για να δημιουργήσει μια λεπτομερή κείμενο, το μοντέλο πρώτα αναγνωρίζει πολλαπλά αντικείμενα και περιοχές στο πλάνη. Αυτό δίνει βαθιά κατανόηση της σύνθεσης, όχι επιφανειακή περιγραφή.

2. Πρακτική αξία

Αυτές οι δεξιότητες είναι χρήσιμες για την εκπαίδευση θυγατρικών μοντέλων AI, γεννήτριες εικόνων από κείμενο και εξειδικευμένες λειτουργίες (π.χ., βελτίωση του οπτικού περιεχομένου).

3. Πρόβλημα πόρων

Οι παραδοσιακές προσεγγίσεις εκπαίδευσης συστημάτων λεπτομερούς περιγραφής απαιτούν μεγάλες υπολογιστικές δαπάνες τόσο στην αρχική φάση όσο και στη συνέχεια με ενίσχυση μάθησης.

Πειραματική μέθοδος
- Επιλογή εικόνων – τυχαία επιλέχθηκαν 50 000 εικόνες από τα σύνολα *PixMoCap* και *DenseFusion‑4V‑100K*.

- Παραγωγή περιγραφών – χρησιμοποιήθηκαν υπάρχοντα μοντέλα υπολογιστικής όρασης: Google Gemini 2.5 Pro, OpenAI GPT‑5, Alibaba Qwen 2.5‑VL‑72B‑Instruct, Google Gemma‑3‑27B‑IT και Alibaba Qwen 3‑VL‑30B‑A3B‑Instruct, καθώς και τα εκπαιδεύσιμα μοντέλα της Apple.

- Αξιολόγηση ποιότητας – το Gemini 2.5 Pro λειτουργούσε ως ειδικός: αναλύει τις περιγραφές, εντοπίζει αντιστοιχίες και λάθη, διατυπώνει σαφείς κριτήρια αξιολόγησης.

- Δικαστική αξιολόγηση – το μοντέλο Qwen 2.5‑7B‑Instruct αποδίδει βαθμούς για κάθε κριτήριο και παράγει σήμα ανταμοιβής για το εκπαιδεύσιμο μοντέλο.

Αποτελέσματα
- Το εκπαιδεύσιμο μοντέλο λαμβάνει συγκεκριμένη ανατροφοδότηση, επιτρέποντας γρήγορη βελτίωση της ακρίβειας των περιγραφών χωρίς να εξαρτάται από μια μοναδική «σωστή» απάντηση.

- Τελικά η Apple δημιούργησε τρία δικά της μοντέλα: RubiCap‑2B, RubiCap‑3B και RubiCap‑7B (αντίστοιχα 2, 3 και 7 δισεκατομμύρια παραμέτρους).

- Σε δοκιμές περιγραφής εικόνων το RubiCap ξεπέρασε τους ανταγωνιστές με 32 mld και ακόμη και 72 mld παραμέτρων. Σε ορισμένες περιπτώσεις το RubiCap‑3B παρουσίασε καλύτερα αποτελέσματα από το RubiCap‑7B, επιβεβαιώνοντας ότι το μέγεθος του μοντέλου δεν εγγυάται πάντα την καλύτερη απόδοση.

Έτσι η τεχνολογία RubiCap δείχνει πώς μπορεί να επιτευχθεί υψηλή ποιότητα περιγραφής εικόνων με λιγότερους πόρους και πιο αποτελεσματική εκπαίδευση.

Σχόλια (0)

Μοιραστείτε τη γνώμη σας — παρακαλώ να είστε ευγενικοί και εντός θέματος.

Δεν υπάρχουν ακόμη σχόλια. Αφήστε ένα σχόλιο και μοιραστείτε τη γνώμη σας!

Για να αφήσετε σχόλιο, παρακαλώ συνδεθείτε.

Συνδεθείτε για να σχολιάσετε