Η Meta παρουσιάζει το ισχυρό εργαλείο MovieGen AI για τη δημιουργία βίντεο και ήχου
SHARE IT
07 Οκτωβρίου 2024
Η Meta παρουσίασε τη σειρά MovieGen των μοντέλων ΤΝ για την ίδρυση μέσων, τα οποία μπορούν να παράγουν ρεαλιστικές ταινίες με ήχο χρησιμοποιώντας οδηγίες κειμένου. Το MovieGen διαθέτει δύο βασικά μοντέλα: MovieGen Video και MovieGen Audio.
Το MovieGen Video είναι ένα μοντέλο μετασχηματιστή με 30 δισεκατομμύρια παραμέτρους που μπορεί να δημιουργήσει εικόνες και βίντεο υψηλής ποιότητας και ευκρίνειας από μία μόνο εντολή κειμένου. Τα βίντεο που δημιουργούνται μπορούν να έχουν διάρκεια έως και 16 δευτερόλεπτα, με ρυθμό καρέ 16 καρέ ανά δευτερόλεπτο.
Το MovieGen Audio είναι ένα μοντέλο μετασχηματιστή 13 δισεκατομμυρίων παραμέτρων που μπορεί να δεχτεί μια είσοδο βίντεο και προαιρετικές εντολές κειμένου για να παράγει ήχο υψηλής πιστότητας διάρκειας έως 45 δευτερολέπτων που συγχρονίζεται με το βίντεο. Αυτό το νέο μοντέλο ήχου μπορεί να παράγει ήχους περιβάλλοντος, οργανική μουσική υπόκρουση και ήχους Foley. Η Meta ισχυρίζεται ότι παρέχει αποτελέσματα αιχμής στην ποιότητα του ήχου, την ευθυγράμμιση βίντεο-ήχου και την ευθυγράμμιση κειμένου-ήχου.
Αυτά τα μοντέλα δεν είναι μόνο για τη δημιουργία ολοκαίνουργιων βίντεο. Σας επιτρέπουν να τροποποιείτε υπάρχοντα βίντεο με απλές οδηγίες κειμένου. Το MovieGen επιτρέπει επίσης στους χρήστες να εκτελούν τοπικές τροποποιήσεις, όπως προσθήκη, αφαίρεση ή αντικατάσταση στοιχείων, καθώς και σφαιρικές αλλαγές όπως σκηνικό ή στυλ. Για παράδειγμα, αν έχετε ένα βίντεο με κάποιον να πετάει μια μπάλα με μια απλή γραπτή οδηγία, μπορείτε να επεξεργαστείτε το βίντεο για να δείξετε το άτομο να πετάει ένα καρπούζι, διατηρώντας το υπόλοιπο αρχικό υλικό.
Τα μοντέλα MovieGen θα δώσουν τη δυνατότητα στους χρήστες να δημιουργήσουν εξατομικευμένα βίντεο. Αυτοί οι αλγόριθμοι μπορούν να δημιουργήσουν ταινίες κατά παραγγελία που διατηρούν την ανθρώπινη ταυτότητα και κίνηση χρησιμοποιώντας τη φωτογραφία ενός ατόμου και μια γραπτή υπόδειξη. Η Meta ισχυρίζεται ότι τα μοντέλα αυτά επιτυγχάνουν επιτεύγματα αιχμής στη διατήρηση των χαρακτήρων και της φυσικής κίνησης σε βίντεο.
Η Meta λέει ότι αυτά τα μοντέλα ξεπερνούν τα υπάρχοντα μοντέλα δημιουργίας βίντεο, όπως το OpenAI Sora και το Runway Gen-3. Η Meta συνεργάζεται τώρα με ειδικούς δημιουργούς για την τελειοποίηση του μοντέλου πριν από τη δημόσια κυκλοφορία του.