Rețeaua Neuronală A Fost învățată Să „anime” Portretele Bazate Pe O Singură Imagine Statică - Vedere Alternativă

Rețeaua Neuronală A Fost învățată Să „anime” Portretele Bazate Pe O Singură Imagine Statică - Vedere Alternativă
Rețeaua Neuronală A Fost învățată Să „anime” Portretele Bazate Pe O Singură Imagine Statică - Vedere Alternativă

Video: Rețeaua Neuronală A Fost învățată Să „anime” Portretele Bazate Pe O Singură Imagine Statică - Vedere Alternativă

Video: Rețeaua Neuronală A Fost învățată Să „anime” Portretele Bazate Pe O Singură Imagine Statică - Vedere Alternativă
Video: Crearea Deepfakes: animarea imaginilor cu AI 2024, Mai
Anonim

Specialiștii ruși de la Samsung AI Center-Moscova Center for Artificial Intelligence, în colaborare cu ingineri de la Institutul de Științe și Tehnologie Skolkovo, au dezvoltat un sistem capabil să creeze imagini animate realiste ale fețelor umane, bazate pe doar câteva cadre umane statice. De obicei, în acest caz, utilizarea bazelor de date mari de imagini este necesară, însă, în exemplul prezentat de dezvoltatori, sistemul a fost instruit să creeze o imagine animată a feței umane din doar opt cadre statice, iar în unele cazuri, una a fost suficientă. Pentru mai multe detalii despre dezvoltare, consultați un articol publicat în depozitul online ArXiv.org.

Image
Image

De regulă, este destul de dificil să reproducem un modul fotorealistic personalizat al feței umane datorită complexității fotometrice, geometrice și cinematice ridicate a reproducerii capului uman. Aceasta se explică nu numai prin complexitatea modelării feței în ansamblu (pentru aceasta există un număr mare de abordări ale modelării), ci și prin complexitatea modelării anumitor caracteristici: cavitatea bucală, părul și așa mai departe. Al doilea factor complicant este tendința noastră de a surprinde chiar și defecte minore în modelul finit al capetelor umane. Această toleranță scăzută pentru erorile de modelare explică prevalența actuală a avatarilor non-fotorealiste utilizate în teleconferință.

Potrivit autorilor, sistemul, supranumit învățarea Fewshot, este capabil să creeze modele extrem de realiste de vorbitori de oameni și chiar picturi de portret. Algoritmii sintetizează imaginea capului aceleiași persoane cu liniile de referință ale feței preluate dintr-un alt fragment al videoclipului sau folosind punctele de referință ale feței unei alte persoane. Ca sursă de material pentru instruirea sistemului, dezvoltatorii au folosit o bază de date extinsă de imagini video cu celebrități. Pentru a obține cel mai precis cap de vorbire posibil, sistemul trebuie să folosească mai mult de 32 de imagini.

Pentru a crea imagini de față animate mai realiste, dezvoltatorii au folosit evoluții anterioare în modelarea adversativă generativă (GAN, unde o rețea neuronală gândește detaliile unei imagini, de fapt, devenind artist), precum și o abordare de meta-învățare a mașinii, unde fiecare element al sistemului este instruit și proiectat pentru a rezolva unele sarcina specifica.

Schema meta-învățării
Schema meta-învățării

Schema meta-învățării.

Image
Image
Image
Image

Video promotional:

Trei rețele neuronale au fost folosite pentru procesarea imaginilor statice ale capetelor oamenilor și transformarea lor în cele animate: Embedder (rețea de implementare), Generator (rețea de generare) și Discriminator (rețea de discriminare). Primele partiții imaginile capului (cu repere faciale aproximative) în vectori de încorporare, care conțin informații independente de poză, a doua rețea folosește reperele faciale obținute de rețeaua de încorporare și generează date noi bazate pe ele printr-un set de straturi convolutive care oferă rezistență la schimbările de scară, deplasări, viraje, schimbarea unghiului și alte distorsiuni ale imaginii originale a feței. Un discriminator de rețea este utilizat pentru a evalua calitatea și autenticitatea celorlalte două rețele. Drept urmare, sistemul transformă reperele feței unei persoane în fotografii personalizate cu aspect realist.

Image
Image
Image
Image

Dezvoltatorii subliniază faptul că sistemul lor este capabil să inițialeze atât parametrii rețelei generatoare, cât și a rețelei de discriminare individual pentru fiecare persoană din imagine, astfel încât procesul de învățare poate fi bazat pe doar câteva imagini, ceea ce își mărește viteza, în ciuda necesității de a selecta zeci de milioane de parametri.

Nikolay Khizhnyak

Recomandat: