Rețeaua Neuronală A Fost învățată Să Copieze Vocea Umană Aproape Perfect - Vedere Alternativă

Cuprins:

Rețeaua Neuronală A Fost învățată Să Copieze Vocea Umană Aproape Perfect - Vedere Alternativă
Rețeaua Neuronală A Fost învățată Să Copieze Vocea Umană Aproape Perfect - Vedere Alternativă

Video: Rețeaua Neuronală A Fost învățată Să Copieze Vocea Umană Aproape Perfect - Vedere Alternativă

Video: Rețeaua Neuronală A Fost învățată Să Copieze Vocea Umană Aproape Perfect - Vedere Alternativă
Video: RNA Kohonen 2024, Aprilie
Anonim

Anul trecut, compania de informații artificiale DeepMind a împărtășit detalii despre noul său proiect WaveNet, o rețea neuronală de învățare profundă folosită pentru sinteza vorbirii umane realiste. Recent, a fost lansată o versiune îmbunătățită a acestei tehnologii, care va fi utilizată ca bază a asistentului digital digital Google Assistant.

Un sistem de sinteză vocală (cunoscut și sub denumirea de TTS) este de obicei construit în jurul uneia dintre cele două metode de bază. Metoda concatenativă (sau compilare) implică construcția de fraze prin colectarea de piese individuale de cuvinte înregistrate și părți înregistrate anterior cu implicarea unui actor vocal. Dezavantajul principal al acestei metode este nevoia de a înlocui constant biblioteca de sunet ori de câte ori se fac actualizări sau modificări.

O altă metodă se numește parametrul TTS, iar caracteristica sa este utilizarea seturilor de parametri cu care computerul generează fraza dorită. Dezavantajul metodei este că cel mai adesea rezultatul se manifestă sub forma unui sunet nerealist sau așa-numit robot.

WaveNet, pe de altă parte, produce unde sonore de la zero folosind un sistem de rețele neuronale convolutive în care sunetul este generat în mai multe straturi. În primul rând, pentru a instrui platforma pentru sintetizarea vorbirii „live”, este „alimentată” o cantitate imensă de eșantioane, în timp ce observă care semnale sonore sună realist și care nu. Acest lucru oferă sintetizatorului vocal capacitatea de a reproduce intonația naturalistă și chiar detalii, cum ar fi buzele smucitoare. În funcție de ce probe de vorbire sunt rulate prin sistem, acest lucru îi permite să dezvolte un „accent” unic, care pe termen lung poate fi folosit pentru a crea multe voci diferite.

Ascuțit pe limbă

Poate cea mai mare limitare a sistemului WaveNet a fost aceea că a necesitat o cantitate uriașă de putere de calcul pentru a rula și, chiar și atunci când această condiție a fost îndeplinită, nu a diferit în ceea ce privește viteza. De exemplu, a fost nevoie de aproximativ 1 secundă de timp pentru a genera 0,02 secunde de sunet.

După un an de muncă, inginerii DeepMind au găsit încă o modalitate de a îmbunătăți și de a optimiza sistemul astfel încât să poată acum să producă un sunet brut de o secundă în doar 50 de milisecunde, care este de 1000 de ori mai rapid decât capacitățile sale originale. Mai mult, specialiștii au reușit să crească rata de eșantionare audio de la 8 biți la 16 biți, ceea ce a avut un efect pozitiv asupra testelor care implică ascultători. Aceste succese au deschis calea pentru WaveNet să se integreze în produsele de larg consum, precum Google Assistant.

Video promotional:

În prezent, WaveNet poate fi utilizat pentru a genera voci englezești și japoneze prin Google Assistant și toate platformele care utilizează acest asistent digital. Întrucât sistemul poate crea un tip special de voci, în funcție de setul de eșantioane care i-a fost furnizat pentru formare, în viitorul apropiat, Google va implementa cel mai probabil suport pentru sintetizarea discursului realist în WaveNet în alte limbi, inclusiv luând în considerare acestea. dialectele locale.

Interfețele de vorbire devin din ce în ce mai frecvente pe o mare varietate de platforme, dar natura lor naturală pronunțată a sunetului dezactivează mulți utilizatori potențiali. Eforturile DeepMind de îmbunătățire a acestei tehnologii vor contribui cu siguranță la adoptarea mai largă a acestor sisteme de voce, precum și la îmbunătățirea experienței utilizatorului de la utilizarea lor.

Exemple de vorbire sintetizată în engleză și japoneză folosind rețeaua neuronală WaveNet pot fi găsite urmând această legătură.

Nikolay Khizhnyak

Recomandat: