Când Va începe Inteligența Artificială Să-și Exprime Seria - Vedere Alternativă

Cuprins:

Când Va începe Inteligența Artificială Să-și Exprime Seria - Vedere Alternativă
Când Va începe Inteligența Artificială Să-și Exprime Seria - Vedere Alternativă

Video: Când Va începe Inteligența Artificială Să-și Exprime Seria - Vedere Alternativă

Video: Când Va începe Inteligența Artificială Să-și Exprime Seria - Vedere Alternativă
Video: Elon Musk Avertizeaza Romania! Inteligenta Artificiala II Va Depasi Oamenii In 5 Ani! 2024, Aprilie
Anonim

Editorii ruși experimentează deja înregistrarea automată a cărților audio, în viitor, inteligența artificială poate fi încredințată cu traducerea serialelor și dublându-le cu vocile actorilor lor preferați. Despre caracteristicile unor astfel de tehnologii și cât timp va dura pentru a le crea.

Discursul oral devine scris

Pe YouTube, subtitrările automate pentru videoclipuri sunt create prin recunoașterea vocală și software-ul de traducere vorbire-text. Se bazează pe rețele neuronale de auto-învățare. Această opțiune are mai mult de zece ani, dar rezultatul este încă departe de ideal. De cele mai multe ori, nu puteți decât să surprindeți sensul general al celor spuse. Care este dificultatea?

Să spunem, explică Andrey Filchenkov, șeful laboratorului Machine Learning din cadrul Universității ITMO, că construim un algoritm pentru recunoașterea vorbirii. Acest lucru necesită instruirea unei rețele neuronale pe o gamă mare de date.

Va fi nevoie de sute, mii de ore de înregistrări de vorbire și compararea lor corectă cu texte, inclusiv marcarea începutului și sfârșitului frazelor, schimbarea interlocutorilor ș.a. Aceasta se numește incintă. Cu cât este mai mare, cu atât formarea rețelei neuronale este mai bună. Au fost create corpuri foarte mari pentru limba engleză, deci recunoașterea este mult mai bună. Dar pentru rusă sau, să zicem spaniolă, există date mult mai puține, iar pentru multe alte limbi nu există date deloc.

„Și rezultatul este potrivit”, concluzionează omul de știință.

„În plus, evaluăm sensul unui cuvânt, o frază dintr-un film nu numai prin sunet, înțelegerea actorului și a expresiilor sale faciale sunt de asemenea importante. Cum interpretezi asta? - adaugă Sergey Aksenov, profesor asociat la Departamentul de Tehnologia Informației al Universității Politehnice din Tomsk.

Video promotional:

„Cum să gestionezi caracteristicile vorbirii fluente? Articulație fuzzy, schițare, interjecții, pauze? La urma urmei, în funcție de aceasta, sensul se schimbă, ca în „nu poți fi iertat”. Cum să înveți o mașină să stabilească locul în care vorbitorul are virgulă? Și în poezie? - enumeră Marina Bolsunovskaya, șefa laboratorului „Sisteme de prelucrare a datelor de fluxuri industriale” ale Centrului NTI SPbPU.

Cele mai de succes proiecte, potrivit expertului, sunt în zone înguste. De exemplu, un sistem de recunoaștere a vorbirii profesionale a medicilor care folosesc termeni medicali, dezvoltat de grupul de companii MDG, ajută medicii să păstreze istoricul medical.

„Aici puteți contura clar aria subiectului și evidenția cuvintele cheie în vorbire. Medicul subliniază în mod specific anumite secțiuni cu intonație: reclamații ale pacienților, diagnostic”, clarifică Bolsunovskaya.

O altă problemă este subliniată de Mikhail Burtsev, șeful laboratorului de sisteme neuronale și învățare profundă la MIPT. Cert este că până acum mașina are mai mult succes în recunoașterea textului atunci când o persoană vorbește decât mai multe, ca în filme.

Traducere cu context

Să luăm un videoclip în limba engleză, de exemplu, o tăietură din serialul TV „Game of Thrones” și să pornim subtitrările automate în rusă. Ceea ce vedem este probabil să ne facă să râdem.

Încă de la * Game of Thrones *
Încă de la * Game of Thrones *

Încă de la * Game of Thrones *.

Cu toate acestea, în traducere automată, tehnologia a obținut un succes impresionant. Deci, Google Translate traduce texte în limbi comune într-un mod destul de tolerabil, adesea este necesară doar o editare minimă.

Cert este că traducerea rețelei neuronale este de asemenea instruită pe o gamă largă de date inițiale, corect etichetate - un corp paralel, care arată cum ar trebui să arate fiecare frază din limba originală în rusă.

„Construirea unor astfel de clădiri este foarte laborioasă, costisitoare și consumă mult timp, durează luni și ani. Pentru a instrui o rețea neuronală, avem nevoie de texte de dimensiunea Bibliotecii din Alexandria. Modelele sunt universale, dar depinde mult de limbă. Dacă furnizați o mulțime de date, de exemplu, în Avar, iar traducerea va fi de înaltă calitate, dar pentru Avar nu există pur și simplu o astfel de cantitate de date”, spune Andrey Filchenkov.

„Traducerea este un produs separat care este legat de original, dar nu este egal cu acesta”, spune Ilya Mirin, directorul Școlii de Economie Digitală din cadrul Universității Federale din Orientul Îndepărtat. - Un exemplu tipic îl reprezintă traducerile filmelor străine ale lui Dmitry Puchkov (Goblin) în anii 90. Abia după activitatea sa a devenit clar ce se întâmplă acolo. Nu am putut afla nimic adecvat din versiunile VHS. Alternativ, încercați să traduceți într-o limbă pe care o cunoașteți bine, ceva de la The Master și Margarita. De exemplu, „într-o mantie neagră cu căptușeală sângeroasă”. Mașina nu poate face asta."

Rețelele neuronale învață bine din multe exemple tipice, dar filmele sunt pline de semnificații și conotații complexe, glume care nu sunt accesibile mașinii - nu le poate distinge.

„În fiecare episod al serialului animat Futurama se face referire la cinematografia americană clasică - Casablanca, Roman Holiday și așa mai departe. În astfel de momente, pentru a surprinde și reambala sensul pentru cei care nu au vizionat aceste filme, traducătorul trebuie să vină cu un analog strâns din contextul rusesc. O traducere automată incorectă poate fi foarte descurajantă pentru privitor”, continuă Mirin.

În opinia sa, calitatea traducerii automate este aproape de 80 la sută, restul este specific care trebuie adăugat manual, implicând experți. „Și dacă 20-30 la sută din fraze necesită o corecție manuală, atunci la ce folosește traducerea automată? - spune cercetătorul.

„Traducerea este cea mai problematică etapă”, este de acord Sergey Aksenov. - Totul depinde de semantică și context. Instrumentele disponibile pot fi utilizate pentru traducere și acțiune vocală automată, de exemplu, desene animate pentru copii cu vocabular simplu. Dar, cu interpretarea unităților frazeologice, nume proprii, cuvinte care fac referire privitorilor la unele realități culturale, apar dificultăți.

În filme și videoclipuri, contextul este întotdeauna vizual și este adesea însoțit de muzică și zgomot. Speculăm din imagine despre ce vorbește eroul. Discursul transformat în text este lipsit de aceste informații, astfel încât traducerea este dificilă. Aceasta este situația pentru traducătorii care lucrează cu subtitrare text fără a vedea filmul. Adesea greșesc. Traducerea automată este aceeași poveste.

AI vocale vorbesc

Pentru a dubla o serie tradusă în rusă, aveți nevoie de un algoritm pentru generarea vorbirii naturale din text - un sintetizator. Sunt create de numeroase companii IT, inclusiv Microsoft, Amazon, Yandex și se descurcă destul de bine.

Potrivit lui Andrey Filchenkov, acum câțiva ani, un minut de copiere a unui sintetizator de vorbire a durat câteva ore, acum viteza de procesare a crescut mult. Sarcina de sinteză a vorbirii pentru unele domenii în care sunt necesare dialoguri neutre este rezolvată destul de bine.

Mulți iau deja de acord o conversație cu un robot la telefon, executarea comenzilor de la un navigator auto, un dialog cu Alice într-o mașină Yandex. Drive. Dar pentru seriile TV de dublare, aceste tehnologii nu sunt încă adecvate.

„Problema este emoția și acțiunea. Am învățat să facem ca mașina să fie vocală umană, dar astfel încât să sune încă adecvat contextului și să inspire încredere este departe. Poziția vocală slabă poate ucide cu ușurință percepția unui film , a spus Filchenkov.

Potrivit lui Mikhail Burtsev, sinteza vorbirii este destul de reală. Cu toate acestea, acest lucru este intensiv din punct de vedere al calculului și nu poate fi realizat în timp real la un preț rezonabil.

„Există algoritmi care sintetizează vorbirea care este similară cu cea a unui anumit actor. Acesta este timbrul, și modul de a vorbi și multe altele. Așadar, orice actor străin vorbește de fapt limba rusă”, prezice Burtsev. Se așteaptă la progrese notabile în următorii ani.

Serghei Aksenov acordă cinci-zece ani pentru a dezvolta instrumente pentru traducerea și dublarea lucrărilor complexe din cele mai comune limbi precum engleza. Omul de știință citează exemplul Skype, care a demonstrat în urmă cu câțiva ani posibilitatea de a organiza lecții online pentru școlari care vorbesc diferite limbi. Dar chiar și atunci, sistemul nu va fi ideal, va trebui să învețe constant: să câștige vocabular, să țină cont de contextul cultural.

Recomandat: