Folje kryesore
- Kompanitë po garojnë për të gjetur mënyra për ta bërë fjalimin e krijuar nga kompjuteri të tingëllojë më realist.
- NVIDIA zbuloi së fundi mjete që mund të kapin tingujt e të folurit natyral duke ju lejuar të stërvitni një AI me zërin tuaj.
- Intonacioni, emocioni dhe muzikaliteti janë veçoritë që zërave të kompjuterit ende i mungojnë, thotë një ekspert.
Fjalimi i krijuar nga kompjuteri së shpejti mund të tingëllojë shumë më njerëzor.
Prodhuesi i pjesëve kompjuterike NVIDIA zbuloi së fundmi mjete që mund të kapin tingujt e të folurit natyral duke ju lejuar të stërvitni një AI me zërin tuaj. Softueri gjithashtu mund të japë fjalët e një folësi duke përdorur zërin e një personi tjetër. Është pjesë e një shtytjeje në rritje për ta bërë fjalimin kompjuterik më realist.
"Teknologjia e avancuar e inteligjencës artificiale të zërit po i lejon përdoruesit të flasin natyrshëm, duke kombinuar shumë pyetje në një fjali të vetme dhe duke eliminuar nevojën për të përsëritur vazhdimisht detajet nga pyetja origjinale," Michael Zagorsek, shefi operativ i kompanisë së njohjes së të folurit SoundHound, i tha Lifewire në një intervistë me email.
"Shtimi i gjuhëve të shumta, tani të disponueshme në shumicën e platformave të inteligjencës artificiale zanore, i bën asistentët e zërit dixhital të aksesueshëm në më shumë vende gjeografike dhe për më shumë popullsi," shtoi ai.
Robospeech Rising
Amazon Alexa dhe Siri i Apple tingëllojnë shumë më mirë se fjalimi kompjuterik i një dekade më parë, por nuk do të ngatërrohen për zërat autentikë njerëzorë së shpejti.
Për ta bërë të folurit artificial të tingëllojë më i natyrshëm, ekipi kërkimor i tekstit në të folur i NVIDIA zhvilloi një model RAD-TTS. Sistemi i lejon individët të mësojnë një model tekst-në-fjalim (TTS) me zërin e tyre, duke përfshirë ritmin, tonalitetin, timbrin dhe faktorë të tjerë.
Kompania përdori modelin e saj të ri për të ndërtuar një rrëfim zëri më bisedues për serinë e saj të videove I Am AI.
"Me këtë ndërfaqe, prodhuesi ynë i videos mund të regjistrojë veten duke lexuar skenarin e videos dhe më pas të përdorë modelin e AI për të kthyer fjalimin e tij në zërin e transmetuesit femër. Duke përdorur këtë tregim bazë, producenti më pas mund ta drejtojë AI si një aktori i zërit duke ndryshuar fjalimin e sintetizuar për të theksuar fjalë specifike dhe duke modifikuar ritmin e rrëfimit për të shprehur më mirë tonin e videos, " shkroi NVIDIA në faqen e saj të internetit.
Më vështirë se sa tingëllon
Të bësh fjalimin e krijuar nga kompjuteri të tingëllojë natyral është një problem i ndërlikuar, thonë ekspertët.
"Duhet të regjistroni qindra orë të zërit të dikujt për të krijuar një version kompjuterik të tij," i tha Lifewire në një intervistë me email Nazim Ragimov, CEO i kompanisë softuerike të tekstit në të folur Kukarella. “Dhe regjistrimi duhet të jetë i cilësisë së lartë, i incizuar në studio profesionale. Sa më shumë orë fjalime cilësore të ngarkohen dhe përpunohen, aq më i mirë është rezultati."
Tekst-në-të folur mund të përdoret në lojëra, për të ndihmuar individët me aftësi të kufizuara vokale ose për të ndihmuar përdoruesit të përkthejnë midis gjuhëve me zërin e tyre.
Intonacioni, emocioni dhe muzikaliteti janë tiparet që zërave të kompjuterit ende i mungojnë, tha Ragimov.
Nëse AI mund të shtojë këto lidhje që mungojnë, fjalimi i gjeneruar nga kompjuteri do të jetë "i padallueshëm nga zërat e aktorëve të vërtetë", shtoi ai. "Kjo është një punë në progres. Zëra të tjerë do të jenë në gjendje të konkurrojnë me drejtuesit e radios. Së shpejti do të shihni zëra që mund të këndojnë dhe lexojnë libra audio."
Teknologjia e të folurit po bëhet më e popullarizuar në një gamë të gjerë biznesesh.
"Industria e automjeteve ka qenë një adoptues i kohëve të fundit i inteligjencës artificiale zanore si një mënyrë për të krijuar përvoja më të sigurta dhe më të lidhura ngarje," tha Zagorsek.
"Që atëherë, asistentët zanorë janë bërë gjithnjë e më të kudondodhur pasi markat po kërkojnë mënyra për të përmirësuar përvojat e klientëve dhe për të përmbushur kërkesën për metoda më të lehta, më të sigurta, më të përshtatshme, efikase dhe higjienike të ndërveprimit me produktet dhe shërbimet e tyre."
Në mënyrë tipike, AI me zë i konverton pyetjet në përgjigje në një proces me dy hapa që fillon duke transkriptuar të folurin në tekst duke përdorur njohjen automatike të të folurit (ASR) dhe më pas duke e ushqyer atë tekst në një model të të kuptuarit të gjuhës natyrore (NLU).
Qasja e SoundHound kombinon këto dy hapa në një proces për të gjurmuar fjalimin në kohë reale. Kompania pretendon se kjo teknikë i lejon asistentët zanorë të kuptojnë kuptimin e pyetjeve të përdoruesve, edhe para se personi të përfundojë së foluri.
Përparimet e ardhshme në të folurin kompjuterik, duke përfshirë disponueshmërinë e një sërë opsionesh lidhjesh nga embedded-only (nuk kërkohet lidhje cloud) në hibride (e ngulitur plus cloud) dhe vetëm në cloud "do t'u japin më shumë zgjedhje kompanive në të gjithë industritë për sa i përket kostos, privatësisë dhe disponueshmërisë së fuqisë përpunuese, " tha Zagoresk.
NVIDIA tha se modelet e saj të lajmeve të AI shkojnë përtej punës së zërit.
"Tekst në të folur mund të përdoret në lojëra, për të ndihmuar individët me aftësi të kufizuara vokale ose për të ndihmuar përdoruesit të përkthejnë midis gjuhëve me zërin e tyre," shkroi kompania. "Mund të rikrijojë edhe performancat e këngëtarëve ikonë, duke përputhur jo vetëm me melodinë e një kënge, por edhe shprehjen emocionale pas vokalit."