AI tani mund t'i kuptojë videot tuaja duke i parë ato

Përmbajtje:

AI tani mund t'i kuptojë videot tuaja duke i parë ato
AI tani mund t'i kuptojë videot tuaja duke i parë ato
Anonim

Folje kryesore

  • Studiuesit thonë se mund të mësojnë AI të etiketojë videot duke parë dhe dëgjuar.
  • Sistemi i AI mëson të përfaqësojë të dhëna për të kapur konceptet e përbashkëta midis të dhënave vizuale dhe audio.
  • Është pjesë e një përpjekjeje për të mësuar AI për të kuptuar konceptet që njerëzit nuk e kanë problem të mësojnë, por që kompjuterët e kanë të vështirë t'i kuptojnë.

Image
Image

Një sistem i ri i inteligjencës artificiale (AI) mund të shikojë dhe dëgjojë videot tuaja dhe të etiketojë gjërat që po ndodhin.

Kërkuesit e MIT kanë zhvilluar një teknikë që mëson AI për të kapur veprimet e përbashkëta midis videos dhe audios. Për shembull, metoda e tyre mund të kuptojë se akti i një fëmije që qan në një video lidhet me fjalën e folur "duke qarë" në një klip zanor. Është pjesë e një përpjekjeje për të mësuar AI se si të kuptojnë konceptet që njerëzit nuk e kanë problem t'i mësojnë, por që kompjuterët e kanë të vështirë t'i kuptojnë.

"Paradigma e përhapur e të mësuarit, të mësuarit e mbikëqyrur, funksionon mirë kur keni grupe të dhënash që përshkruhen mirë dhe janë të plota," tha eksperti i AI Phil Winder për Lifewire në një intervistë me email. "Fatkeqësisht, grupet e të dhënave janë rrallë të plota sepse bota reale ka një zakon të keq për të paraqitur situata të reja."

UA më e zgjuar

Kompjuterët e kanë të vështirë të kuptojnë skenarët e përditshëm sepse ata kanë nevojë për të shtypur të dhënat dhe jo tingujt dhe imazhet si njerëzit. Kur një makinë "sheh" një foto, ajo duhet ta kodojë atë foto në të dhëna që mund të përdorë për të kryer një detyrë si një klasifikim imazhi. Inteligjenca artificiale mund të bllokohet kur hyrjet vijnë në formate të shumta, si video, klipe audio dhe imazhe.

"Sfida kryesore këtu është, si mundet një makinë t'i përshtasë ato modalitete të ndryshme? Si njerëz, kjo është e lehtë për ne," tha Alexander Liu, një studiues i MIT dhe autori i parë i një punimi në lidhje me këtë temë, në një njoftim për lajme. "Ne shohim një makinë dhe më pas dëgjojmë zhurmën e një makine që kalon pranë, dhe ne e dimë se këto janë e njëjta gjë. Por për mësimin e makinerive, nuk është aq e thjeshtë."

Ekipi i Liu zhvilloi një teknikë të AI që ata thonë se mëson të përfaqësojë të dhënat për të kapur konceptet e përbashkëta midis të dhënave vizuale dhe audio. Duke përdorur këtë njohuri, modeli i tyre i të mësuarit me makinë mund të identifikojë se ku po ndodh një veprim specifik në një video dhe ta etiketojë atë.

Modeli i ri merr të dhëna të papërpunuara, të tilla si videot dhe titrat e tyre përkatëse të tekstit, dhe i kodon ato duke nxjerrë veçori ose vëzhgime rreth objekteve dhe veprimeve në video. Më pas i harton ato pika të dhënash në një rrjet, i njohur si një hapësirë e integruar. Modeli grumbullon të dhëna të ngjashme së bashku si pika të vetme në rrjet; secila prej këtyre pikave të të dhënave, ose vektorëve, përfaqësohet nga një fjalë individuale.

Për shembull, një videoklip i një personi që bën xhonglim mund të vendoset në një vektor të etiketuar "mashtrim".

Kërkuesit projektuan modelin në mënyrë që të mund të përdorë vetëm 1000 fjalë për të etiketuar vektorët. Modeli mund të vendosë se cilat veprime ose koncepte dëshiron të kodojë në një vektor të vetëm, por mund të përdorë vetëm 1000 vektorë. Modeli zgjedh fjalët që mendon se përfaqësojnë më mirë të dhënat.

"Nëse ka një video për derrat, modeli mund të caktojë fjalën 'derr' në një nga 1000 vektorët. Më pas, nëse modeli dëgjon dikë duke thënë fjalën 'derr' në një audioklip, duhet të përdorë ende të njëjtin vektor për ta koduar atë, " shpjegoi Liu.

Videot tuaja, të dekoduara

Sisteme më të mira etiketimi si ai i zhvilluar nga MIT mund të ndihmojnë në reduktimin e paragjykimeve në AI, tha Marian Beszedes, kreu i kërkimit dhe zhvillimit në firmën biometrike Innovatrics, në një intervistë për Lifewire. Beszedes sugjeroi që industria e të dhënave mund të shikojë sistemet e AI nga një perspektivë e procesit të prodhimit.

"Sistemet pranojnë të dhëna të papërpunuara si hyrje (lëndë të para), i përpunojnë paraprakisht, i gëlltisin, marrin vendime ose parashikime dhe nxjerrin analitikë (mallra të gatshme), " tha Beszedes. "Ne e quajmë këtë rrjedhë procesi "fabrika e të dhënave" dhe si proceset e tjera të prodhimit, ajo duhet t'i nënshtrohet kontrolleve të cilësisë. Industria e të dhënave duhet të trajtojë paragjykimet e AI si një problem cilësie.

"Nga këndvështrimi i konsumatorit, të dhënat e etiketuara gabim e bëjnë më të vështirë, p.sh. kërkimin në internet për imazhe/video specifike," shtoi Beszedes. "Me AI të zhvilluar siç duhet, ju mund të bëni etiketimin automatikisht, shumë më shpejt dhe më neutral sesa me etiketimin manual."

Image
Image

Por modeli MIT ka ende disa kufizime. Së pari, kërkimi i tyre u fokusua në të dhëna nga dy burime në të njëjtën kohë, por në botën reale, njerëzit ndeshen me shumë lloje informacioni në të njëjtën kohë, tha Liu

"Dhe ne e dimë se 1000 fjalë punojnë në këtë lloj grupi të dhënash, por nuk e dimë nëse mund të përgjithësohet në një problem të botës reale," shtoi Liu.

Kërkuesit e MIT thonë se teknika e tyre e re tejkalon shumë modele të ngjashme. Nëse AI mund të trajnohet për të kuptuar videot, mund të jeni në gjendje të kapërceni shikimin e videove të pushimeve të mikut tuaj dhe në vend të kësaj të merrni një raport të krijuar nga kompjuteri.

Recommended: