માઈક્રોસોફ્ટ રિસર્ચ એશિયાએ VASA-1 નામના નવા પ્રાયોગિક AI ટૂલનું અનાવરણ કર્યું છે જે કોઈ વ્યક્તિની સ્થિર છબી લઈ શકે છે – અથવા કોઈ વ્યક્તિનું પોટ્રેટ – અને તેમાંથી વાસ્તવિક સમયમાં જીવંત વાત કરવા માટે અસ્તિત્વમાં રહેલી ઓડિયો ફાઇલ . તે વર્તમાન સ્થિર છબી માટે ચહેરાના હાવભાવ અને માથાની હલનચલન પેદા કરવાની ક્ષમતા ધરાવે છે અને ભાષણ અથવા ગીત સાથે મેળ ખાતી હોઠની હલનચલનને યોગ્ય છે. સંશોધકોએ પ્રોજેક્ટ પૃષ્ઠ પર ઘણા બધા ઉદાહરણો અપલોડ કર્યા છે, અને પરિણામો એટલા સારા લાગે છે કે તેઓ લોકોને તેઓ વાસ્તવિક છે તેવું વિચારવા માટે મૂર્ખ બનાવી શકે છે.
જો કે ઉદાહરણોમાં હોઠ અને માથાની હિલચાલ હજી પણ થોડી રોબોટિક અને સુમેળની બહાર લાગે છે, તે હજુ પણ સ્પષ્ટ છે કે વાસ્તવિક લોકોના ડીપફેક વિડિઓઝ બનાવવા માટે ટેક્નોલોજીનો ઉપયોગ કરી શકાય છે. સંશોધકો પોતે તે સંભવિતતાથી વાકેફ છે અને તેમણે “ઓનલાઈન ડેમો, APIs, ઉત્પાદનો, વધારાની અમલીકરણ વિગતો, અથવા કોઈપણ સંબંધિત તકો” પ્રકાશિત ન કરવાનો નિર્ણય લીધો છે જ્યાં સુધી તેઓ વિશ્વાસ ન કરે કે તેમની તકનીકનો ઉપયોગ જવાબદારીપૂર્વક કરવામાં આવશે યોગ્ય નિયમો અનુસાર.” જો કે, તેઓએ એ જણાવ્યું ન હતું કે શું તેઓ ખરાબ કલાકારોને ડીપફેક પોર્ન અથવા ખોટી માહિતી ઝુંબેશ બનાવવા જેવા નાપાક હેતુઓ માટે તેનો ઉપયોગ કરતા અટકાવવા માટે કેટલાક સુરક્ષા પગલાં અમલમાં મૂકવાની યોજના બનાવી રહ્યા છે.
સંશોધકો માને છે કે તેમની ટેક્નોલોજીના દુરુપયોગની સંભાવના હોવા છતાં પુષ્કળ ફાયદા છે. તેમણે કહ્યું કે તેનો ઉપયોગ શૈક્ષણિક ઇક્વિટી વધારવા તેમજ સંદેશાવ્યવહારના પડકારો ધરાવતા લોકો માટે સુલભતામાં સુધારો કરવા માટે થઈ શકે છે, કદાચ તેમને તેમના માટે સંચાર કરી શકે તેવા અવતારની ઍક્સેસ આપીને. તે જેમને તેની જરૂર છે તેમના માટે સાથીદારી અને રોગનિવારક સહાય પણ પ્રદાન કરી શકે છે, તેમણે જણાવ્યું હતું કે, VASA-1 નો ઉપયોગ એવા કાર્યક્રમોમાં થઈ શકે છે જે લોકો વાત કરી શકે તેવા AI અક્ષરોની ઍક્સેસ પ્રદાન કરે છે.
જાહેરાત સાથે પ્રકાશિત થયેલા પેપર મુજબ, VASA-1 ને VoxCeleb2 ડેટાસેટ પર તાલીમ આપવામાં આવી હતી, જેમાં “6,112 સેલિબ્રિટીઝના 1 મિલિયનથી વધુ ઉચ્ચારણો” છે, જે YouTube વિડિઓઝમાંથી લેવામાં આવ્યા હતા. ટૂલ વાસ્તવિક ચહેરાઓ પર પ્રશિક્ષિત હોવા છતાં, તે મોના લિસા જેવા કલાત્મક ફોટાઓ પર પણ કામ કરે છે, જેને સંશોધકોએ લીલ વેઈનના એન હેથવેના વાયરલ પ્રદર્શનની ઑડિયો ફાઇલ સાથે જોડ્યા હતા. પાપારાઝી, તે ખૂબ આનંદપ્રદ છે, તે જોવાનું મૂલ્યવાન છે, પછી ભલે તમે આ પ્રકારની ટેક્નોલોજી કેટલી સારી કામગીરી કરી શકે તે અંગે શંકાશીલ હોવ.
આ લેખ મૂળ રૂપે Engadget પર દેખાયો https://www.engadget.com/Microsofts-ai-tool-can-turn-photos-into-realistic-videos-of-people-talking-and-singing-070052240.html?src પ્રકાશિત ચાલુ =RSS