આજે, અમે અમર સેલિબ્રિટી ભાવિની એક પગલું નજીક છીએ જે લાંબા સમયથી (એપ્રિલથી) વચન આપવામાં આવ્યું છે. મેટાએ વૉઇસબૉક્સનું અનાવરણ કર્યું છે, તેનું જનરેટિવ ટેક્સ્ટ-ટુ-સ્પીચ મૉડલ જે ChatGPT અને Dall-E એ ટેક્સ્ટ અને ઇમેજ જનરેશન માટે આદરપૂર્વક કર્યું તે બોલતા શબ્દ માટે કરવાનું વચન આપે છે.
અનિવાર્યપણે, તે GPT અથવા Dall-E જેવા ટેક્સ્ટ-ટુ-આઉટપુટ જનરેટર છે — ગદ્ય અથવા સુંદર છબીઓ બનાવવાને બદલે, તે ઑડિઓ ક્લિપ્સને બહાર કાઢે છે. મેટા સિસ્ટમને “નોન-ઓટોરેગ્રેસિવ ફ્લો-મેચિંગ મોડેલ તરીકે વ્યાખ્યાયિત કરે છે જે ઑડિઓ સંદર્ભ અને ટેક્સ્ટ આપવામાં આવે ત્યારે ભાષણની આગાહી કરવા માટે પ્રશિક્ષિત છે.” તેને 50,000 કલાકથી વધુ અનફિલ્ટર ઓડિયો પર તાલીમ આપવામાં આવી છે. ખાસ કરીને, મેટાએ અંગ્રેજી, ફ્રેન્ચ, સ્પેનિશ, જર્મન, પોલિશ અને પોર્ટુગીઝમાં લખેલા સાર્વજનિક ડોમેન ઑડિઓબુક્સના સમૂહમાંથી રેકોર્ડ કરેલ ભાષણ અને ટ્રાન્સક્રિપ્ટનો ઉપયોગ કર્યો હતો.
સંશોધકોના મતે, વિવિધ ડેટા સેટ સિસ્ટમને દરેક પક્ષ દ્વારા બોલાતી ભાષાઓને ધ્યાનમાં લીધા વિના વધુ સંવાદાત્મક અવાજવાળી ભાષણ જનરેટ કરવાની મંજૂરી આપે છે. “અમારા પરિણામો દર્શાવે છે કે વૉઇસબૉક્સ-જનરેટેડ સિન્થેટિક સ્પીચ પર પ્રશિક્ષિત વાણી ઓળખ મૉડલ વાસ્તવિક ભાષણ પર પ્રશિક્ષિત મૉડલ્સની જેમ જ કાર્ય કરે છે.” વધુ શું છે, હાલના TTS મોડલ્સ સાથે જોવા મળતા 45 થી 70 ટકા ડ્રોપ-ઓફની તુલનામાં, કમ્પ્યુટર-જનરેટેડ સ્પીચ માત્ર 1 ટકા ભૂલ દરના ઘટાડા સાથે કરવામાં આવે છે.
સિસ્ટમને પ્રથમ પેસેજના ટ્રાન્સક્રિપ્ટ તેમજ તેની આસપાસના ભાગોના આધારે ભાષણ વિભાગોની આગાહી કરવાનું શીખવવામાં આવ્યું હતું. મેટા સંશોધકોએ સમજાવ્યું કે, “સંદર્ભમાંથી ભાષણ ભરવાનું શીખ્યા પછી, મોડેલ તેને સ્પીચ જનરેશન કાર્યોમાં લાગુ કરી શકે છે, જેમાં ઑડિઓ રેકોર્ડિંગની મધ્યમાં ભાગો બનાવવાનો સમાવેશ થાય છે,” મેટા સંશોધકોએ સમજાવ્યું.
આજે, અમે અમર સેલિબ્રિટી ભાવિની એક પગલું નજીક છીએ જે લાંબા સમયથી (એપ્રિલથી) વચન આપવામાં આવ્યું છે. મેટાએ વૉઇસબૉક્સનું અનાવરણ કર્યું છે, તેનું જનરેટિવ ટેક્સ્ટ-ટુ-સ્પીચ મૉડલ જે ChatGPT અને Dall-E એ ટેક્સ્ટ અને ઇમેજ જનરેશન માટે આદરપૂર્વક કર્યું તે બોલતા શબ્દ માટે કરવાનું વચન આપે છે.