મેટાનો નવીનતમ ડેટાસેટ સ્પીકર્સનાં 'ક્લસ્ટર્સ' પર સ્પીચ રેકગ્નિશન એન્જિનને તાલીમ આપશે

iPhoneનું એલાર્મ લોકોને સવારે ઉઠવામાં મદદ નથી કરી રહ્યું, એપલે ચિંતામાં પડી રહેલા લોકોને કહ્યું આ વાત

AC ખરીદતા પહેલા જાણી લો આ ખૂબ જ મહત્વપૂર્ણ વાતો, નહીં તો તમને પાછળથી પસ્તાવું પડી શકે છે.

તે 2023 છે અને માફ કરશો, સિરીએ હજી પણ તે શોધી શક્યું નથી. તાજેતરના મહિનાઓમાં જનરેટિવ AI સિસ્ટમ્સમાં એડવાન્સિસની સુનામી હોવા છતાં, અમારા મોબાઇલ ઉપકરણો પરના સિન્થેટીક સહાયકો લગભગ 2011 જેટલા જ સાંભળવામાં મુશ્કેલ છે. મેટા AI તરફથી નવો વિકસિત ડેટાસેટ, જોકે, “એક્સેન્ટ લેવલ” પર સ્પીચ ક્લસ્ટર કરીને આવા ઓટોમેટિક સ્પીચ રેકગ્નિશન (ASR) ટૂલ્સના પ્રદર્શનને સુધારવાનું વચન આપે છે.

મેટાએ લાંબા સમયથી તેના ASR ની કામગીરીને સુધારવાની કોશિશ કરી છે, 4,000 થી વધુ બોલાતી ભાષાઓને ઓળખવા માટે ટ્રાન્સક્રિપ્ટની સહાય વિના તેમને તાલીમ આપી છે અને માનવ નિષ્ણાતો કરતાં વધુ કાર્યક્ષમતા પર લિપ સિંક પણ શીખવ્યું છે. જો કે, ASR મોડલ્સને તાલીમ આપવા માટે ઉપયોગમાં લેવાતા ઘણા ડેટાસેટ્સ વસ્તી વિષયક – વય જૂથ, લિંગ, રાષ્ટ્રીયતા, અંગ્રેજી ઉચ્ચાર દ્વારા ગોઠવવામાં આવે છે – જે ઉચ્ચારોની વિવિધતાને મર્યાદિત કરે છે જેના પર મોડેલને તાલીમ આપવામાં આવે છે, આખરે વપરાશકર્તાઓના વ્યાપક ક્રોસ સેક્શનને સમજવામાં અવરોધ આવે છે. તેમનું કામ. ,

આની આસપાસ જવા માટે, Meta AI એ એક ડેટાસેટ વિકસાવ્યો છે જે તેના બદલે ઉચ્ચારણ ક્લસ્ટરિંગ પદ્ધતિ પર આધાર રાખે છે. “સ્પીકરની વસ્તી વિષયક માહિતીના આધારે ડેટાસેટને વિભાજિત કરવાને બદલે … અમારું સૂચિત અલ્ગોરિધમ ક્લસ્ટર સ્પીચ ઉચ્ચારણ સ્તરે,” મેટા એઆઈ ટીમે બુધવારે એક બ્લોગ પોસ્ટમાં સમજાવ્યું. “એક એક ક્લસ્ટરમાં વક્તાઓના વિવિધ જૂથના સમાન નિવેદનો હશે. પછી અમે જુદા જુદા જૂથોનો ઉપયોગ કરીને અમારા મોડેલને તાલીમ આપી શકીએ છીએ અને વિવિધ વસ્તી વિષયક જૂથો માટે મોડેલ કેવી રીતે પરિણામોને અસર કરે છે તે માપવા માટે ન્યાયી ડેટાસેટનો ઉપયોગ કરી શકીએ છીએ.

મેટાના પરિણામી ડેટાસેટમાં 595 પેઇડ યુએસ સ્વયંસેવકો પાસેથી એકત્રિત કરવામાં આવેલા 27,000 થી વધુ આદેશ ઉચ્ચારણોનો સમાવેશ થાય છે. તેમનું વર્ણન સાત મુખ્ય થીમ્સની આસપાસ ફરે છે – સંગીત, કેપ્ચર, ઉપયોગિતાઓ, સૂચના નિયંત્રણ, મેસેજિંગ, કૉલિંગ અને શ્રુતલેખન – જેનો ઉપયોગ અન્ય સંશોધકો તેમના પોતાના મોડેલો અને ડિજિટલ સહાયકોને તાલીમ આપવા માટે કરી શકે છે. પ્રોમ્પ્ટ્સમાં સ્પીકર્સને પૂછવાનો સમાવેશ થાય છે કે તેઓ વૉઇસ પર ગીત કેવી રીતે શોધશે અથવા મિત્રો સાથે પ્લાન બનાવશે અને ક્યાં મળવું તે નક્કી કરશે.

તે 2023 છે અને માફ કરશો, સિરીએ હજી પણ તે શોધી શક્યું નથી. તાજેતરના મહિનાઓમાં જનરેટિવ AI સિસ્ટમ્સમાં એડવાન્સિસની સુનામી હોવા છતાં, અમારા મોબાઇલ ઉપકરણો પરના સિન્થેટીક સહાયકો લગભગ 2011 જેટલા જ સાંભળવામાં મુશ્કેલ છે. મેટા AI તરફથી નવો વિકસિત ડેટાસેટ, જોકે, “એક્સેન્ટ લેવલ” પર સ્પીચ ક્લસ્ટર કરીને આવા ઓટોમેટિક સ્પીચ રેકગ્નિશન (ASR) ટૂલ્સના પ્રદર્શનને સુધારવાનું વચન આપે છે.