એલોન મસ્ક દ્વારા સ્થપાયેલ OpenAI સ્પર્ધક XAI એ Grok નું પ્રથમ સંસ્કરણ રજૂ કર્યું છે જે દ્રશ્ય માહિતી પર પ્રક્રિયા કરી શકે છે. Grok-1.5v એ કંપનીનું પ્રથમ પેઢીનું મલ્ટિમોડલ AI મોડલ છે, જે માત્ર ટેક્સ્ટ જ નહીં, પણ “દસ્તાવેજો, આકૃતિઓ, ચાર્ટ્સ, સ્ક્રીનશૉટ્સ અને ફોટાઓ” પર પણ પ્રક્રિયા કરી શકે છે. XAI ની જાહેરાત કરતી વખતે, તેણે વાસ્તવિક દુનિયામાં તેની ક્ષમતાઓનો ઉપયોગ કેવી રીતે કરી શકાય તેના કેટલાક નમૂના આપ્યા. ઉદાહરણ તરીકે, તમે તેને ફ્લો ચાર્ટનું ચિત્ર બતાવી શકો છો અને ગ્રોકને પાયથોન કોડમાં તેનું ભાષાંતર કરવા માટે કહી શકો છો, તેને ડ્રોઇંગ પર આધારિત વાર્તા લખવા માટે કહી શકો છો અને તમે જે મેમ સમજી શકતા નથી તેને સમજાવવા માટે પણ કહી શકો છો. અરે, દરેક જણ ઇન્ટરનેટ પર બહાર નીકળેલી દરેક વસ્તુ સાથે તાલમેલ રાખી શકતો નથી.
કંપનીએ Grok-1.5નું અનાવરણ કર્યાના થોડા જ અઠવાડિયા પછી નવું વર્ઝન આવ્યું છે. તે મોડલ તેના પુરોગામી કરતાં કોડિંગ અને ગણિતમાં વધુ સારી રીતે ડિઝાઇન કરવામાં આવ્યું હતું, તેમજ તે ચોક્કસ પ્રશ્નોને વધુ સારી રીતે સમજવા માટે વધુ સ્રોતોમાંથી ડેટાનું પરીક્ષણ કરી શકે છે. xAI એ જણાવ્યું હતું કે તેના પ્રારંભિક પરીક્ષકો અને હાલના વપરાશકર્તાઓ ટૂંક સમયમાં Grok-1.5V ની ક્ષમતાઓનો આનંદ માણી શકશે, જોકે તેણે તેના રોલઆઉટ માટે ચોક્કસ સમયરેખા આપી નથી.
Grok-1.5V રજૂ કરવા ઉપરાંત, કંપનીએ એક બેન્ચમાર્ક ડેટાસેટ પણ બહાર પાડ્યો છે જેને તે RealWorldQA કહે છે. તમે AI મોડલ્સનું મૂલ્યાંકન કરવા માટે RealWorldQA ની કોઈપણ 700 છબીઓનો ઉપયોગ કરી શકો છો: દરેક આઇટમ પ્રશ્નો અને જવાબો સાથે આવે છે જેને તમે સરળતાથી ચકાસી શકો છો, પરંતુ જે Grok જેવા મલ્ટિમોડલ મોડલ્સને રોકી શકે છે. xAI એ દાવો કર્યો હતો કે જ્યારે કંપનીએ OpenAI ના GPT-4V અને Google Gemini Pro 1.5 જેવા સ્પર્ધકો સામે RealWorldQA સાથે તેનું પરીક્ષણ કર્યું ત્યારે તેની ટેક્નોલોજીએ સૌથી વધુ સ્કોર મેળવ્યો હતો.
આ લેખ મૂળરૂપે Engadget પર https://www.engadget.com/the-latest-version-of-xais-grok-can-process-images-120025782.html?src=rss પર દેખાયો હતો.