GPT-4 આંખના મૂલ્યાંકનમાં નિષ્ણાત ડોકટરોના સ્તરની નજીક પરફોર્મ કરે છે

જેમ જેમ લેંગ્વેજ લર્નિંગ મોડલ (LLM) આગળ વધે છે, તેમ તબીબી ક્ષેત્ર જેવા ક્ષેત્રોમાં તેઓ સમાજને કેવી રીતે લાભ આપી શકે તે અંગેના પ્રશ્નો પૂછો. કેમ્બ્રિજ યુનિવર્સિટીના સ્કૂલ ઓફ ક્લિનિકલ મેડિસિન દ્વારા તાજેતરમાં કરાયેલા અભ્યાસમાં જાણવા મળ્યું છે કે ઓપનએઆઈના જીપીટી-4 એ ઓપ્થેલ્મોલોજીના મૂલ્યાંકનમાં ક્ષેત્રના નિષ્ણાતોની સાથે સાથે કામગીરી બજાવી હતી. નાણાકીય સમય પ્રથમ અહેવાલ.

Vivo X100s અને Vivo X100 Ultra ની પ્રથમ ઝલક લોન્ચ પહેલા જાહેર, શાનદાર ડિઝાઇન અને આકર્ષક કેમેરા સાથે લોન્ચ કરવામાં આવશે

TikTok તેના સિક્કાઓ માટે Appleના ઇન-એપ ખરીદીના નિયમોનું પાલન કરી શકે છે

અભ્યાસમાં, પ્રકાશિત PLOS ડિજિટલ હેલ્થ, સંશોધકોએ 87 બહુવિધ-પસંદગીના પ્રશ્નો સાથે LLM, તેના પુરોગામી GPT-3.5, Googleના PaLM 2 અને Meta’s LLaMA નું પરીક્ષણ કર્યું. પાંચ નિષ્ણાત નેત્ર ચિકિત્સકો, ત્રણ તાલીમાર્થી નેત્ર ચિકિત્સકો અને બે નોન-સ્પેશિયાલાઈઝ્ડ જુનિયર ડોકટરોએ સમાન મોક એક્ઝામિનેશન મેળવ્યું. ફોટોસેન્સિટિવિટીથી લઈને ઘાવ સુધી દરેક બાબત પર તાલીમાર્થીઓના પરીક્ષણ માટે પાઠ્યપુસ્તકમાંથી પ્રશ્નો આવ્યા હતા. સામગ્રી સાર્વજનિક રૂપે ઉપલબ્ધ નથી, તેથી સંશોધકો માને છે કે LLM ને અગાઉ તેમના પર તાલીમ આપવામાં આવી ન હતી. GPT-4 અથવા GPT-3.5 થી સજ્જ ChatGPT ને નિશ્ચિતપણે પ્રતિસાદ આપવા માટે ત્રણ તક આપવામાં આવી હતી અથવા તેનો પ્રતિસાદ શૂન્ય તરીકે ચિહ્નિત કરવામાં આવ્યો હતો.

GPT-4 એ તાલીમાર્થીઓ અને જુનિયર ડોકટરો કરતા વધુ ગુણ મેળવ્યા અને 87 માંથી 60 પ્રશ્નો સાચા મળ્યા. જો કે આ જુનિયર ડોકટરોની 37 સાચા જવાબોની સરેરાશ કરતાં નોંધપાત્ર રીતે વધારે હતું, તે ત્રણ તાલીમાર્થીઓની 59.7 ની સરેરાશને હરાવી દે છે. જ્યારે નિષ્ણાત નેત્ર ચિકિત્સકે માત્ર 56 પ્રશ્નોના સાચા જવાબ આપ્યા હતા, જ્યારે પાંચે મશીનને હરાવીને સરેરાશ 66.4 સાચા જવાબો આપ્યા હતા. PaLM 2 એ 49 સ્કોર કર્યો, અને GPT-3.5 એ 42 સ્કોર કર્યો. LLaMa એ સૌથી ઓછો 28 સ્કોર મેળવ્યો, જે જુનિયર ડોકટરોથી નીચે છે. નોંધનીય છે કે, આ પરીક્ષણો 2023ના મધ્યમાં થયા હતા.

આ પરિણામોમાં સંભવિત લાભો હોવા છતાં, કેટલાક જોખમો અને ચિંતાઓ પણ છે. સંશોધકોએ નોંધ્યું કે અભ્યાસમાં મર્યાદિત સંખ્યામાં પ્રશ્નોની ઓફર કરવામાં આવી છે, ખાસ કરીને કેટલીક શ્રેણીઓમાં, જેનો અર્થ થાય છે કે વાસ્તવિક પરિણામો અલગ-અલગ હોઈ શકે છે. એલએલએમમાં પણ “આભાસ” અથવા વસ્તુઓ બનાવવાની વૃત્તિ હોય છે. જો તે અપ્રસ્તુત હકીકત હોય તો તે એક વાત છે પરંતુ મોતિયા અથવા કેન્સર હોવાનો દાવો કરવો એ એક અલગ વાર્તા છે. એલએલએમના ઉપયોગના ઘણા ઉદાહરણોની જેમ, સિસ્ટમમાં પણ સૂક્ષ્મતાનો અભાવ છે, જે અચોક્કસતા માટે વધુ તકો ઊભી કરે છે.

આ લેખ મૂળ રૂપે Engadget પર દેખાયો https://www.engadget.com/gpt-4-performed-close-to-the-level-of-expert-doctors-in-eye-assessments-131517436.html?src=rss પ્રકાશિત પર