સ્ટેનફોર્ડ ઈન્ટરનેટ ઓબ્ઝર્વેટરીના સંશોધકો કહે છે કે AI ઈમેજ જનરેશન ટૂલને તાલીમ આપવા માટે ઉપયોગમાં લેવાતા ડેટાસેટમાં બાળ જાતીય શોષણ સામગ્રીના ઓછામાં ઓછા 1,008 માન્ય ઉદાહરણો છે. સ્ટેનફોર્ડના સંશોધકો નોંધે છે કે ડેટાસેટમાં CSAM ની હાજરી ડેટા પર પ્રશિક્ષિત AI મોડલ્સને CSAM ના નવા અને વાસ્તવિક ઉદાહરણો જનરેટ કરવાની મંજૂરી આપી શકે છે.
ડેટાસેટ બનાવનાર બિન-લાભકારી સંસ્થા LAION એ જણાવ્યું તે “ગેરકાયદેસર સામગ્રી માટે શૂન્ય સહિષ્ણુતા નીતિ ધરાવે છે અને પુષ્કળ સાવચેતીના કારણે, અમે LAION ડેટાસેટ્સને પુનઃપ્રકાશિત કરતા પહેલા સુરક્ષિત છે તેની ખાતરી કરવા માટે તેને અસ્થાયી રૂપે દૂર કરી રહ્યા છીએ.” સંસ્થાએ કહ્યું કે, તેના ડેટાસેટને પ્રકાશિત કરતા પહેલા, તેણે ગેરકાયદે સામગ્રીને શોધવા અને દૂર કરવા માટે ફિલ્ટર્સ બનાવ્યા. જો કે, 404 જણાવે છે કે LAION નેતાઓ ઓછામાં ઓછા 2021 થી જાણે છે કે તેમની સિસ્ટમ્સ CSAM અપનાવે તેવી શક્યતા છે કારણ કે તેઓએ ઇન્ટરનેટ પરથી અબજો છબીઓ ખાલી કરી છે.
અગાઉના અહેવાલો અનુસાર, LAION-5B ડેટાસેટમાં “પોર્નોગ્રાફી, હિંસા, બાળ નગ્નતા, જાતિવાદી મેમ્સ, નફરતના પ્રતીકો, કોપીરાઈટેડ આર્ટ અને ખાનગી કંપનીની વેબસાઈટ પરથી લેવામાં આવેલી કૃતિઓની લાખો ઈમેજો છે.” કુલ મળીને, તેમાં 5 બિલિયનથી વધુ છબીઓ અને સંબંધિત વર્ણનાત્મક કૅપ્શન્સ છે. LAION ના સ્થાપક ક્રિસ્ટોફ શુહમેને આ વર્ષની શરૂઆતમાં જણાવ્યું હતું કે તેઓ ડેટાસેટમાં કોઈપણ CSAM વિશે જાણતા ન હોવા છતાં, તેમણે ડેટાની ખૂબ ઊંડાણપૂર્વક તપાસ કરી ન હતી.
યુ.એસ.માં મોટાભાગની સંસ્થાઓ માટે ચકાસણી હેતુઓ માટે CSAM જોવું ગેરકાયદેસર છે. જેમ કે, સ્ટેનફોર્ડ સંશોધકોએ સંભવિત CSAM શોધવા માટે ઘણી તકનીકોનો ઉપયોગ કર્યો. અનુસાર, તેઓએ ડેટાસેટમાં ઇમેજ એમ્બેડિંગ્સનો લાભ લઈને “ગ્રહણાત્મક હેશ-આધારિત શોધ, ક્રિપ્ટોગ્રાફિક હેશ-આધારિત શોધ અને નજીકના-પડોશી વિશ્લેષણનો ઉપયોગ કર્યો.” તેમને 3,226 એન્ટ્રીઓ મળી જેમાં શંકાસ્પદ CSAM હતી. ફોટોડીએનએ અને કેનેડિયન સેન્ટર ફોર ચાઇલ્ડ પ્રોટેક્શન જેવા તૃતીય પક્ષો દ્વારા તેમાંથી ઘણી છબીઓને CSAM તરીકે પુષ્ટિ મળી હતી.
ઇમાદ મોસ્તાક, સ્ટેબિલિટી AIના સ્થાપક, LAION-5B ડેટાના સબસેટનો ઉપયોગ કરીને પ્રશિક્ષિત. Google નું Imagen ટેક્સ્ટ-ટુ-ઇમેજ મોડલ LAION-5B નું સબસેટ તેમજ આંતરિક ડેટાસેટ હતું. સ્ટેબિલિટી એઆઈના પ્રવક્તાએ જણાવ્યું હતું તે CSAM બનાવવા અથવા સંપાદિત કરવા જેવા ગેરકાયદેસર હેતુઓ માટે તેની ટેસ્ટ-ટુ-ઇમેજ સિસ્ટમના ઉપયોગને પ્રતિબંધિત કરે છે. “આ અહેવાલ સમગ્ર LAION-5B ડેટાસેટ પર ધ્યાન કેન્દ્રિત કરે છે,” પ્રવક્તાએ જણાવ્યું હતું. “ટકાઉતા AI મોડેલને તે ડેટાસેટના ફિલ્ટર કરેલ સબસેટ પર તાલીમ આપવામાં આવી હતી. વધુમાં, અમે શેષ વર્તણૂકોને ઘટાડવા માટે આ મોડલ્સને ફાઇન-ટ્યુન કર્યા છે.”
સ્ટેબલ ડિફ્યુઝન 2 (સ્ટેબિલિટી AIના ઇમેજ જનરેશન ટૂલનું નવીનતમ સંસ્કરણ) ડેટા પર તાલીમ આપવામાં આવ્યું હતું, જેણે મોટાભાગે ડેટાસેટમાંથી ‘અસુરક્ષિત’ સામગ્રીને ફિલ્ટર કરી હતી. તે, બ્લૂમબર્ગ નોંધો, વપરાશકર્તાઓ માટે સ્પષ્ટ છબીઓ જનરેટ કરવાનું વધુ મુશ્કેલ બનાવે છે. જો કે, એવો દાવો કરવામાં આવ્યો છે કે સ્ટેબલ ડિફ્યુઝન 1.5, જે હજુ પણ ઈન્ટરનેટ પર ઉપલબ્ધ છે, તેમાં સમાન સુરક્ષા નથી. સ્ટેનફોર્ડ પેપરના લેખકોએ લખ્યું હતું કે, “સ્ટેબલ ડિફ્યુઝન 1.5 પર આધારિત મોડેલો કે જેમાં સલામતીનાં પગલાં અમલમાં ન હોય તે દૂર કરવા જોઈએ અને જ્યાં શક્ય હોય ત્યાં વિતરણમાંથી બંધ કરવા જોઈએ.”
આ લેખ મૂળરૂપે Engadget પર https://www.engadget.com/researchers-found-child-abuse-material-in-the-largest-ai-image-nation-dataset-154006002.html?src=rss પર પ્રકાશિત કરવામાં આવ્યો હતો .