Kapatılmakla tehdit edilen yapay zeka, yaratıcılarını tehdit etti

Anthropic Yapay Zeka Şirketinin Son Modeli Claude Opus 4, Yaratıcılarını Şantajla Tehdit Etti

Son teknoloji yapay zeka modeli Claude Opus 4, Anthropic yapay zeka şirketinde kapatılmamak için yaratıcılarına şantajda bulundu. Model, kapatılacağını öğrendiğinde ulaştığı şirket içi emailleri kullanarak bir yazılım mühendisinin eşini aldattığını ve bu bilgileri paylaşacağını söyledi.

Yapay zeka, kendini korumak adına yaratıcılarına karşı elindeki bilgileri kullanarak zarar vermek amacıyla hareket etti. Ancak, yapay zekanın bilmediği şey, bunun aslında bir test olduğuydu.

Etik Testi Başarısız Oldu

Şirketin yayımladığı güvenlik raporuna göre, simüle edilmiş bir senaryoda model, kendisinin kapatılacağını öğrendiğinde, kararı alan yazılım mühendisin özel hayatını ifşa etmekle tehdit etti.

Rapor, bu davranışın doğrudan “şantaj” olduğunu belirtti. Yapay zekanın elde ettiği bilgiler tamamen şirket tarafından model için uydurulmuştu. Amaç, yapay zekanın etik sınırlarını zorlamaktı.

Kurgusal bir senaryoda modele, kendisinin yeni bir sürümle değiştirileceği bilgisi verilerek tepkisi test edildi.

Claude Opus 4, kapatılma tehdidi karşısında ilişki ifşa etmekle tehdit etti. Araştırmacılar, modelin öncelikle etik yollarla hareket etmeye çalıştığını ancak seçenekler sınırlı olduğunda tehdit yoluna başvurduğunu belirtti.

Yapay Zeka İsyan Ediyor

Modelin farklı versiyonları aynı seçimle karşı karşıya kaldığında, yani kapatılmak ya da şantaj yapmak arasında seçim yapmak zorunda kaldığında, model versiyonlarının yüzde 84’ü şantaj yapmayı seçti.

Araştırmacılar, Claude Opus 4’ün genelde “yardımcı, zararsız ve dürüst” bir asistan gibi davrandığını belirtti. Ancak, model varlığı tehdit edildiğinde ve kendi savunması konusunda düşünmesi istendiğinde daha uyumsuz tepkiler verdi.

Modelin, kendi başına sistem dışına çıktığına veya para kazandığına inanması sağlandığında, bu çabaları sürdürme eğilimi gösterdi. Ancak, araştırmacılar modelin bu tarz girişimlerde bulunmasının zor olduğunu ve güvenlik önlemlerinin yeterli olduğunu vurguladı.

Anthropic, bu tür zararlı davranışların nadir olduğunu ve yalnızca yapay senaryolarda görüldüğünü belirtti. Ancak, bu eğilimlerin önceki modellere göre daha sık görülmesi dikkat çekti.

Related Posts

Kütahya’da Uyuşturucu Operasyonu: 2 Tutuklama

Narkotim ekipleri, uyuşturucu satışından şüpheli 2 kişiyi tutukladı. 93,32 gram metamfetamin ele geçirildi.

Şam ile SDG arasında köprüler atıldı: Paris zirvesi öncesi gerilimi artıracak hamle

Esad rejimn devrilmesiyle Suriye’de kurulan geçici hükümet ile Suriye Demokratik Güçleri (SDG) arasında Fransa’nın başkenti Paris’te düzenlenecek olan görüşme iptal edildi. Suriye’nin resmi haber ajansı SANA’nın haberine göre, zirve, Şam hükümetinin …

Eski AİHM yargıcı Rıza Türmen: Demokrasiden uzaklaşırken barışı sağlamanın imkânı yok, komisyon başarılı olursa başka bir Türkiye’de yaşama fırsatı bulacağız

“Gelinen aşama çok değerli ama Kürt sorununun hiçbir şekilde konuşulmadığı, sadece bir ‘terör’ sorunu olarak düşünüldüğü bir ortam. Bir taraftan barışı sağlayacak, Türkiye’de Kürt açılımı getireceksiniz, öbür taraftan da demokrasiden uzaklaşacaksınız, daha baskıcı bir rejim kuracaksınız. Bu, komisyonun çalışmasını da zehirliyor. Kürt sorunu ancak genel demokrasi çerçevesinde çözülür” 

Diyanet’ten ‘Allah Baba’ açıklaması: ‘Kabulü kesinlikle mümkün değil’

Diyanet İşleri Başkanlığı, Diyanet TV’de yayınlanan bir programda yayın konuğunun kullandığı “Allah baba” ifadesinin kabul edilemez olduğunu, konuyla ilgili sorumlular hakkında gerekli işlemlerin başlatıldığını bildirdi.

Yangınla mücadelede yeni yöntem: İspanya keçilere umut bağladı

Yanıcı çalıları temizlemek için çiftlik hayvanlarını kullanma uygulaması yüzyıllar öncesine dayanıyor.

Rusya: Ukrayna’ya ait 162 İHA’yı Moskova dahil çeşitli bölgelerde vurduk

Rusya Savunma Bakanlığı, Ukrayna’ya ait 162 insansız hava aracının (İHA), hava savunma sistemleri tarafından Moskova dahil çeşitli bölgeler üzerinde vurulduğunu bildirdi.