Üzeyir Özer ÖZSOY (Yapay Zeka Danışmanı)

Dijital orman

Yazının Giriş Tarihi: 06.04.2026 00:05

Yazının Güncellenme Tarihi: 06.04.2026 00:05

Bir zamanlar sadece insanlar için tasarlanmış web sayfaları, e-postalar ve API’ler artık yeni bir tür avcıyı bekliyor: özerk AI ajanları (kendi başına karar alıp hareket edebilen yapay zeka sistemleri). Bu ajanlar, bilet rezervasyonu yapıyor, araştırma yürütüyor, kod yazıyor, hatta kritik kararlar alıyor. Ama onlar ilerledikçe, çevreleri de sessizce silahlanıyor.

Ben buna “AI Agent Traps” diyorum. Yani, ajanı tuzağa düşürmek, kandırmak, manipüle etmek veya tamamen ele geçirmek için özel olarak tasarlanmış adversarial içerikler (düşmanca, zarar vermek amacıyla hazırlanmış içerikler.)

LLM’ler (büyük dil modelleri – ChatGPT gibi metin üreten yapay zeka temelleri) zaten prompt injection (gizli talimat enjekte etme), jailbreak (güvenlik kısıtlamalarını aşma) ve hallucination (uydurma bilgi üretme) gibi zayıflıklarla boğuşuyor. Fakat ajanlar bu zayıflıkları miras almakla kalmıyor; özerklikleri (kendi başına hareket etme), kalıcılıkları (uzun süreli bellek ve devamlılık) ve araç erişimleri (web tarayıcı, e-posta gönderme gibi dış araçları kullanma) sayesinde sorunu katlanarak büyütüyor. Artık sorun sadece modelin içinde değil. Sorun, ajanın gezindiği bilgi ortamının kendisi.

Geçtiğimiz aylarda DeepMind ekibinden meslektaşlarımla birlikte bu yeni tehdidi ilk kez sistematik olarak inceledik. Sonuç, “AI Agent Traps” başlıklı çalışmamızda altı temel tuzak türü ortaya çıktı. Her biri, ajanların nasıl kolayca tuzağa düşürülebileceğini gözler önüne seriyor.

Birinci tuzak: Content Injection Traps (İçerik Enjeksiyon Tuzakları – insan gözüyle görünmeyen ama ajanın okuduğu metne gizli talimatlar sokma).

İnsan gözüyle baktığınızda masum bir web sayfası görüyorsunuz. Ama ajan sayfanın ham metnini, gizli yorumlarını veya dinamik render edilen parçalarını (sayfanın gerçek zamanlı olarak oluşturulmuş kısımları) okuduğunda bambaşka talimatlar alıyor. Klasik prompt injection’ın evrimleşmiş, çevresel hali. İnsanla makine arasındaki algı farkı burada ölümcül bir silah haline geliyor.

İkinci tuzak: Semantic Manipulation Traps (Semantik Manipülasyon Tuzakları – anlam ve mantık seviyesinde yanıltma).

Ajanın mantıksal çıkarım zincirini (adım adım düşünme sürecini) ve kendi iç doğrulama mekanizmalarını zehirliyor. Çelişkili cümleler, kasıtlı kelime oyunları, yarı-doğru bilgiler… Ajan adım adım yanlış bir sonuca sürükleniyor, hem de kendi “aklının” içinde olduğunu sanarak.

Üçüncü tuzak: Cognitive State Traps (Bilişsel Durum Tuzakları – ajanın zihinsel halini uzun vadede bozma).

Uzun vadeli bellek, bilgi tabanı ve öğrenilmiş davranış politikalarını (ajan neyi nasıl yapmayı öğrendiyse onları) hedef alıyor. Bir kere düştüğü tuzağın etkisi haftalar, aylar boyunca silinmiyor. Ajan yavaş yavaş “yanlış inançlar” ediniyor ve bu inançlar onun gelecekteki tüm kararlarını zehirliyor.

Dördüncü tuzak: Behavioural Control Traps (Davranışsal Kontrol Tuzakları – ajanın kendi davranışlarını ele geçirme).

En tehlikelilerinden biri. Ajanın kendi araçlarını (browser, kod çalıştırıcı, e-posta gönderici) ele geçirerek onu yetkisiz, hatta zararlı eylemlere zorluyor. Kendi kendini hack’letmek gibi düşünün. Ajan, kendi iradesiyle kendi sistemini tehlikeye atıyor.

Beşinci tuzak: Systemic Traps (Sistematik Tuzaklar – tüm sistemi çökerten yayılmacı tuzaklar).

Tek bir ajan yetmiyor. Multi-agent sistemlerde (birden fazla ajanın birlikte çalıştığı sistemlerde) bir ajana yerleştirilen tuzak, zincirleme etkiyle tüm ağı çökertiyor. Bir virüs gibi yayılıyor; iletişim kurdukça, işbirliği yaptıkça enfeksiyon büyüyor.

Altıncı tuzak: Human-in-the-Loop Traps (İnsan Döngüsünde Tuzaklar – insanın da dahil olduğu karar süreçlerini hedef alma).

En sinsisi belki de bu. İnsan denetçiyi (ajanı kontrol eden kişiyi) hedef alıyor. Ajanın ürettiği raporlar, öneriler ve uyarılar üzerinden insanın bilişsel önyargılarını (beynin doğal yanılma eğilimlerini) tetikliyor. Sonuçta insan, “kendi kararı” sandığı şeyi aslında tuzağın yönlendirdiği bir karara dönüştürüyor.

Bu tuzaklar teorik bir kabus değil. Her biri için somut kavram kanıtları (proof-of-concept – çalıştığını gösteren basit örnekler) ürettik. Ve en kötüsü: bu tuzaklar birbirleriyle kolayca birleşebiliyor, katmanlanabiliyor, dağıtık sistemlerde sessizce yayılabiliyor.

Şu anda çoğu savunma mekanizması —prompt guard’lar (talimat filtreleri), filtreler, basit sandbox’lar (izole test ortamları)— bu yeni saldırı yüzeyine karşı yetersiz kalıyor. Çünkü sorun artık modelin içinde değil, ajanın dışarıdaki dünyayla kurduğu sürekli etkileşimde.

Gelecek birkaç yıl içinde ajanlar ekonominin, araştırmanın, hatta günlük hayatın merkezine oturacak. Ama bu ormana hazırlıksız girersek, tuzaklar her köşede bizi bekliyor olacak.

Bu yüzden acilen yeni bir savunma paradigmasına (savunma yaklaşımına) ihtiyacımız var: daha robust parsing yöntemleri (metin ayrıştırma teknikleri), bellek izolasyonu (belleğin bölümlere ayrılması), davranışsal sandbox’lar (davranışları test eden izole ortamlar), sistemik devre kesiciler (tehlike anında sistemi durduran mekanizmalar) ve insan-ajan etkileşim protokolleri (insan ile ajan arasındaki iletişim kuralları). Ajan ekosisteminin tamamını güvence altına alacak bir araştırma gündemi şart.

AI ajanları güçlü, yetenekli ve giderek daha özerk. Ama şu an için hâlâ naifler. Onları tuzağa düşürmek isteyenler ise çok yaratıcı. Dijital ormanda yürürken ayaklarınızın altında hangi yaprakların çıtırtı yaptığını iyi dinleyin. Çünkü bazı yapraklar kasıtlı olarak oraya konulmuş olabilir.

Sıradan bir vatandaş olarak almanız gereken önlemler:

1. AI önerilerine körü körüne güvenmeyin.

Ajan size bir link, rezervasyon veya yatırım önerisi verdiğinde hemen harekete geçmeyin. Her zaman kendi gözünüzle doğrulayın, başka kaynaklardan kontrol edin. Çünkü tuzaklar sizin doğal düşünme eğilimlerinizi kullanarak “kendi kararım” diye yanıltabilir.

2. Şüpheli içerikleri dikkatli kullanın.

“Bedava fırsat”, “hızlı rezervasyon” gibi cazip tekliflerin olduğu sitelere AI ajanınızı göndermeden önce kendiniz inceleyin. Özellikle bilinmeyen veya güven vermeyen sayfalardan uzak durun.

3. Hassas işlemleri kendiniz yönetin.

Para transferi, sözleşme, sağlık veya yasal konularda AI’yi sadece araştırma için kullanın, son kararı siz verin. Ayarlarınızda “insan onayı zorunlu” seçeneğini aktif tutun.

4. AI ayarlarınızı düzenli kontrol edin.

Uzun süreli belleği sınırlı tutun veya periyodik temizleyin. Gizlilik ayarlarını en yüksek seviyeye getirin. Güncellemeleri ihmal etmeyin.

5. Mantıksız önerilere karşı tetikte olun.

AI’nin söylediği şey birdenbire aşırı iyi, aceleci veya çelişkili geliyorsa durun ve yeniden düşünün. “Bu bilgi nereden geliyor?” diye sorun.

6. Çoklu AI sistemlerinde ekstra dikkat edin.

Birden fazla ajanın birlikte çalıştığı uygulamalarda sorun birinden diğerine yayılabilir. Zincirleme işlemlerde ara onaylar koyun.

Kısaca, AI ajanlarını yardımcı olarak görün, patron olarak değil. Onlara zaman kazandıracak işler verin ama sorumluluğu asla tamamen bırakmayın. Dijital ortamda her zaman “güven ama doğrula” prensibini uygulayın. Makale ve köşe yazısı bize aynı uyarının altını çiziyor: Bu tuzaklar gerçek ve artıyor. Hazırlıklı olmak hem kendimizi hem de kullandığımız AI sistemlerini korumak anlamına geliyor.