AutoAgent Nedir? Self-Optimizing Agent Mantığını, Repo Yapısını ve Gerçek Değerini Anlamak

"Agent" konuşulurken çoğu zaman modelden söz ediliyor. Oysa üretimde farkı yaratan şey çoğu zaman model değil, modelin etrafına kurulan yapı oluyor. Hangi tool'ları görecek, hangi sırayla hareket edecek, hata yaptığında nasıl kontrol edilecek, ne zaman duracak, neyi dosyaya yazacak... Bütün bunlar agent'ın kendisi kadar belirleyici.

AutoAgent tam bu noktaya basıyor.

Kevin Gu tarafından açık kaynak olarak paylaşılan bu proje, yeni bir görev agent'ı vermekten çok daha ilginç bir şey deniyor: başka bir agent'ın harness'ını otomatik olarak iyileştiren bir meta-agent kuruyor. Yani mesele "bir işi yapan agent" değil; "bir işi daha iyi yapacak agent yapısını bulan agent".

Bu fark küçük görünse de önemli. Çünkü bugün agent geliştirme tarafında harcanan eforun ciddi bir bölümü hala elle yapılıyor. Bir prompt değiştiriliyor. Bir tool ekleniyor. Birkaç benchmark koşuluyor. Hata örnekleri okunuyor. Sonra bir tur daha. AutoAgent bu döngüyü doğrudan sistemin parçası haline getirmeye çalışıyor. Repo ve paylaşım metni de tam olarak bunu anlatıyor.

AutoAgent nedir?

En kısa tanımıyla AutoAgent, eval sonuçlarına bakarak bir task agent'ın prompt'unu, tool set'ini, orchestration mantığını ve doğrulama akışını iteratif biçimde geliştirmeyi amaçlayan açık kaynak bir kütüphane.

Burada iki ayrı rol var:

Task agent: Asıl görevi çözen agent
Meta-agent: Task agent'ı daha iyi hale getirmeye çalışan agent

README'nin anlattığı mantık net: bir domain ve eval set veriyorsun; meta-agent task agent üzerinde deney yapıyor; sonuçları ölçüyor; işe yarayan değişiklikleri tutuyor, işe yaramayanları geri alıyor.

Bu yüzden AutoAgent'ı sıradan bir "agent framework" gibi okumak eksik kalıyor. Daha doğru ifade şu olur: AutoAgent, agent engineering sürecini de otomasyona taşımaya çalışan bir sistem.

AutoAgent neden dikkat çekti?

Bunun tek nedeni GitHub'da açık kaynak olması değil. Dikkat çekmesinin asıl nedeni, Kevin Gu'nun projeyi "self-optimizing agents" ekseninde konumlandırması ve bunun benchmark sonuçlarıyla desteklendiğini söylemesi.

Paylaşılan metne göre AutoAgent, SpreadsheetBench'te yüzde 96.5 ve TerminalBench'te GPT-5 için yüzde 55.1 skora ulaştıktan sonra duyuruldu. Üstelik bu sonuçların, uzun süreli otonom optimizasyon sonucunda elde edildiği; yani sistemin insan eliyle tek tek elden geçirilmediği iddia ediliyor.

Burada küçük ama önemli bir not düşmek gerekiyor: Kamusal benchmark sayfalarında görülen skorlarla paylaşımda geçen skorlar birebir aynı görünmüyor. SpreadsheetBench'in açık leaderboard'unda bugün görülen üst skorlar daha düşük bir bantta listeleniyor. Terminal-Bench tarafında da canlı leaderboard yapısı ve farklı submission bağlamları bulunuyor.

Bu, projenin önemsiz olduğu anlamına gelmiyor. Sadece şu ayrımı doğru yapmak gerekiyor: AutoAgent'ın asıl değeri tek bir skor iddiasında değil, agent harness optimize etme biçiminde yatıyor.

GitHub reposu ne içeriyor?

Repo beklenenden sade. Hatta bu sadelik, projenin ne yapmaya çalıştığını anlamak için faydalı. Ana dalda göze çarpan kritik dosyalar şunlar:

`agent.py`

Bu dosya optimize edilen task harness. Yani meta-agent'ın üzerinde çalıştığı esas yüzey. Mevcut kamuya açık sürümde başlangıç yapı son derece basit:

genel bir system prompt
gpt-5 modeli
30 turn limiti
tek tool olarak shell komutu çalıştırma yetkisi

Bu bilerek böyle bırakılmış. Yani repo "bakın ne kadar güçlü bir hazır agent verdik" demiyor. Tam tersine, başlangıç noktasını neredeyse kasıtlı biçimde yalın tutuyor. Amaç, meta-agent'ın zamanla ne ekleyeceğini görmek.

`program.md`

Bence repo'nun asıl kalbi bu dosya. Çünkü AutoAgent'ta insanın doğrudan programladığı şey agent'ın kendisi değil; agent'ı geliştirme döngüsü.

Bu dosyada meta-agent'a şu çerçeve veriliyor:

Önce baseline al
Hata izlerini oku
Genel fayda sağlayacak bir iyileştirme bul
agent.py üzerinde değişiklik yap
Benchmark'ı tekrar koş
Skor artarsa değişikliği tut
Artmazsa geri al
İnsan durdurana kadar devam et

Üstelik hangi alanların değiştirilebileceği de açıkça yazılmış: prompt, model, max turns, tool tasarımı, sub-agent/handoff yapısı ve orchestration logic.

`tasks/`

Burada Harbor formatına uygun görev yapısı bulunuyor. Instruction dosyaları, testler ve görev ortamı bu klasör üzerinden kurgulanıyor. Repo README'si benchmark entegrasyonunun Harbor ile kurulduğunu söylüyor.

AutoAgent nasıl çalışıyor?

Sistemin özeti basit ama etkisi büyük:

Başlangıç agent'ı oluşturuluyor
Benchmark veya eval set üzerinde çalıştırılıyor
Hata izleri ve başarısızlık desenleri inceleniyor
Harness'ta değişiklik yapılıyor
Tekrar ölçüm alınıyor
İyi değişiklikler tutuluyor, kötü olanlar geri alınıyor

Bu yapı aslında klasik yazılım geliştirmedeki test odaklı iterasyona benziyor. Fark şu: test sonucuna bakıp kodu düzelten kişi doğrudan insan değil; agent'ın kendisi.

README ve program.md, bunun bir çeşit score-driven hill climbing mantığıyla ilerlediğini anlatıyor. Yani sistem yalnızca "iyi hissettiren" prompt değişiklikleri yapmıyor; ölçülebilir sonuç üreten değişiklikleri ayıklamaya çalışıyor.

AutoAgent'ın asıl gücü prompt optimization değil

Bu projeyi yalnızca "prompt'u kendi kendine düzeltiyor" diye okumak hata olur. Çünkü değiştirilen yüzey daha geniş.

AutoAgent teoride ve pratikte şu katmanlara dokunabiliyor:

Prompt

Agent'ın görevi nasıl gördüğünü, araçları nasıl çağırdığını ve nasıl cevap ürettiğini etkiliyor.

Tool surface

Agent'ın dünyayla hangi araçlar üzerinden temas kurduğunu belirliyor. Bir agent çoğu zaman zeka yetersizliğinden değil, yanlış ya da dar bir action space nedeniyle başarısız oluyor.

Orchestration

Tek agent ile mi gidilecek, alt-agent'lar mı kurulacak, iş alt görevlere mi bölünecek, handoff yapılacak mı? Bunlar çoğu benchmark'ta sandığından daha belirleyici.

Verification

Agent'ın kendi çıktısını ikinci kez kontrol etmesi, format hatalarını yakalaması, gerekiyorsa kendini düzeltmesi gibi mekanizmalar burada devreye giriyor.

Kevin Gu'nun paylaşımında da bazı "emergent behaviors" özellikle vurgulanıyor: izole görevlerle küçük değişiklikleri daha hızlı test etmek, deterministik self-check eklemek, agent'a kendi testlerini yazdırmak, uzun context'i dosyalara dökmek ve gerektiğinde task-specific subagent'lar kurmak.

Buradaki teknik ders net: iyi agent performansı çoğu zaman model kalitesinden çok harness kalitesine bağlı.

"Model empathy" fikri neden önemli?

Paylaşımın en ilginç taraflarından biri "model empathy" kavramı. Temel iddia şu: bir meta-agent, task agent'ın reasoning trace'lerini okuyup hata biçimlerini bir insan mühendisten daha iyi anlayabilir. Özellikle aynı model ailesinden meta-agent ve task agent kullanıldığında bunun daha iyi sonuç verebildiği söyleniyor.

Bunu abartmadan okumak lazım. Ortada henüz evrensel bir yasa yok. Ama agent geliştiren herkesin sezgisel olarak bildiği bir şeye işaret ediyor: Bir modeli düzeltmek için çoğu zaman en iyi yaklaşım, ona dışarıdan insan aklı dayatmak değil; onun nasıl takıldığını doğru okumak.

Başka bir ifadeyle, problem bazen "daha akıllı bir prompt yazmak" değil; agent'ın gerçekten nasıl düşündüğünü anlamak.

AutoAgent neden kurumsal tarafta ilginç?

Teknoloji şirketleri ve ürün ekipleri açısından bakınca AutoAgent'ın en güçlü tarafı araştırma tadında görünmesine rağmen çok pratik bir soruna dokunması.

Şirketlerin ihtiyacı tek bir genel amaçlı agent değil. Genelde şunlara ihtiyaç duyuyorlar:

teklif hazırlayan bir satış agent'ı
iç dokümanları tarayan bir RAG agent'ı
spreadsheet temizleyen bir operasyon agent'ı
terminal işleri yapan bir bakım agent'ı
rapor, kontrol veya doğrulama yapan uzman agent'lar

Bu agent'ların her biri ayrı harness istiyor. Aynı model kullanılsa bile prompt farklı, tool set farklı, güvenlik sınırı farklı, verification mantığı farklı oluyor.

İşte AutoAgent burada stratejik bir bakış açısı sunuyor: Belki de gelecekte değerli olan şey tek tek agent yazmak değil, her iş için doğru harness'ı kendi kendine bulabilen sistemler kurmak olacak.

Bu, özellikle çok sayıda workflow otomasyonu yapan ajanslar ve ürün stüdyoları için önemli. Çünkü asıl maliyet çoğu zaman modeli çağırmakta değil; domain'e uygun, güvenli ve ölçülebilir bir çalışma kurgusu inşa etmekte.

Zayıf tarafları ve gerçek riskler

Projeyi romantikleştirmeye gerek yok. Güçlü bir fikir olması, sınırları olmadığı anlamına gelmiyor.

1. Overfitting riski var

Meta-agent benchmark rubric'ine fazla uyum sağlayıp gerçek dünyaya daha az genellenen çözümler üretebilir. Paylaşımda da bunun yaşandığı ve bunu dizginlemek için ekstra öz-değerlendirme kuralı kullanıldığı söyleniyor.

2. Eval kalitesi her şeyi belirliyor

Kötü verifier, kötü optimizasyon üretir. Sistem gerçekte zeka değil, geri bildirim sinyali üzerinden yön buluyor.

3. Hesaplama maliyeti yüksek olabilir

Paylaşılan metin, binlerce paralel sandbox ve 24 saati aşan optimizasyon turlarından söz ediyor. Bu yaklaşım, düşük maliyetli prompt denemelerinin ötesinde bir arama bütçesi gerektiriyor.

4. Meta-agent zayıfsa sonuç da zayıf olur

Optimizasyonu yapan katman kötü tasarlanmışsa ortaya çıkan harness iyileşmeleri de sığ kalır.

Sonuç: AutoAgent neden ciddiye alınmalı?

AutoAgent bugün kusursuz bir ürün değil. Repo küçük. Public yüzeyi oldukça minimal. Bazı performans iddialarıyla kamusal leaderboard görünümleri arasında soru işaretleri var. Bunların hepsi doğru.

Yine de bu projeyi değerli yapan şey, "bir agent daha" üretmeye çalışmaması.

Asıl yaptığı şey daha ilginç: iyi agent üretme işini de otomasyona açmak.

Bence bu yüzden dikkat edilmeli. Çünkü agent ekosisteminde uzun vadede kalıcı fark yaratacak alan, yalnızca daha güçlü model kullanmak olmayabilir. Farkı yaratan şey, belirli bir iş için doğru action space'i, doğru verification akışını ve doğru orchestration yapısını sistematik biçimde bulabilmek olacak.

AutoAgent bu sorunun nihai cevabı değil. Ama doğru soruya temas ediyor.