GPT 5.4 Güncellemesi

OpenAI’ye göre GPT-5.4, profesyonel bilgi işi ve otonom ajan iş akışları için özel olarak optimize edilmiş bir frontier model; ChatGPT, API ve Codex içinde sunuluyor. Temelde daha güçlü planlama ve araştırma, çok iyi kod yetenekleri, yerel bilgisayar kullanımı ve belirgin biçimde daha iyi token verimliliğini birleştirerek, karmaşık görevlerin daha az geri dönüşle ve daha düşük maliyetle tamamlanmasını hedefliyor. Buna ek olarak, özellikle zorlu görevlerde maksimum performans için GPT-5.4 Pro da ChatGPT ve API’de sunuluyor.

GPT-5.4 pratikte ne sunuyor

Hangi varyant hangi çalışma modu için uygun

GPT-5.4, ChatGPT’de GPT-5.4 Thinking olarak, ayrıca API ve Codex içinde kullanıma açılıyor. Azami karmaşıklıktaki görevler için şirket, ChatGPT ve API’de ek olarak GPT-5.4 Pro sunuyor.

ChatGPT’de GPT-5.4 Thinking, oturumun başında bir çalışma planı taslağı çıkarabiliyor; böylece model detaylara inmeden önce erken aşamada düzeltme yapılabiliyor. Bu da özellikle normalde birkaç tur gerektiren doküman, slayt ve tablo gibi çıktılarda daha az iterasyon döngüsü hedefliyor.

Ajanlar açısından önemli bir nokta da GPT-5.4’ün API ve Codex’te yerel bilgisayar fonksiyonlarıyla gelmesi ve 1M token bağlam desteği sunması; böylece planlama, icra ve kontrol, daha uzun çalışma sekansları boyunca stabil kalabiliyor.

Mini-Model Task Tool Token olarak pazar konumlandırması

2026 için GPT-5.4’teki sıçrama, basit bir üçlüyle özetlenebilir: Task, Tool, Token. Task, gerçek iş çıktılarındaki kaliteyi; Tool, yazılım ve API’leri güvenilir biçimde kullanma becerisini; Token ise uzun bağlamlarda maliyet ve hızı ifade ediyor.

GPT-5.4 bu üç ekseni aynı anda hedefliyor: daha iyi bilgi işi, araçlar ve bilgisayar üzerinden daha iyi ajanlar ve GPT-5.2’ye kıyasla düşünürken daha az token tüketimi. Pazar açısından bu, “iyi sohbet” ile ekiplerin gerçek zamanını alan süreçler için “güvenilir uygulayıcı” arasındaki farkı oluşturuyor.

Ekipler ve geliştiriciler için net karar kuralı

Sağlam bir seçim kuralı şöyle özetlenebilir: Yoğun planlama ve web araştırması gerektiren bilgi işleri için Thinking, görev yüksek riskli veya çok dallanmışsa – örneğin hukuki analizler, karmaşık finansal modeller ya da çok sayıda bağımlılığı olan uzun araç zincirleri – Pro. API’de GPT-5.4 özellikle, bir ajanın çok sayıda araç ve uygulama üzerinden çalışması ve şimdiye kadar bağlam uzunluğu veya token maliyetinin dar boğaz olması durumunda öne çıkıyor.

Gecikme süresi, derinlikten daha önemliyse, Codex içinde ek bir /fast modu sunuluyor; OpenAI’ye göre bu mod, modeli değiştirmeden token çıktı hızını artırıyor. Bu da özellikle hızın akışı belirlediği debugging döngüleri için pratik.

Performans tablosu: Rakamlarla görünüm

Performans sıçramasını hangi rakamlar gösteriyor

OpenAI, bilgi işi, kodlama, araç kullanımı ve ajan tabanlı web araştırması gibi farklı çalışma modlarını kapsayan bir dizi benchmark paylaşıyor. Aşağıdaki özet, yazıda verilen GPT-5.4, GPT-5.3-Codex ve GPT-5.2 değerlerini gösteriyor.

Benchmark GPT-5.4 GPT-5.3-Codex GPT-5.2
GDPval (wins veya ties) 83,0% 70,9% 70,9%
SWE-Bench Pro (Public) 57,7% 56,8% 55,6%
OSWorld-Verified 75,0% 74,0% 47,3%
Toolathlon 54,6% 51,9% 46,3%
BrowseComp 82,7% 77,3% 65,8%

Kaynak notu: OpenAI’ye göre GPT-5.3-Codex için OSWorld değeri, orijinal görüntü çözünürlüğünü koruyan yeni bir API parametresiyle bağlantılı. Ayrıca daha önce paylaşılan bir OSWorld değeri de düzeltilmiş durumda.

Ofis çıktıları ve gerçeklere bağlılık nasıl iyileşiyor

İyi tanımlanmış bilgi işini 44 meslek üzerinden ölçen GDPval benchmark’ında, OpenAI’ye göre GPT-5.4, karşılaştırmaların %83,0’ünde sektör profesyonellerine en azından denk performans gösteriyor. Aynı grafikte GPT-5.2, %70,9 seviyesindeydi.

Tipik ofis işleri için OpenAI iki dahili ölçüm paylaşıyor: Yatırım bankacılığındaki junior rollerinde görülen türden spreadsheet modelleme görevlerinde ortalama başarı %68,4’ten %87,3’e çıkıyor. Sunum görevlerinde ise insan değerlendiriciler, GPT-5.4 sonuçlarını vakaların %68,0’inde tercih etti; gerekçe olarak daha iyi tasarım, daha fazla görsel çeşitlilik ve daha etkili görsel üretim gösteriliyor.

Ek olarak GPT-5.4, yanlış beyanları azaltmayı hedefliyor: OpenAI’ye göre, tekil iddialar GPT-5.2’ye kıyasla %33 oranında daha az yanlış, tüm cevaplar ise %18 oranında daha az hatalı; bu, kullanıcı hata işaretlemeleri içeren anonimleştirilmiş prompt’lar üzerinden ölçülmüş.

Kurumsal kullanım için OpenAI, bu tür çıktı çalışmalarını mevcut iş akışlarına daha fazla yaklaştırmak amacıyla Excel için yeni yayımlanan bir ChatGPT eklentisini öneriyor.

Bilgisayarda ve görsellerde ajanlar

Yerel bilgisayar kullanımı ajanlar için neyi değiştiriyor

OpenAI’ye göre GPT-5.4, şirketin yerel bilgisayar kullanımı sunan ilk genel amaçlı ve state-of-the-art modeli. Burada kastedilen, ekran görüntüleri, fare ve klavye aksiyonları üzerinden yazılımı kontrol eden ya da Playwright gibi otomasyon kütüphaneleriyle çalışan ajanlar.

Geliştiriciler için kontrol edilebilirlik kritik: Davranış, Developer Messages üzerinden hassaslaştırılabiliyor; ayrıca riskli aksiyonların yalnızca onay sonrası yürütülmesi için onay kuralları tanımlanabiliyor. OpenAI bunu, özerklik ile uyumluluk arasında ayarlanabilir bir kaldıraç olarak konumlandırıyor.

Ekran görüntüsü tabanlı gezinme ve girişlerle masaüstü ortamını test eden OSWorld-Verified’da OpenAI, GPT-5.4 için %75,0 başarı bildiriyor; GPT-5.2’de bu oran %47,3’tü. Aynı kaynakta insan performansı %72,4 olarak veriliyor.

Hangi görsel detaylar artık gerçekten önemli

Bilgisayar becerisi, stabil görsel algıya dayanıyor. OpenAI, araç kullanımı olmadan MMMU-Pro’da GPT-5.4 için %81,2, GPT-5.2 için ise %79,5 değerini paylaşıyor.

Doküman anlama tarafında, OmniDocBench’te hata oranı OpenAI’ye göre 0,140’tan 0,109’a düşüyor; bu, normalize edilmiş edit mesafesi olarak ölçülmüş. Burada maliyet modu önemli: OmniDocBench, düşük maliyetli, düşük gecikmeli bir çalışma modunu yansıtmak için ek Reasoning yükü olmadan ölçülmüş.

API için ayrıca kademeli görsel detay seviyeleri sunuluyor: “original” modu, toplamda 10,24 milyon piksele kadar alanı veya maksimum 6000 piksel kenar uzunluğunu – hangisi önce dolarsa – destekliyor. Mevcut “high” modu ise 2,56 milyon piksele kadar veya 2048 piksel maksimum boyutla tanımlanıyor.

Geliştirici iş akışı ve araç ekosistemi

Geliştiriciler neden daha az bağlam değiştiriyor

GPT-5.4, GPT-5.3-Codex’in kod gücünü ajan ve ofis yetenekleriyle birleştirmeyi hedefliyor; bu da özellikle iterasyon, test ve araçlar üzerinden doğrulama içeren uzun görevlerde önem kazanıyor. SWE-Bench Pro’da GPT-5.4, verilen rakamlarda GPT-5.3-Codex’in biraz önünde; aynı zamanda OpenAI, Reasoning aşamaları boyunca daha düşük gecikmeyi vurguluyor.

Codex’te bir /fast modu, OpenAI’ye göre token hızını zekâyı değiştirmeden 1,5 kata kadar artırabiliyor. API tarafında benzer hedefler için Priority Processing sunuluyor.

OpenAI ayrıca karmaşık frontend görevlerinde ilerleme kaydedildiğini, daha güçlü işlevsellik ve gözle görülür biçimde daha iyi tasarım sağlandığını belirtiyor. Örnek olarak, build süreci sırasında görsel debugging ve playtesting imkânı veren deneysel bir Codex becerisi “Playwright (Interactive)” gösteriliyor.

Tool Search, somut bir ölçeklenme sorununu hedefliyor: Bir ajan çok sayıda aracı tanıyorsa, klasik “her şeyi prompt’a koy” yaklaşımı girdiyi binlerce, hatta on binlerce token’a şişiriyor. Tool Search bu mantığı tersine çeviriyor; model önce yalnızca sadeleştirilmiş bir araç listesi alıyor ve tanımları ihtiyaç halinde içeri çekebiliyor.

OpenAI bunu, 36 MCP sunucusunun etkin olduğu Scale’in MCP Atlas Benchmark’ından 250 görevle gösteriyor: Tool Search etkinleştirildiğinde, aynı doğruluk korunurken ortalama token tüketimi %47 düşüyor. Maliyet dışında bu, hız ve bağlam stabilitesine de yansıyor; çünkü daha az “ölü metin” cache’i ve bağlam penceresini dolduruyor.

Ajan tabanlı web araştırmasında neler değişiyor

Zor bulunan bilgiler için OpenAI, ölçüm olarak BrowseComp’u kullanıyor. GPT-5.4 burada GPT-5.2’ye kıyasla mutlak 17 puan artış gösteriyor; GPT-5.4 Pro ise kaynağa göre %89,3’e ulaşıp yeni bir en iyi değer koyuyor.

Operasyonel düzeyde bu, modelin arama süreçlerini birkaç adım boyunca daha ısrarlı yürütmesi, kaynakları daha iyi tartması ve sonuçları özellikle “samanlıkta iğne” türü çok spesifik sorularda daha temiz biçimde birleştirmesi anlamına geliyor. OpenAI, benchmark kirlenmesini azaltmak için blocklist’ler kullandığını da belirtiyor.

Pratiğe yakın uygulama

İş hayatından uçtan uca bir örnek

Örnek: Bir finans ekibi, tedarikçi faturalarını haftalık olarak kontrol etmeli, sapmaları netleştirmeli ve bir yönetim slaytını güncellemelidir. GPT-5.4 ile bir ajan önce planı belirleyebilir: Hangi alanlar tabloda kontrol edilecek, hangi belgeler eksik, hangi sorular satın almaya gidecek ve hangi metrikler sunuma taşınacak.

Ardından yürütme üç hat üzerinden ilerler: Tablo mantığı bir spreadsheet içinde kurulur veya düzenlenir, uzun sözleşmeler ve PDF’lerden dokümanlar çıkarılır ve gerektiğinde ajan, karşılaştırmalar için – örneğin portallar veya dahili araçlar – bir web arayüzünü kullanır. “original” görsel detayın gerekip gerekmediğine dair karar basit bir kurala bağlanır: Yalnızca tıklama hassasiyeti veya küçük arayüz öğeleri kritikse etkinleştirilir, aksi halde daha uygun maliyetli detay modunda kalınır.

En büyük zaman tasarrufu çoğu zaman tek bir “daha iyi cevap”tan değil, daha az düzeltme turundan gelir: daha az halüsinasyon, çok adımlı süreçlerde daha stabil bağlam ve Tool Search sayesinde araç tanımlarının her istekte yeniden “ödenmemesi.


Gönderi yayımlandı

içinde

tarafından

Etiketler: