Çinli yapay zeka girişimi DeepSeek, büyük dil modellerinin akıl yürütme yeteneklerini artırmak için “kendi ilkelerine dayalı eleştiri ayarı” (SPCT) adlı yeni bir teknik geliştirdi. Bu yöntemle yapay zeka, kendi kurallarını oluşturarak içerikleri değerlendiriyor ve geri bildirimler üretiyor.
DeepSeek, büyük dil modellerini eğitmek yerine, “üretken ödül modellemesi” (GRM) adı verilen bir yaklaşımla birden fazla değerlendirmeyi eş zamanlı çalıştırarak daha iyi sonuçlar elde etmeyi hedefliyor. Şirketin geliştirdiği “DeepSeek-GRM” sistemi, yapay zekanın yanıtlarını dahili bir “yargıç” sistemiyle anlık olarak değerlendiriyor. Yargıç, cevabı hem modelin kendi kurallarıyla hem de ideal bir yanıtla karşılaştırarak olumlu veya olumsuz geri bildirim sağlıyor. Bu sayede modelin zamanla kendini geliştirmesi amaçlanıyor.
DeepSeek, bu yeni yöntemin Google Gemini, Meta Llama ve OpenAI GPT-4o gibi rakiplerinden daha iyi performans göstereceğini iddia ediyor ve gelişmiş modellerini açık kaynaklı sunmayı planlıyor. Şirketin yeni nesil sohbet robotu R2’yi tanıtacağına dair söylentiler de artmış durumda.