hem ücretli hem de ücretsiz tüm modeller belli filtrelerden geçirilerek ne bulurlarsa onlarla eğitiliyor.
yani claude veya gemini içinde de milyonlarca kullanıcının davranış verisi var. meta veya X bu verilere farklı şekilde sahip.
ve onlar da ücretli.
tam tersine asıl ücretsiz olan modeller qwen, deepseek, minimax vs. asıl bunların google, meta veya X gibi ücretsiz kullanıcı verilerine erişimi yok.
ama github, reddit, stack-owerflow gibi binlerce devasa kaynağa ve milyonlarca kitaba, foruma erişimleri var. onların da eğitim verisi buradan geliyor.
eğer gpt-gemini gibi kapalı modellerin ücretsiz kullanım haklarından bahsediyorsak onlar çerez. kullanıcıyı bir defa siteye çekmek alıştırmak için yapılan şeker dağıtımları. çünkü bir defa ücretli bir claude 4.6 veya gemini 3.1 pro modeli kullanan kişinin ücretsiz modele dönme şansı yok.
o parayı verir. ne olabilir bazı istatistik araştırmalar dil kullanımı soru tipleri - çıkan sonuç doğrulukları gibi analiz verileri elde edebilirler ama ücretsiz modellerin becerileri çok sınırlı olduğu için o modeller eğitmek isteyecekleri modeller zaten değiller.
bu arada ücretsiz veya açık denilen güçlü bilgisayarlarda çalışan modeller de aslında açık falan değiller. evet sistem promptları görünür ama modelin kendisi yani nöral network bir kapalı kutu içinde ne var nasıl davranıyor bunu bilmek mümkün değil. çeşitli davranış testleri soru cevaplar ile bir yere kadar çıkarımlar yapılabilir. ama bu model açık kaynak bundan ispanyolca dilini çıkarayım diyemiyorsun mesela. o güne kadar hiç test etmediğin bir konuda süpriz bir davranış sergileyebilir. örneğin açık kaynaklı çin modelleri çin hakkında politik yorumlarda bulunamıyor. tarafsızmış gibi görünen ama gizliden çin hükümeti yanlısı cevaplar veriyor. mesela burada modelin çince girdilere karşı davranışı çok daha sert ama ingilizce girdilere karşı daha yumuşak olabilir ve bu parametreler değiştirilebilir-erişilebilir değiller.