Lokal yapay zekaları kapıştırdım.

czorgormez

Temporary user
Katılım
27 Ekim 2022
Mesajlar
2,752
LM studio ile lokalde 30-40b parmetreye kadar olan modelleri test ediyorum. elimdeki laptopda 6gb vramli RTX ADAA1000 ekran kartı ve 48 gb 5600mhz ramler var. yani yapay zeka için ancak giriş seviyesi sayılır modele göre 15-20 token ile 2-3 token arası üretiyor.

bu süreçte hakem olarak sonnet 4.6 thinking kullandım ve yapay zekayı yapay zekaya kırdırdım. önce sonnetden zor bir C++ programlama sorusu hazırlamasını istedim. bu soru kendi içinde hem bilgi hem de uygulama anlamında birçok trickler barındırıyor.

1772105727063.png



çıkan tüm sonuçları da gene sonnet 4.6 ile yorumlattım. teste qwen3 300b ve gemini 3.1 pro'yu da dahil ettim (tabi bunlar lokalde değil). burada en başarılı lokal 2 model gpt oss20B lokal (30 dakikada çözdü) ve GLM-4.7 flash (7-8 dakika) oldu.


1772105867464.png



özet olarak bunlar zor sorular. yavaş yavaş kendi modelimi fine tune edeyim. bana c, c++ ve pyhon yazsın bir gün doomsday gelirse ayazda kalmayalım dersek iyi eğitilmiş 30-40b parametreli modeller kodlama konusunda şu anda iş görecek. işleri çok hızlandıracak seviyeye gelmiş. tabi lokal modellerin tek avantajı internetsizlik değil. ciddi işler yaptığınız bir şirket varsa bilgilerin dışarı sızmaması. yarın öbür gün başka birine sizin kodlardan parça parça örnek vermemesi için de lokal modeller iyi. aslında gpt oss 120B var ama bunu çalıştırmak için min 64gb ekran kartı gerekiyor.
 
Aslında sorulan soruda, işlemci mimarisi ile ilgili varsayımlar var. Özel atomic komutları olmayan bir işlemcide bu thread safe, lock free MPMC probleminin bir çözümü yok.

Ancak şöyle birşey yapabilirsin:

Her üreticinin ayrı queue'su var. Her tüketicinin de ayrı queue'su var. Arada da bir yazılım var ve sürekli üretici queue'larını tarıyor, yeni birşey varsa alıp ilgili tüketici queue'ya koyuyor.
 
Aslında sorulan soruda, işlemci mimarisi ile ilgili varsayımlar var. Özel atomic komutları olmayan bir işlemcide bu thread safe, lock free MPMC probleminin bir çözümü yok.

Ancak şöyle birşey yapabilirsin:

Her üreticinin ayrı queue'su var. Her tüketicinin de ayrı queue'su var. Arada da bir yazılım var ve sürekli üretici queue'larını tarıyor, yeni birşey varsa alıp ilgili tüketici queue'ya koyuyor.
evet çok farklı testler yapılabilir. açıkçası c++ çok iyi bilmediğim için bu konuyu claude'a bıraktım :)
burada amacım lokal çalışan ve thinking destekleyen bir llm ile orta-üst seviyedceki kodlama problemlerinde
ne kadar sağlıklı sonuç alabileceğimdi.

tabi bu modeller çok daha ufak contex window nedeniyle claude-gpt codex gibi büyük projeleri işleyemez ama. en azından lokalde
ufak kod parçacıkları-fonksiyonları sağlıklı yabilecekler mi ve mütevazi bir makina ile hangi hızda yapabilecekler bunu görmek istedim.
 
Linuxda Lm studio yu appimage uzantılı dosya ile çalıştırıyorum.
Token ne demek?
Varsayılan olarak gemma 3 4b yüklendi.
Programlama dillerinde hangisi daha iyi?
işlediği her bilgi parçacığı bir token. bu ingilizce kelimelerde genelde bir kelime. türkçede ise bir kelime hem çeviri yapacağı için hem de eklerden dolayı 3-4 token yiyebilir.

seçilecek model elinizdeki pc'nin ekran kartına bağlı. kabaca 4gb ekran kartlı bir pc 4bitlik modellerden 7b parametreli bir modeli çalıştırabilir. daha büyük modellerde ise ramden yer ama hızı 10-15 kat daha düşük olur.

programlamada mantıksal çözümeme yapmayacaksa qwen coder modelleri ve gpt-oss modelleri gerçekten iyi. yukarda yazdığım tablodan model yeteneklerine bakabilirsiniz. ama programadan kasıt ufak c-python fonksiyonları yazdırmak ise onu çok rahat yaparlar.

lm studio'nun model yükleme ekranında farklı modelleri indirip deneyebilirsiniz.
 

Forum istatistikleri

Konular
8,948
Mesajlar
145,374
Üyeler
3,604
Son üye
ranni

Son kaynaklar

Back
Top