Modelleri açık kaynak haline getirir, ama doğru!

Deepseek, Meta, Mistral, Microsoft, Alibaba, Google ve diğerleri sayesinde, modelleri açık kaynak lisansı ile ve parametrelerine yayınlarlar. Açık kilo modelleri henüz açık kaynaklı bir yapay zeka değildir. Cesur olun, A2 örneği alın ve modelleri oluşturduğunuz tüm verileri ve kodu yayınlayın! Bence bunun dört iyi nedeni var.








Holger Voormann, lisansüstü bilgisayar bilimcisi olarak serbest çalışan. Haberler Online için, Eclipse geliştirme ortamından düzenli olarak yeni sürümler bildiriyor. Eclipse, Lama.cpp ve diğer açık kaynak projelerinin ortak çalışanıdır.







Açık kaynak modellerinin dört nedeni


Her şeyden önce, kazanan takımın içindesiniz. Modellerinizi eğitmek için kesinlikle stokta bazı gizli hileleriniz var. Ama birçok şeyi denediniz, ancak en iyi yolu bulmak için tüm seçenekleri denemediniz. Kendinizi birlikte yazın ve yenilikçi gücünüzü gruplandırın. İndirilemeyen ve gizli bir akıl yürütme ile ilk akıl yürütme modeli olan sadece dört ay sekiz günlük Openai O1 önleme sürdü, daha ileri okuma modellerinin geliştirilmesine ilham veren serbestçe mevcut Deepseek R1'e. En kötü durumda, sadece kısa bir süre için bir avantaj kaybedersiniz.

İkincisi, Kaynak Kaynaklar: İnsan Kaynakları, Zaman ve Hesaplama Gücü. İkincisi gerçek bir sorundur. Eğitim ve yürütme sırasında verimlilik artışlarına rağmen, modeller genellikle öncekinden daha fazla hesaplama gücü gerektirir, çünkü daha büyük oldukları için daha fazla sentetik veri kullanılır ve mevcut akıl yürütme modelleri genellikle akıl yürütme için daha fazla belirteç üretir. Kendiniz -Brörlei gereksiz iklim hasarına neden olur.

Üçüncüsü, yalnızca eğitim verilerini yayınlamak doğru olurdu, çünkü bu sizin verileriniz değil. Örneğin, modellerinizi eğittiğiniz kod ve bu akıl yürütme için gerekli olan açık kaynak projelerinden kaynaklanmaktadır. Verilerin birçoğu için, eğitim için kullanılıp kullanılamayacakları yasal olarak net değildir. Ve hangi verilerin kullandığını açıkça kabul etmediğiniz için, hala uzun bir yasal belirsizlik olacaktır.

Dördüncüsü, kullanımda yararlı olacaktır. Eğitim verilerine bir göz atarak, körü körüne daha az körü körüne olursunuz ve daha spesifik olarak deneyebilir misiniz: Bir istek için daha iyi bir tablo için bir tablo nasıl? Markdown, HTML veya Lateks'de? Kemerler ve girintiler yararlı, zararlı mı yoksa sadece bir jeton israfı mı? Google yakın zamanda Gemma 3 modellerini açık ağırlık olarak yayınladı. Modeller işlevin çağrılarında ustalaşmalıdır; Eksik olan, nasıl çalıştığı konusunda bir rehberdir. Klasik yazılımın geliştirilmesinde gerçeğin kodda olduğunu söyledikleri gibi, eğitim verilerinde ve yapay zeka modelleri için eğitim kodunda.

Alibaba, yeni QWQ-32B akıl yürütme modeline göre, oluşturulan kodun takviye öğrenimi sırasında yazılım testleri tarafından doğruluk için doğrulandığını ortaya koyuyor. Açık kaynaklı bir topluluğun daha fazla programlama dilini kapsamak veya değerlendirmeyi kaliteli metriklere göre mükemmelleştirmek için değerli bir katkı sağlayabileceğini hayal edebiliyorum. Biz özellikle yaşlı insanlar, çünkü hala yeni IA ve Python favori programlama dili değil, burada gelecek nesli destekleyebiliriz.

Ve başka bir şey: Lütfen verilerinizi ve kodunuzu Huging Face ve Github'da yayınlamakla kalmaz, aynı zamanda üreticiden bağımsız bir yerde, örneğin Apache Foundation veya Eclipse Foundation'da açık kaynaklı bir proje olarak da yapın. Bu nedenle, başkalarının katılması daha çekici ve bir şirket satın alındığında veya farklı düşündüğünde hiçbir şey kaybolmaz. Açık kaynak, hepimiz için ücretsiz yazılımdan çok daha fazlasıdır. Umarım oradasın!


(Mayıs)
 
Üst