“Yapay Zekâ Ekosisteminin Dönüşümü: Açık Kaynak Kodlarla Eğitilmiş Modellerin Rolü ve Dijital Kültürün Yeni Dinamikleri”
Son birkaç yıldır yapay zekanın ne kadar hızlı ilerlediğini hepimiz görüyoruz. Fakat çoğumuzun bilmediği bir gerçek var: Yapay zekayı bugün olduğu seviyeye getirenler yalnızca büyük teknoloji şirketleri değil. Dünyanın dört bir yanında, herhangi bir maddi karşılık almadan kod paylaşan binlerce open-source (açık kaynak kod) geliştirici var.
Yapay zekâ (YZ), modern dijital ekosistemin merkezine yerleşirken onu besleyen unsurlar da büyük bir dönüşüm geçiriyor. 2020’lerde büyük teknoloji şirketlerinin devasa veri setleri ile geliştirdiği modeller hakimdi. Ancak 2023’ten itibaren bir kırılma yaşandı: açık kaynak kodlama kültürü, dev şirketlerin kapalı veri setlerine karşı ciddi bir alternatif üretmeye başladı. Meta’nın LLaMA modeliyle başlayan süreç, Mistral, Qwen, DeepSeek, Phi gibi modellerle devam ederek bugün eğitim verisinin önemli bir bölümünün açık kaynak geliştiricileri tarafından üretildiği yeni bir döneme dönüşmüş durumda.
Bu yazımızda, yalnızca yapay zekânın teknik evrimini değil; aynı zamanda etik, topluluk, inovasyon, telif, sorumluluk, üretkenlik gibi alt başlıklardan oluşan geniş bir çerçeveyi içermekte.
1. Yapay Zekâ Modelleri Nasıl Eğitilir?
Modern YZ modelleri üç temel kaynaktan besleniyor:
1. Lisanslı profesyonel içerik (kitaplar, akademik makaleler, telifli veri setleri)
2. Yaygın internet içerikleri (blog yazıları, forumlar, web siteleri)
3. Açık kaynak kod depoları (GitHub, GitLab, HuggingFace)
Bugün büyük modellerin büyük çoğunluğu, özellikle kod anlama ve üretme yeteneklerini açık kaynak projelerinden kazanıyor.
Meta, LLaMA 3 için bunu açıkça belirtti: “Model, lisanslı veriler, Meta tarafından oluşturulan veriler ve halka açık verilerle eğitildi.” Kaynak: https://llama.meta.com
2. Açık Kaynak Kodların Eğitimde Kullanılması: Nasıl, Neden ve Sonuçları
Bugün GitHub, makalelerin ifadesiyle “dünyanın en büyük kolektif kod kütüphanesi”. Microsoft’un resmî açıklamasına göre 2024 itibarıyla GitHub’da 380 milyondan fazla açık kaynak reposu bulunuyor. Kaynak: https://github.blog
Open-source kodlar, modeller için ideal çünkü:
· Temiz, düzenli, yorumlanabilir yapıda,
· Milyonlarca geliştiricinin katkısıyla sürekli iyileştiriliyor,
· Gerçek dünyada çalışan üretim kodları içeriyor,
· Lisansların büyük bölümü (MIT, Apache 2.0, BSD) eğitim kullanımına açık
Bu nedenle günümüz modelleri — özellikle GPT-4, Claude, LLaMA 3, Qwen, DeepSeek, StarCoder 2 — kodlama yeteneklerini neredeyse tamamen opensource geliştiricilerinin paylaştığı gönüllü katkılardan alıyor.
3. Etik Tartışmalar: Açık Kaynak Kodların Model Eğitiminde Kullanılması Ne Kadar Doğru?
3.1. Gönüllülük – Kullanım Farkı
Birçok geliştirici kodlarını paylaşırken bir yapay zekayı eğittiğini bilmiyordu.
Bu nedenle son iki yıldır şu tartışmalar yoğunlaştı:
· Açık kaynak lisansları YZ eğitimi konusunda yeterince net değil.
· “Model training” için ayrı bir izin maddesi eklenmeli.
· Kodun sahipliği bulanıklaşıyor.
· Üretken YZ, paylaşılan kodlarla rekabet ediyor: “Bunu yazan ben değil miydim?” sorusu doğuyor.
3.2. Copilot Davası
GitHub Copilot’a karşı 2023’te açılan dava, konuyu daha da görünür hale getirdi. Davanın gerekçesi şuydu: “Copilot, açık kaynak kodu birebir üretip telif hakkı ihlali yapıyor.” Dava büyük ölçüde sonuçsuz kalsa da YZ eğitiminde etik sınırları tanımlamak için ilk önemli adım oldu.
3.3. GitHub Copilot Davası
Son yıllarda açık kaynak kodların yapay zekâ modellerinin eğitilmesinde kullanılmasıyla ilgili en somut hukuki sınavlardan biri, GitHub Copilot’a karşı geliştiricilerce açılan toplu davadır. Davacıların iddiası, Copilot’un (GitHub ve OpenAI iş birliğiyle sunulan bir hizmetin) açık kaynak kodu eğitim verisi olarak kullanıp bazı çıktılarda lisans/atribüt bilgilerini kaldırdığı ve hatta belirli durumlarda kodu birebir yeniden ürettiğidir. Bu dava, YZ eğitimi ile telif/ lisans uyumu arasındaki sınırı test eden ilk büyük davalardan biridir. githubcopilotlitigation.com+1
Federal mahkeme sürecinde yargıç Jon S. Tigar, davayı daraltan bir dizi ara karar verdi. Ocak–Temmuz 2024 aralığında mahkeme, davadaki pek çok iddianın (özellikle bazı DMCA §1202(b) — “copyright management information” iddialarının) reddine karar verdi; bazı talepler “with prejudice” yani yeniden ileri sürülemeyecek şekilde elendi. Ancak mahkeme tüm iddiaları tamamen reddetmedi: hâlen sözleşme ihlali ve açık kaynak lisans ihlali iddialarının bazıları devam ediyor ve dava süreç içinde şekillenmeye açık. Justia Hukuk+2theregister.com+2
Bu ara kararların pratik anlamı üç senaryoya indirgenebilir:
· Savunmanın tam başarısı (defendants win): Mahkeme, eğitim amaçlı kullanımı telif hakkı ihlali kapsamında görmeyen hukuki içtihatlar geliştirirse; şirketler mevcut veri toplama ve model eğitme pratiklerini değiştirmeden sürdürebilir. Bu, açık kaynak kodların “eğitim hammaddesi” olarak genişçe kullanılmaya devam etmesiyle sonuçlanır. The Verge
· Davacıların kısmi/ tam zaferi (plaintiffs win veya kısmi zafer): Mahkeme veya temyiz mahkemesi, belirli lisans hükümlerinin (özellikle atıf gereklilikleri ve CMI —copyright management information— koruması) eğitim kullanımına uygulanması gerektiği yönünde karar verirse; bu, model eğitimi için kullanılacak veri politikalarında önemli değişiklikler, lisans güncellemeleri ve muhtemelen daha fazla izin/ücret mekanizması gerektirebilir. githubcopilotlitigation.com+1
· Ara yol/ sektör uyarlanması (orta yol): Mahkeme bazı temel ilkeleri çizip önemli soruları temyize açarsa veya sadece belli iddiaları reddederse, piyasada düzenleyici rehberlik, lisans güncellemeleri (ör. eğitim kullanımını açıkça kapsayan ek maddeler), attribution/ provenance mekanizmaları ve gönüllü/ücretli “izin/opt-out” sistemleri ortaya çıkabilir. Bu, hâlihazırda bazı toplulukların ve lisansların tartıştığı pratik bir çözümdür. githubcopilotlitigation.com+1
Davadan çıkarılacak dersler ve etkiler şunlardır:
· Geliştiriciler açısından: Açık kaynak lisansları güncellenmeli veya projelerin README/LICENCE dosyalarına “AI eğitimi”ne dair açık hükümler eklenmeli; katkı sahipleri (contributors) veri kullanımına ilişkin açık bilgiye ve tercihe sahip olmalı. Bu, ileride hukuki belirsizliği azaltır ve topluluk güvenini artırabilir. githubcopilotlitigation.com
· Şirketler açısından: AI sağlayıcıları veri kökeni/provenance sistemlerini güçlendirmeli, telif/attribution kontrolleri uygulamalı ve risk transferi için lisans uyumluluğuna yatırım yapmalı; ayrıca, olası düzenleyici ve mahkeme kararlarına uyum için esnek veri işleme politikaları geliştirmeliler. Finnegan | Leading IP+ Law Firm
· Sistem/ekosistem açısından: Hukuki içtihatlar bu alanda şekillenirken sektörün kendi kendini düzenlemesi (best practices), yeni lisans formları (ör. “No-AI” veya AI-aware lisanslar) ve gelir paylaşımı/katkı tanıma modelleri gündeme gelecek. Dava, sadece Copilot özelinde değil, görüntü/müzik/text jeneratif modellerinin eğitiminde kullanılan veri setleri için de emsâl teşkil edebilir. Startup Stash+1
4. Yapay Zekâ Modellerinin Açık Kaynak Kodlarla Eğitilmesinin Avantajları
1. Topluluk odaklı inovasyon hızlanıyor
2. Model yeteneği daha gerçekçi hale geliyor
3. Kod üretimi daha güvenilir oluyor
4. Open-source ekosistemi büyüyor
5. Büyük teknoloji tekelinin kırılmasını sağlıyor
Örneğin DeepSeek R1, 2025 yılında yalnızca 1.6 milyar dolarlık maliyetle GPT-5 seviyesine yaklaşan bir performans sergilemişti. Gerekçe “Topluluk tarafından paylaşılan açık kaynak kodlar ile eğitildi.” Kaynak: https://www.deepseek.com
5. Riskler: Üreten Kim, Sorumluluk Kimde?
Açık kaynak kodlar, özgün üreticilerinin isimlerini silerek YZ modellerine dahil edildiğinde:
· Kodun bağlamı kaybolabiliyor
· Güvenlik açıkları modele yansıyabiliyor
· Hatalı bir fonksiyon yüzünden modeller yanlış örnekler üretebiliyor
· Ticari kullanımda telif tartışmaları doğabiliyor
“Bu nedenle güncel önerimiz şu olabilir: Açık kaynak lisanslarına “YZ eğitimi için kullanım izni” bölümü eklenmesi, bu konuda birçok proje (örn. OpenRAIL lisansı) bu yönde adım atmış durumda. Kaynak: https://huggingface.co/rail
6. Geleceğin Yapay Zekâsı Neye Benzeyecek?
Tüm bu bilgiler gelişmeler çerçevesinde sektörde 2026 ve sonrası için üç ana trend konuşuluyor:
1. Topluluk tabanlı modeller (Open-source büyük modellerin yükselişi)
2. Küçük ama güçlü modeller (Phi, Gemma, MiniCPM gibi)
3. Özerk yapay zekâ ajanları
Bu dönüşümün en büyük hızlandırıcısı ise hâlâ aynı: Dünyanın dört bir yanındaki gönüllü open-source geliştiricilerinin ürettiği kodlar.
Ahmet Yasin HAZER