News

Metin Üretiminde Devrim: DiffusionGemma Sahneye Çıkıyor

Google DeepMind'ın yeni açık kaynak modeli DiffusionGemma, metin üretimini 4 kata kadar hızlandırarak yapay zeka dünyasında çığır açıyor.

12 Haziran 2026 · WBH Editör

Yapay zeka dünyasında her geçen gün yeni bir eşik aşılıyor. Bu kez Google DeepMind, metin üretimini bambaşka bir boyuta taşıyacak, deneysel ve açık kaynak modeli DiffusionGemma'yı duyurdu. Gemma 4 ailesinin bu yeni üyesi, alışılagelmiş yapay zeka modellerinin aksine, metin çıktılarını doğrusal bir akışla değil, paralel olarak üretiyor. Bu da özellikle yerel donanımlarda ya da sıradan bir oyun GPU'sunda bile modelin çok daha hızlı ve verimli çalışmasını sağlıyor.

DiffusionGemma, 26 milyar parametreli bir Mixture of Experts (Uzman Karışımı) modeli olarak karşımıza çıkıyor. Ancak işin ilginç yanı, çıkarım sırasında sadece 3,8 milyar parametreyi aktif hale getirmesi. Google'ın açıklamasına göre, optimize edilmiş haliyle 18 GB VRAM'a sahip üst seviye tüketici GPU'larında bile rahatlıkla çalışabiliyor. Modelin Apache 2.0 lisansıyla yayınlanması, geliştiriciler için geniş bir kullanım alanı sunarken, tek bir NVIDIA H100 üzerinde saniyede 1000'den fazla, NVIDIA GeForce RTX 5090 üzerinde ise saniyede 700'den fazla token üretebilmesi, hız konusunda ne denli iddialı olduğunu gözler önüne seriyor.

Peki DiffusionGemma'yı bu kadar özel kılan ne? Geleneksel büyük dil modelleri metni soldan sağa, kelime kelime üretirken, DiffusionGemma 256 token'lık bir metin bloğunu aynı anda taslak haline getiriyor. Ardından bu taslağı birkaç geçişte iyileştirerek nihai çıktıyı oluşturuyor. Bu yaklaşım, özellikle tek kullanıcıya yönelik yerel yapay zeka deneyimlerinde GPU'nun çok daha etkin kullanılmasını sağlıyor. Google, DiffusionGemma'nın özellikle satır içi düzenleme, hızlı deneme-yanılma süreçleri, kod tamamlama, amino asit dizileri ve matematiksel grafikler gibi doğrusal olmayan metin yapılarında çift yönlü dikkat mekanizmasının avantaj sağlayacağını belirtiyor.

Ancak önemli bir uyarı da var: DiffusionGemma, doğrudan Gemma 4'ün yerini alacak bir üretim modeli olarak görülmemeli. Şirket, hız ve paralel üretim için optimize edilen bu modelin aksine, en yüksek çıktı kalitesinin gerektiği senaryolarda standart Gemma 4 modellerinin tercih edilmesini öneriyor. Modelin ağırlıkları Hugging Face üzerinden erişilebilir durumda ve MLX, vLLM, Hugging Face Transformers gibi araçlarla kullanılabiliyor. Yakın zamanda llama.cpp desteği de gelecek. Bu yenilik, yapay zeka destekli içerik üretim süreçlerini kökten değiştirecek potansiyele sahip. Geliştiricilerin bu hız canavarını nasıl kullanacaklarını ve ne gibi yeniliklere imza atacaklarını merakla bekliyoruz.