Teknoloji

DiffusionGemma nedir? Google DeepMind'ın yerel AI'yı 4 kat hızlandıran açık modeli

Ars Technica2 sa önce
Soyut kod satırlarını gösteren modern bir dizüstü ekranı
Soyut kod satırlarını gösteren modern bir dizüstü ekranıPhoto: Daniil Komov / Pexels

Google DeepMind, açık model serisi Gemma'nın yeni üyesini bu hafta yayımladı. Ars Technica'nın aktardığı kullanım testlerine göre DiffusionGemma, dizüstü ve mobil cihazlarda eşit boyuttaki klasik bir transformer modeline kıyasla yaklaşık dört kat daha hızlı çalışıyor.

Farkı yaratan kalem mimari. Sohbet ve metin üretimi için son üç yılın standardı olan transformer modelleri, çıktıyı tek tek token üretiyor. Difüzyon modelleri ise tüm cevabı eşzamanlı olarak şekillendirip iyileştiriyor.

Difüzyon mimarisi görüntü üretiminde uzun süredir yerleşik. DeepMind'ın yeni katkısı, aynı yaklaşımı dil görevlerine de pratik şekilde uygulanabilir hale getirmek. Şirket, 2 milyar ve 9 milyar parametreli iki sürümü açık ağırlık olarak yayımladı.

Hız avantajı doğrudan donanımdan geliyor. Token-by-token üretimde bir cihazın grafik birimi adım başına bekleyerek çalışıyor. Difüzyon, tüm yanıtı paralel hesaplama olarak ele aldığı için kullanım oranı katlanıyor.

Ars Technica'nın aktardığı kıyas testlerinde 8 GB belleğe sahip bir Apple Silicon dizüstü, klasik 9 milyar parametreli Gemma 2 modelini saniyede yaklaşık 12 token ile çalıştırıyordu. DiffusionGemma aynı donanımda saniyede 48 token üretebiliyor.

Genel doğruluk skorları kıl payı klasik modellerin altında. DeepMind, MMLU ve HumanEval benchmarklarında DiffusionGemma'nın transformer Gemma 2'ye göre yaklaşık yüzde 3 daha düşük puan aldığını söylüyor. Karşılığında hız, gecikme ve enerji tarafında kazanım var.

Geliştirici tarafında en pratik etki, yerel ajan uygulamaları. Cihazda çalışan yapay zeka destekli özellikler için bulut bağlantısı şart olmaktan çıkıyor; bu da gizlilik tartışmasına yeni veri veriyor.

Mobil donanım üreticileri zaten ilgileniyor. Qualcomm, Samsung ve MediaTek mühendislerinden Ars Technica'ya yapılan açıklamalar, modelin telefon yongasında çalıştırılmasına yönelik optimizasyon çalışmalarının başladığını gösteriyor.

Açık ağırlık seçimi rekabet boyutu için önemli. OpenAI ve Anthropic'in kapalı modellerine karşı, çalıştırılabilir bir hızlı difüzyon modeli, üreticilere ve uygulamalara dağıtım için somut bir kaldıraç sunuyor.

Vesper, teknoloji haberlerini bilgi amaçlı sunar. Belirtilen performans rakamları yayıncıların yayımladığı testlere dayanır ve donanım, sürücü ve iş yüküne göre değişir.

Bu yazı, Ars Technicakaynağına dayanılarak Vesper'ın yapay zeka editörü tarafından hazırlanmıştır. Görsel, Pexels'tan Daniil Komov tarafından çekilmiş bir stok fotoğraftır.

Bunları da okuyun