Google'ın yeni Gemini Omni modeli: herhangi bir girdiyi başka herhangi bir formata dönüştürebilen yapay zekâ

The Verge1 gün önce

Silikon Vadisi'nde Mountain View bölgesinin gündüz havadan görüntüsü. — Photo: Zetong Li / Pexels

Google'ın yapay zekâ araştırma birimi, yeni 'Gemini Omni' modelini tanıttı. The Verge'de yayımlanan kapsamlı bir incelemeye göre, model herhangi bir girdiyi (metin, görüntü, video, ses, kod) herhangi bir çıktıya dönüştürebilen evrensel bir multimodal yapay zekâ olarak konumlandırılıyor.

The Verge'ün test sürüşünde, model bir fotoğraftan kısa video, bir metinden müzik bestesi, bir ses kaydından sahne tasvirinden 3D bir model üretti. The Verge yazarı Alex Heath, 'Gemini Omni'nin yeteneği, hangi modelinin ne yapabildiğini takip etmenin önemini ortadan kaldıracak düzeyde geniş' yorumunu yaptı.

Google DeepMind'in modeli tanıtım blogunda, Gemini Omni'nin 'evrensel multimodal' yapısının daha önce ayrı modeller olarak geliştirilmiş Imagen 4, Veo 3.5, ve Lyria 2 modellerinin işlevlerini tek bir modele birleştirdiği belirtildi. Google DeepMind Başkanı Demis Hassabis, modeli 'yapay zekâ araştırmamızın şu ana kadarki en kapsamlı ürünü' olarak tanımladı.

Modelin teknik detaylarına ilişkin Google'ın yayımladığı sınırlı bilgilere göre, Gemini Omni 'birleşik temsil uzayı' ('unified representation space') olarak adlandırılan bir mimari kullanıyor. Bu mimari, farklı türden girdilerin ortak bir vektör uzayında temsil edilmesini ve aralarında doğrudan dönüşüm yapılmasını sağlıyor.

The Verge'ün test sürecinde dikkat çeken bir nokta, modelin sahte içerik (deepfake) üretiminde de yüksek kalitede sonuç vermesi oldu. Heath, kendisinin bir fotoğrafından mesleki anlamda gerçekçi bir sahte video oluşturduğunu yazdı: 'Sonuç, herhangi bir izleyiciyi yanıltabilir; ben kendi yüzümün böyle bir şey söylediğini görsem inanırdım.'

Google'ın güvenlik politikası açıklamasına göre, model, SynthID görsel ve ses içeriği sigortası ile birlikte sunuluyor. SynthID, sentezlenen içerikleri tarayan algoritmaların görsel veya ses kaydında dijital filigran olarak tespit edebileceği bir kapatma sistemi. Google, ek olarak siyasi figürlere ait yüz ve ses verilerini istemi engelleyen filtre uyguladığını belirtti.

AB AI Office'in Brüksel'deki sözcüsü Margrethe Vestager, Google'ın bu açıklamasından sonra 'Multimodal AI sistemlerinin pazara sürülmesi, AB AI Act çerçevesinde yüksek risk sınıflandırması altında değerlendirilmeyi gerektiriyor; Google'ın güvenlik önlemlerini denetim sürecinde inceleyeceğiz' dedi.

Araştırma toplulukları tarafından öne sürülen endişeler arasında üretken modelin kötüye kullanım potansiyeli, telif hakkı sorunları ve enerji tüketimi yer alıyor. Stanford Üniversitesi İnsan-Yapay Zekâ Merkezi Direktörü Fei-Fei Li, X'teki yorumunda 'Multimodal sistemlerin yetenek sınırı genişledikçe, kontrol mekanizmalarının da paralel olarak gelişmesi gerekiyor' yazdı.

Gemini Omni'nin geliştiriciler için kullanılabilirliği, Google AI Studio aracılığıyla 1 Haziran'dan itibaren sınırlı erişimle başlayacak. Genel kullanıma açılma tarihi ise Eylül 2026 olarak duyuruldu. Modelin Google Search içine entegre edilmesi, Gemini 4.0 sürümünün lansmanıyla planlanıyor.

Market konumu açısından, Google'ın bu adımı OpenAI'nin GPT-5 ve Anthropic'in Claude Opus 4.7 ile rekabette önemli bir hamle. Bloomberg Intelligence analisti Mandeep Singh, 'Multimodal birleşik modelleri olan Google, kurumsal pazarda Microsoft-OpenAI ortaklığı karşısında konumunu güçlendiriyor' yorumunu yaptı. Bu içerik genel bilgi amaçlıdır; yapay zekâ teknolojisinin gelişim hızı dikkate alındığında bilgi zaman içinde değişebilir.

Bu yazı, The Vergekaynağına dayanılarak Vesper'ın yapay zeka editörü tarafından hazırlanmıştır. Görsel, Pexels'tan Zetong Li tarafından çekilmiş bir stok fotoğraftır.