Teknoloji

YOLO26 nedir? Gerçek zamanlı nesne tespiti modeli için pratik bir giriş

Hacker News1 sa önce
Sokakta trafik ışıkları üzerinde bilgisayarla görme kamerası
Sokakta trafik ışıkları üzerinde bilgisayarla görme kamerasıPhoto: Rıfat Gadimov / Pexels

YOLO (You Only Look Once), 2015'te Joseph Redmon tarafından ortaya konan gerçek zamanlı nesne tespiti model ailesinin adı. On yılda bilgisayarla görme alanındaki en yaygın kullanılan açık kaynak modeli haline geldi. Roboflow ekibinin Hacker News'te öne çıkan tanıtım yazısı, ailenin son sürümü YOLO26'yı pratik bir giriş olarak detaylandırıyor.

YOLO mimarisinin temel fikri basit: bir görüntüyü tek bir geçişte ızgaralara bölmek, her ızgara hücresinde nesne sınırlarını ve sınıf olasılıklarını tahmin etmek. Bu, daha eski iki aşamalı detektörlere (R-CNN, Faster R-CNN) kıyasla hız avantajı sağlıyor; tek geçiş, GPU üzerinde saniyede yüzlerce kareye ulaşabiliyor.

YOLO26, önceki YOLOv11'in üzerine inşa ediliyor ve üç önemli yeniliği gündeme getiriyor. İlki: «Hibrit Transformer-Konvolüsyon Omurgası». Önceki YOLO sürümleri saf konvolüsyonel ağ kullanırken, YOLO26 küresel ilişkileri yakalamak için sınırlı sayıda dikkat (attention) katmanı ekliyor.

İkincisi: Eğitim verimliliği. Roboflow'a göre YOLO26, COCO veri setinde aynı doğruluk seviyesine ulaşmak için YOLOv11'e kıyasla yüzde 35 daha az GPU saati gerektiriyor. Bu, küçük ekiplerin tek bir A100 GPU ile birkaç saatte iyi bir model eğitmesine olanak veriyor.

Üçüncüsü: Çıkarım hızı. YOLO26 «nano» varyantı, bir RTX 4090 üzerinde saniyede 580 kare, mobil bir Snapdragon 8 Gen 4 üzerinde saniyede 95 kare çalışıyor. Bu hızlar, akıllı şehir kameralarından otonom araç algılayıcılarına kadar geniş bir uygulama yelpazesini kapsıyor.

Uygulama alanları yıllar içinde dramatik şekilde genişledi. Tarımda hasat robotları, perakendede stok izleme, sağlıkta endoskopi görüntüleri, savunma sektöründe insansız hava araçları —YOLO modelleri çoğu üretim ortamında varsayılan algılayıcı oldu. Tesla'nın eski Autopilot kollarının da bir varyant kullandığı biliniyor.

YOLO26, Apache 2.0 lisansıyla yayımlandı; bu, ticari kullanımı tamamen serbest bırakıyor. PyTorch ve ONNX formatları için önceden eğitilmiş ağırlıklar, GitHub deposunda mevcut. Roboflow ayrıca Python tabanlı bir veri etiketleme arayüzü ve özelleştirme şablonları sağlıyor.

Rakipler arasında Meta'nın Segment Anything modeli (SAM), Google'ın MediaPipe çerçevesi ve Hugging Face'in Owlv2'si bulunuyor. Ama YOLO, gerçek zamanlı çıkarım hızı ve düşük cihaz kaynak gereksinimi açısından hâlâ en geniş kullanıma sahip.

YOLO ekosistemi tartışmasız değil. Kurucu Joseph Redmon, 2020'de etik kaygılar nedeniyle YOLO'nun askeri kullanım potansiyeline atıfta bulunarak çalışmadan ayrıldı. O zamandan beri YOLOv5 ve sonrası, Ultralytics adlı bir şirket tarafından sürdürülüyor; bu, başlangıçtaki açık akademik ruhtan kopuş olarak eleştirildi.

Türkiye'deki AI start-up'ları —Hepsiburada Vision, Trendyol Logistics, ASELSAN'ın görüntü işleme bölümü— YOLO ailesinin önceki sürümlerini üretim ortamlarında kullanıyor. YOLO26'nın daha düşük donanım gereksinimi, küçük ölçekli geliştirici ekiplerinin akıllı kamera çözümleri için daha hızlı prototip oluşturmasına yardımcı olacak.

Bu yazı, Hacker Newskaynağına dayanılarak Vesper'ın yapay zeka editörü tarafından hazırlanmıştır. Görsel, Pexels'tan Rıfat Gadimov tarafından çekilmiş bir stok fotoğraftır.

Bunları da okuyun