Tecnología

¿Qué es YOLO26? Una introducción práctica al modelo de detección de objetos en tiempo real

Hacker Newshace 1 h
Una cámara de visión por computador junto a semáforos de tráfico
Una cámara de visión por computador junto a semáforos de tráficoPhoto: Rıfat Gadimov / Pexels

YOLO (You Only Look Once) es el nombre de una familia de modelos de detección de objetos en tiempo real introducida en 2015 por Joseph Redmon. En una década se ha convertido en el modelo de código abierto más utilizado en visión por computador. La entrada introductoria del equipo de Roboflow, destacada en Hacker News, detalla su última versión, YOLO26, como una guía práctica.

La idea central de la arquitectura YOLO es sencilla: dividir una imagen en celdas de cuadrícula en una sola pasada y predecir en cada celda los contornos del objeto y las probabilidades de clase. Esto le da una ventaja de velocidad sobre detectores más antiguos de dos etapas (R-CNN, Faster R-CNN); una sola pasada puede alcanzar cientos de fotogramas por segundo en GPU.

YOLO26 se construye sobre la anterior YOLOv11 e introduce tres novedades importantes. Primera: una «columna vertebral híbrida transformer-convolución». Las versiones YOLO anteriores usaban una red puramente convolucional; YOLO26 añade un pequeño número de capas de atención para capturar las relaciones globales.

Segunda: la eficiencia de entrenamiento. Según Roboflow, YOLO26 requiere un 35 % menos de horas-GPU que YOLOv11 para alcanzar la misma precisión en el conjunto de datos COCO. Esto permite a un equipo pequeño con una única GPU A100 entrenar un buen modelo en pocas horas.

Tercera: la velocidad de inferencia. La variante «nano» de YOLO26 corre a 580 fotogramas por segundo en una RTX 4090 y a 95 fotogramas por segundo en un Snapdragon 8 Gen 4 móvil. Estas velocidades cubren un amplio abanico de aplicaciones, desde cámaras de smart city hasta sensores de vehículos autónomos.

Los casos de uso se han ampliado de forma drástica a lo largo de los años. Robots de recolección en agricultura, control de inventario en retail, imagen endoscópica en salud, drones en defensa — los modelos YOLO se han convertido en el detector por defecto en la mayoría de los entornos de producción. También se informa de que ramas más antiguas del Autopilot de Tesla usaron una variante.

YOLO26 se ha publicado bajo licencia Apache 2.0, que deja el uso comercial completamente libre. Los pesos preentrenados en formatos PyTorch y ONNX están disponibles en el repositorio de GitHub. Roboflow también ofrece una interfaz de etiquetado de datos en Python y plantillas de personalización.

Entre sus competidores figuran el modelo Segment Anything (SAM) de Meta, el framework MediaPipe de Google y Owlv2 de Hugging Face. Pero YOLO conserva el uso más extendido gracias a su velocidad de inferencia en tiempo real y a sus bajos requisitos de recursos en dispositivo.

El ecosistema YOLO no está exento de controversia. Su fundador Joseph Redmon abandonó el trabajo en 2020 por motivos éticos, citando el potencial militar de YOLO. Desde entonces, YOLOv5 y posteriores son mantenidos por una compañía llamada Ultralytics, lo que se ha criticado como una desviación del espíritu académico abierto original.

Start-ups de IA en Turquía — Hepsiburada Vision, Trendyol Logistics, la división de imagen de ASELSAN — ya usan versiones anteriores de YOLO en producción. Los menores requisitos de hardware de YOLO26 ayudarán a equipos pequeños de desarrollo a prototipar soluciones de cámaras inteligentes más rápidamente.

Este artículo es un resumen editorial asistido por IA basado en Hacker News. La imagen es una foto de archivo de Rıfat Gadimov en Pexels.

Para seguir leyendo