Datasets abiertos para IA de conservación: por qué el Gran Chaco necesita sus propios datos de entrenamiento

Entrená un modelo de detección de fauna con iNaturalist y desplegalo en el Gran Chaco. Mirá cómo falla. No porque el modelo sea malo. Porque los datos con los que aprendió no saben que este lugar existe.

El Gran Chaco es el segundo bosque más grande de Sudamérica. Más de 1,1 millones de kilómetros cuadrados entre Paraguay, Argentina y Bolivia. Alberga más de 500 especies de aves, 150 especies de mamíferos, y una de las tasas de deforestación más altas del planeta — aproximadamente el 8% de la pérdida forestal global en las últimas dos décadas. Uno pensaría que una región tan ecológicamente crítica estaría bien representada en las bases de datos globales de biodiversidad. No lo está.

Los datasets que impulsan la IA de conservación — iNaturalist, LILA BC, GBIF, Wildlife Insights — están abrumadoramente sesgados hacia el hemisferio norte. Norteamérica y Europa juntas representan la gran mayoría de las imágenes de cámaras trampa etiquetadas en repositorios públicos. El Neotrópico está subrepresentado. El Chaco Seco específicamente es casi invisible. Esto importa por una razón simple: un modelo entrenado principalmente con venados de cola blanca norteamericanos y zorros rojos europeos no va a detectar confiablemente un pecari chaqueño o un aguara guazú. No porque la arquitectura esté mal, sino porque la distribución de entrenamiento está mal. El modelo nunca vio estos animales, en estas condiciones de luz, desde estos ángulos de cámara, en esta vegetación. El domain shift no es un problema teórico. Es la razón por la que modelos buenos fallan en ecosistemas nuevos.

Nosotros mismos nos topamos con esto. Cuando empezamos a construir CFI — nuestro pipeline de análisis de cámaras trampa para el Chaco — probamos el enfoque obvio primero. Tomar MegaDetector, un modelo abierto bien conocido para filtrado de imágenes de cámaras trampa, y correrlo sobre nuestros datos. MegaDetector es excelente en lo que hace: separar detecciones de animales de fotogramas vacíos, vehículos y humanos. Nunca fue diseñado para identificar especies en el Chaco Seco. Eso no es una crítica a la herramienta. Es una afirmación sobre datos de entrenamiento. El modelo rinde bien en los ecosistemas sobre los que fue entrenado. El nuestro no es uno de ellos. La misma historia se repite con los clasificadores de especies. Los modelos fine-tuneados con datasets norteamericanos o africanos se degradan rápido cuando se enfrentan a taxones sudamericanos que nunca vieron. Los puntajes de confianza se mantienen altos — el modelo no sabe lo que no sabe — pero las predicciones están mal.

La solución no son mejores modelos. Son mejores datos. Específicamente: imágenes de cámaras trampa etiquetadas del Gran Chaco, anotadas por personas que saben la diferencia entre un pecari chaqueño y un pecari labiado, entre un zorro cangrejero y un zorro pampeano, entre un tapir juvenil y un capibara adulto en infrarrojo a las 2am. Este es el tipo de anotación que no se puede crowdsourcear en una plataforma global. Requiere experiencia ecológica regional. Un biólogo en Michigan no debería estar etiquetando fauna chaqueña de la misma manera que nosotros no deberíamos estar etiquetando glotones.

Por eso construimos Wildsight. Wildsight es un dataset de cámaras trampa de acceso controlado del Gran Chaco paraguayo. Cada imagen pasa por un pipeline de cuatro etapas: detección, clasificación taxonómica, anotación de comportamiento y exportación estructurada. Las anotaciones se construyen con científicos locales que trabajan en este ecosistema, no se importan de modelos entrenados en otro lugar. Los datos cubren Mammalia, Aves y Reptilia. Los formatos de salida están diseñados para las herramientas que los ecólogos realmente usan: camtrapR, Distance y PRESENCE en R, más CSV y JSON para flujos de trabajo en Python. Sin reformateo. Sin scripts adaptadores. Listo para investigación. El acceso es controlado. Los investigadores aplican con una breve descripción de su proyecto y son aprobados en 48 horas. Los contribuidores reciben atribución clara, y cualquiera que aporte el 15% o más de los registros usados en una publicación recibe ofrecimiento de coautoría.

Esto no es una captura de datos. El dataset se publica bajo CC BY-NC 4.0. Construimos herramientas, no trampas de datos. El modelo de gobernanza importa tanto como los datos mismos. Los investigadores de conservación en el Sur Global ya fueron engañados antes — por plataformas que absorbieron sus datos, entrenaron modelos comerciales con ellos, y no devolvieron nada. Diseñamos Wildsight para que cada contribuidor mantenga control sobre cómo se usan sus imágenes, incluyendo si pueden usarse para entrenamiento de modelos o no.

El punto más amplio es este: la IA de conservación solo va a funcionar donde fue entrenada. Un modelo es tan bueno como la ecología representada en su set de entrenamiento. Si el Chaco no está en los datos, el Chaco no recibe las herramientas. Y el Chaco no puede esperar. Entre 2001 y 2020, el Chaco paraguayo perdió aproximadamente el 27% de su cobertura forestal. Las cámaras trampa están desplegadas en toda la región por ONGs, universidades y agencias gubernamentales. Las imágenes existen. Lo que falta es la infraestructura para convertirlas en inteligencia estructurada y legible por máquinas a escala. Esa es la brecha. No más cámaras. No mejores algoritmos. Datos que realmente representen el ecosistema que se supone deben proteger.

Si estás trabajando con datos de cámaras trampa en el Neotrópico, o construyendo modelos de detección de especies que necesitan generalizar más allá de taxones norteamericanos y africanos, deberíamos hablar. Wildsight está abierto a investigadores, organizaciones de conservación y estudiantes de posgrado. Solicitá acceso acá.