Experiencia de Datajam2022

El concurso de DataJam, realizado por el Ministerio del Ambiente, Agua y Transición Ecológica, Fundación Datalat y el HUB UIO, consistió en el tratamiento y análisis de datos libres del Ecuador acerca del medio ambiente, realizado el 27 de agosto de 2022.

Este concurso tuvo dos categorías que fueron “Dateando por el Agua” y “Dateando por la conservación ambiental”. La categoría que seleccioné fue “Dateando por el Agua” cuyos archivos y resultados que desarrollé los encontrarán en el siguiente enlace:

https://drive.google.com/drive/folders/1dIO5we9XTrutwwxGhuftjknOs05SH5cE?usp=sharing

En caso de querer hacer los retos de cada categoría de desde cero pueden ocupar los archivos e instrucciones originales del enlace oficial de Datajam2022:

https://participa.datalat.org/conferences/datajam2022/media

El desarrollo de la categoría de “Dateando por el Agua” estuvo compuesta por dos retos que fueron:

Reto 1.

Realizar un análisis de autorizaciones de uso del recurso hídrico para la categoría de consumo humano a nivel nacional, con desagregación cantonal. También deberás determinar la relación autorizaciones – población, tomando como referencia la población de cada cantón.

En el análisis se debe identificar cuáles son los cantones, provincias y región (Costa, Sierra u Oriente) con mayor presencia de autorizaciones. Y señalar las provincias en las que el MAATE debe fortalecer su presencia a través de la regulación y control en el otorgamiento de autorizaciones de uso del recurso hídrico.

Para del desarrollo de esta y las siguientes fases utilicé el lenguaje Python e importé las librerías de numpy, pandas, matplotlib y seaborn. Inicialmente, hice un análisis exploratorio de los datos comprobando la forma en la que están distribuidos los datos, valores nulos, valores duplicados y valores incorrectos o atípicos. Luego, realice la aplicación de limpieza y transformación de datos, además de la eliminación de columnas y datos nulos. Este proceso se lo aplicó con cada archivo provisto para la práctica (ver Fig. 1).

Fig. 1. Análisis y tratamiento de datos

Posteriormente, con los datos limpios, se construyó diagramas que muestran los datos referentes a los cantones, provincias y regiones con mayor y menor presencia de autoridades.

Se puede observar una mayor presencia de autoridades en la región sierra, en comparación de las otras provincias, cómo se aprecia en la Fig. 2.

Fig. 2. Proporción de autoridades de recurso hídrico por región

Se pudo obtener, entonces, el resultado de las siguientes provincias y cantones respecto a aquellas con mayor presencia de autoridades de recursos hídricos (ver Fig. 3).

Fig. 3. Número y porcentajes de provincias y cantones con mayor presencia de autoridades de recursos hídricos

En cuanto a aquellas que requieren una mayor presencia, el resultado se muestra en la Fig. 4.

Fig. 4. Número y porcentajes de provincias y cantones que requieren mayor presencia de autoridades de recursos hídricos

Se observa cómo la mayoría de las fuentes de agua se encuentran en la región sierra y aquellas que requieren mayor autoridad son de la región oriental.

Reto 2

Determinar si la ubicación de la industria textil elegida es la adecuada, teniendo en cuenta que no se debe encontrar en un área protegida o un bosque protector. Además, debes revisar si la industria textil no se encuentra en lugares donde la autorización de uso y aprovechamiento del recurso hídrico sea para “consumo humano” o “abrevadero”.

Para este reto podrás utilizar los conjuntos de datos:

Autorizaciones del Recurso Hídrico (Formato .xlsx)

Superficie conservada a través del Sistema Nacional de Áreas Protegidas (Formato .shp) – snap.zip

Superficie cubierta por bosques y vegetación protectores (Formato .shp) – bvp.zip

División Política Administrativa (Formato .shp) – dpa.zip

En este reto ocupé los datos limpios de “Autorizaciones del Recurso Hídrico.xlsx”, con los cuales determiné las fuentes de agua más cercanas a la ubicación geográfica de una fábrica textil en la región Sierra, cómo se muestra en la Fig. 5.

Fig. 5 Análisis de las fuentes de agua cercanas la fábrica textil

Para este reto, ocupé la herramienta QGIS el cual es un sistema de información geográfica en donde cargué los datos de:

  • Superficie cubierta por bosques y vegetación protectores (Formato .shp) – bvp.zip
  • División Política Administrativa (Formato .shp) – dpa.zip

Y, mediante las herramientas de esta aplicación, establecí la ubicación de cada área geográfica de las provincias, cantones y parroquias del país, creé capas que muestran las zonas de superficie cubierta por bosques y vegetación protectores y establecí el punto geográfico donde se encuentra la fábrica textil, cómo se ve en la Fig. 6.

Fig. 6. Visualización por capas de la ubicación de la fábrica textil en una superficie cubierta por bosques y vegetación

Se comprobó, a través de las herramientas QGIS y Python, la ubicación exacta de la fábrica textil, la cual se encuentra en una zona libre de conflicto ambiental y puede llegar a afectar a 5 fuentes de agua cercana para “consumo humano” o “abrevadero”. Por lo que, la pertinencia de esta fábrica en esta zona no debería estar justificada.

Conclusiones

El concurso representó un importante aporte al campo de la investigación y conservación del medio ambiente, aplicando conceptos de ciencia de datos, en donde las fases de tratamiento y visualización de datos representaron ser las más relevantes. Fue una experiencia interesante donde vi a varios profesionales de distintas áreas, ya sea computación, matemáticas, ambiente, administración y ecología, aplicar sus conocimientos y perspectivas en la resolución de los distintos retos desarrollados.

También pude verificar los aspectos técnicos y teóricos que debo mejorar, especialmente en el campo de la visualización de datos, ya que representa la parte más considerable para mostrar los resultados y lograr el entendimiento de estos. Por otro lado, me percaté de que debo analizar correctamente el planteamiento inicial de cualquier problema, además de tomar en cuenta el tiempo, puesto que por falta de este, la comparación de la población y el número de autoridades de recursos hídricos por cantón no pude completarlos.

Recomendaciones.

  • En este tipo de concursos debes asegurarte de tener todas las herramientas necesarias para el desarrollo de los problemas que se te planteen.
  • Asistir a las prácticas de inducción previas al evento del concurso para tener una idea clara de las actividades a desarrollar.
  • Previo a iniciar el concurso, tener claro las reglas y normas entre todos los miembros de tu equipo, los participantes y los organizadores, el concurso.
  • Analizar correctamente qué es lo que hay que hacer, qué fuentes de datos se tiene y puede utilizar, qué herramientas serán las más prácticas para la resolución y, principalmente, cuál será el resultado final a entregar.
  • Se debe seguir los pasos de extracción, análisis, tratamiento, procesamiento y visualización de datos en el orden pertinente para evitar entregar resultados erróneos.
  • Siempre tomar en cuenta el tiempo que uno tarda en desarrollar los problemas, ya que es posible que el tiempo se agote antes de poder enviar los resultados.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *