🔍 PRECRIMEN

Sistema de Prevención Criminal mediante Ciencia de Datos

Propuesta de Proyecto | Guatemala


1 Resumen Ejecutivo

1.1 Visión General

PRECRIMEN (PREvencion Criminal por Estadística Nacional) es una iniciativa que propone utilizar técnicas estadísticas avanzadas, Machine Learning y Deep Learning para la prevención y predicción de hechos delictivos en Guatemala.

El proyecto busca transformar datos históricos de criminalidad en información accionable que permita a las autoridades:

  • Anticipar zonas y horarios de alto riesgo
  • Optimizar la asignación de recursos de seguridad
  • Reducir la incidencia delictiva mediante intervención temprana
  • Comprender los patrones subyacentes de la criminalidad

1.2 Objetivos Principales

  1. Desarrollar modelos predictivos basados en el Teorema de Bayes para calcular probabilidades de ocurrencia de delitos
  2. Implementar algoritmos de Machine Learning para identificación de patrones espacio-temporales
  3. Crear una plataforma interactiva para visualización y consulta en tiempo real
  4. Establecer un sistema de alertas tempranas para zonas de alto riesgo

2 Introducción

2.1 Contexto del Problema

Guatemala enfrenta desafíos significativos en materia de seguridad ciudadana. Los delitos violentos, sexuales y contra el patrimonio representan una preocupación constante para la población y las autoridades.

Tradicionalmente, las estrategias de prevención del crimen han sido reactivas en lugar de proactivas. PRECRIMEN propone un cambio de paradigma: utilizar la ciencia de datos para predecir dónde y cuándo es más probable que ocurran delitos.

2.2 Justificación

La disponibilidad creciente de datos criminales históricos, combinada con el avance en técnicas de análisis predictivo, abre la posibilidad de:

  • Transformar grandes volúmenes de datos en inteligencia accionable
  • Aplicar modelos probabilísticos para cuantificar el riesgo
  • Optimizar la distribución de patrullajes y recursos de seguridad
  • Reducir tiempos de respuesta ante emergencias

2.3 Datos Disponibles

Para esta propuesta se cuenta con dos conjuntos de datos:

Dataset Registros Período Variables Principales
Delitos Sexuales 2,435 2008-2011 Ubicación geográfica, hora, día, tipo de delito, perfil de víctima
Delitos Generales 580 Octubre 2018 Fecha, hora, ubicación, tipo de delito, causa

3 Marco Teórico

3.1 Fundamentos Estadísticos

3.1.1 Teorema de Bayes

El corazón de PRECRIMEN es el Teorema de Bayes, que permite calcular la probabilidad de que ocurra un evento (delito) dado un conjunto de condiciones observadas:

\[P(Delito | Condiciones) = \frac{P(Condiciones | Delito) \times P(Delito)}{P(Condiciones)}\]

Donde:

  • \(P(Delito | Condiciones)\): Probabilidad posterior - La probabilidad de que ocurra un delito dadas ciertas condiciones (hora, día, zona)
  • \(P(Condiciones | Delito)\): Verosimilitud - Qué tan comunes son esas condiciones cuando ocurre un delito
  • \(P(Delito)\): Probabilidad a priori - Probabilidad base de que ocurra un delito
  • \(P(Condiciones)\): Evidencia - Probabilidad de observar esas condiciones

3.1.2 Ejemplo Aplicado

Pregunta: “¿Cuál es la probabilidad de que ocurra un delito sexual en la zona 18 de Guatemala, un sábado a las 21:00 horas?”

El modelo Bayesiano integraría:

  • Datos históricos de delitos en esa zona
  • Patrones temporales (día de la semana, hora)
  • Características demográficas del área
  • Eventos especiales o condiciones atípicas

3.2 Machine Learning para Predicción Criminal

3.2.1 Técnicas Propuestas

Técnicas de Machine Learning propuestas para PRECRIMEN
Técnica Aplicación Ventaja
Regresión Logística Clasificación binaria de riesgo (alto/bajo) Interpretabilidad, probabilidades calibradas
Random Forest Predicción multi-clase de tipo de delito Maneja variables mixtas, robusto
Gradient Boosting Modelo ensemble para mayor precisión Alta precisión predictiva
Redes Neuronales Captura de relaciones no lineales complejas Flexibilidad para patrones complejos
Clustering K-Means Identificación de hotspots delictivos Agrupamiento natural de zonas
DBSCAN Detección de clusters espaciales No requiere especificar número de clusters
Series de Tiempo (ARIMA) Pronóstico de tendencias temporales Captura estacionalidad y tendencias
LSTM (Deep Learning) Predicción de secuencias temporales complejas Memoria a largo plazo para patrones

3.2.2 Flujo de Modelado

┌─────────────────┐     ┌─────────────────┐     ┌─────────────────┐
│  Recolección    │────▶│ Preprocesamiento│────▶│    Feature      │
│  de Datos       │     │   y Limpieza    │     │  Engineering    │
└─────────────────┘     └─────────────────┘     └─────────────────┘
                                                         │
                                                         ▼
┌─────────────────┐     ┌─────────────────┐     ┌─────────────────┐
│  Despliegue y   │◀────│  Validación y   │◀────│  Entrenamiento  │
│   Monitoreo     │     │   Evaluación    │     │   de Modelos    │
└─────────────────┘     └─────────────────┘     └─────────────────┘

4 Análisis Exploratorio de Datos

4.1 Resumen de los Datos

## **Dataset de Delitos Sexuales:**  2435  registros con  45  variables
## **Dataset de Delitos Generales:**  580  registros con  19  variables

4.2 Dataset: Delitos Sexuales (2008-2011)

4.2.1 Distribución por Tipo de Delito

Distribución de delitos sexuales por tipo (2008-2011)

Distribución de delitos sexuales por tipo (2008-2011)

4.2.2 Distribución Temporal

Distribución mensual de delitos sexuales por año

Distribución mensual de delitos sexuales por año

4.2.3 Análisis por Día de la Semana

Frecuencia de delitos por día de la semana

Frecuencia de delitos por día de la semana

4.2.4 Análisis por Hora del Día

Distribución horaria de delitos sexuales

Distribución horaria de delitos sexuales

4.2.5 Top 10 Departamentos con Mayor Incidencia

Departamentos con mayor número de casos reportados

Departamentos con mayor número de casos reportados

4.2.6 Perfil de las Víctimas

Análisis del perfil de víctimas

Análisis del perfil de víctimas

4.3 Dataset: Delitos Generales (Octubre 2018)

4.3.1 Tipos de Delitos

Distribución de tipos de delitos generales

Distribución de tipos de delitos generales

4.3.2 Causas/Móviles de los Delitos

Principales móviles identificados en los delitos

Principales móviles identificados en los delitos

4.3.3 Distribución por Día de la Semana

Frecuencia de delitos generales por día

Frecuencia de delitos generales por día


5 Metodología Propuesta

5.1 Modelo Bayesiano de Riesgo

5.1.1 Mapa de Calor de Riesgo

Mapa de calor: concentración de delitos por día y hora

Mapa de calor: concentración de delitos por día y hora

Interpretación del Mapa de Calor:

  • Zonas rojas/naranjas: Alta concentración de delitos - requieren mayor presencia policial
  • Zonas verdes: Baja incidencia - recursos pueden ser reasignados
  • Este análisis permite optimizar la distribución de patrullajes según el día y hora

5.1.2 Análisis de Ejemplo: Cálculo de Riesgo Bayesiano

Ejemplo: Análisis de Riesgo para Sábado a las 21:00 horas
Métrica Valor
Día consultado SABADO
Hora consultada 21:00
P(Día = Sábado) 0.14
P(Hora = 21:00) 0.0743
P(Sábado ∩ 21:00) 0.01232
Ratio de Riesgo 1.18

Interpretación: Un ratio de riesgo mayor a 1 indica que la combinación día-hora presenta un riesgo superior al esperado si las variables fueran independientes. Esto sugiere una concentración anómala de delitos que requiere atención prioritaria.

5.1.3 Importancia de Variables para Predicción

Variables más relevantes para la predicción de delitos

Variables más relevantes para la predicción de delitos


6 Alcances del Proyecto PRECRIMEN

6.1 Capacidades del Sistema

6.1.1 Nivel 1: Análisis Descriptivo

  • Dashboards interactivos de estadísticas criminales
  • Mapas de calor georreferenciados
  • Reportes automatizados por período y zona

6.1.2 Nivel 2: Análisis Predictivo

  • Modelos Bayesianos de probabilidad de ocurrencia
  • Pronósticos de series de tiempo para tendencias
  • Identificación de hotspots emergentes

6.1.3 Nivel 3: Análisis Prescriptivo

  • Recomendaciones de asignación de patrullajes
  • Alertas tempranas para zonas de alto riesgo
  • Optimización de recursos de seguridad

6.2 Arquitectura Técnica Propuesta

┌──────────────────────────────────────────────────────────────────┐
│                        PRECRIMEN                                 │
├──────────────────────────────────────────────────────────────────┤
│                                                                  │
│  ┌─────────────┐  ┌─────────────┐  ┌─────────────┐              │
│  │  Fuentes    │  │  ETL y      │  │  Data       │              │
│  │  de Datos   │──│  Limpieza   │──│  Warehouse  │              │
│  │  (PNC, MP)  │  │  (R/Python) │  │             │              │
│  └─────────────┘  └─────────────┘  └──────┬──────┘              │
│                                           │                      │
│  ┌────────────────────────────────────────┼───────────────────┐  │
│  │                Motor Analítico                             │  │
│  │  ┌──────────────┐ ┌──────────────┐ ┌──────────────┐        │  │
│  │  │  Modelos     │ │  Machine     │ │  Deep        │        │  │
│  │  │  Bayesianos  │ │  Learning    │ │  Learning    │        │  │
│  │  │(P condicional)│ │(RF, XGBoost)│ │ (LSTM, CNN)  │        │  │
│  │  └──────────────┘ └──────────────┘ └──────────────┘        │  │
│  └────────────────────────────────────────────────────────────┘  │
│                                           │                      │
│  ┌────────────────────────────────────────┼───────────────────┐  │
│  │               Capa de Presentación                         │  │
│  │  ┌──────────────┐ ┌──────────────┐ ┌──────────────┐        │  │
│  │  │  Dashboard   │ │  API REST    │ │  Alertas     │        │  │
│  │  │  Shiny       │ │  (plumber)   │ │  (email/SMS) │        │  │
│  │  └──────────────┘ └──────────────┘ └──────────────┘        │  │
│  └────────────────────────────────────────────────────────────┘  │
└──────────────────────────────────────────────────────────────────┘

6.3 Aplicación Web Propuesta (Shiny)

La interfaz de usuario incluirá:

Módulo Funcionalidad
Dashboard Principal KPIs, tendencias, alertas activas
Mapa Interactivo Visualización georreferenciada de delitos y zonas de riesgo
Predictor de Riesgo Consulta de probabilidad por zona/día/hora
Reportes Generación de informes personalizados
Administración Gestión de usuarios y configuraciones

7 Beneficios Esperados

7.1 Impacto Cuantificable

Beneficios Esperados de la Implementación de PRECRIMEN
Área Impacto_Estimado Plazo
Reducción de delitos 15-25% en zonas prioritarias Mediano plazo
Optimización de patrullajes 30% más eficiente Corto plazo
Tiempo de respuesta Reducción del 20% Corto plazo
Asignación de recursos Ahorro del 15% en costos operativos Mediano plazo
Percepción de seguridad Incremento del 40% en encuestas Largo plazo

7.2 Consideraciones Éticas

El proyecto PRECRIMEN debe operar bajo principios éticos estrictos:

  1. Privacidad: No se almacenarán datos personales identificables de ciudadanos no involucrados
  2. Transparencia: Los criterios del modelo serán documentados y auditables
  3. No discriminación: El sistema no utilizará variables que generen sesgos por raza, etnia o condición social
  4. Supervisión humana: Las decisiones finales siempre serán tomadas por personas, no por el algoritmo

8 Limitaciones de los Datos Actuales

Limitaciones Identificadas y Recomendaciones
Aspecto Limitación Recomendación
Período de datos Datos de 2008-2011 y octubre 2018 únicamente Obtener datos actualizados y continuos
Cobertura geográfica No se cuenta con coordenadas precisas en todos los registros Implementar geocodificación de direcciones
Completitud Múltiples campos con valores ‘IGNORADO’ o NA Mejorar protocolos de captura de información
Actualización Datos históricos, no en tiempo real Establecer pipelines de actualización periódica
Integración Dos fuentes diferentes con estructuras distintas Estandarizar formato de captura de datos

9 Próximos Pasos

9.1 Fase 1: Piloto (3-6 meses)

9.2 Fase 2: Desarrollo (6-12 meses)

9.3 Fase 3: Despliegue (12-18 meses)


10 Conclusiones

PRECRIMEN representa una oportunidad única para Guatemala de adoptar un enfoque basado en datos para la prevención del crimen.

Los análisis preliminares demuestran que:

  1. Existen patrones claros en la ocurrencia de delitos (temporales, geográficos)
  2. Es posible calcular probabilidades de riesgo mediante el Teorema de Bayes
  3. Los modelos de Machine Learning pueden identificar factores de riesgo
  4. Una interfaz interactiva democratizaría el acceso a esta información

Con datos actualizados y recursos adecuados, PRECRIMEN puede convertirse en una herramienta fundamental para salvar vidas y mejorar la seguridad de los guatemaltecos.


11 Referencias

  • Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer.
  • Chainey, S. & Ratcliffe, J. (2005). GIS and Crime Mapping. Wiley.
  • Perry, W. L. et al. (2013). Predictive Policing: The Role of Crime Forecasting in Law Enforcement Operations. RAND Corporation.
  • R Core Team (2024). R: A Language and Environment for Statistical Computing.