Sistema de Prevención Criminal mediante Ciencia de Datos
Propuesta de Proyecto | Guatemala
PRECRIMEN (PREvencion Criminal por Estadística Nacional) es una iniciativa que propone utilizar técnicas estadísticas avanzadas, Machine Learning y Deep Learning para la prevención y predicción de hechos delictivos en Guatemala.
El proyecto busca transformar datos históricos de criminalidad en información accionable que permita a las autoridades:
Guatemala enfrenta desafíos significativos en materia de seguridad ciudadana. Los delitos violentos, sexuales y contra el patrimonio representan una preocupación constante para la población y las autoridades.
Tradicionalmente, las estrategias de prevención del crimen han sido reactivas en lugar de proactivas. PRECRIMEN propone un cambio de paradigma: utilizar la ciencia de datos para predecir dónde y cuándo es más probable que ocurran delitos.
La disponibilidad creciente de datos criminales históricos, combinada con el avance en técnicas de análisis predictivo, abre la posibilidad de:
Para esta propuesta se cuenta con dos conjuntos de datos:
| Dataset | Registros | Período | Variables Principales |
|---|---|---|---|
| Delitos Sexuales | 2,435 | 2008-2011 | Ubicación geográfica, hora, día, tipo de delito, perfil de víctima |
| Delitos Generales | 580 | Octubre 2018 | Fecha, hora, ubicación, tipo de delito, causa |
El corazón de PRECRIMEN es el Teorema de Bayes, que permite calcular la probabilidad de que ocurra un evento (delito) dado un conjunto de condiciones observadas:
\[P(Delito | Condiciones) = \frac{P(Condiciones | Delito) \times P(Delito)}{P(Condiciones)}\]
Donde:
Pregunta: “¿Cuál es la probabilidad de que ocurra un delito sexual en la zona 18 de Guatemala, un sábado a las 21:00 horas?”
El modelo Bayesiano integraría:
| Técnica | Aplicación | Ventaja |
|---|---|---|
| Regresión Logística | Clasificación binaria de riesgo (alto/bajo) | Interpretabilidad, probabilidades calibradas |
| Random Forest | Predicción multi-clase de tipo de delito | Maneja variables mixtas, robusto |
| Gradient Boosting | Modelo ensemble para mayor precisión | Alta precisión predictiva |
| Redes Neuronales | Captura de relaciones no lineales complejas | Flexibilidad para patrones complejos |
| Clustering K-Means | Identificación de hotspots delictivos | Agrupamiento natural de zonas |
| DBSCAN | Detección de clusters espaciales | No requiere especificar número de clusters |
| Series de Tiempo (ARIMA) | Pronóstico de tendencias temporales | Captura estacionalidad y tendencias |
| LSTM (Deep Learning) | Predicción de secuencias temporales complejas | Memoria a largo plazo para patrones |
┌─────────────────┐ ┌─────────────────┐ ┌─────────────────┐
│ Recolección │────▶│ Preprocesamiento│────▶│ Feature │
│ de Datos │ │ y Limpieza │ │ Engineering │
└─────────────────┘ └─────────────────┘ └─────────────────┘
│
▼
┌─────────────────┐ ┌─────────────────┐ ┌─────────────────┐
│ Despliegue y │◀────│ Validación y │◀────│ Entrenamiento │
│ Monitoreo │ │ Evaluación │ │ de Modelos │
└─────────────────┘ └─────────────────┘ └─────────────────┘
## **Dataset de Delitos Sexuales:** 2435 registros con 45 variables
## **Dataset de Delitos Generales:** 580 registros con 19 variables
Distribución de delitos sexuales por tipo (2008-2011)
Distribución mensual de delitos sexuales por año
Frecuencia de delitos por día de la semana
Distribución horaria de delitos sexuales
Departamentos con mayor número de casos reportados
Análisis del perfil de víctimas
Distribución de tipos de delitos generales
Principales móviles identificados en los delitos
Frecuencia de delitos generales por día
Mapa de calor: concentración de delitos por día y hora
Interpretación del Mapa de Calor:
| Métrica | Valor |
|---|---|
| Día consultado | SABADO |
| Hora consultada | 21:00 |
| P(Día = Sábado) | 0.14 |
| P(Hora = 21:00) | 0.0743 |
| P(Sábado ∩ 21:00) | 0.01232 |
| Ratio de Riesgo | 1.18 |
Interpretación: Un ratio de riesgo mayor a 1 indica que la combinación día-hora presenta un riesgo superior al esperado si las variables fueran independientes. Esto sugiere una concentración anómala de delitos que requiere atención prioritaria.
Variables más relevantes para la predicción de delitos
┌──────────────────────────────────────────────────────────────────┐
│ PRECRIMEN │
├──────────────────────────────────────────────────────────────────┤
│ │
│ ┌─────────────┐ ┌─────────────┐ ┌─────────────┐ │
│ │ Fuentes │ │ ETL y │ │ Data │ │
│ │ de Datos │──│ Limpieza │──│ Warehouse │ │
│ │ (PNC, MP) │ │ (R/Python) │ │ │ │
│ └─────────────┘ └─────────────┘ └──────┬──────┘ │
│ │ │
│ ┌────────────────────────────────────────┼───────────────────┐ │
│ │ Motor Analítico │ │
│ │ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ │ │
│ │ │ Modelos │ │ Machine │ │ Deep │ │ │
│ │ │ Bayesianos │ │ Learning │ │ Learning │ │ │
│ │ │(P condicional)│ │(RF, XGBoost)│ │ (LSTM, CNN) │ │ │
│ │ └──────────────┘ └──────────────┘ └──────────────┘ │ │
│ └────────────────────────────────────────────────────────────┘ │
│ │ │
│ ┌────────────────────────────────────────┼───────────────────┐ │
│ │ Capa de Presentación │ │
│ │ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ │ │
│ │ │ Dashboard │ │ API REST │ │ Alertas │ │ │
│ │ │ Shiny │ │ (plumber) │ │ (email/SMS) │ │ │
│ │ └──────────────┘ └──────────────┘ └──────────────┘ │ │
│ └────────────────────────────────────────────────────────────┘ │
└──────────────────────────────────────────────────────────────────┘
La interfaz de usuario incluirá:
| Módulo | Funcionalidad |
|---|---|
| Dashboard Principal | KPIs, tendencias, alertas activas |
| Mapa Interactivo | Visualización georreferenciada de delitos y zonas de riesgo |
| Predictor de Riesgo | Consulta de probabilidad por zona/día/hora |
| Reportes | Generación de informes personalizados |
| Administración | Gestión de usuarios y configuraciones |
| Área | Impacto_Estimado | Plazo |
|---|---|---|
| Reducción de delitos | 15-25% en zonas prioritarias | Mediano plazo |
| Optimización de patrullajes | 30% más eficiente | Corto plazo |
| Tiempo de respuesta | Reducción del 20% | Corto plazo |
| Asignación de recursos | Ahorro del 15% en costos operativos | Mediano plazo |
| Percepción de seguridad | Incremento del 40% en encuestas | Largo plazo |
El proyecto PRECRIMEN debe operar bajo principios éticos estrictos:
| Aspecto | Limitación | Recomendación |
|---|---|---|
| Período de datos | Datos de 2008-2011 y octubre 2018 únicamente | Obtener datos actualizados y continuos |
| Cobertura geográfica | No se cuenta con coordenadas precisas en todos los registros | Implementar geocodificación de direcciones |
| Completitud | Múltiples campos con valores ‘IGNORADO’ o NA | Mejorar protocolos de captura de información |
| Actualización | Datos históricos, no en tiempo real | Establecer pipelines de actualización periódica |
| Integración | Dos fuentes diferentes con estructuras distintas | Estandarizar formato de captura de datos |
PRECRIMEN representa una oportunidad única para Guatemala de adoptar un enfoque basado en datos para la prevención del crimen.
Los análisis preliminares demuestran que:
Con datos actualizados y recursos adecuados, PRECRIMEN puede convertirse en una herramienta fundamental para salvar vidas y mejorar la seguridad de los guatemaltecos.