¿Qué tecnología necesito estudiar / usar para crear un sistema de predicción de delitos usando Big Data?

Estoy de acuerdo con el comentario de Bharat Singh a continuación, pero como saben, esta información ya está disponible para usted a través de NCIC. Se dice en la sala de servidores que la Ciudad de Chicago ha construido un modelo predictivo. Por lo general, los gobiernos están bastante abiertos a compartir cómo / por qué. Sin embargo, pueden estar limitados por las licencias del proveedor de la solución.

Tengo curiosidad por saber qué restricciones de seguridad están en juego. Además del acceso a los datos de delitos de NCIC (que tiene cada proveedor), ¿qué tipos de seguridad podrían ser motivo de preocupación?

Pero en respuesta directa a su pregunta, sugeriría que necesite lo siguiente:

un Big Data ETL

los mejores crímenes experimentados de BA que puedes encontrar

los mejores MP técnicos (+ DB + BD) con experiencia PM que puedes encontrar

un mapa / plan consolidado de big data data roap

algo como RedShift y la experiencia para instalarlo, configurarlo, ejecutarlo, optimizarlo, automatizarlo y asegurarlo; además de todos sus programas contingentes, licencias, aplicaciones y herramientas de terceros (las cosas normales de BD)

un entorno de alojamiento terciario

seguridad para dicho entorno

VPN requeridas para sistemas periféricos

Integración en sistemas InVehicle / Sistemas de notificación de incidentes (incluso si solo se presiona)

Integración celular para impulsar (si corresponde) en una red segura (software +++, licencias, config hw, config sw)

equipo para hacer un complemento completo de API para todos los datos de back-end (y documentarlos)

un equipo para hacer el extracto

un equipo para hacer la limpieza (sugiera al menos el 4 ° normal si no el 5 °, considerando la sensibilidad de los datos)

DBA (s) para hacer la carga

Data Scientist para configurar el plan de análisis y estandarización

técnicos para la transformación de datos, consolidación de datos, limpieza de datos, normalización de datos, validación de datos (también oficiales en algunos de estos)

Un ingeniero de sistemas experimentado en cada área de aplicación.

Un ingeniero de sistemas maestro con experiencia en el 75% o más de los sistemas afectados

Desde el punto de vista del cumplimiento: la normalización de datos puede necesitar aprobación como captura de datos en sistemas locales ( no es igual a) a los estándares NCIC Estándares / sistemas estatales En sistemas de vehículos Sistemas de proveedores de terceros ANI / ALI Dispatch Courts NTBS NHS Sistemas de recolección de incidentes – Sin embargo, TODOS estos sistemas deben normalizarse, limpiarse y “basarse” en al menos 2, si no en 3 dimensiones. Si recopila datos de otras agencias (condado, EMT, hospitales), todos estos datos también deben normalizarse (de nuevo, al menos la 4ª normalidad). Es posible que se deban crear nuevos procedimientos para formatear todos los datos futuros a nuevos estándares, capacitación para el personal sobre los mismos, socialización de todos los problemas de cumplimiento en toda la comunidad.

La limpieza de datos deberá abordar los problemas de identificación de GEO para los datos de delitos: es decir: los datos del condado suelen ser “incorrectos”; históricamente inexacta; ajustado por razones geopolíticas, pero no geofísicas (“tuvimos que reasignar debido a las inundaciones”). Nada de esto se asigna a los sistemas de National Highway y, por lo general, entra en conflicto con los registros estatales, y el cielo nos ayuda si está utilizando la ubicación geográfica del vehículo por satélite (también es independiente). A menudo, los datos geográficos locales entran en conflicto con los federales (sistemas TIGER). ¿Cuál usar? ¿Cómo limpiar? ¿Cómo crear sistemas repetibles para continuar la limpieza? Los registros antiguos pueden necesitar ser normalizados para la identificación GEO

En comunidades más grandes, la limpieza de datos tendrá dificultades con la poca capacidad de la mayoría de los sistemas para manejar las convenciones de apellidos, ya que generalmente están escritos para permitir solo configuraciones anglosajonas. Las convenciones de nomenclatura (“Mc Nair”, “McNair”, “Mcnair”, “MacNair”) deben normalizarse, generalmente a mano. Sin mencionar la gran cantidad de métodos para abordar los nombres con guiones (algunos son realmente segundos nombres). ¿Cómo abordar los nombres de soltera cuando se retienen con guiones? Cuantos apellidos ¿Cuándo el apellido en el país natal no es el nombre usado en los Estados Unidos? Cuando más de 2 apellidos? ¿Cuándo no se cambia después del matrimonio? ¿Cómo abordar los nombres de alias en los datos suplementarios para los factores de riesgo / búsquedas / coincidencias / informes? Cuantas iteraciones? Alias ​​para hacedores / PDI / partes relacionadas, etc., también cuántas iteraciones y debe establecer “Nombre primario”. Método para colapsar el sistema “Nombre primario” típico de las bases de datos de pila a formatos de datos BD Redshift (o BD similares).

En los sistemas de delitos federales, los roles de cada parte involucrada en el incidente no suelen ser “accesibles” (quizás una mejor API), pero los roles son críticos. La relación de las partes, con las partes, con la familia, con los no partes, con el hacedor, con la víctima, etc., no siempre se captura o se cataloga incorrectamente en los Informes de incidentes. )

Una vez que todos los datos estén limpios (¿está pensando en AÑOS?), El análisis estadístico debe aplicarse en base a algoritmos de factores de riesgo. Se aplica un análisis adicional basado en factores externos (clima, días festivos, proximidad, ocasiones especiales como la Feria Estatal (!) Día de la semana: ya conoce el simulacro). El análisis considera la historia (delitos, tribunales, otros?) Considere los factores predictivos, aplique las matemáticas.

Otros factores que puede considerar para el análisis de riesgos: proximidad, ubicación, fechas de audiencia en la corte de todo tipo, incidentes sin resultado de citación, etc. tendrán sus propios desafíos de datos y deben pasar por el mismo ejercicio que los sistemas internos.

Elige una plataforma analítica

Elija un sistema de análisis de riesgos.

Data Scientist configura algos y la plataforma analítica, valida las métricas de análisis predictivo (o la empresa que las proporciona), revisa los datos API de forma rutinaria y regular; esta es una métrica crítica de éxito / falla

Las empresas (tribunales, ejecutivos, funcionarios) deciden informar

El escritor de bases de datos crea informes desde el sistema analítico

Software para redactar informes

Recuerde que los datos existentes, incluso después de la limpieza, no estarán en formato Big Data. Entonces esa es una preocupación constante.

Además, recientemente leí sobre un sistema predictivo para una gran agencia de atención médica que, después de gastar millones, predijo incorrectamente el riesgo de muerte para los pacientes que fueron enviados a casa después de una visita al hospital. Pasa mucho tiempo en la fase de ideación. 2 o 3 veces su peor estimación. Se paga en el backend. Pruebe los resultados contra la realidad y realice los cambios necesarios.

Esta es solo mi hoja de ruta “improvisada” para lo que nos ha llevado a hacer sistemas de datos de Crímenes similares en implementaciones de múltiples agencias, pero se aplicará a Big Data, sea cual sea el uso final.

¡Todo un desafío! ¡Espero que nos mantenga informados sobre su progreso! ¡Te deseo la mejor de las suertes y espero que hayas encontrado útiles estos consejos!

Bueno, primero debe crear una base de datos para todas las palabras positivas y negativas relacionadas con el crimen, luego debe asignar un peso o un número de prioridad a todas las palabras. Luego, tome un registro de víctima, tome todos sus datos para hacer correlaciones entre la víctima y la tecnología de aprendizaje automático. Esto te dará un porcentaje. Este puede considerarse como un delito a corto plazo inferior al 40 por ciento, un delito normal del 40 al 60 por ciento, mayor será considerado como objetivo a largo plazo o de mayor valor. Luego, tiene 5 o 6 modelos diferentes para obtener resultados optimizados cuándo y en qué fecha se supone que la víctima debe realizar una nueva actividad criminal.

Debe usar un software de minería de datos para buscar algunas tendencias y patrones. Quizás SAS sería bueno.

More Interesting

¿Por qué no obtengo un trabajo a pesar de que tengo excelentes credenciales?

Tengo 23 años y soy de la India y no pude completar mi título de ingeniero (BE). Ahora quiero un trabajo. ¿Cuáles son las opciones disponibles para mí?

¿Cuál es el puntaje mínimo de MHCET requerido para ingresar a BJ Medical, Pune?

¿Cuáles son los pros y los contras de hacer un MBA después de mbbs?

Ahora tengo 20 años, ¿puedo comenzar mi universidad a esta edad?

¿Cuáles son las buenas cualidades que uno debe tener para convertirse en virólogo?

Tengo 24 años. Soy ingeniero mecánico y estoy trabajando en una industria del acero. No estoy interesado en este campo y me gustaría seguir mi carrera en el campo de la economía o las relaciones internacionales y asuntos exteriores. ¿Cómo puedo hacerlo?

Donde yo trabajo usan CentOS. ¿Debería estudiar CentOS o estudiar Linux en general está bien? ¿Cuáles son las diferencias entre las distribuciones de Linux que debo tener en cuenta?

¿Qué es mejor usar para programar: Lenovo T410s o Lenovo X220?

¿Cómo debo prepararme para una entrevista telefónica con Apple?

Tengo 20 años y estoy en mi segundo año de física BSc. Quiero seguir una carrera en informática. ¿Qué tengo que hacer?

¿Cuáles son las ideas más importantes generadas por la economía?

Cómo conseguir un trabajo en Google

¿Es fácil el diploma en electrónica?

Estoy teniendo una entrevista para una empresa de ventas de pisos. ¿Qué debo decir y no decir durante la entrevista?