Estoy de acuerdo con el comentario de Bharat Singh a continuación, pero como saben, esta información ya está disponible para usted a través de NCIC. Se dice en la sala de servidores que la Ciudad de Chicago ha construido un modelo predictivo. Por lo general, los gobiernos están bastante abiertos a compartir cómo / por qué. Sin embargo, pueden estar limitados por las licencias del proveedor de la solución.
Tengo curiosidad por saber qué restricciones de seguridad están en juego. Además del acceso a los datos de delitos de NCIC (que tiene cada proveedor), ¿qué tipos de seguridad podrían ser motivo de preocupación?
Pero en respuesta directa a su pregunta, sugeriría que necesite lo siguiente:
- He tomado el CAT este año y espero un buen percentil, pero mis académicos no son tan impresionantes. ¿Qué debo hacer para compensarlo en una entrevista de IIM?
- Quiero obtener 3 receptores superiores para mi airsoft M4 para que pueda ocupar 3 roles diferentes. ¿Es factible que este sistema funcione?
- ¿Es bueno encontrar trabajo en Dubai para la ingeniería mecánica?
- Mi teléfono está infectado por el malware adsmatte y youradexchange. No puedo usar ningún navegador en absoluto debido a las ventanas emergentes. ¿Qué tengo que hacer?
- ¿Cómo pueden los IITians / BITSians obtener paquetes de pago tan grandes en sus ubicaciones incluso durante la desaceleración económica en todo el mundo?
un Big Data ETL
los mejores crímenes experimentados de BA que puedes encontrar
los mejores MP técnicos (+ DB + BD) con experiencia PM que puedes encontrar
un mapa / plan consolidado de big data data roap
algo como RedShift y la experiencia para instalarlo, configurarlo, ejecutarlo, optimizarlo, automatizarlo y asegurarlo; además de todos sus programas contingentes, licencias, aplicaciones y herramientas de terceros (las cosas normales de BD)
un entorno de alojamiento terciario
seguridad para dicho entorno
VPN requeridas para sistemas periféricos
Integración en sistemas InVehicle / Sistemas de notificación de incidentes (incluso si solo se presiona)
Integración celular para impulsar (si corresponde) en una red segura (software +++, licencias, config hw, config sw)
equipo para hacer un complemento completo de API para todos los datos de back-end (y documentarlos)
un equipo para hacer el extracto
un equipo para hacer la limpieza (sugiera al menos el 4 ° normal si no el 5 °, considerando la sensibilidad de los datos)
DBA (s) para hacer la carga
Data Scientist para configurar el plan de análisis y estandarización
técnicos para la transformación de datos, consolidación de datos, limpieza de datos, normalización de datos, validación de datos (también oficiales en algunos de estos)
Un ingeniero de sistemas experimentado en cada área de aplicación.
Un ingeniero de sistemas maestro con experiencia en el 75% o más de los sistemas afectados
Desde el punto de vista del cumplimiento: la normalización de datos puede necesitar aprobación como captura de datos en sistemas locales ( no es igual a) a los estándares NCIC Estándares / sistemas estatales En sistemas de vehículos Sistemas de proveedores de terceros ANI / ALI Dispatch Courts NTBS NHS Sistemas de recolección de incidentes – Sin embargo, TODOS estos sistemas deben normalizarse, limpiarse y “basarse” en al menos 2, si no en 3 dimensiones. Si recopila datos de otras agencias (condado, EMT, hospitales), todos estos datos también deben normalizarse (de nuevo, al menos la 4ª normalidad). Es posible que se deban crear nuevos procedimientos para formatear todos los datos futuros a nuevos estándares, capacitación para el personal sobre los mismos, socialización de todos los problemas de cumplimiento en toda la comunidad.
La limpieza de datos deberá abordar los problemas de identificación de GEO para los datos de delitos: es decir: los datos del condado suelen ser “incorrectos”; históricamente inexacta; ajustado por razones geopolíticas, pero no geofísicas (“tuvimos que reasignar debido a las inundaciones”). Nada de esto se asigna a los sistemas de National Highway y, por lo general, entra en conflicto con los registros estatales, y el cielo nos ayuda si está utilizando la ubicación geográfica del vehículo por satélite (también es independiente). A menudo, los datos geográficos locales entran en conflicto con los federales (sistemas TIGER). ¿Cuál usar? ¿Cómo limpiar? ¿Cómo crear sistemas repetibles para continuar la limpieza? Los registros antiguos pueden necesitar ser normalizados para la identificación GEO
En comunidades más grandes, la limpieza de datos tendrá dificultades con la poca capacidad de la mayoría de los sistemas para manejar las convenciones de apellidos, ya que generalmente están escritos para permitir solo configuraciones anglosajonas. Las convenciones de nomenclatura (“Mc Nair”, “McNair”, “Mcnair”, “MacNair”) deben normalizarse, generalmente a mano. Sin mencionar la gran cantidad de métodos para abordar los nombres con guiones (algunos son realmente segundos nombres). ¿Cómo abordar los nombres de soltera cuando se retienen con guiones? Cuantos apellidos ¿Cuándo el apellido en el país natal no es el nombre usado en los Estados Unidos? Cuando más de 2 apellidos? ¿Cuándo no se cambia después del matrimonio? ¿Cómo abordar los nombres de alias en los datos suplementarios para los factores de riesgo / búsquedas / coincidencias / informes? Cuantas iteraciones? Alias para hacedores / PDI / partes relacionadas, etc., también cuántas iteraciones y debe establecer “Nombre primario”. Método para colapsar el sistema “Nombre primario” típico de las bases de datos de pila a formatos de datos BD Redshift (o BD similares).
En los sistemas de delitos federales, los roles de cada parte involucrada en el incidente no suelen ser “accesibles” (quizás una mejor API), pero los roles son críticos. La relación de las partes, con las partes, con la familia, con los no partes, con el hacedor, con la víctima, etc., no siempre se captura o se cataloga incorrectamente en los Informes de incidentes. )
Una vez que todos los datos estén limpios (¿está pensando en AÑOS?), El análisis estadístico debe aplicarse en base a algoritmos de factores de riesgo. Se aplica un análisis adicional basado en factores externos (clima, días festivos, proximidad, ocasiones especiales como la Feria Estatal (!) Día de la semana: ya conoce el simulacro). El análisis considera la historia (delitos, tribunales, otros?) Considere los factores predictivos, aplique las matemáticas.
Otros factores que puede considerar para el análisis de riesgos: proximidad, ubicación, fechas de audiencia en la corte de todo tipo, incidentes sin resultado de citación, etc. tendrán sus propios desafíos de datos y deben pasar por el mismo ejercicio que los sistemas internos.
Elige una plataforma analítica
Elija un sistema de análisis de riesgos.
Data Scientist configura algos y la plataforma analítica, valida las métricas de análisis predictivo (o la empresa que las proporciona), revisa los datos API de forma rutinaria y regular; esta es una métrica crítica de éxito / falla
Las empresas (tribunales, ejecutivos, funcionarios) deciden informar
El escritor de bases de datos crea informes desde el sistema analítico
Software para redactar informes
Recuerde que los datos existentes, incluso después de la limpieza, no estarán en formato Big Data. Entonces esa es una preocupación constante.
Además, recientemente leí sobre un sistema predictivo para una gran agencia de atención médica que, después de gastar millones, predijo incorrectamente el riesgo de muerte para los pacientes que fueron enviados a casa después de una visita al hospital. Pasa mucho tiempo en la fase de ideación. 2 o 3 veces su peor estimación. Se paga en el backend. Pruebe los resultados contra la realidad y realice los cambios necesarios.
Esta es solo mi hoja de ruta “improvisada” para lo que nos ha llevado a hacer sistemas de datos de Crímenes similares en implementaciones de múltiples agencias, pero se aplicará a Big Data, sea cual sea el uso final.
¡Todo un desafío! ¡Espero que nos mantenga informados sobre su progreso! ¡Te deseo la mejor de las suertes y espero que hayas encontrado útiles estos consejos!