Quiero construir un rastreador web. ¿Dónde empiezo? Carrera ángel

Quiero construir un rastreador web. ¿Dónde empiezo?

Un rastreador web es un programa que navega sistemáticamente por la web. Un rastreador web se llamará bots, araña, robot e indexador. Antes de la implementación, necesita saber el tipo de rastreador.

Ancho primer rastreador
Profundidad del primer rastreador
Arrastre centrado
Rastreador web oculto
Rastreador Paralelo
Rastreador web distribuido
Rastreadores web incrementales, etc.

El conjunto de políticas es muy importante, en función de estas políticas, se agregan reglas y regulaciones a la infraestructura de rastreo; de lo contrario, el rastreador implementado creará un problema para el servidor y para el cliente del rastreador.

Una colección o selección: condiciones en las páginas para seleccionar
Una nueva visita o iteración: condiciones para verificar variaciones en las páginas,
Una amabilidad o cortesía: condiciona cómo evadir la sobrecarga del servidor,
paralelización o distribución: establece cómo organizar el rastreador web distribuido.

Ahora comience a construir una infraestructura de rastreo siguiendo los pasos

Frontier: conjunto de URL base desde donde se iniciará la URL.
Obtención: se requiere conectar y abrir web (URL)
Análisis: extrae el contenido relevante. [URL, texto, etc.]
Historial y repositorio de páginas: almacenar y guardar el registro recuperado
Extracción de URL: analice el patrón de URL y su próximo tipo de URL.

Comprenda la técnica de raspado que se utiliza para recopilar información para estas URL.

Seleccione el idioma adecuado para su conveniencia. Además de eso, debe estudiar el patrón de URL, el protocolo de exclusión de robots, la expresión regular, css, Xpath y debe saber cómo funciona el modelo DOM. Estas son las cosas básicas que uno necesita saber antes de comenzar a gatear.

asesoramiento profesionalPregunta personalweb