Obtener datos con Scrapy -- 2

€30-250 EUR

Terminado

Publicado

hace alrededor de 1 año

€30-250 EUR

Pagado a la entrega

Actualmente tenemos un proyecto desarrollado con Python y Scrapy en el que tenemos una serie de actividades de las que hay que extraer cierta información en una página web haciendo scraping. Para ello primero se detecta el nº de registros totales en la primera página y posteriormente el nº de paginas. De cada página se obtiene un determinado nº de enlaces fijo, excepto en la última página que puede tener ese nº o menos. Esto es lo que llamo nivel 1. El nivel 1 hay que ejecutarlo varias veces ya que la página web en cuestión va rotando los enlaces en cada página, y después de una rotación no tiene porque haberse obtenido todos los enlaces. En el nivel 2 con todos los enlaces obtenidos obtenemos la información que hay en cada página. Los datos se obtienen usando para la conexión un proxy. Actualmente ya tenemos hecho este proyecto, pero querría mejorarlo ya que no tenemos ningún tipo de información para tomar decisiones. En la configuración actual en scrapy hay arañas que van obteniendo tanto enlaces del nivel 1 como la información de nivel 2. Lo que querría es por un lado cambiar la ejecución de forma que ahora primero se obtengan todos los enlaces del nivel 1, y una vez terminado ese proceso se empiece con el nivel 2. Por otra parte también querría modificar la información que se obtiene en cada paso para ver si el fallo estuvo en que la página no se cargó bien, que bloquearon la ip…. Querríamos obtener datos que nos sirvan para encontrar dónde se ha producido el fallo, el proceso para encontrarlos sería ir guardando el html de todas las páginas de nivel 1 en una carpeta separada y una vez se acaben de recoger todas las páginas de nivel 1, entrar en esa carpeta e ir recorriendo uno a uno cada archivo html, obteniendo distinta información tales como los enlaces que hay dentro y un recuento de estos que deberían ser obligatoriamente 30 excepto en la última página, el número de rotación por el que vamos, el número de página… Con esto conseguiríamos detectar el fallo en cada ejecución, ya que si con este Excel vemos que tenemos en una página intermedia por ejemplo 28 enlaces, vemos que ha habido algún error ya que debería haber 30, y así ya entraríamos en el html de la página de nivel 1 que ha dado este error y podríamos detectar el problema. El código haría varias comprobaciones, primero nos fijaríamos si el conteo por cada página. Si es mayor a 30 debe saltar un error en nuestra terminal. Si es la última página podría tener menos de 30 registros, pero si es una página intermedia debería tener 30 y en caso de no obtener 30 también debería saltar un error. Para acabar comprobaríamos, quitando duplicados, que el número total de enlaces obtenidos (listos para el nivel 2) sea igual al número total de enlaces a obtener +- un diferencial (número que obtenemos al principio del scrapeo). El diferencial se usa porque a veces nos pueden decir que hay 298 registros y dos minutos mas tarde que hay 296. La información que se fuera recopilando se llevaría a un dataframe y finalmente a un Excel (me refiero a la información sobre la extracción de cada url). Los enlaces de nivel 1 recopilados al final de todo el proceso se irían llevando a una tabla mysql. Si todas las comprobaciones están bien, borraríamos esta carpeta ya que la ejecución ha sido un éxito, si no, lanzaríamos otra iteración para ver si recoge más datos de forma correcta. Si ha leído el proyecto escriba LEIDO en su oferta. Otra parte del proyecto será explicarnos exactamente como funciona el proyecto, ya que somos programadores en Python, pero no tenemos muchos conocimientos de scrapy, así como en la configuración correcta de nuestro servidor Ubuntu para interactuar con nuestro código de una manera ágil. Para el proyecto queremos alguien que hable ESPAÑOL.

ID del proyecto: 36030824

Información sobre el proyecto

7 propuestas

Proyecto remoto

Activo hace 1 año

¿Buscas ganar dinero?

Dirección de email

Beneficios de presentar ofertas en Freelancer

Fija tu plazo y presupuesto

Cobra por tu trabajo

Describe tu propuesta

Es gratis registrarse y presentar ofertas en los trabajos

Adjudicado a:

@mubashirallii

Hello, I'm an expert in data scraping across multi languages sites and can provide accurate data throughout all sites. I can chat in Espanol to facilitate you more. Kindly message me to discuss your project and we can start working together. Thank you, i'm looking forward to your response.

€180 EUR en 5 días

5,0

(32 comentarios)

5,9

7 freelancers están ofertando un promedio de €184 EUR por este trabajo

@rafsan99

Hello there, If you are looking for a person who can assure you the quality output as well as punctuality, YES I'm THAT PERSON who might be the best example for YOUR JOB LET'S DISCUSS MORE THROUGH texting and build up a future relationship for the greater Future❤️

€140 EUR en 7 días

5,0

(2 comentarios)

3,1

@RProfessional

Hola LEIDO, el proyecto completo podemos empezar a trabajarlo, solo contacta por el chat estamos viendo los detalles, tengo experiencia con Scrapy con Python, no habría problemas de poder hacer los cambios de tu proyecto. Saludos

€240 EUR en 9 días

5,0

(2 comentarios)

2,3

@ns927

LEIDO. Honestamente nunca he usado Scrapy. Sin embargo, tengo mucha experiencia con Python y scrapeando con Python. Lo que propones no suena excesivamente complicado, solo que me tendría que familiziar con Scrapy. Me he mirado la documentación de Scrapy y no parace nada muy complicado.

€140 EUR en 7 días

5,0

(2 comentarios)

1,3

@RubenBorja1988

Hi, I am a senior full stack engineer with 8 years of development experience. I am extremely proficient with many frontend and backend technologies. The best quality and accurate timeline is what I guarantee you. I am looking forward to having a conversation with you to learn more about your project, its plans and goals, and how I can contribute to its continued success. Best regards.

€400 EUR en 3 días

0,0

(0 comentarios)

0,0

@flaviokspinelli

LEIDO Buenas noches, Tengo algunas dudas sobre el proyecto.

€50 EUR en 30 días

0,0

(0 comentarios)

0,0

@EfrainSantos1

Hola Soy Efrain Santos tengo mas de 4 años de experiencia en scraping de diferentes sitios webs, para el caso de España sobre todo con portales como idealista, fotocasas y sitios web de aseguradoras, manejo tanto scrapy, beautifulsoup, selenium y otro. El proyecto suena bastante interesante sin embargo me queda una dudas, buscan solo una asesoría/consultoría y ustedes desarrollarlo o buscarían que alguien mas realizara las nuevas características que comentan en la descripción?

€140 EUR en 7 días