Leer HTML e interpretar javascript

Imaginemos la situación en la que queremos ir a un restaurante en el que solo se puede entrar con reservación  y esta solo se puede hacer mediante su pagina web en algún momento del día.

Situación muy típica para los creadores de bots desde hace años y siempre muy fácil de resolver con librerías que te descarguen el html  (requests para python)  y aun mas fácil si puedes convertir el DOM a un objeto nativo (BeautifulSoup tambien para python).

 

Pero en estos tiempos modernos y con esos desarrolladores tan locos que existen por hay (y que deberían ser atropellados) que para todo usan javascript con librerías raras, ofuscación  y cargando bloques enteros de html pre-tratados con javascript. ( El mundo es muy triste desde que existe nodejs )

Afortunadamente  también ya existen opciones  para interpretar javascript y re-formatear el html descargado.

Dryscrape  es un  webkit o un envoltorio de un webkit como sea que cumple con la función anterior en pocas lineas.

 

 

 

 

Martin Quinta

Crecí con una computadora desde el kinder. Empece a programar a los 14 y hoy, mas de una década después… realmente odio estar frente a una computadora. Pero programar es en lo que soy bueno, por lo tanto me desahogo en este blog mientras bebo cerveza artesanal y pienso en un mundo bonito donde Java no existe.

Facebook Twitter LinkedIn  

Entradas relacionadas:

Leave a Reply

Your email address will not be published. Required fields are marked *