enero 2010 Archives

dom ene 17 18:18:06 CET 2010

Probando nanoblogger con una plantilla

La idea es ver si esto funciona con un .txt

Y sí, la imagen no tiene nada que ver con el asunto, pero lo bueno de tener un blog en el que el lector no puede opinar es eso. Que pongo lo que me sale de los huevos.


Posted by foobar | Permanent Link

sáb ene 9 19:41:51 CET 2010

Tucan y BeautifulSoup

Supongo que todos conoceis sitios como RapidShare o Megaupload, y el procedimiento estándar para descargarte un fichero: captcha, enlace a la cuenta gratuita, espera de unos segundos, o minutos, y por fin el enlace deseado.

El problema viene cuando el fichero en cuestión está partido en una docena de trozos. Ninguno de esos sitios va a permitirte que, por tu cara bonita, hagas varias conexiones simultáneas. Y te obsequiará con tiempos de espera cada vez más largos en cada descarga.

Para esas situaciones he descubierto tucan, un gestor de descargas lbre, de código abierto, escrito en python y ampliable mediate plugins.

Básicamente, abres tucan, copias y pegas las direcciones de los ficheros a bajar, y te olvidas, tucan se encarga de ir conectando y bajando los ficheros.

El problema es que cuando son más de dos enlaces, a mí, personalmente, me parece un coñazo tener que colocar el cursor en el enlace, botón derecho, copia dirección, alt-tab, pegar, enter, alt-tab, repetir.

¿Y que hace un BOFH ?

Efectivamente, usa python. Y en este caso, BeautifulSoup.

Digamos que nos interesa la serie anime Helsing, y hemos encontrado una página en la que están los enlaces a todos los episodios en megaupload.

Descargamos la página con urllib2

page = urllib2.urlopen("http://www.mcanime.net/descarga_directa/anime/detalle/dd_hellsing_espanol_castellano_1313_mas_ova27s/596")

Creamos una lista de tags que apunten a megaupload

linkToSite = SoupStrainer('a', href=re.compile("megaupload.com/")
getTags = [tag for tag in BeautifulSoup(page, parseOnlyThese=linkToSite)]

Y finalmente, extraemos los enlaces

for link in getTags:
     print link.get('href')

Y ahora sí, copiamos el chorro de enlaces a tucan, que el se los irá bajando tranquilamente.

Esas 6 líneas de código, un poco más elaboradas en feedabird.py y el código en colorines (gracias a vim) aquí

Actualización

Resulta que sitios como taringa!, que suelen ser muy buena fuente de enlaces utilizan javascript, sobre todo para la publicidad, que a BS se le atraganta, por lo que hay que hacer una fea ñapa.

page = urllib2.urlopen(options.url).read()
page = re.sub('


Posted by foobar | Permanent Link

vie ene 1 22:51:57 CET 2010

Empezando el 2010

1 de enero, hoy no trabajo, y tengo unos minutos para pensar que quiero hacer este año.

Huir despendolado no es una opción, así que no me van a quedar más narices que enfrentarme a mis miedos y carencias.

Aprender de una vez a programar en python. Pero aprender de verdad, no sólo conseguir que el script funcione, sino que pueda publicar el código sin usar vergonzantes seudónimos.

Meterle mano a bola8, que esta primavera quiero llevarme a kania a un par de concentras, y así presumir de churri y de hierro.

Decidir si realmente quiero tener cuenta en facebook, myspace, tuenti, spotify, y demás sitios que las modas y la tontería del momento me han ido tentando. ¡Si hasta he picado con el google wave!

Actualizar el blog. En serio. Todas las semanas... Bueno, cada quince días.

Y tatuarme. Por supuesto.


Posted by foobar | Permanent Link