Algoritmos de Yahoo: Flickr Interestingnessâ„¢

Interestingness Formula

Hace tiempo, A propuso en los comentarios de Algoritmos de Google: El Page Rankâ„¢ la posibilidad de que explicásemos como funciona el algoritmo que evalua la Interestingnessâ„¢ (o «interesancia» para los hispano hablantes) de las fotos de flickr*. Para los que no lo conozcan, flickr es un servicio online que te permite, tras hacerte una cuenta, subir una cantidad de fotos determinada al més a sus servidores y compartirlas con tus amigos o con todo el mundo.

Flickr Interestingness

La Interestingnessâ„¢ de una foto, mide simplemente lo interesante que es esa foto. Y funciona tan bien que la gente empieza a buscar algunas imagenes en flickr en vez de emplear la búsqueda de imágenes de google.

Hagamos una Comparación: Google images vs Yahoo Interestingnessâ„¢

En Yahoo! están tan contentos con el resultado, que han patentado la Interestingnessâ„¢, extendiendola no solo a fotos, si no a cualquier tipo de media-object (música, video…). Aplicando un poco de ingenierí­a inversa, vamos a ver que tan mágica es esa fórmula.

(*)No busques este pantallazo de flickr por ningún sitio. No existe como tal. No obstante todas las fotos son de flickr. Por si buscabas el enlace a la foto de la chica… está en el texto de post.

Sigue leyendo

Algoritmos de Google: PigeonRankâ„¢

pigdeon Cluster

Siguiendo con nuestro analisis de los distintos algoritmos que han aupado a Google a donde está, hoy vamos a ver el PigeonRankâ„¢, el algoritmo (más bien la implementación) detras de la capacidad de Google para buscar la página ideal en base a las palabras de búsqueda introducidas, en un tiempo infinitesimal. Pese a que la publicación de este secreto puede significar una proliferación de las técnicas SEO black hat (aka Piratas del PageRank), los mismos chicos de Google tienen la amabilidad de explicarnoslo en su página.

pigdeon efficiencyPor resumirlo de alguna forma se trata del empleo múltiples de Clusters de Pichones* de bajo coste, trabajando en paralelo. Cada pichón procesa uno de los resultados de busqueda asociado a las palabras introducidas. Si encuentra un resultado interesante, activa con su pico un pulsador. Lo que incrementa la puntuación de la página en cuestión. Tras el procesado mediante pichones las páginas son ordenadas de mayor a menor puntuación y presentadas al usuario.

(*)Si eres nuevo en TheSmokeSellers y te interesa usar parte de la informacion aqui presentada para tus trabajos del instituto, déjame hacerte una recomendación: Observa la correlacción entre la nota que te ponen y la presencia de los tags Smoke Selling y Chorradus Magnificus en el post del que lo copiaste.

Algoritmos de Google: El Page Rank

Method for node ranking in a linked database

absmiddle

(Método para la jerarquización de nodos en una base de datos enlazada)

La patente más famosa de Google es una de las principales ventajas competitivas que permitió a esta compañia aplastar a sus competidores en el campo de las busquedas en internet y hacerse el gigante que son hoy*. El Page Rank, como todos la conocemos, es una idea genial para hallar el valor o "importancia" que tiene una página web determinada. Esta "importancia" se emplea después para mostrar los resultados de mayor calidad cuando realizamos una búsqueda en Google. La calidad de los resultados de Google empleando este método (combinado, por supuesto, con otros algoritmos) es lo que nos hizo a todos abandonar nuestros antiguos buscadores (Altavista, Metacrawler) y pasarnos al buscador de Larry y Sergei. Aquí en The Smoke Sellers estamos un poco quemados con el hecho haber bajado de Page Rank y hemos estado intentando hincarle el diente estos días. En este post vamos a explicar el algoritmo hasta el final intentando emplear la cantidad mínima de matemáticas posibles.

(*) goran opina que otra de las principales ventajas competitivas de Google fue llenar una piscina olimpica de sangre de niños no bautizados y ofrecer su buscador a Satan.

Sigue leyendo

El origen de los términos álgebra y algoritmo

http://www.thesmokesellers.com/wp-content/uploads/2007/05/abu_abdullah_muhammad_bin_musa_al-khwarizmiEn TSS nos encantan los algoritmos, tanto que tenemos un tag solo para ellos. Dado que empleamos el término tan a menudo, merece la pena saber cuales son sus origenes: Algoritmo proviene de un nombre propio, concretamente محمد بن موسى الخوارزمي ejem… quiero decir Muḥammad ibn MÅ«sā Al-KhwārizmÄ« reputado matemático, astrologo y geógrafo nacido alrededor del 780 d.C en Uzbekistan. La latinización de Al-KhwārizmÄ«: algoritmi, es lo que da origen al español algoritmo. Además, su libro Compendio sobre cálculo, completación y recolocación (الكتاب المختصر في حساب الجبر والمقابلة) fue el primer tratado sobre resolución de ecuaciones lineales y cuadráticas que existe y por tanto se considera a Al-KhwārizmÄ« junto con Diophanto [Ing] como los padres del álgebra.
Sigue leyendo

SPAM III: Envenenamiento Bayesiano

Bayesian Poisoning

No, no se trata de la última pelí­cula de Steven Seagal. Por petición de una mayorí­a de nuestros lectores, concretamente dos, vamos a cerrar la trilogí­a del SPAM (I, II) viendo porqué los spammers solo han perdido una batalla y no la guerra. Repasaremos las mejoras que han hecho los malos a sus tácticas y algoritmos de penetración (Envenenamiento Bayesiano, Whitelisting Troyano) y como los buenos no se ha quedado dormidos en su defensa de nuestra bandeja de entrada y han desarroyado algoritmos capaces de analizar el contexto del email (filtros Bayesianos-Markovianos). Hay que ver como le da al coco esta gente.

Sigue leyendo

Cómo funciona un filtro anti-spam

En los últimos 2 meses he recibido en mi cuenta de gmail 2053 correos basura, de los cuales aproximadamente un 98.5% se han ido directamente a la papelera. Se calcula que entre el 70% y el 80% del mail circulando es SPAM. En un post anterior explicamos el origen de este fenómeno y qué podí­amos hacer para reducirlo. Ahora veremos como se las arreglan Google, Yahoo & Cia para mantener nuestra bandeja de entrada los más limpia posible mediante algoritmos inteligentes (y algunos no tan inteligentes). Como siempre con la mí­nima cantidad de matemáticas posibles.

Sigue leyendo

Origen del SPAM y cómo evitarlo

La integración de la tecnologí­a de las telecomunicaciones en nuestra vida esta a teniendo lugar a tal velocidad que ni siquiera tenemos tiempo de darnos cuenta. El nivel interconexión ha subido tanto y los costes de trasmisión de información han bajado tan brutalmente que se ha creado un nuevo mundo virtual que cada vez atrapa un porcentaje mayor de nuestro tiemo (recodemos el infame twitter).

No todo podí­a ser bueno en este nuevo mundo. Los muros de incomunicación que han caí­do también han liberado un montón de estúpidos, incautos e hijos de puta que, a la caza unos de otros o en puro ejercicio de su mortal estupidez, nos complican la existencia en la web. Aquí­ en thesmokesellers vamos a destripar un poco el fenómeno del SPAM y a comentar, con la mí­nima cantidad necesaria de matemáticas, cómo funcionan los filtros que hacen nuestra bandeja de entrada más llevadera. Probablemente, lo más próximo a una inteligencia artificial que tienes pululando por el ordenador/servidor.

Como la cosa da para bastante, lo dividiré en dos tres posts. Este primero dedicado a qué es el SPAM y las formas básicas de evitarlo. Es segundo y el trecero irán netamente dedicados a los algoritmos que se emplean para filtrarlo.
Sigue leyendo

Criptografí­a de clave pública

RSA

Tras las noticias referentes al sistema de computación cuántica Orión (posible fake) en TSS queremos informar sobre las bases de la teóricas del aparatito, sus posibles aplicaciones y todo estos “rollos” que nos encantan.

Dividiremos el asunto en 3 partes/post para intentar dar una visión lo más global (¡y pragmática!) posible de las teorías cuántica de la información y de la computación:

1.- Criptografía Clásica

2.- Criptografía Cuántica

3.- Ordenador Cuántico

En este primer artículo explicaremos las particularidades de las funciones de una sola vía, es decir, algoritmos característicos de la criptografía de clave pública. Para ello veremos el funcionamiento del sistema RSA ( acrónimo de Rivest, Adleman y Shamir, creadores del mismo allá por 1977).

Utilizaremos matemáticas básicas y argumentaciones relativamente simples (en vista a las quejas por el "andamiaje" matemático que Ergodic utilizó en el caso de Google).

Sigue leyendo

Piratas del Page Rank

piratesEntre el montón de comentarios que recibió el post sobre el Page Rank, hubo alguno de gente que trabajaba con buscadores de internet e incluso de gente que se dedica al SEO[ing.] (Search Engine Optimization).

Esto último yo tampoco lo conocía (ni el SEM[ing.] ni el SMO[ing.] pero sí el SOM [ing.]) Como sonaba interesante (tengo adicción a las siglas), me puse a buscar un poco por ahi. El SEO se traduce en español como Optimización de buscadores. El nombre no deja de ser bastante eufemístico, porque la definición de la Wikipedia lo tilda directamente de márketing orientado a aumentar el número de visitas que recibe tu página. También se preocupa por señalar que esto incluye tanto metodos sociales como algorítmicos. Es decir, esta es la gente que trae loca a Google, Yahoo y Microsoft, intentado adivinar los criterios con los que los buscadores de internet valoran las páginas y despues vendiendo esta información a sus clientes. 

En otro ejercicio de vileza irresponsable, en TSS vamos a traducir un artículo de uno de estos Piratas del Page Rank* que explica algunas de las técnicas antiguamente empleadas para aumentar la visibilidad de las páginas web. Estan ustedes advertidos: Las técnicas aqui mencionadas estan identificadas y penalizadas por los buscadores y pueden mandar su página web al limbo del Pr.0 por varios meses.

(*) Vamos, lo digo sin faltar. Puro sensacionalismo. Hoy en día se llama pirata a cualquier cosa. Si hay un mínimo de rechazo a esta gente no es por cuestion moral, si no por joder la efectividad de un algoritmo tan majo (viva al Algortimocracia!). 

Sigue leyendo