Muchas veces nos preguntamos como hacen las arqueólogas de datos para buscar información y no perderse en la biblioteca global de basura que es la web. La web podría ser la biblioteca de la mitología nepalense donde la verdad está escrita y la verdad que niega a esta otra verdad y así hasta el infinito.
Y es por eso que debe saber qué se busca. Para eso tenemos dos caminos: uno configurar las características avanzadas del buscador si este lo permite; la otra que es la que describiré muy básicamente aquí es usar los algoritmos.
Ahora ¿qué son los algoritmos?
Los algoritmos son el objeto de estudio de la algoritmia. En la vida cotidiana, se emplean algoritmos frecuentemente para resolver problemas. Algunos ejemplos son los manuales de usuaria, que muestran algoritmos para usar un aparato, o las instrucciones que recibe una trabajadora por parte de su patrona.
Los buscadores generalmente se basan en dos grandes algoritmos de búsqueda la orden FILETYPE que define el tipo de archivo y la orden IN que define específicamente qué buscamos por inclusión a través de un signo más (+) o de exclusión a través de un signo menos (-).
Pero vamos a lo práctico.
Sí ponemos en nuestro buscador; – yo lo he probado en Google, DuckDuckGo y Yahoo sin mayores problemas aunque en los dos primeros la cantidad de webs fue mayor a las que me tiró Yahoo)- la orden FILETYPE de la siguiente manera:
filetype:pdf + borges
Nos tirará todos los PDF indexados, específicamente nos dará el link al pdf NO a la web porque estamos ordenando la búsqueda específica de ese tipo de archivo. Esto puede hacerse también con un titulo en vez de una autora poniendo
filetype:pdf + (nombre de la autora)
o con otro tipo de archivo
filetype:mp3 + (autora o canción buscada)
filetype:torrent
filetype:pst
filetype:xlsx
filetype:doc
siempre marcamos con el signo + el dato específico ya sea la autora, cantante, tema, título.
Ahora vamos a la orden IN.
Empecemos por poner:
intitle:index.of + (pdf/doc) + Borges -html -html -php -ps
Aquí estamos ordenando que nos busque los archivos pdf y doc que haya indexados excluyendo específicamente los htm, html, php, ps.
También podemos buscar archivos por titulo como recién pero ser más amplias poniendo:
allintitle index of zika
o buscar por inclusiones de texto:
allintext: search web +zika
o buscar por inclusión de la dirección web
allinurl: search web +zika
también podemos buscar por dominio
site:edu.ar
site:www.unr.edu.ar
Ahora algunas cositas divertidas.
Si ponemos por ejemplo:
filetype:xls “username | password”
de golpe tendremos varios listado con nombres de usuarias y password de distintas páginas y hasta corporaciones.
Y si ponemos un algoritmo un poco más complejo ya estaremos a las puertas de un hermoso hack;
inurl:»passes» OR inurl:»passwords» OR inurl:»credentials» -search -download -techsupt
-git -games -gz -bypass -exe filetype:txt @yahoo.com OR @gmail OR @hotmail OR
@rediff
Esto nos buscará también usuaria y password pero será más específico excluyendo los sitios de games-juegos archivos que no sean txt y buscará hasta en las casillas de las tres proveedoras más importantes. Ahora si haces esto debes tener cuidado con archivos Pishings (pesca) enviados a tus víctimas como txt y que vos has ahora localizado dentro de los txt usuaria/pass y fundamentalmente no modifiques nada; estas aprendiendo no atacando a nadie.
Muchas veces el gobierno cuelga en internet documentos pero no los hace públicos, este algoritmo puede ayudarte a buscar.
not for public release» inurl:gov.ar OR inurl:edu.ar OR inurl:mil.ar -.com -.net
Debo advertirles que el macrismo ha ocultado muchos archivos que hasta hace dos meses eran públicos, así que muchos de los archivos serán casi obvios pero es una buena práctica para obtener información de primera mano.
Y hasta aquí mi muy básica introducción práctica a los algoritmos para buscadores, todas las ordenes pueden combinarse y lograr mejores resultados.
Como siempre digo en este mundo globalizado ellas no nos darán las llaves de la casa de la ama, pero nosotras podemos entrar y tomar la casa por la puerta de atrás.