• Página 1 de 1
  • 1
Moderador del foro: ZorG  
Derechos de autor: problema
Maxi
Mensajes: 67
Reputación: 0
Mensaje Nº 1 | 5:12 AM
Buenas, me ha surgido una duda, estaba pensando en añadir archivos desde mi pc a la pagina cuando me empece a hacer preguntas sobre la proteccion de dichos archivos, en fin, el problema es:

Tengo miedo de que cuando suba algun archivo personas malas copien dichos archivos o apartir de ellos creen otros similares para beneficiarse, en eso, se me ocurrio que hay derechos de autor que prohiben eso, pero como no conosco dichas leyes y demas no puedo hacer nada, porfavor, alguien me podria orientar en esto, es decir, que me digan como puedo proteger mis archivos para que nadie los copie (de todas las maneras posibles) y puedan utilizarlos en un futuro sin mi autorización.

Atte. Maxi

sorin
Mensajes: 442
Reputación: 6
Mensaje Nº 2 | 9:17 AM
Ahi muchas formas de proteger tus archivos pero es imposible impedir que los demas te copien. Si no tienes muchas visitas no creo que te copiara alguien pero si lo hace trata de denunciarlo a Google y hablar con el que te copie.

Saludos.
Sorin.


Maxi
Mensajes: 67
Reputación: 0
Mensaje Nº 3 | 8:40 PM
Hola, y porque a google? y otra pregunta: existe alguna ley que prohíba eso?, si la hay, me dices el numero?

Atte. Maxi

sorin
Mensajes: 442
Reputación: 6
Mensaje Nº 4 | 9:59 PM
Yo uno no conosco ninguna ley sobre este tipo pero seguromente que ahi. Pero de momento puedes examinar cual de esta si te conviene: http://creativecommons.org/

Voy a examinar un poco sobre el tema y te dejare un respuesta mas clara ok.

Saludos.
Sorin.


Maxi
Mensajes: 67
Reputación: 0
Mensaje Nº 5 | 11:24 PM
Mmm, esperare tu repuesta con ansias.

Atte. Maxi

sorin
Mensajes: 442
Reputación: 6
Mensaje Nº 6 | 1:43 AM
Mira te puedo recomendar un articol sobre el enlace que te deje en un blog bastante importante en el mundo hispano,
http://www.maestrosdelweb.com/editorial/creativecommons/

Podras leer opiniones de otros webmaster y ver de que va el tema. Pero eso de protejer el contenido en la red no es tan facil.

Saludos.
Sorin.


Maxi
Mensajes: 67
Reputación: 0
Mensaje Nº 7 | 2:37 AM
Me parece genial la pagina que me has pasado, y eh entrado en la web oficial de Creative Commons y esta muy bueno, cuando termine mi primer archivo le aplicare esta licencia.

Mil gracias y saluda Atte. Maxi

sorin
Mensajes: 442
Reputación: 6
Mensaje Nº 8 | 2:41 AM
Me alegro de poder ayudarte amigo, y no dudes de preguntar lo que te interesa para poder desarollar tu siteo en la red de redes.

Saludos.
Sorin.


Maxi
Mensajes: 67
Reputación: 0
Mensaje Nº 9 | 3:15 AM
Recibiste mi mp??
sorin
Mensajes: 442
Reputación: 6
Mensaje Nº 10 | 3:41 AM
Si lo recibi y te mande una respuesta, pero dejamos esto para el privado porque puede molestar a nuestro administardor o a los usuarios.
GUARAGUAO
Mensajes: 2362
Reputación: 81
Mensaje Nº 11 | 2:55 PM
Web Scrappers (Evitar robo de contenido)


Los Web Scrappers o ladrones de contenido son un tipo de robot o crawler que indexa contenido recopilando información y artículos de otras webs para - generalmente - duplicarlo, añadiendo bloques de publicidad y lucrarse con el esfuerzo de otros ( cosa que vulnera licencias, todo sea dicho ).
Este tipo de técnicas habitualmente generan mucha controversia , ya que a algunas personas les parece totalmente lícito, mientras que a otras les parece una estrategia abyecta.

Entrando un poco más en este tema encontramos los llamados planetas , que no son más que (en ámbitos web) un sitio web que recopila a través de feeds RSS los artículos de diferentes blogs o webs (normalmente siguiendo una misma temática o criterio).

Es una idea genial. Hay multitud de planetas muy interesantes que personalmente sigo (aunque siempre suelo leerlos desde la página original). Sin embargo, hay varios puntos que considero importantes como no permitir comentarios en el planeta, dirigir al lector a la web original, no incorporar publicidad , citar la fuente de los artículos u otros detalles que estarían restando mérito al autor del escrito.

¿Cómo puedo localizar web scrappers?
Es un tema bastante complicado, pero vamos a intentar simplificarlo. Para «robar» contenido, un scrapper o robot spammer ( emails, comentarios, trackbacks, ... ) tienen que acceder al feed RSS (usualmente llamado index.xml), así que vamos a aprovechar esa acción para encontrarlos. Necesitaremos acceso a nuestro fichero de logs, generalmente access.log o access_log. Si tenemos acceso SSH a nuestro servidor, mejor que mejor:

Quote
egrep "/index.xml" access_log | cut -d" " -f1,12- | sort | uniq -c | sort -n | tail -25

Con este comando conseguiremos separar los accesos al feed RSS, obteniendo la IP y el User Agent , ordenándolo por número de accesos. Finalmente, obtendremos un listado de los 25 accesos más frecuentes.

Hay que hacer notar que del listado resultante, varios accesos serán de usuarios desde navegadores o agregadores como Bloglines o Google reader. Añadiendo el siguiente pipe al comando anterior podríamos filtrar la mayoría de agregadores, quedando:

Quote
egrep "/index.xml" access.log | egrep -v "subscribers|Gecko|Liferea|Google Desktop|Akregator|Vienna|Tumblr|Feedshow|Gregarius|Googlebot|Feedreader" | cut -d" " -f1,12- | sort | uniq -c | sort -n | tail -25

Después de esto, obtendríamos - ahora si - un listado más aproximado de usuarios «sin identificar» y posibles scrappers. Hay que ser muy cuidadoso e ir investigando cada entrada. Una serie de consejos:
Verifica las últimas entradas primero: La primera cifra que aparece es el número de accesos, o lo que es lo mismo, el usuario que más frecuente accede a tu feed RSS. Interesa descubrir quienes son estos individuos.
No bloquees agentes como Googlebot o MSNbot: Los buscadores también acceden a tu feed RSS. Asegurate de excluirlos de tu lista.
Comprueba las IPs o hosts sospechosos: En Whois DomainTools puedes comprobar las ips para saber si son spammers conocidos.
Investiga el User-Agent: Busca por Google, también existe un diccionario de robots, crawlers y spiders o en sus comentarios.
Ojo con los User-Agents «Java/x.x.x»: En la mayoría de los casos, son bots maliciosos.

Si no estás seguro de que el usuario que miras sea un robot, siempre podrías investigar más en tus logs a ver en que otras páginas ha estado, a parte del feed RSS:

Quote
grep " IP " access_log | cut -d" " -f7

Las vírgenes tienen muchas navidades pero ninguna Nochebuena.
GUARAGUAO
Mensajes: 2362
Reputación: 81
Mensaje Nº 12 | 4:01 PM
htaccess: Bloqueando a la fuerza

El último día hablaba sobre las recomendaciones para robots y crawlers mediante el robots.txt. Este sistema es un conjunto de indicaciones para que los crawlers no se «pierdan» y sepan en todo momento por donde pueden y deben ir.

¿Qué es lo que ocurre? Que cualquier persona me puede indicar que debo y que no debo tocar en su casa, pero en todo momento yo tengo la opción de hacerlo, aunque no deba. De eso vamos a tratar en este artículo, ¿Que ocurre si llega un crawler «listillo» que pasa olímpicamente de las recomendaciones que le hemos hecho? Pues que lo echamos a patadas de nuestra casa... wink

Existe un fichero en los servidores web Apache llamado .htaccess, en el que puedes incluir información de control para dictar al servidor que hacer con tus visitantes y otro tipo de acciones.

Lo primero que necesitamos es un sistema de estadísticas o mejor aún, acceso a nuestro fichero access.log, registro donde se guardan todos los accesos a nuestro servidor.

Bien con un sistema de estadísticas, o con nuestro fichero access.log, nos interesa observar los accesos por petición (request), navegador o agente (user agent) o por ip. Desde una consola SSH podemos conseguir un listado de las IPs que más peticiones realizan:

Quote
tail -10000 access.log | awk '{print $1}' | sort | uniq -c |sort -n

Esta secuencia de comandos nos muestra las últimas 10.000 llamadas a nuestro servidor, agrupándolas por IPs y mostrando el número de peticiones realizado.

Esto nos servirá para tener una idea de que crawlers, robots o usuarios pueden estar sobrecargando nuestro servidor con demasiadas peticiones. Existe un programa bastante útil que que se utilizz para analizar los access.log, llamado Apache Log Viewer. La única y «minúscula» pega es que está en japonés.

Quote
84 63.161.169.137
85 crawl-66-249-67-236.googlebot.com
91 81.177.8.166

Este no es un ejemplo real, pero imaginemos que esos son los resultados obtenidos. Tendríamos 84 peticiones de la IP que figura a su derecha. Si vamos a Inicio / Ejecutar / cmd y escribir nslookup IP podremos obtener el DNS inverso y saber a que compañía pertenece, o investigar un poco más con un analizador de logs o estadísticas y ver que accesos ha hecho.

¡Ojo! Que haga muchas peticiones no significa que sea un robot malvado. Puede que se trate de nuestro más fiel visitante o nuestro querido buscador de Google. Mucho cuidado con bloquear IPs sin pensárselo.

En nuestro caso resultó que la IP 81.177.8.166 realizaba bastantes peticiones, e investigando un poco más pude ver que eran a antiguos ficheros de un formulario que ya no existían. Probablemente un robot spam que sigue torpemente intentando enviar comentarios de SPAM, generando peticiones inútiles.
Si tenemos dudas la mejor opción es hacer un Whois y si nos parece que está realizando un ataque, enviar una queja al e-mail de abuse del ISP que muestra en el whois.

Bloqueando por IPs

Si estamos completamente seguros de que la IP que hemos encontrado en nuestros logs nos está realizando ataques DoS o algún tipo de sobrecarga de peticiones, vamos a bloquearla. Para ello tenemos que editar el fichero .htaccess en la carpeta raíz de nuestro sitio vía SSH o FTP y escribir o modificar su contenido añadiendo:

Quote
Order allow, deny
Deny from 81.177.8.166
Allow from all

Y no solo bloquear IPs, sino también rangos de IPs mediante sus clases: Deny from 81.0.0.0/8. Esto también es aplicable a crawlers que hemos añadido en el robots.txt y vemos días o semanas después (ojo, a veces no leen el robots.txt instantáneamente) que no hacen caso. Ahora toca que hagan caso a la fuerza mostrando un código de error 403 (prohibido) en lugar de lo que esperaban.

Bloqueando con SetEnvIfNoCase

Se nos plantea otra dificultad. Los robots que acceden ahora nunca tienen la misma IP, siempre son totalmente diferentes y sin relación:
Bot 1: Su agente de usuario no varía, es Malvadobot/2.0.
Bot 2: No tiene nunca el mismo agente de usuario, ni IP, pero accede siempre al fichero /sendemail.php, que no existe.
Bot 3: Ninguno de los anteriores criterios es fijo, salvo que viene siempre (Referer) de la página http://www.spammers.com/.

¿Cómo los bloqueamos?

Quote
SetEnvIfNoCase User-Agent "Malvadobot/" spambot
SetEnvIfNoCase Request_URI "/sendemail.php$" spambot
SetEnvIfNoCase Referer "^http://www.spammers.com/" spambot
deny from env=spambot

Con este código estamos identificando los criterios de los tres bots anteriores para asignarles una variable llamada spambot si casa con los criterios, y que si es así, bloqueará.

Bloqueando con ModRewrite
Existe otra alternativa para bloquear, que necesita el módulo mod_rewrite, y aunque se utiliza para reescribir direcciones, nos puede venir bastante bien para bloquear. Lo he dejado para el final, puesto que creo que es la alternativa más costoso en términos de computación, con respecto a los métodos anteriores.

Quote
RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} ^Malvadobot/.* [NC]
RewriteCond %{REQUEST_FILENAME} ^/sendemail.php$ [NC]
RewriteCond %{HTTP_REFERER} ^http://www.spammers.com/.* [NC]
RewriteRule .* - [F]

En primer lugar activamos el motor del ModRewrite, y usamos los tres casos anteriores como condiciones con el RewriteCond. En caso de ser afirmativa, reescribimos mostrando un error 403, o también podemos usar un error 410 (Eliminado permanentemente) escribiendo [G] en lugar de [F]. En la página de documentación de ModRewrite hay mucha información para profundizar.

Ahora ya sabemos como bloquear. Hay que usarlo con mucho cuidado para no bloquear a usuarios legítimos y perder visitas.


Las vírgenes tienen muchas navidades pero ninguna Nochebuena.
  • Página 1 de 1
  • 1
Búscar: