存档

‘每周精华’ 分类的存档

互联网网站的反爬虫策略浅析(转)

2010年2月28日 hashei 没有评论

很早就看过,不过那时候没网站,也就没上心,自从开了JQ公会,头两月还好,第三个月搜狗的爬虫每天就占了几G的流量,不过那时候是虚拟主机,可配置性不大。现在转到VPS,也要开始注意了。

http://robbin.javaeye.com/

互联网网站的反爬虫策略浅析

因为搜索引擎的流行,网络爬虫已经成了很普及网络技术,除了专门做搜索的Google,Yahoo,微软,百度以外,几乎每个大型门户网站都有自己的搜索引擎,大大小小叫得出来名字得就几十种,还有各种不知名的几千几万种,对于一个内容型驱动的网站来说,受到网络爬虫的光顾是不可避免的。

一些智能的搜索引擎爬虫的爬取频率比较合理,对网站资源消耗比较少,但是很多糟糕的网络爬虫,对网页爬取能力很差,经常并发几十上百个请求循环重复抓取,这种爬虫对中小型网站往往是毁灭性打击,特别是一些缺乏爬虫编写经验的程序员写出来的爬虫破坏力极强。曾经有一次我在JavaEye的日志里面发现一个User-Agent是Java的爬虫一天之内爬取了将近100万次动态请求。这是一个用JDK标准类库编写的简单爬取网页程序,由于JavaEye网站内部链接构成了回环导致程序陷入了死循环。对于JavaEye这种百万PV级别的网站来说,这种爬虫造成的访问压力会非常大,会导致网站访问速度缓慢,甚至无法访问。

此外,相当数量的的网页爬虫目的是盗取目标网站的内容。比方说JavaEye网站就曾经被两个竞争对手网站爬取论坛帖子,然后在自己的论坛里面用机器人发帖,因此这种爬虫不仅仅影响网站访问速度,而且侵犯了网站的版权。

对于一个原创内容丰富,URL结构合理易于爬取的网站来说,简直就是各种爬虫的盘中大餐,很多网站的访问流量构成当中,爬虫带来的流量要远远超过真实用户访问流量,甚至爬虫流量要高出真实流量一个数量级。像JavaEye网站虽然设置了相当严格的反爬虫策略,但是网站处理的动态请求数量仍然是真实用户访问流量的2倍。可以肯定的说,当今互联网的网络流量至少有2/3的流量爬虫带来的。因此反爬虫是一个值得网站长期探索和解决的问题。

阅读全文…

分类: 每周精华 标签:

软硬兼施 优化 WebSphere Application Server

2010年2月21日 hashei 没有评论

之前看的很多was优化案例,包括自己实施过程中都只从WebSphere的角度来考虑问题,虽然WAS的优化中包括了操作系统层面的优化,比如对AIX、HPUX的系统参数做出调整,对于网络tcp的参数做出改动,但并没有更进一步,在进行LPAR分区前就做出完整的规划。

WebSphere管理员和硬件与操作系统管理员往往交流不多,且是串行的实施顺序。虽说也就那么做下来了,但是是否充分发挥了硬件的资源,是否达到了最好的性能,最稳定的运行,还是可以有改进的余地?都值得探讨。IBM网站上这三篇文章可谓打通了两种管理员之间的任督二脉,看懂了总有好处。

本书提供了整体系统观点,重点关注在 Power System 和 AIX 上运行 WebSphere Application Server 负载的环境的端到端系统部署、调优和管理方法。因而,本书为两类截然不同的技术读者架起了一座桥梁,也就是硬件和操作系统管理员与 WebSphere Application Server 应用软件工程师。我们都了解,在典型的企业环境中,这两类技术读者需要密切合作,但仍然有着不同的视角和职责。然而,对于企业来说,在度量 Power System 和 AIX 上运行的 WebSphere Application Server 投资的成败时,最终要取决于所有系统架构师能否很好地理解如何同心协力地利用每种产品的特有优势。因而,我们首先要做的是澄清各种观点。

在 Power System 上优化 WebSphere Application Server,第 1 部分: 入门以及优化策略

在 Power System 上优化 WebSphere Application Server,第 2 部分: 设置 Power System 硬件和分区(上)

在 Power System 上优化 WebSphere Application Server,第 3 部分: 设置 Power System 硬件和分区(下)

有空么可以再看看《WebSphere Application Server V6.1 Planning and Design WebSphere Handbook Series》

SSH的一些知识

2010年2月14日 hashei 没有评论

最近的几个项目里都用到Linux,于是不能像UNIX下有同事帮忙配置好一切那样轻松,要自力更生了。首先记录一下每次都会用到却还没深深记录在我的艾宾浩斯记忆曲线中的SSH相关知识。

SSH的全称为Secure Shell Protocol,是一种在互联网上提供安全远程登录(取代telnet)及其它安全网络服务(取代FTP)的协议,只要在客户端连接时选择SSH协议即可。对于服务器端的配置,Red Hat Enterprise Linux默认开启了SSH服务,对于配置文件的详细解释,可以参考下面两篇文章。

sshd_config配置 详解

sshd_config 中文手册

由于SSH的传输加密特性,还可以用来做安全隧道

SSH tunnel tips 

IBM developworks上的这一篇 实战 SSH 端口转发 介绍的更为详细,而且有“X 协议转发实例分析”,在维护UNIX/LINUX时可以更方便。

安全隧道的实际用途之一么,当然是用来翻墙。

Firefox + Autoproxy + Tor 使用详解(转载)

MyEnTunnel+FireFox+FoxyProxy 通过SSH帐号翻墙教程

如何使用代理服务器

当然用PPTP建个VPN也是可以的

利用低端VPS开设VPN翻墙

科学松鼠会的一篇公钥安全机制与宫爆鸡丁的故事不错

扯远了,最后付一篇

Unix/Linux 系统自动化管理: 远程登录篇

分类: 信息安全, 每周精华 标签:

安全:该做什么和不该做什么(转载)

2010年2月5日 hashei 没有评论

安全是当今IT系统越来越重视的内容,特别在系统集成方面,需要我们尽可能构造一个安全可靠的环境。虽然按照传统的经验,一个系统对于不同的业务进行了网络拓扑上的划分,在关键位置部署了防火墙、入侵检测系统、审计系统等安全设备。但是“在你花费时间去加强系统中最坚固的部分的时候,你的对手则正在靠近这个系统中最薄弱的环节”,就要求我们“避免过度设计,优先改进最薄弱的环节”,而这点,往往用钱和设备是堆积不出来的,特别是一些安全设备对于管理人员来说比较陌生,操作上的疏忽反而会造成反作用。

本文版权所有 © 2010 Xin LI <delphij@FreeBSD.org> 保留所有权利

原文链接 《安全:该做什么和不该做什么

非商业转载请注明出处http://blog.delphij.net/, 谢绝商业转载。

安全不能建立在"别人不知道"的基础上

"别人不知道"是一种非常常见的安全假象,举例来说,一种自己设计的山寨加密算法、一个系统中一般人不知道的位置等等,都属于这一类。

将安全建立在"别人不知道"的基础上是非常危险的。首先它会给设计者和用户带来"安全"的幻像,这会直接导致与系统交互的人放松警惕;其次,这样的设计往往留有"后门",甚至是设计者不知道的后门(因为往往他们并不对这类设计进行充分的、专业的审计),容易被攻击者利用;最后,这种做法存在第三方泄密问题,即,使用这种系统的人,需要提防设计系统的人被其他人买通并泄漏一些秘密的情况。

延缓攻击的手段不能用来阻挡攻击

有许多延缓攻击的手段,例如改变服务的端口(比较常见的如将 ssh 改为 tcp/22 以外的端口),或禁止服务程序显示自己的版本等等,或仅仅简单地启用防火墙,这些手段起到的作用只是延缓攻击,而不应作为一种安全屏障。对于多层次式的安全设计来说,采取这些措施有助于提高检测到入侵的机会,但是它们本身并不会提高安全性。

与前一种情况类似,这种做法也只是让管理员放松警惕。例如以 ssh 为例,有人认为将端口改为一个非知名端口可以避免相关的攻击,但事实是,攻击者依然可以利用 ssh 实现或协议设计中存在的一些漏洞来攻破系统。拥有特定资源的攻击者甚至不需要直接对目标系统实施攻击。在较复杂的攻击手段中,包括简单的 port knocking 一类的保护手法,都可以使用类似分组重放这样的方法来逐步攻破。

阅读全文…

Raise my hands , for the WOW

2010年1月30日 hashei 没有评论
分类: 每周精华 标签: ,

6种方式,拯救Google的网络服务数据

2010年1月20日 hashei 1 条评论

转自  学无止境@一点一滴

原文链接  http://www.gtdstudy.com/?p=1797

《让每一天有意义:一生的学习软件推荐》一文中,曾提到:我所有的数据都放在Google上面!且永远不会丢失!——但现在,我得说,这令人沮丧:我可以继续使用,数据可以永久保存,只是,Google已在墙外……

我无意渲染Google离去中国的悲伤,它让信息永无止境,它让我们离世界近的触手可及……可是?中国已无Google??

一、备份Gmail电子邮箱的邮件

1.通过Firefox浏览器备份
Firefox的用户都装上了Gears吧?没有装的,到这下载安装上:http://gears.google.com/intl/zh-CN/index.html

安装之后,在Gmail的设置中开启“离线邮件”的功能,即“设置”——“离线版”——“为此计算机启用离线邮件”。

在“下载选项”中,我推荐你下载所有的标签:收件箱、已发邮件、草稿与自己建立的标签,同时最好都点击“全选”,这样才是完整的。

同时,后面还有一个“附件”选项,你自己考虑是否下载所有的附件,我一般不下载附件,因为比较费时间的。
clip_image002

2.通过Thunderbird邮箱客户端备份
你不必一定要使用Thunderbird邮箱客户端,像Foxmail、Outlook都行,看你喜好自己决定吧。

若你打算使用Thunderbird备份邮件,你可在此下载Thunderbird软件:http://zh-cn.www.mozillamessaging.com/zh-CN/thunderbird/

安装完Thunderbird后,开始新建一个账户吧:“文件”——“新建”——“邮件账户”,见下图:
clip_image004

接着在弹出的对话框,输入你的Gmail账户信息,点击“继续”,再在下一个对话框确认“创建账户”就可搞定,然后,Thunderbird自动帮你开始下载邮件了。

阅读全文…