内容择要:
Google的使用如此紧张, O'Reilly有本专门的书介绍了如何
优化网站面向Google的设计,和使用Google的一些技巧:
http://www.esmo.cn/oreilly3564/catalog/googlehks/ 这里我很想把曩昔碰到类似题目时在Google上探求资料的思路和大家分享一下:
充足“多”的特性关键词是快速定位的关键
有同伙问我:在比较慢的机器上Resin不能主动启动题目我是怎么找到在“启动脚本中加入15秒的耽误”这个解决方法的。我当时碰到这个题目后:首先就是把错误日志中的"Can't connect to parent"字样复制下来,然后在google上查:resin2 "Can't connect to parent",从Google找到的资料大部分在Resin的BUG跟踪报告,FAQ和邮件列表中。虽然这些文档中没有给出一个比较直接的答案,但从中我获得了大量的相干信息,从而方便我对题目的分析。整个查找/解决过程大约用了10个小时左右。
假如用户理解了使用更多的关键词可以更快的定位到所必要的信息这一点的话,那么每次查询时用户使用的关键词个数就反映了用户的搜索引擎使用水平,根据在1997年,英语国家的用户平均每次上网查询键入2.1个单词,欧洲其他国家为1.5个单词;到1999年,英语国家是2.7个单词,欧洲国家是2个单词。英语国家用户的经验值要领先其他国家将近1年半的时间。中文搜索引擎也将经历一个用户经验值渐渐进步的过程。
从中我们可以想象在互联网资源的使用水平上中国和国际先辈水平的差距。
进步搜索效果质量的途径:使用英文专业术语、文件类型过滤、专业站点站内搜索
2000年1月,Excite公司的科学家对全球约6.4亿的Internet网页进行了语言认证,发现其中英文信息内容占了71%,而日文是6.82%、德文是5.08%、法文是 1.75%、中文则为1.52%。如此雄厚多彩的英文海量数据库,势必吸引着英语国家的上网用户赓续应用搜索引擎去探求那些有价值的信息内容。使用英文专业术语:学会把本身的题目翻译成英文后再查最近一次经历是找一个Linux应用的安装文档
关键词排名优化,但用中文关键词搜出的内容大部分许多都很旧,甚至有基于RedHat5.2的,而且绝大部分只是的把台湾开发人员写的繁体板HOWTO转成了简体中文,此外,因为一些计算机名次中文名称的翻译不同等也限定了搜索效果的数量和质量。所以目前来说,质量比较高的仍然基于是响应领域英文关键词的搜索。比如,我在解决Perl源代码格式美化的过程中学到了 indent,pretty print和source code beatufier这些术语。通过这些关键词,也方便我找到了其他开发语言的代码格式美化工具。
文件类型过滤:
Google有对PDF, Word(Power Point, Excel), PS文档的索引能力,因为这种文档的内容比一样平常的HTML经过了更多的整顿,学术价值一样平常比较高,所以这些类型的文档天生就比一样平常的HTML类型的文档 PageRank要高。可以通过"filetype:pdf keywords"这种格式过滤返回效果的文件类型,从而进步搜索效果的质量。
行使站内搜索减小搜索范围:
假如某个站点的效果数许多,Google会类聚成2条,并可以通过“www.esmo.cn/example3564 站内的其它相干信息”实行站内检索
网站排名优化,在查询的饬令中其实就是"site:www.esmo.cn/example3564 keywords",所以许多时候可以进一步通过站内检索将搜索效果限定在某些专业站点的范围内,如许许多题目的资料每每可以从其官方站点的FAQ或邮件列表HTML归档中查到。
此外Google自己也有按操作体系分类的主题搜索入口:
http://www.esmo.cn/google3564/linux
http://www.esmo.cn/google3564/bsd
http://www.esmo.cn/google3564/mac
http://www.esmo.cn/google3564/microsoft
我的猜测:Google其实是针对有响应内容的WEB站点根据其服务器进行了类聚,要知道关于Office的内容假如跑在Linux服务器的 Apache上那么很有可能是OpenOffice,而关于Office 2000的文档项目一定是跑在Windows服务器的IIS上的多。
BUG反馈/改进意见也是一种特别很是有价值的劳动
首先,假如发现了题目肯定要进行自动的反馈:有同伙问我说他曩昔早就碰到过类似的题目,说明Resin在CPU比较慢的机器上主动启动这个题目应该是比较普遍了,但为什么同等没有作为BUG提交上去呢?
其次
塑料托盘,假如找到了解决方法,万万不要为本身的一点小技巧志得意满,像在Java 编程技术中汉字题目的分析及解决这篇文章中提到的那个的高手那样,虽然他本身知道了通过Hacking Servert包的源文件解决中笔墨符集题目的方法,假如这真是一个精确的思路为什么不作为一个议程直接提交给JCP呢?
所以我在找到解决Resin主动启动这个题目以后,在响应的BUG跟踪报告中提交了本身的方法,假如以后的版本中有了改进,大家安装使用中可以少考虑一个题目不是更好吗。(虽然这个方法最后没有被采纳),偶然候在反馈过程中你大概会发现让别人接受你的建议其实更难。尤其在中文支撑题目上:但假如中文用户本身不自动反馈,以后许多的设计中就会继承忽略中文用户的一些特别需求。
事实上无论是BUG提交照旧改进意见,对于软件的提高都是一种特别很是有价值的。虽然目前国内还没有许多人直接参与开源软件的开发,但通过以上这些体例积极的参与也是在为开源软件加油。
更自动的反馈莫过于像Blogger一样的自动表达:把你的理解和想法通过互联网传播出去
深圳调查公司,因为在表达和交流过程中同时你也总结提炼了本身的思想,所以“教授他人其实正是一个特别很是好的学习过程”。
GNU的“工具箱”哲学:题目的分解
虽然常常发现本身遇到的许多题目在国外几年前就有人碰到过了,而且每每能通过Google找到大量相干资源。而且类似需求特别很是多的话,每每还会有许多 Open Source的解决方案发布在SourceForge4682 Apache3453上。
但也不要指望所有题目都能够直接在互联网上找到答案,由于复杂题目自己的解决有可能行使其他一些工具组合解决完成的。比如:我在解决多台服务器之间的日志合并统计过程中找到的Apache的日志轮循工具cronolog,在OutLook Express邮件的HTML归档过程中找到的mbx2mbox+mhonarc,以及在CVS的常用工具整顿过程中找到的大量良好应用等。
GNU很推许“工具箱”哲学:由于许多复杂的题目都可以通过几个更简单的工具通过肯定的组合加以解决的。而Perl每每就是粘合这些良好工具的“胶水语言”。这也是为什么Perl(或者说Perl的哲学)是任何一个程序员都因该学习并掌握的语言。
假如一个题目在Google上也找不到,偶然候反思一下是不是自身需求自己的题目,由于只有合理的需求是发展的源动力:假如你发现提出需求目前许多体系中不支撑,说明我们对其设计目标理解不够深入或者对题目的复杂度缺乏精确的估计造成的。比如:MySQL早期版本中没有外键和事务处理的支撑,CVS没有文件的锁定机制,但事实上经过很长时间的实践证实:这些功能并非必需,而且没有这些功能体系也是“够用”的,而且是高效的。
总结
毕竟搜索引擎只是帮助我们把“模糊的”人类语言转换成立了计算机比较擅长的“正确”匹配,因此每每必要使用一些真正能够帮助去其他信息区分开的特性关键词(不仅是多)才能够把本身真正必要的资源比较高效的提炼出来;
而返回的效果不可能达到特别很是完善的程度,所以偶然候除了一些技巧外,照旧必要我们本身从头几十条比较相干的效果中进行一下归纳总结。“搜索= =>总结==>再搜索……”,我想基于搜索引擎的学习基本上就是这么一个赓续提炼过程吧;
假如直接找不到题目的答案就想办法把题目分解,假如还找不到,就反思一下本身的需求是否合理;
把本身的经验通过互联网加以总结,反馈和推广,网志Weblog是一个不错的手段,善于把你的观点共享给别人;
相干资源:
Google搜索帮助
http://www.esmo.cn/google3564/help/
NEC Research Institute CiteSeer
http://citeseer.nj.nec3564/
The Apache Software Foundation
http://www.esmo.cn/apache3453/
GNU项目
http://gnu3453/
各种开源项目资源
http://sourceforge4682
http://freshmeat4682
原文出处:http://www.esmo.cn/chedong3564/tech/study.html