最近在整理一些爬虫的经验,这里列了个粗略的大纲,并列了一些问题,对爬虫有兴趣的朋友可以参考下,对着这些问题,也方便大家梳理爬虫知识,规划爬虫学习路径等。在后续文中,也许我会找一些相关主题,展开写一些文章。
笔者之前写过一点和搜索相关的文章,一篇是适合大众的搜索技巧分享,不吹牛地说,如果那些爬虫模块和问题,你都深入思考过,也自己实现过,找个年薪百万地机会应该是有的,只要找机会有点耐心。搜索引擎其实挺大的,要做好搜索难度更高。搜索行业不仅仅存在技术壁垒,还存在资金壁垒和数据壁垒等。
我已经很久没怎么做搜索相关的事情了,本身也不是在大的搜索公司工作,所以目前也不靠搜索吃饭。这里写点搜索方面的技术分享,希望对有志从事搜索技术研发的读者朋友有帮助。
搜索引擎的分类方法很多,一般分为网页搜索和垂直搜索。谷歌、百度是搜索搜索,腾讯视频,QQ音乐是垂直搜索。(后续再专文聊聊垂直搜索和网页搜索的差异)
咱们这里不想聊怎么分类,而是想聊聊搜索引擎分为几个模块,各个模块的主要难点在哪里,哪些深入研究是有市场竞争力的,哪些工作是容易在各个公司找机会的。
这里我把搜索引擎主要模块划分为爬虫模块,网页处理,索引模块,检索模块,排序模块。考虑到文章篇幅,这篇文章先讲讲爬虫的部分,后续再一次展开其他部分。
爬虫
爬虫要解决几个问题:覆盖率,更新率,时效性。两个问题是有矛盾的,不更新的网页几秒钟去重新抓一次,不仅浪费带宽,而且在对方网站能够容许的抓取频率下,抓别的就受影响了。
几个工程挑战:怎么存储几百甚至千亿规模的网页?存储怎么去做压缩?怎么对这些数据集进行高校分析?比如分析哪些网页需要重新抓取,分析哪些网站死了,分析标题,分析正文,分析链接农场,计算PageRank等。工程挑战很多,这方面可以去阅读GFS,Bigtable,MapReduce相关的论文。
还有一个工程挑战是,怎么去实时计算一个简化的pagerank?因为pagerank正常是需要离线计算的,一次计算大概需要几天的时间。而判断一个网页是否重要,容不得等上几天的时间,否则搜索引擎的时效性就会比较差。
另外,怎么去挖掘和判断哪些网站是作弊网站,哪些网站的质量很差,哪些网页值得高频抓取,是否有Sitemap,如何利用RSS来抓取,怎么做到爬虫系统比较友好?这些都是爬虫工程师经常要思考的问题。
笔者之前参与开发过的爬虫系统,每天抓取的规模都在1-10亿之间。呆过的两三家公司,都接到大大小小站长的电话反馈或者投诉。这方面就是百度这样成熟的爬虫系统,也难免会被投诉。不过我做网页爬虫那会,基本还是PC搜索时代,百度的流量很值钱,百度的爬虫出了什么问题,一般的站长也不会为难你。但是如果是不太知名的搜索引擎公司,就比较麻烦了,随时封你IP,或者加你的spider Agent到Robots文件的Not Allow列表里。
爬虫还有几个挑战,比如,网页搜索的时效性怎么搞?新一集电视剧出来了,能不能及时收录?能不能搞一个收录平台,让各家都主动接入?论坛有帖子更新了,能及时收录么?突然一条新闻火了,怎么在几秒钟内收录并且索引完毕?微博起来了,微博的内容怎么抓取?公众号火了,那能不能抓取公众号?
海外的网页怎么抓取?IP不够用怎么办?IP无法访问怎么办?代理是什么?怎么买代理?或者怎么自己挖掘代码IP?
另一个挑战是,一个网站之前没抓过,突然谈了个合作,或者突然允许抓取了,一个站点上亿的网页规模,要几天内全部抓取完毕,怎么办?火力全开,人家anti-spider的策略很高级,怎么办?好不容易抓回来了,结果抓取的网页是有问题的,比如文字变成了图片,怎么办?有时候文字response code是200,但是网页却空空如也,怎么办?
本文地址:网络营销知识频道 http://wap.hkm168.com/zhishi/1307.html,武汉易企推公司是一家专业的武汉网络推广,百度开户竞价托管,SEO网站优化公司,提供一站式全网营销服务:小程序开发,网站建设,SEO百度排名,SEM竞价托管,百度推广开户、360搜狗百度竞价开户、百度地图标注、百科词条创建修改、微信公众号代运营、公司负面公关处理等;另外,转载本文请保留本文地址,本站部分文章图片来自网络,本着互联网分享精神,如有侵犯到您的权益,请告知我们删除,谢谢!
http://代表着含义是超文本传输协议(HTTP,Hyper Text Transfer Protocol)是访问万维......
你有用过语音输入法吗?当打字不方便而对方也不方便听语音时,采用语音输入法,让手机自动将语音转换成文字再给对方发过去,确实......
均衡器怎么调达到最佳效果图,汽车均衡器怎么调声音?均衡器,它是一个电子元件,最常见的地方也就是我们的音响当中。均衡器它有......
问:2018新tplink路由器怎么设置密码? 答:首先说明一下,这个问题不够严谨,不知道你是要修改TL路由器上的无线......
我们的生活正在被科技所改变,生活中的智能商品越来越多,为我们的生活带来了很多的方便,无线网就是其中一项,无线网的出现受......
当碰上邻居亲自登门要wifi密码的时候,如果把wifi密码给了,邻居小两口全都连自己家的wifi,致使自己上网卡出翔;......
(1).什么情况下需要改MTU? 如果有的网站不能被正常访问,很难连 接,连接上也非常慢,这种情况就需要修改MTU。 ......
我们先了解一下路由器指示灯。路由器指示灯通常有: SYS 系统指示灯、WAN指示灯、LAN指示灯、无线WiFi指示灯 ......
在电脑的日常运用中,蓝屏黑屏现象我们大都遇到过,但是电脑在运用浏览器打开网页时出现白屏你遇到过吗?电脑黑屏蓝屏的情况下......
网路岗要想控制带宽流量限制局域网网速,必须是在非旁路环境下使用网路岗的网桥才可以。 非旁路环境主要有两类: 1.网路岗......
服务热线:18120550335 / 027-88866235
版权所有:武汉易企推网络科技有限公司
备案号:鄂ICP备17012199号