第768章 爬虫

  在国内做生意,限制比较多。如果是小打小闹的小公司,只要在合理合法的经营、竞争,怎样都没问题。如果是大公司,那就不行了。
  如果是国企间展开激烈竞争,当局一统计,发现这种竞争对两家企业的利润都有损害,就会出面协调了。可以把两家企业的老总互换,化干戈为玉帛。再不行,当局谈话,进行问诫。还不行,就有杀手锏了,两家企业直接合并。
  民企间的竞争相对自由,可大公司之间也有限制。
  每一家成功的民企,经营的都很不容易。
  当局在法律法规、政策等方面都有一定的保护。
  在美国,一个市值1000多亿美元的公司一旦报出财务造假,3个月内就破产倒闭了,处置得极其严苛。可国内不一样,民企做大,真是太不容易了,因为犯了点小错就直接杀头,太可惜了,罚款几十万引以为戒,意思意思得了。
  企业倒了,那么多员工怎么办?损失的gdp怎么办?
  这就导致有很多无耻可恶的商人,利用国家对民族经济的呵护和关爱,不好好做企业,天天想着操纵资本、收割韭菜,导致a股假账烂账一大堆。
  这里面的水太深,周不器从不参与,哪怕a股现在历史性的大涨,他也不去炒股,免得惹一身腥。
  炒股才能赚几个钱啊。
  他这种身份的人,只要牌坊正,根本不需要去股市里偷鸡摸狗,官府会敲锣打鼓的主动给他送钱。
  要想钱生钱,最好的办法就是把钱集中起来,交给最会赚钱又人品可靠值得信任的人,让他去带领大家共同致富。
  周不器现在基本就是这样的人。
  郭丹那边已经回馈了,市里针对紫微星总部的事,已经拿出了一个大致性的意见,会给出一个在首都地区对民企来说前所未有的扶持方案。
  回到紫微星和百度的竞争上,周不器肯定不能像石婧琳说的那样采取一些过激的行为。
  就算是竞争,也要在一定的范围之内。
  要是紫微星真的把百度搞死了,这不是牛逼,这是傻逼。同样的,百度要是把紫微星搞死了,李老板也就被请去喝茶了。
  3q大战一度轰轰烈烈,也是当局出面化解纠纷。
  第二天,周不器叫上了郭鹏飞、韩乐水、聂才俊、宁雅娴等人,去搜索事业群那边考察工作。场面不小。
  紫微星的几大事业群负责人中,王小船的压力是最大的。
  前期工程已经做到了完美,可就是拿不到结果,市场份额一直维持在33%-35%之间。所以他才申请了一个建议,要做一个类似百度贴吧的项目。
  好在周不器对王小船充满了信任。
  “不要急,我早就说过了,短期之内不看份额,只看产品。”
  “产品……”
  王小船暗暗叹气。
  单看产品,微点搜索也不如百度啊!唯一的优势,就是微点的配套设施更多,有浏览器,有导航网,有输入法,有音乐平台等等。
  周不器笑了笑,“这点信心都没有?还是说你承认技术不行?”
  王小船从小就是计算机天才,在技术方面从未服过谁,摇头道:“搜索引擎的架构高度复杂,有抓取器、渲染器、dns解析、redis内存数据库、url队列、种子队列、响应队列、url提取、url过滤、重复url检测等等,是一个技术性很强的庞大工程。我自认为微点的架构不比百度差,可一些技术细节,还需要时间。”
  周不器笑着说:“我知道搜索技术很高端,可随着时间的推移,搜索技术就会走下神坛,变为比较大众的技术。最根本的技术,还是大数据处理。”
  在大方向的理论上,周大老板比一些专业人士还强。
  王小船深以为然,“是啊,大数据的处理。百度和谷歌的差距,微点和百度的差距,最主要的就是体现在我们在数据处理时的效率问题。按理来说,通过爬虫技术,可以抓取到互联网上所有信息。可相关信息太多了,数据量太大了。怎么才能在短时间内把想要的信息抓取并展示出来,是搜索引擎最大的技术难题。”
  周不器打了个响指,笑道:“巧了,我这次过来,就是想问问你爬虫的事。”
  王小船有些费解。
  周大老板这个技术外行,怎么还关心起技术细节来了?
  就缓缓的解释道:“爬虫是搜索的基础工具,爬虫搜信息……嗯,就跟使用浏览器上网差不多,都是先向服务器发送请求,获得返回的页面,然后筛选出有价值的内容。如果时间足够长计算量足够大,使用爬虫工具,就可以把互联网上的所有信息都搜索一遍。”
  见周大老板似乎很感兴趣的样子。
  王小船就拿过纸笔,很快速的写下了一行代码,“假如说我们要爬取微知网的信息,用这行代码就可以实现了。”
  周不器拿过代码一看,嗯,是很简单。
  headers={‘use-agent’:‘chaiknowsthebot’,}
  r=requests.gets(“
  html=r.text
  print(html)
  难怪说3月份的时候,北科有两个计算机系的大学生被开除了。
  这技术好像是不太难。
  因为大四写论文,可用谷歌、百度、微点等搜索引擎,却搜不到别人写的相关论文。怎么办?就有计算机系的学生,自己写了段爬虫算法。
  然后成功的爬取到了几百篇相关论文。
  接下来就好办了,摘抄、重组、整合。
  如果查重不过关,也简单,用谷歌翻译,先汉译英、再英译汉。再人工地把句子整理通顺,查重就顺利通过。
  可能是北科的创业环境被周不器给带起来了,那俩大学生就有了通过技术牟利的心思,玩起了帮同学写论文的生意。
  被发现后,俩人都被开除了。
  要不是周不器出面力保,上缴了非法所得,并安排到了校内网工作,他俩说不定就要蹲监狱了,前程就全毁了。
  王小船接着说:“这是静态网站的爬取,如果是优酷、朋友网的这种动态页面,算法会相对复杂。可不管怎样,这都是很基础的工具。我们做搜索引擎,难点已经从复杂性变为规模量了。”
  周不器皱皱眉,“老马……就是阿里的那位。他跟我说,要屏蔽百度对淘宝的爬虫,怎么回事?”
  王小船笑道:“这事也简单,爬虫和网站之间有一个爬取协议,业内叫robot协议。这个协议会声明,该网站的哪些内容可以爬取,哪些内容不能爬取,并规定白名单里的爬虫可以爬取主页内容。淘宝如果要屏蔽百度,只需要把百度的爬虫加到黑名单里就行了。”
  “嗯!”
  周不器点了点头。
  这就是他想要的答案。
  爬虫黑名单!
  王小船似乎看出了什么,试探着说:“老板,你……你要对百度下手吗?”
  周不器道:“我看了一下微知网的数据,过去3个月,有超过1.1亿的访问量,是来自百度。”
  王小船没有惊喜,深吸了口气,忧心忡忡的说:“微知的访问量本来就不高,如果屏蔽了百度,流量就更低了。”
  周不器并不在乎,“微知不需要流量,微知需要的是优质内容。你都说了,百度的算法不如谷歌,很难通过简单的数据处理完成对一些有深度内容的检索,来爬取微知的内容,是简洁途径。有不少用户都是通过百度来访问微知,我们要断了这条线!”
  王小船眨眨眼,“真要屏蔽吗?”
  “当然。”
  “可robot协议没有法律效力。”
  “啥?”
  “这个协议,是一种行业约束,君子协定,不是法律条文。如果百度真想爬取微知的内容,完全可以通过技术手段跳过协议,强行爬取。”
  周不器若有所思,“君子协定啊……如果强行爬取,有违商业道德?”
  王小船点了点头,“可以这么理解。”
  心中深深的不以为然。
  商业道德?
  这东西是一层窗户纸,一捅就破。
  “如果违反了怎么办?”
  “国外有过类似的案子,违反了协议,也被处罚了。因为法官认为这个协议虽不是法律条文,但作为广泛被接受的行业规则,就应该被遵守。不过国内好像不太行。就像rss聚合器似的,可以去各个网站上订阅信息。网站拒绝了rss订阅,依旧可以通过技术手段强行订阅。”
  周不器想了一下,语气轻松,笑着说:“没事,百度在美国上市,不敢玩的太出格。先这么做吧,第一步,微知网屏蔽百度的爬虫。你这边也做准备,我打算一步步的、全面彻底的跟百度切割。”
  王小船睁大眼睛,“全都切割?”
  周不器淡淡地道:“对!”
  “这行吗?”
  “你觉得切割了,对谁的危害更大?”
  “这……”
  王小船有些犹豫,不太好说。
  周不器冷冷的道:“紫微星不主动欺负别人,却也不会任人欺负。百度从校内网挖了十几个人,把一个满建制的小组都给挖走了。不亮亮肌肉,李大老板以为我脾气好,好说话呢!”
  都屏蔽了,当然对微点搜索最有利。
  可王小船格局没这么小,不认为这是个好主意,好心的提示一句,“咱们自身的利益也会受损。百度是最大的搜索引擎,是流量分发平台。”
  周不器却很有信心,“平台的优势是轻量级,劣势是容易被人卡脖子。联想电脑品牌这么响,你知道联想最怕什么吗?最怕微软的系统授权和英特尔的芯片断供。每一次发生分歧,都要支付一大笔钱。如果把百度比作联想电脑,紫微星就需要成为最大的零配件供应商。微知、朋友网、校内网,接下来,我们还会有今日头条和微博。比比看!”