易讀小說網 > 大時代之巔 > 第768章 爬蟲
  在國內做生意,限制比較多。如果是小打小鬧的小公司,只要在合理合法的經營、競爭,怎樣都沒問題。如果是大公司,那就不行了。

  如果是國企間展開激烈競爭,當局一統計,發現這種競爭對兩家企業的利潤都有損害,就會出面協調了。可以把兩家企業的老總互換,化干戈為玉帛。再不行,當局談話,進行問誡。還不行,就有殺手锏了,兩家企業直接合并。

  民企間的競爭相對自由,可大公司之間也有限制。

  每一家成功的民企,經營的都很不容易。

  當局在法律法規、政策等方面都有一定的保護。

  在美國,一個市值1000多億美元的公司一旦報出財務造假,3個月內就破產倒閉了,處置得極其嚴苛。可國內不一樣,民企做大,真是太不容易了,因為犯了點小錯就直接殺頭,太可惜了,罰款幾十萬引以為戒,意思意思得了。

  企業倒了,那么多員工怎么辦?損失的GDP怎么辦?

  這就導致有很多無恥可惡的商人,利用國家對民族經濟的呵護和關愛,不好好做企業,天天想著操縱資本、收割韭菜,導致A股假賬爛賬一大堆。

  這里面的水太深,周不器從不參與,哪怕A股現在歷史性的大漲,他也不去炒股,免得惹一身腥。

  炒股才能賺幾個錢啊。

  他這種身份的人,只要牌坊正,根本不需要去股市里偷雞摸狗,官府會敲鑼打鼓的主動給他送錢。

  要想錢生錢,最好的辦法就是把錢集中起來,交給最會賺錢又人品可靠值得信任的人,讓他去帶領大家共同致富。

  周不器現在基本就是這樣的人。

  郭丹那邊已經回饋了,市里針對紫微星總部的事,已經拿出了一個大致性的意見,會給出一個在首都地區對民企來說前所未有的扶持方案。

  回到紫微星和百度的競爭上,周不器肯定不能像石婧琳說的那樣采取一些過激的行為。

  就算是競爭,也要在一定的范圍之內。

  要是紫微星真的把百度搞死了,這不是牛逼,這是傻逼。同樣的,百度要是把紫微星搞死了,李老板也就被請去喝茶了。

  3Q大戰一度轟轟烈烈,也是當局出面化解糾紛。

  第二天,周不器叫上了郭鵬飛、韓樂水、聶才俊、寧雅嫻等人,去搜索事業群那邊考察工作。場面不小。

  紫微星的幾大事業群負責人中,王小船的壓力是最大的。

  前期工程已經做到了完美,可就是拿不到結果,市場份額一直維持在33%-35%之間。所以他才申請了一個建議,要做一個類似百度貼吧的項目。

  好在周不器對王小船充滿了信任。

  “不要急,我早就說過了,短期之內不看份額,只看產品。”

  “產品……”

  王小船暗暗嘆氣。

  單看產品,微點搜索也不如百度啊!唯一的優勢,就是微點的配套設施更多,有瀏覽器,有導航網,有輸入法,有音樂平臺等等。

  周不器笑了笑,“這點信心都沒有?還是說你承認技術不行?”

  王小船從小就是計算機天才,在技術方面從未服過誰,搖頭道:“搜索引擎的架構高度復雜,有抓取器、渲染器、DNS解析、Redis內存數據庫、URL隊列、種子隊列、響應隊列、URL提取、URL過濾、重復URL檢測等等,是一個技術性很強的龐大工程。我自認為微點的架構不比百度差,可一些技術細節,還需要時間。”

  周不器笑著說:“我知道搜索技術很高端,可隨著時間的推移,搜索技術就會走下神壇,變為比較大眾的技術。最根本的技術,還是大數據處理。”

  在大方向的理論上,周大老板比一些專業人士還強。

  王小船深以為然,“是啊,大數據的處理。百度和谷歌的差距,微點和百度的差距,最主要的就是體現在我們在數據處理時的效率問題。按理來說,通過爬蟲技術,可以抓取到互聯網上所有信息。可相關信息太多了,數據量太大了。怎么才能在短時間內把想要的信息抓取并展示出來,是搜索引擎最大的技術難題。”

  周不器打了個響指,笑道:“巧了,我這次過來,就是想問問你爬蟲的事。”

  王小船有些費解。

  周大老板這個技術外行,怎么還關心起技術細節來了?

  就緩緩的解釋道:“爬蟲是搜索的基礎工具,爬蟲搜信息……嗯,就跟使用瀏覽器上網差不多,都是先向服務器發送請求,獲得返回的頁面,然后篩選出有價值的內容。如果時間足夠長計算量足夠大,使用爬蟲工具,就可以把互聯網上的所有信息都搜索一遍。”

  見周大老板似乎很感興趣的樣子。

  王小船就拿過紙筆,很快速的寫下了一行代碼,“假如說我們要爬取微知網的信息,用這行代碼就可以實現了。”

  周不器拿過代碼一看,嗯,是很簡單。

  headers={‘Use-Agent’:‘ChaiknowsThebot’,}

  r=(“

  html=

  print(html)

  難怪說3月份的時候,北科有兩個計算機系的大學生被開除了。

  這技術好像是不太難。

  因為大四寫論文,可用谷歌、百度、微點等搜索引擎,卻搜不到別人寫的相關論文。怎么辦?就有計算機系的學生,自己寫了段爬蟲算法。

  然后成功的爬取到了幾百篇相關論文。

  接下來就好辦了,摘抄、重組、整合。

  如果查重不過關,也簡單,用谷歌翻譯,先漢譯英、再英譯漢。再人工地把句子整理通順,查重就順利通過。

  可能是北科的創業環境被周不器給帶起來了,那倆大學生就有了通過技術牟利的心思,玩起了幫同學寫論文的生意。

  被發現后,倆人都被開除了。

  要不是周不器出面力保,上繳了非法所得,并安排到了校內網工作,他倆說不定就要蹲監獄了,前程就全毀了。

  王小船接著說:“這是靜態網站的爬取,如果是優酷、朋友網的這種動態頁面,算法會相對復雜。可不管怎樣,這都是很基礎的工具。我們做搜索引擎,難點已經從復雜性變為規模量了。”

  周不器皺皺眉,“老馬……就是阿里的那位。他跟我說,要屏蔽百度對淘寶的爬蟲,怎么回事?”

  王小船笑道:“這事也簡單,爬蟲和網站之間有一個爬取協議,業內叫Robot協議。這個協議會聲明,該網站的哪些內容可以爬取,哪些內容不能爬取,并規定白名單里的爬蟲可以爬取主頁內容。淘寶如果要屏蔽百度,只需要把百度的爬蟲加到黑名單里就行了。”

  “嗯!”

  周不器點了點頭。

  這就是他想要的答案。

  爬蟲黑名單!

  王小船似乎看出了什么,試探著說:“老板,你……你要對百度下手嗎?”

  周不器道:“我看了一下微知網的數據,過去3個月,有超過1.1億的訪問量,是來自百度。”

  王小船沒有驚喜,深吸了口氣,憂心忡忡的說:“微知的訪問量本來就不高,如果屏蔽了百度,流量就更低了。”

  周不器并不在乎,“微知不需要流量,微知需要的是優質內容。你都說了,百度的算法不如谷歌,很難通過簡單的數據處理完成對一些有深度內容的檢索,來爬取微知的內容,是簡潔途徑。有不少用戶都是通過百度來訪問微知,我們要斷了這條線!”

  王小船眨眨眼,“真要屏蔽嗎?”

  “當然。”

  “可Robot協議沒有法律效力。”

  “啥?”

  “這個協議,是一種行業約束,君子協定,不是法律條文。如果百度真想爬取微知的內容,完全可以通過技術手段跳過協議,強行爬取。”

  周不器若有所思,“君子協定啊……如果強行爬取,有違商業道德?”

  王小船點了點頭,“可以這么理解。”

  心中深深的不以為然。

  商業道德?

  這東西是一層窗戶紙,一捅就破。

  “如果違反了怎么辦?”

  “國外有過類似的案子,違反了協議,也被處罰了。因為法官認為這個協議雖不是法律條文,但作為廣泛被接受的行業規則,就應該被遵守。不過國內好像不太行。就像RSS聚合器似的,可以去各個網站上訂閱信息。網站拒絕了RSS訂閱,依舊可以通過技術手段強行訂閱。”

  周不器想了一下,語氣輕松,笑著說:“沒事,百度在美國上市,不敢玩的太出格。先這么做吧,第一步,微知網屏蔽百度的爬蟲。你這邊也做準備,我打算一步步的、全面徹底的跟百度切割。”

  王小船睜大眼睛,“全都切割?”

  周不器淡淡地道:“對!”

  “這行嗎?”

  “你覺得切割了,對誰的危害更大?”

  “這……”

  王小船有些猶豫,不太好說。

  周不器冷冷的道:“紫微星不主動欺負別人,卻也不會任人欺負。百度從校內網挖了十幾個人,把一個滿建制的小組都給挖走了。不亮亮肌肉,李大老板以為我脾氣好,好說話呢!”

  都屏蔽了,當然對微點搜索最有利。

  可王小船格局沒這么小,不認為這是個好主意,好心的提示一句,“咱們自身的利益也會受損。百度是最大的搜索引擎,是流量分發平臺。”

  周不器卻很有信心,“平臺的優勢是輕量級,劣勢是容易被人卡脖子。聯想電腦品牌這么響,你知道聯想最怕什么嗎?最怕微軟的系統授權和英特爾的芯片斷供。每一次發生分歧,都要支付一大筆錢。如果把百度比作聯想電腦,紫微星就需要成為最大的零配件供應商。微知、朋友網、校內網,接下來,我們還會有今日頭條和微博。比比看!”

  ();

網頁版章節內容慢,請下載好閱小說app閱讀最新內容

請退出轉碼頁面,請下載好閱小說app 閱讀最新章節。