伴隨著以提倡個(gè)性化為主的“web2.0”概念的興起,UGC讓我們從下載為主的網(wǎng)絡(luò)時(shí)代演變?yōu)橄螺d和上傳并重的交互時(shí)代。這意味著互聯(lián)網(wǎng)的信息量變得更加豐富了,所帶來(lái)的數(shù)量增長(zhǎng)也是我們難以預(yù)估的,面對(duì)海量、豐富的“大數(shù)據(jù)”,國(guó)內(nèi)外都衍生出了網(wǎng)頁(yè)抓取工具這一經(jīng)典利器。
首先讓我們將視線投向國(guó)外,熟悉互聯(lián)網(wǎng)和大數(shù)據(jù)領(lǐng)域的朋友一定對(duì)import.io有所耳聞了,因獲得種子加A輪共計(jì)一千多萬(wàn)美金的融資而引起國(guó)內(nèi)人士的關(guān)注。Import.io的與眾不同在于用戶只需在想要抓取數(shù)據(jù)的網(wǎng)站上進(jìn)行幾次簡(jiǎn)單的點(diǎn)擊操作,就可根據(jù)你的操作推算出你想要抓取的數(shù)據(jù),進(jìn)而創(chuàng)建一個(gè)與這些數(shù)據(jù)的實(shí)時(shí)連接,接下來(lái)你只需選擇想要的導(dǎo)出形式,就可以獲得一份指定內(nèi)容、實(shí)時(shí)更新的數(shù)據(jù)了。
聽(tīng)起來(lái)確實(shí)很有魔力,也恰如其對(duì)產(chǎn)品的命名一樣“magic”。感興趣的朋友可以體驗(yàn)一下,但是需要注意的是,import.io比較適用于一些列表類(lèi)的數(shù)據(jù),像是微博,店鋪網(wǎng)頁(yè)這些類(lèi)型往往并不適用,因?yàn)樗ト〉淖侄尾⒎侨孔侄?,而是基于一種特殊的選擇性推算,所以用戶需要根據(jù)需求去選擇使用。
那么國(guó)內(nèi)最經(jīng)典的網(wǎng)頁(yè)抓取工具,想必你們都已經(jīng)想到了,當(dāng)屬行業(yè)資歷最深的火車(chē)采集器。它研發(fā)于2005年,目前已經(jīng)擁有四十多萬(wàn)免費(fèi)用戶,與Import.io不同,火車(chē)采集器更注重精確性,它需要得到用戶的明確指令也就是采集規(guī)則,之后再去執(zhí)行操作,因此能夠適用的網(wǎng)頁(yè)類(lèi)型會(huì)更多,甚至全網(wǎng)通用。
因?yàn)榛疖?chē)采集器的操作原理是web結(jié)構(gòu)的源代碼提取,所以只要是網(wǎng)頁(yè)上能夠看到的內(nèi)容,無(wú)論以何種排布形式展現(xiàn)都可以被快速提取出來(lái)。并且最終抓取的數(shù)據(jù)支持導(dǎo)入到任一目標(biāo)數(shù)據(jù)庫(kù)中,或者導(dǎo)出為想要的格式。在網(wǎng)頁(yè)抓取的過(guò)程中,還可以選擇不同的線程數(shù)來(lái)控制火車(chē)采集器采集的速度快慢??傮w上來(lái)說(shuō),火車(chē)采集器適用于對(duì)抓取需求很明確,對(duì)速度有要求,對(duì)完整性要求也較高的用戶。
在程序員們驚為天人的高智商開(kāi)發(fā)下,對(duì)網(wǎng)頁(yè)信息數(shù)據(jù)的抓取已經(jīng)不再讓我們感到抓狂。市面上現(xiàn)在還有許多其他新興的或是仿寫(xiě)的網(wǎng)頁(yè)抓取工具,但真正值得用戶稱贊的才是最好的,因此在這里就不一一列舉了。相比國(guó)外的import.io,中國(guó)本土的網(wǎng)頁(yè)抓取工具火車(chē)采集器研發(fā)的更早,功能上也毫不遜色,看來(lái)國(guó)內(nèi)的大數(shù)據(jù)技術(shù)發(fā)展未來(lái)值得我們拭目以待!
