為了讓大家更快更容易的上手火車采集器,先把關(guān)于采集器的幾個(gè)重要也是必須要知道術(shù)語(yǔ)介紹下。
亞馬遜平臺(tái)的玩法有很多,有一些朋友會(huì)選擇鋪貨模式,那么就需要使用工具去采集更多的產(chǎn)品信息,對(duì)于一些新手賣家朋友來說,可能還不是很清楚的知道亞馬遜火車頭采集工具怎么用?
為了讓大家更快更容易的上手火車采集器,先把關(guān)于采集器的幾個(gè)重要也是必須要知道術(shù)語(yǔ)介紹下。
采集規(guī)則: 所謂采集規(guī)則就是我們要采集一個(gè)網(wǎng)站時(shí),在軟件里面進(jìn)行的設(shè)置。這個(gè)設(shè)置可以從軟件里面導(dǎo)出并保存成一個(gè)文件后綴名為.ljobx ,并且這個(gè)規(guī)則可以再導(dǎo)入任意一個(gè)火車采集器
里面使用。換句話說,就是用火車采集器能理解的方式告訴火車采集器我們要采集哪個(gè)網(wǎng)站,要采集網(wǎng)站里面的哪些信息的一系列設(shè)置。
發(fā)布模塊:所謂發(fā)布模塊就是在需要將已經(jīng)采集到的數(shù)據(jù)發(fā)布到目的地(比如:發(fā)布到指定的網(wǎng)站上面或者發(fā)布到指定的數(shù)據(jù)庫(kù)里面)時(shí)在火車采集器里面進(jìn)行的設(shè)置。這個(gè)設(shè)置可以從采集器里
面導(dǎo)出成一個(gè)文件,并且可以把這個(gè)文件再次導(dǎo)入任意的火車采集器里面,多次使用。發(fā)布到指定網(wǎng)站的設(shè)置稱為WEB在線發(fā)布模塊后綴名是.wpm。其工作原理是:將采集的數(shù)據(jù)以POST方式
發(fā)送到網(wǎng)站頁(yè)面程序中,并由網(wǎng)站程序?qū)?shù)據(jù)進(jìn)行處理然后入到網(wǎng)站的數(shù)據(jù)庫(kù)里面。發(fā)布到指定數(shù)據(jù)庫(kù)的設(shè)置稱為數(shù)據(jù)庫(kù)發(fā)布模塊,后綴名是.dbm。其工作原理是:連接數(shù)據(jù)庫(kù),將采集的數(shù)據(jù)直接通過數(shù)據(jù)庫(kù)的SQL語(yǔ)句直接把數(shù)據(jù)放到數(shù)據(jù)庫(kù)里面。WEB在線發(fā)布模塊和數(shù)據(jù)庫(kù)發(fā)布模塊統(tǒng)稱為發(fā)布模塊。(在線發(fā)布模塊制作教程)
采集任務(wù):采集規(guī)則告訴采集我要采集什么,發(fā)布模塊告訴采集器采集到的數(shù)據(jù)放到那里,這兩者合在一起,就是一個(gè)包含數(shù)據(jù)采集和數(shù)據(jù)發(fā)布的采集任務(wù)。
發(fā)布接口:發(fā)布接口就是一個(gè)小的頁(yè)面程序通常和WEB在線發(fā)布模塊配合使用。來滿足用戶的特定需求。簡(jiǎn)單的說就是采集器將采集的數(shù)據(jù)發(fā)送到發(fā)布接口文件中,接口文件得到數(shù)據(jù),并按照
用戶特定需求處理數(shù)據(jù),用戶可以更加靈活自由的處理采集器采發(fā)送的數(shù)據(jù)。
插件:插件可以讓用戶通過自己寫的PHP者.NET程序放到采集器中對(duì)采集的數(shù)據(jù)進(jìn)行處理。
大家操作的時(shí)候,要特別注意控制速度和間隔時(shí)間,因?yàn)樗麄兊姆磁老x監(jiān)控是最嚴(yán)格的,如果爬得太快和太頻繁,就很容易被發(fā)現(xiàn),結(jié)果就是爬蟲無法訪問網(wǎng)頁(yè)了。
點(diǎn)擊咨詢現(xiàn)在有哪些新興平臺(tái)值得關(guān)注 >>>
特別聲明:以上文章內(nèi)容僅代表作者本人觀點(diǎn),不代表ESG跨境電商觀點(diǎn)或立場(chǎng)。如有關(guān)于作品內(nèi)容、版權(quán)或其它問題請(qǐng)于作品發(fā)表后的30日內(nèi)與ESG跨境電商聯(lián)系。
二維碼加載中...
使用微信掃一掃登錄
使用賬號(hào)密碼登錄
平臺(tái)顧問
微信掃一掃
馬上聯(lián)系在線顧問
小程序
ESG跨境小程序
手機(jī)入駐更便捷
返回頂部