国精产品一区一区三区有限公司杨,国产激情久久久久影院老熟女,国产裸体裸拍在线观看,国产人妻熟女在线观看,国产美女视频国产视视频

與 Oxylabs 一道探索網(wǎng)絡(luò)數(shù)據(jù)解析:概述

2022-03-22 14:04:51    來源:大京網(wǎng)

據(jù)我所知,人們總是會(huì)把網(wǎng)上公共數(shù)據(jù)的有用性與提取和整理這些數(shù)據(jù)的工作量進(jìn)行對比。然而,從原始數(shù)據(jù)產(chǎn)生結(jié)構(gòu)良好的已解析輸出,需要花費(fèi)大量的時(shí)間、精力和資源。即使在部署初始原型之后,也經(jīng)常需要進(jìn)行維護(hù)。

考慮到規(guī)模的問題之后,往往只有少數(shù)公司才會(huì)選擇進(jìn)行數(shù)據(jù)解析。更麻煩的是,由于多年以來 HTML 的使用方式的性質(zhì),網(wǎng)絡(luò)數(shù)據(jù)解析還面臨獨(dú)特的挑戰(zhàn)。不過,利用 Oxylabs 提供的自適應(yīng)解析器之類的功能,所有這些挑戰(zhàn)都不是問題。

什么是數(shù)據(jù)解析?

所有網(wǎng)絡(luò)抓取活動(dòng)都依賴一個(gè)特定的操作——提取數(shù)據(jù)。最開始要做的事情都是下載HTML。遺憾的是,雖然 HTML 在大多數(shù)情況下包含所有必要信息,但其構(gòu)造方式不適合進(jìn)一步分析。這也不能算是HTML本身的錯(cuò)。HTML 這種語言原本是旨在由瀏覽器讀取,并轉(zhuǎn)換為在視覺效果上對于用戶很理想的最終結(jié)果。它在結(jié)構(gòu)上非常靈活,允許開發(fā)人員采取創(chuàng)造性的方法來創(chuàng)建最終結(jié)果。

但是,這些創(chuàng)造性的方法經(jīng)常造成數(shù)據(jù)以不同的方式散布在各個(gè)地方。為了從 HTML 搜集信息,分析人員需要設(shè)法解析、整理和標(biāo)準(zhǔn)化數(shù)據(jù)點(diǎn)。通常,接下來還要采取的步驟是編寫定制腳本或一些幫助程序工具,以定義數(shù)據(jù)處理規(guī)則并使其更有條理。

以 JSON 或 CSV 等結(jié)構(gòu)化格式檢索數(shù)據(jù)是比較理想的情況。但是,這完全行不通,至少在目前的格局下是這樣。因此,從 HTML 衍生的數(shù)據(jù)需要進(jìn)行解析,才能變得有條理。

數(shù)據(jù)解析面臨的挑戰(zhàn)

談到外部獲取(通常是從原始 HTML 獲取)的數(shù)據(jù),存在一個(gè)主要的問題,這個(gè)問題源自兩個(gè)因素:解析的絕對必要性和 HTML 的高比例使用。由于 HTML 用于通過瀏覽器直觀表示內(nèi)容,因此,對原始 HTML 執(zhí)行任何類型的分析都會(huì)效率低下。

由于不同網(wǎng)站的網(wǎng)絡(luò)開發(fā)實(shí)踐千差萬別,要拿出一個(gè)通用的解析器極其困難。例如,在兩個(gè)電商網(wǎng)站上,同一款產(chǎn)品的頁面可能看起來非常相似,并且包含相同的信息,但底層的 HTML 卻并不相同。因此,相同的解析器行不通,開發(fā)人員需要為每種情況開發(fā)定制化解決方案,或者開發(fā)一個(gè)更復(fù)雜的解析器來處理各種差異。隨著更多的網(wǎng)站等待解析,這種局面也會(huì)變得越來越復(fù)雜。

即使對于相同的數(shù)據(jù)源,一個(gè)解析器可能也不夠。例如,電商平臺(tái)往往有多種布局和頁面類型散布其間。解析需要針對每一種類型使用定制方法。有一些幫助程序工具,需要花費(fèi)精力去掌握,但是,即使這些工具也不能做到一勞永逸,因?yàn)檫@些頁面必然會(huì)隨時(shí)間而變化。

將 HTML 的靈活性和嵌套性質(zhì)相結(jié)合,這樣的任務(wù)對于分析人員來說相當(dāng)棘手。雪上加霜的是,復(fù)雜性遠(yuǎn)不止于此。網(wǎng)站常常會(huì)改變布局,或增加新的功能,而這些都會(huì)影響解析器。面對這些變化,解析器也需要相應(yīng)進(jìn)行更新來匹配新的外觀。

再加上需要從不計(jì)其數(shù)的來源獲取數(shù)據(jù),以及解析 HTML 進(jìn)行數(shù)據(jù)分析的困難重重,這項(xiàng)工作很快就會(huì)變得令人望而生畏。已經(jīng)有專屬開發(fā)人員團(tuán)隊(duì)的大型企業(yè)或許還有機(jī)會(huì)維護(hù)數(shù)量龐大的抓取器和解析器。較小的企業(yè)往往只能徹底外包這項(xiàng)工作。

外包解析工作確實(shí)也有好處。對于較小的用例來說,比起組建開發(fā)人員團(tuán)隊(duì)、進(jìn)行協(xié)調(diào)組織、創(chuàng)建解析器并加以維護(hù),外包方法的人力資源和資本的總體成本往往更低。此外,雖然外包解析工作會(huì)讓小企業(yè)更依賴外部力量,但這樣解決了適應(yīng)不斷變化的布局和潛在服務(wù)中斷的難題(服務(wù)中斷仍會(huì)發(fā)生,只是持續(xù)時(shí)間較短)。

人工智能的優(yōu)勢

為一個(gè)任務(wù)編寫一個(gè)簡單的解析器,對于較小的開發(fā)團(tuán)隊(duì)來說可能再正常不過了。但是,真正的挑戰(zhàn)在于規(guī)模。每增加一個(gè)新的來源,至少需要好幾個(gè)新的定制解析器。維護(hù)日益增加的解析器是極其耗費(fèi)資源的。由于網(wǎng)絡(luò)上的數(shù)據(jù)散布在不計(jì)其數(shù)的報(bào)紙、論壇、社交媒體和其他渠道,采集和加載這些數(shù)據(jù)需要大量時(shí)間和資源才剛夠完成解析過程。

利用機(jī)器學(xué)習(xí)給我們帶來了希望。畢竟,HTML 是用于創(chuàng)建人類可讀的網(wǎng)站。雖然很多時(shí)候殊途同歸,但在大多數(shù)情況下,當(dāng)網(wǎng)站進(jìn)行重新設(shè)計(jì)時(shí),大家仍然可以使用它。然而,與此同時(shí),不同網(wǎng)站之間的編程差異絕不會(huì)太大。這就表明,某種類型的機(jī)器學(xué)習(xí)方法是可行的。

我們在 Oxylabs 已經(jīng)做了一些類似的工作。我們的其中一個(gè)解決方案是“下一代住宅代理”(Next-Gen Residential Proxies),融合了數(shù)據(jù)獲取和人工智能的原則。它省去了所有其他花哨的功能,側(cè)重實(shí)現(xiàn)了自適應(yīng)解析,這是我們迄今為止最了不起的成就。

在深入介紹我們創(chuàng)建首批自適應(yīng)解析器版本的過程之前,我需要提一下的是,我們并不是完全單打獨(dú)斗。我們內(nèi)部甚至并沒有關(guān)于機(jī)器學(xué)習(xí)和人工智能的太多經(jīng)驗(yàn)。我們只是深知各種可能性。因此,我們匯聚了世界各地的機(jī)器學(xué)習(xí)專家,并同時(shí)吸納了學(xué)術(shù)研究人員和具備實(shí)踐專長的人員。

我們的人工智能顧問委員會(huì)幫助我們開發(fā)了解決方案,并進(jìn)而推動(dòng)了自適應(yīng)解析功能的誕生。人們可以使用自適應(yīng)功能從任意電商產(chǎn)品頁面獲取結(jié)構(gòu)化數(shù)據(jù)。關(guān)于直觀表示,請參見下面的圖片:

我們使用了受監(jiān)督的機(jī)器學(xué)習(xí)模型來饋送所需的數(shù)據(jù)。如您所想象的那樣,這個(gè)過程其實(shí)并沒有我們最初設(shè)想的那樣復(fù)雜和困難。

但是,獲取包含帶標(biāo)簽字段的足夠大的訓(xùn)練數(shù)據(jù)集需要耗費(fèi)非常多的人力(或財(cái)力)。即使對于能夠支持內(nèi)部開發(fā)團(tuán)隊(duì)和專屬機(jī)器學(xué)習(xí)專家的更大型企業(yè),我也會(huì)留意合適的服務(wù)提供商。大多數(shù)時(shí)候,我們會(huì)評估第三方抓取服務(wù)提供的定價(jià)模型和功能,這樣才能做出最佳的決策。

結(jié)論

網(wǎng)絡(luò)數(shù)據(jù)解析是一個(gè)極其耗費(fèi)人力的過程,而為了獲取可用信息,這個(gè)過程又是絕對必要的。HTML 解析有自身獨(dú)特的一系列問題,困擾著整個(gè)解析過程。雖然創(chuàng)建一個(gè) HTML 解析器可能并不難,但對于任何大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)獲取過程,可能需要幾十個(gè)解析器。

因此,解析的方法也在發(fā)生變化。維護(hù)內(nèi)部網(wǎng)絡(luò)抓取和解析解決方案不再是必要的。基于人工智能的下一代解決方案應(yīng)運(yùn)而生,真正交付數(shù)據(jù)即服務(wù) (data as a service)。隨著解析技術(shù)的改進(jìn),前所未見的數(shù)據(jù)分析新用例也將出現(xiàn)。即使是現(xiàn)在,要針對最細(xì)粒度的用例搜集洞察,也只需發(fā)送幾個(gè)請求即可。

關(guān)鍵詞: Oxylabs

上一篇:
下一篇:

熱點(diǎn)話題

熱點(diǎn)推薦

頭條

?