正如我在開場白中所說,我們將研究自然語言處理以及我們?nèi)绾卫盟鼇砀玫乩斫馑阉饕娼Y(jié)果頁面?,F(xiàn)在,深圳logo設(shè)計(jì)公司可能沒有計(jì)算機(jī)科學(xué)或 Python 或任何這些方面的背景,但它非???。我們將逐步引導(dǎo)您完成它。我們甚至有一個(gè) Colab 文件,實(shí)際上,您只需添加關(guān)鍵字并按下幾個(gè)按鈕,就可以提取大量真正有意義的信息。在我們進(jìn)入我們將在本視頻中經(jīng)歷的實(shí)際工作之前,我真的想再次介紹一下。
我們?yōu)榇酥谱髁艘粋€(gè)完整的視頻,我將鏈接到有關(guān)實(shí)體的視頻。但在本視頻中,這正是深圳logo設(shè)計(jì)公司將使用 spaCy 的 NLP 模型提取的內(nèi)容。一個(gè)實(shí)體,它是一個(gè)事物或一個(gè)概念。是單數(shù)。它是獨(dú)一無二的。它定義明確,可區(qū)分。實(shí)體是谷歌在試圖理解概念時(shí)所關(guān)注的。他們理解實(shí)體。實(shí)體已鏈接開放數(shù)據(jù)點(diǎn)。它們具有將它們連接到其他實(shí)體的節(jié)點(diǎn)。這就是谷歌從我們的文本中獲取意義的方式。這就是他們理解我們文本的方式?,F(xiàn)在,這是我們知識圖譜的基礎(chǔ)和構(gòu)建塊。一個(gè)知識圖是一堆相互關(guān)聯(lián)的實(shí)體。在 SEO 中,我們知道鏈接的力量。從我們網(wǎng)站之外的兩個(gè)網(wǎng)站以及網(wǎng)站內(nèi)部鏈接都非常重要。
通過提取這些實(shí)體,我們將更好地了解 Google 在呈現(xiàn)搜索結(jié)果時(shí)所關(guān)注的概念。深圳logo設(shè)計(jì)公司將瀏覽一個(gè) Google Colab 文件,我將向您展示即使您不是程序員,也可以如何利用 Google Colab。我不是程序員,但我很擅長復(fù)制和粘貼以及在互聯(lián)網(wǎng)上搜索以解決一些問題。通過許多不同的資源和聯(lián)系,我已經(jīng)能夠在內(nèi)部制作一些這些工具,這些工具確實(shí)給我們帶來了優(yōu)勢,讓我們能夠看到搜索結(jié)果下面發(fā)生的事情。在我們開始之前,我想很快介紹一下。要了解有關(guān)實(shí)體的更多信息,請查看鏈接的視頻。好的,現(xiàn)在我們在 Google Colab 中。現(xiàn)在,深圳logo設(shè)計(jì)公司是一個(gè)工作區(qū),您可以利用它來構(gòu)建軟件或構(gòu)建工具。
在這種情況下,我們將利用 Python?,F(xiàn)在,如果您沒有 Python 背景,那完全沒問題。我將授予您訪問此 Colab 文件的權(quán)限,您可以復(fù)制該文件并在自己的 Google Colab 文件中使用該文件。這樣做是完全免費(fèi)的。Python 是一種編程語言。如果您構(gòu)建了網(wǎng)站或者您在那個(gè)世界做過任何事情,那么您可能會掌握 Python。我還在學(xué)習(xí)Python。無論如何,我不是編碼員。我什至不自稱是其中之一。我擅長復(fù)制和粘貼,就像我之前說的。深圳logo設(shè)計(jì)公司將在這個(gè) Colab 文件中做幾件事。我們將首先從 Google 獲取結(jié)果,然后我們將抓取結(jié)果,獲取所有數(shù)據(jù),實(shí)際上是頂部結(jié)果中的內(nèi)容。
從前五頁中提取實(shí)體
完成后,我們將進(jìn)入更進(jìn)一步的 NLP,我們將從前五頁中提取實(shí)體,并將該結(jié)果可視化。然后從那里,我們可以使用這些數(shù)據(jù)來幫助我們告知我們的內(nèi)容,以及其他類似的事情。為了讓每個(gè)人都更容易做到這一點(diǎn),我將繼續(xù)在這里放大一點(diǎn)。那可能有點(diǎn)太遠(yuǎn)了。我們需要做的第一件事就是運(yùn)行這些單元格。您不必?fù)?dān)心這里的任何代碼。如果您了解 Python,并且想操作它,請繼續(xù)。但實(shí)際上,我們只需點(diǎn)擊這些播放圖標(biāo)上的播放即可開始。
它將安裝必要的庫并傾注我們實(shí)現(xiàn)這一目標(biāo)所需的所有工具。我們將通過這些。就在這里,我們只是安裝了 Google 和 Trafilatura,它可以幫助我們進(jìn)行抓取,而 Google 可以幫助我們獲取信息。然后我們在這里有了一些非常標(biāo)準(zhǔn)的 Python 導(dǎo)入,包括 Pandas、NumPy、漂亮的打印等等。接下來,我們將安裝將完成大部分工作的東西,這些是變壓器。轉(zhuǎn)換器使我們能夠進(jìn)行 SERP 分析、總結(jié) SERP、進(jìn)行問答、從網(wǎng)絡(luò)中提取內(nèi)容。這就是 深圳logo設(shè)計(jì)公司和 Transformer 的強(qiáng)大之處。同樣,您不需要對此了解很多,但這就是這些事情的作用。現(xiàn)在,我們有一些關(guān)于查詢之類的事情。這將拉取查詢。它會看看我們想要帶來什么樣的結(jié)果。
這里有更多的輸入,如果您有興趣,可以閱讀所有文檔,但我們使這變得非常簡單。真的,你只需要到這一邊并輸入你的查詢。例如,我們可以在這里放任何我們想要的東西,讓我們?yōu)榱诉@個(gè)的樂趣,我們只放語義 SCL。完成此操作后,現(xiàn)在您可以運(yùn)行此查詢?,F(xiàn)在這已經(jīng)出來了,深圳logo設(shè)計(jì)公司正在從谷歌獲取前 10 名的結(jié)果。他們來了。這是來自 Google 的前 10 個(gè)結(jié)果。很容易,對吧?現(xiàn)在,我們必須刮取結(jié)果?,F(xiàn)在,Trafilatura,就像我說的,它會進(jìn)入上面的這些頁面,它會為我們抓取所有內(nèi)容并將其打包成一個(gè)巨大的文本語料庫。
要手動執(zhí)行此操作,將花費(fèi)大量時(shí)間。幸運(yùn)的是,由于計(jì)算機(jī)科學(xué)、Python、諸如此類的代碼、人們構(gòu)建的這些包,您可以相對較快地完成此操作。按下按鈕,我們就可以開始比賽了?,F(xiàn)在這將需要一些時(shí)間,顯然,因?yàn)樗鼤鋈?,它會爬取所有這些網(wǎng)站,提取所有文本,然后就可以了。它已經(jīng)提取了 10 篇文章,我們很高興。