使用 NLP 進行文字處理 |基本

| | | | | | | | | |

在本文中,我們將討論如何從在線文本文件中獲取文本並從中提取必要的數據。對於本文,我們將使用 這裡 /a>.

以下必須安裝在您當前的生產環境中:

步驟#1:導入需要的庫


import nltk

from bs4 import BeautifulSoup

from urllib.request import urlopen

上述庫的一些基本信息:

  • NLTK 庫。 Library nltk 是為英語語言處理編寫並以 Python 編程語言編寫的庫和程序的集合。
  • urllib 庫: 是一個用於 python 的 URL 處理庫...在此處了解有關此 https://www.w3.org/TR/PNG/iso_8859-1.txt " )。閱讀()

    所以將原始數據加載到原始變量中。

    步驟#3: 然後我們處理數據以刪除所有可能存在於我們的原始變量中的 html / 標籤 xml,使用:


    raw1 = BeautifulSoup (raw)

第 4 步:現在我們在“原始”變量中獲取文本。


raw2 = raw1.get_text()

輸出:

第 5 步: 接下來我們將文本分解為單詞。


token = nltk.word_tokenize (raw2)

輸出:

這是作為下一步的預處理完成的,我們在這裡得到最終文本。

第 6 步:最後,我們得到最終文本.


text2 = ` ` .join (token)

輸出:< br>

下面是完整的代碼:


<表格邊框= "0" cellpadding = "0" cellspacing = "0">

# 導入庫

import nltk

from bs4 import BeautifulSoup

from urllib.request import urlopen


# 提取文本的全部內容文件。

raw = urlopen ( " https: //www.w3.org/TR/PNG/iso_8859-1.txt " )。 read()


#刪除所有html/xml標籤

raw1 = BeautifulSoup (raw)


# 獲取 ' 中的文本生的 '

raw2 = raw1.get_text()


# 將文本分解成單詞。

token = nltk.word_tokenize (raw2 )

text2 = `` <代碼類=“普通”>。加入(令牌)

Shop

Learn programming in R: courses

$

Best Python online courses for 2022

$

Best laptop for Fortnite

$

Best laptop for Excel

$

Best laptop for Solidworks

$

Best laptop for Roblox

$

Best computer for crypto mining

$

Best laptop for Sims 4

$

Latest questions

NUMPYNUMPY

psycopg2: insert multiple rows with one query

12 answers

NUMPYNUMPY

How to convert Nonetype to int or string?

12 answers

NUMPYNUMPY

How to specify multiple return types using type-hints

12 answers

NUMPYNUMPY

Javascript Error: IPython is not defined in JupyterLab

12 answers

News


Wiki

Python OpenCV | cv2.putText () method

numpy.arctan2 () in Python

Python | os.path.realpath () method

Python OpenCV | cv2.circle () method

Python OpenCV cv2.cvtColor () method

Python - Move item to the end of the list

time.perf_counter () function in Python

Check if one list is a subset of another in Python

Python os.path.join () method