W tym artykule omówimy, w jaki sposób możemy uzyskać tekst z plików tekstowych online i wyodrębnić z nich niezbędne dane. W tym artykule użyjemy pliku tekstowego dostępnego tutaj < /a>.
W bieżącym środowisku produkcyjnym muszą być zainstalowane następujące elementy:
- Biblioteka NLTC
- urllib
- BeautifulSoup Biblioteka
Krok 1: zaimportuj wymagane biblioteki
import nltk
z bs4 import BeautifulSoup
from urllib.request import urlopen
Kilka podstawowych informacji o powyższych bibliotekach: - Biblioteka NLTK. Biblioteka nltk to zbiór bibliotek i programów napisanych do przetwarzania języka angielskiego i napisanych w języku programowania Python.
- biblioteka urllib: to biblioteka do przetwarzania adresów URL dla Pythona... Dowiedz się więcej o tym https://www.w3.org/TR/PNG/iso_8859-1. txt "
). przeczytaj () Więc nieprzetworzone dane są ładowane do nieprzetworzonej zmiennej. Krok #3: Następnie przetwarzamy dane, aby usunąć wszystkie html / tagi xml, które mogą być obecne w naszej zmiennej surowej za pomocą:
raw1 = BeautifulSoup (surowe)
|
Krok nr 4: Teraz otrzymujemy tekst w zmiennej „surowej”.
raw2
=
raw1.get_text ()
Wyjście:

Krok nr 5: Następnie dzielimy tekst na słowa.
token
=
nltk.word_tokenize (raw2)
Wyjście:

Odbywa się to jako przetwarzanie wstępne dla następnego kroku, w którym otrzymujemy ostateczny tekst.
Krok nr 6: Na koniec otrzymujemy ostateczny tekst
text2
=
` `
. dołącz (token)
Wyjście: < br>
Poniżej znajduje się pełny kod:
# importowanie bibliotek
import nltk
z bs4 import BeautifulSoup z urllib.request importuj urlopen
# wyodrębnij całą zawartość tekstu plik.
raw = urlopen ( " https: //www.w3.org/TR/PNG/iso_8859-1.txt ” ). przeczytaj ()
# usuń wszystkie tagi html/xml
raw1 = BeautifulSoup (raw)
raw2 = raw1.get_text ()
# podziel tekst na słowa.
token = nltk.word_tokenize (raw2 )
text2 = `` kod> . dołącz (token)
|
table>
Shop
Learn programming in R: courses
$
Best Python online courses for 2022
$
Best laptop for Fortnite
$
Best laptop for Excel
$
Best laptop for Solidworks
$
Best laptop for Roblox
$
Best computer for crypto mining
$
Best laptop for Sims 4
$
Latest questions
NUMPYNUMPY
psycopg2: insert multiple rows with one query
12 answers
NUMPYNUMPY
How to convert Nonetype to int or string?
12 answers
NUMPYNUMPY
How to specify multiple return types using type-hints
12 answers
NUMPYNUMPY
Javascript Error: IPython is not defined in JupyterLab
12 answers
Wiki
Python OpenCV | cv2.putText () method
numpy.arctan2 () in Python
Python | os.path.realpath () method
Python OpenCV | cv2.circle () method
Python OpenCV cv2.cvtColor () method
Python - Move item to the end of the list
time.perf_counter () function in Python
Check if one list is a subset of another in Python
Python os.path.join () method