Przetwarzanie tekstu przy użyciu NLP | podstawy

| | | | | | | | | |

W tym artykule omówimy, w jaki sposób możemy uzyskać tekst z plików tekstowych online i wyodrębnić z nich niezbędne dane. W tym artykule użyjemy pliku tekstowego dostępnego tutaj < /a>.

W bieżącym środowisku produkcyjnym muszą być zainstalowane następujące elementy:

Krok 1: zaimportuj wymagane biblioteki


import nltk

z bs4 import BeautifulSoup

from urllib.request import urlopen

Kilka podstawowych informacji o powyższych bibliotekach:

  • Biblioteka NLTK. Biblioteka nltk to zbiór bibliotek i programów napisanych do przetwarzania języka angielskiego i napisanych w języku programowania Python.
  • biblioteka urllib: to biblioteka do przetwarzania adresów URL dla Pythona... Dowiedz się więcej o tym https://www.w3.org/TR/PNG/iso_8859-1. txt " ). przeczytaj ()

    Więc nieprzetworzone dane są ładowane do nieprzetworzonej zmiennej.

    Krok #3: Następnie przetwarzamy dane, aby usunąć wszystkie html / tagi xml, które mogą być obecne w naszej zmiennej surowej za pomocą:


    raw1 = BeautifulSoup (surowe)

Krok nr 4: Teraz otrzymujemy tekst w zmiennej „surowej”.


raw2 = raw1.get_text ()

Wyjście:

Krok nr 5: Następnie dzielimy tekst na słowa.


token = nltk.word_tokenize (raw2)

Wyjście:

Odbywa się to jako przetwarzanie wstępne dla następnego kroku, w którym otrzymujemy ostateczny tekst.

Krok nr 6: Na koniec otrzymujemy ostateczny tekst


text2 = ` ` . dołącz (token)

Wyjście: < br>

Poniżej znajduje się pełny kod:


Shop

Learn programming in R: courses

$

Best Python online courses for 2022

$

Best laptop for Fortnite

$

Best laptop for Excel

$

Best laptop for Solidworks

$

Best laptop for Roblox

$

Best computer for crypto mining

$

Best laptop for Sims 4

$

Latest questions

NUMPYNUMPY

psycopg2: insert multiple rows with one query

12 answers

NUMPYNUMPY

How to convert Nonetype to int or string?

12 answers

NUMPYNUMPY

How to specify multiple return types using type-hints

12 answers

NUMPYNUMPY

Javascript Error: IPython is not defined in JupyterLab

12 answers


Wiki

Python OpenCV | cv2.putText () method

numpy.arctan2 () in Python

Python | os.path.realpath () method

Python OpenCV | cv2.circle () method

Python OpenCV cv2.cvtColor () method

Python - Move item to the end of the list

time.perf_counter () function in Python

Check if one list is a subset of another in Python

Python os.path.join () method

# importowanie bibliotek

import nltk

z bs4 import BeautifulSoup

z urllib.request importuj urlopen


# wyodrębnij całą zawartość tekstu plik.

raw = urlopen ( " https: //www.w3.org/TR/PNG/iso_8859-1.txt ). przeczytaj ()


# usuń wszystkie tagi html/xml

raw1 = BeautifulSoup (raw)


# pobierz tekst obecny w ' surowe '

raw2 = raw1.get_text ()


# podziel tekst na słowa.

token = nltk.word_tokenize (raw2 )

text2 = `` . dołącz (token)