Elaborazione di testi con la PNL | nozioni di base

| | | | | | | | | |

In questo articolo, discuteremo di come ottenere testo da file di testo online ed estrarne i dati necessari. Per questo articolo utilizzeremo un file di testo disponibile qui < /a>.

Deve essere installato quanto segue nel tuo attuale ambiente di produzione:

Passaggio n. 1: importa le librerie richieste


import nltk

from bs4 import BeautifulSoup

from urllib.request import urlopen

Alcune informazioni di base sulle librerie di cui sopra:

  • Libreria NLTK. Libreria nltk è una raccolta di librerie e programmi scritti per l`elaborazione in lingua inglese e scritti nel linguaggio di programmazione Python.
  • libreria urllib: è una libreria di elaborazione URL per python... Scopri di più su questo https://www.w3.org/TR/PNG/iso_8859-1. txt " ). leggi ()

    Quindi i dati grezzi vengono caricati nella variabile grezza.

    Passaggio n. 3: Quindi elaboriamo i dati per rimuovere tutti gli html/tag xml che possono essere presenti nella nostra variabile grezza utilizzando:


    raw1 = BeautifulSoup (crudo)

Passaggio n. 4: ora otteniamo il testo nella variabile "raw".


raw2 = raw1.get_text()

Risultato:

Passaggio n. 5: Successivamente suddividiamo il testo in parole.


token = nltk.word_tokenize (raw2)

Risultato:

Questo viene fatto come pre-elaborazione per il passaggio successivo, dove otteniamo il testo finale.

Passaggio n. 6: Infine, otteniamo il nostro testo finale .


text2 = ` ` .join (token)

Output: < br>

Di seguito il codice completo:


Shop

Learn programming in R: courses

$

Best Python online courses for 2022

$

Best laptop for Fortnite

$

Best laptop for Excel

$

Best laptop for Solidworks

$

Best laptop for Roblox

$

Best computer for crypto mining

$

Best laptop for Sims 4

$

Latest questions

NUMPYNUMPY

psycopg2: insert multiple rows with one query

12 answers

NUMPYNUMPY

How to convert Nonetype to int or string?

12 answers

NUMPYNUMPY

How to specify multiple return types using type-hints

12 answers

NUMPYNUMPY

Javascript Error: IPython is not defined in JupyterLab

12 answers


Wiki

Python OpenCV | cv2.putText () method

numpy.arctan2 () in Python

Python | os.path.realpath () method

Python OpenCV | cv2.circle () method

Python OpenCV cv2.cvtColor () method

Python - Move item to the end of the list

time.perf_counter () function in Python

Check if one list is a subset of another in Python

Python os.path.join () method

# importazione di librerie

import nltk

da bs4 import BeautifulSoup

da urllib.request import urlopen


# estrae l`intero contenuto del testo file.

grezzo = urlopen ( " https: //www.w3.org/TR/PNG/iso_8859-1.txt " ). read ()


# rimuovi tutti i tag html/xml

raw1 = BeautifulSoup (grezzo)


# ottieni il testo presente in ' crudo '

raw2 = raw1.get_text ()


# spezza il testo in parole.

token = nltk.word_tokenize (raw2 )

text2 = `` . join (token)