Procesamiento de textos usando NLP | básicos

| | | | | | | | | |

En este artículo, vamos a discutir cómo podemos obtener texto de archivos de texto en línea y extraer los datos necesarios de ellos. Para este artículo, utilizaremos un archivo de texto disponible aquí < /a>.

Lo siguiente debe estar instalado en su entorno de producción actual:

Paso n.° 1: importar las bibliotecas requeridas


import nltk

de bs4 importar BeautifulSoup

de urllib.request import urlopen

Alguna información básica sobre las bibliotecas anteriores:

  • Biblioteca NLTK. Biblioteca nltk es una colección de bibliotecas y programas escritos para el procesamiento del idioma inglés y escritos en el lenguaje de programación Python.
  • biblioteca urllib: es una biblioteca de procesamiento de URL para python... Obtenga más información sobre este urlopen ( " https://www.w3.org/TR/PNG/iso_8859-1.txt " ). leer ()

    Entonces los datos sin procesar se cargan en la variable sin procesar.

    Paso # 3: Luego procesamos los datos para eliminar todo html/tags xml que pueda estar presente en nuestra variable sin formato usando:


    < clase de código = "simple"> raw1 = BeautifulSoup (sin procesar)

Paso # 4: Ahora obtenemos el texto en la variable "sin procesar".


raw2 = raw1.get_text()

Salida:

Paso # 5: A continuación, dividimos el texto en palabras.


token = nltk.word_tokenize (raw2)

Salida:

Esto se hace como preprocesamiento para el siguiente paso, donde obtenemos el texto final.

Paso #6: Finalmente, obtenemos nuestro texto final .


texto2 = ` ` . join (token)

Salida: < br>

Abajo está el código completo:


# importar bibliotecas

import nltk

de bs4 import BeautifulSoup

de urllib.request importar urlopen


# extraer todo el contenido del texto expediente.

raw = urlopen ( " https: //www.w3.org/TR/PNG/iso_8859-1.txt " ). read ()


# eliminar todas las etiquetas html/xml

raw1 = BeautifulSoup (raw)


# obtener el texto presente en ' crudo '

raw2 = raw1.get_text()


# dividir el texto en palabras.

token = nltk.word_tokenize (raw2 )

texto2 = `` . unirse (token)

Procesamiento de textos usando NLP | básicos _files: Questions

Procesamiento de textos usando NLP | básicos File handling: Questions

Shop

Best Python online courses for 2022

$

Best laptop for Fortnite

$

Best laptop for Excel

$

Best laptop for Solidworks

$

Best laptop for Roblox

$

Best computer for crypto mining

$

Best laptop for Sims 4

$

Best laptop for Zoom

$499

Latest questions

NUMPYNUMPY

psycopg2: insert multiple rows with one query

12 answers

NUMPYNUMPY

How to convert Nonetype to int or string?

12 answers

NUMPYNUMPY

How to specify multiple return types using type-hints

12 answers

NUMPYNUMPY

Javascript Error: IPython is not defined in JupyterLab

12 answers

News

Wiki

Python OpenCV | cv2.putText () method

numpy.arctan2 () in Python

Python | os.path.realpath () method

Python OpenCV | cv2.circle () method

Python OpenCV cv2.cvtColor () method

Python - Move item to the end of the list

time.perf_counter () function in Python

Check if one list is a subset of another in Python

Python os.path.join () method