En este artículo, vamos a discutir cómo podemos obtener texto de archivos de texto en línea y extraer los datos necesarios de ellos. Para este artículo, utilizaremos un archivo de texto disponible aquí < /a>.
Lo siguiente debe estar instalado en su entorno de producción actual:
- Biblioteca NLTC
- urllib
- BeautifulSoup Biblioteca
Paso n.° 1: importar las bibliotecas requeridas
Alguna información básica sobre las bibliotecas anteriores:
|
Paso # 4: Ahora obtenemos el texto en la variable "sin procesar".
Salida:
Paso # 5: A continuación, dividimos el texto en palabras.
token
=
nltk.word_tokenize (raw2)
Salida:
Esto se hace como preprocesamiento para el siguiente paso, donde obtenemos el texto final.
Paso #6: Finalmente, obtenemos nuestro texto final .
. join (token)
Salida: < br>
Abajo está el código completo:
|