Traitement de texte à l`aide de la PNL | ¬ bases

| | | | | | | | | |

Dans cet article, nous allons discuter de la manière dont nous pouvons obtenir du texte à partir de fichiers texte en ligne et en extraire les données nécessaires. Pour cet article, nous utiliserons un fichier texte disponible ici < /a>.

Les éléments suivants doivent être installés dans votre environnement de production actuel :

Étape 1 : importez les bibliothèques requises


import nltk

de bs4 importer BeautifulSoup

de urllib.request import urlopen

Quelques informations de base sur les bibliothèques ci-dessus :

  • Bibliothèque NLTK. Bibliothèque nltk est une collection de bibliothèques et de programmes écrits pour le traitement de la langue anglaise et écrits dans le langage de programmation Python.
  • bibliothèque urllib : est une bibliothèque de traitement d`URL pour python ... En savoir plus à ce sujet https://www.w3.org/TR/PNG/iso_8859-1. txt " ). lire ()

    Ainsi, les données brutes sont chargées dans la variable brute.

    Étape 3 : Ensuite, nous traitons les données pour supprimer tous les html / tags xml qui peuvent être présents dans notre variable brute en utilisant :


    raw1 = BeautifulSoup (brut)

Étape # 4 : nous obtenons maintenant le texte dans la variable "raw".


raw2 = raw1.get_text ()

Sortie :

Étape n° 5 : Ensuite, nous divisons le texte en mots.


jeton = nltk.word_tokenize (raw2)

Sortie :

Ceci est fait comme prétraitement pour l`étape suivante, où nous obtenons le texte final.

Étape 6 : Enfin, nous obtenons notre texte final .


text2 = ` ` . join (jeton)

Sortie : < br>

Ci-dessous le code complet :


Shop

Learn programming in R: courses

$

Best Python online courses for 2022

$

Best laptop for Fortnite

$

Best laptop for Excel

$

Best laptop for Solidworks

$

Best laptop for Roblox

$

Best computer for crypto mining

$

Best laptop for Sims 4

$

Latest questions

NUMPYNUMPY

psycopg2: insert multiple rows with one query

12 answers

NUMPYNUMPY

How to convert Nonetype to int or string?

12 answers

NUMPYNUMPY

How to specify multiple return types using type-hints

12 answers

NUMPYNUMPY

Javascript Error: IPython is not defined in JupyterLab

12 answers


Wiki

Python OpenCV | cv2.putText () method

numpy.arctan2 () in Python

Python | os.path.realpath () method

Python OpenCV | cv2.circle () method

Python OpenCV cv2.cvtColor () method

Python - Move item to the end of the list

time.perf_counter () function in Python

Check if one list is a subset of another in Python

Python os.path.join () method

# importation de bibliothèques

import nltk

de bs4 import BeautifulSoup

de urllib.request importer urlopen


# extrait tout le contenu du texte fichier.

raw = urlopen ( " https : //www.w3.org/TR/PNG/iso_8859-1.txt " ). lire ()


# supprimer toutes les balises html / xml

raw1 = BeautifulSoup (raw)


# récupère le texte présent dans ' brut '

raw2 = raw1.get_text ()


# diviser le texte en mots.

token = nltk.word_tokenize (raw2 )

text2 = `` . joindre (jeton)