Tekstverwerking met NLP | basiskennis

| | | | | | | | | |

In dit artikel gaan we bespreken hoe we tekst uit online tekstbestanden kunnen halen en er de benodigde gegevens uit kunnen halen. Voor dit artikel gebruiken we een tekstbestand dat hier < /a>.

Het volgende moet in uw huidige productieomgeving zijn geïnstalleerd:

Stap #1: importeer de vereiste bibliotheken


import nltk

van bs4 import BeautifulSoup

van urllib.request import urlopen

Enkele basisinformatie over de bovenstaande bibliotheken:

  • NLTK-bibliotheek. Bibliotheek nltk is een verzameling bibliotheken en programma`s die zijn geschreven voor verwerking in het Engels en geschreven in de programmeertaal Python.
  • urllib-bibliotheek: is een URL-verwerkingsbibliotheek voor python ... Lees meer over deze https://www.w3.org/TR/PNG/iso_8859-1.txt " ). lezen ()

    Dus de onbewerkte gegevens worden in de onbewerkte variabele geladen.

    Stap #3: Vervolgens verwerken we de gegevens om alle html / tags xml te verwijderen die aanwezig kunnen zijn in onze onbewerkte variabele met behulp van:


    raw1 = BeautifulSoup (rauw)

Stap #4: Nu krijgen we de tekst in de "onbewerkte" variabele.


raw2 = raw1.get_text ()

Uitvoer:

Stap # 5: Vervolgens breken we de tekst op in woorden.


token = nltk.word_tokenize (raw2)

Uitvoer:

Dit wordt gedaan als voorbewerking voor de volgende stap, waar we de definitieve tekst krijgen.

Stap # 6: Eindelijk krijgen we onze definitieve tekst


text2 = ` ` .join (token)

Uitvoer: < br>

Hieronder staat de volledige code:


Shop

Learn programming in R: courses

$

Best Python online courses for 2022

$

Best laptop for Fortnite

$

Best laptop for Excel

$

Best laptop for Solidworks

$

Best laptop for Roblox

$

Best computer for crypto mining

$

Best laptop for Sims 4

$

Latest questions

NUMPYNUMPY

psycopg2: insert multiple rows with one query

12 answers

NUMPYNUMPY

How to convert Nonetype to int or string?

12 answers

NUMPYNUMPY

How to specify multiple return types using type-hints

12 answers

NUMPYNUMPY

Javascript Error: IPython is not defined in JupyterLab

12 answers


Wiki

Python OpenCV | cv2.putText () method

numpy.arctan2 () in Python

Python | os.path.realpath () method

Python OpenCV | cv2.circle () method

Python OpenCV cv2.cvtColor () method

Python - Move item to the end of the list

time.perf_counter () function in Python

Check if one list is a subset of another in Python

Python os.path.join () method

# bibliotheken importeren

import nltk

van bs4 import BeautifulSoup

van urllib.request import urlopen


# extraheer de volledige inhoud van de tekst het dossier.

raw = urlopen ( " https: //www.w3.org/TR/PNG/iso_8859-1.txt " ). read ()


# verwijder alle html / xml-tags

raw1 = BeautifulSoup (raw)


# haal de tekst aanwezig in ' rauw '

raw2 = raw1.get_text ()


# breek de tekst in woorden.

token = nltk.word_tokenize (raw2 )

text2 = `` . join (token)