Textverarbeitung mit NLP | Grundlagen

| | | | | | | | | |

In diesem Artikel werden wir erörtern, wie wir Text aus Online-Textdateien erhalten und die erforderlichen Daten daraus extrahieren können. Für diesen Artikel verwenden wir eine Textdatei, die hier < verfügbar ist /a>.

Folgendes muss in Ihrer aktuellen Produktionsumgebung installiert sein:

Schritt Nr. 1: Importieren Sie die erforderlichen Bibliotheken


import nltk

from bs4 import BeautifulSoup

from urllib.request import urlopen

Einige grundlegende Informationen zu den obigen Bibliotheken:

  • NLTK-Bibliothek. Bibliothek nltk ist eine Sammlung von Bibliotheken und Programmen, die für die Verarbeitung der englischen Sprache und in der Programmiersprache Python geschrieben wurden.
  • urllib-Bibliothek: ist eine URL-Verarbeitungsbibliothek für Python ... Erfahren Sie mehr darüber https://www.w3.org/TR/PNG/iso_8859-1.txt " ). ()

    Also werden die Rohdaten in die Rohvariable geladen.

    Schritt Nr. 3: Dann verarbeiten wir die Daten, um alle HTML-/Tags-XML-Dateien zu entfernen, die in unserer Rohvariablen vorhanden sein können, indem wir Folgendes verwenden:


    raw1 = BeautifulSoup (roh)

Schritt Nr. 4: Jetzt erhalten wir den Text in der "rohen" Variablen.


raw2 = raw1.get_text ()

Ausgabe:

Schritt Nr. 5: Als nächstes teilen wir den Text in Wörter auf.


Token = nltk.word_tokenize (raw2)

Ausgabe:

Dies geschieht als Vorverarbeitung für den nächsten Schritt, in dem wir den endgültigen Text erhalten.

Schritt Nr. 6: Schließlich erhalten wir unseren endgültigen Text .


text2 = ` ` .join (Token)

Ausgabe: < br>

Unten ist der vollständige Code:


# Bibliotheken importieren

import nltk

aus bs4 import BeautifulSoup

aus urllib.request import urlopen


# den gesamten Inhalt des Textes extrahieren Datei.

raw = urlopen ( " https: //www.w3.org/TR/PNG/iso_8859-1.txt " ). read ()


# alle HTML-/XML-Tags entfernen

raw1 = BeautifulSoup (roh)


# den in ' roh '

raw2 = raw1.get_text ()


# Unterteilen Sie den Text in Wörter.

Token = nltk.word_tokenize (raw2 )

text2 = `` . Join (Token)

Textverarbeitung mit NLP | Grundlagen _files: Questions

Textverarbeitung mit NLP | Grundlagen File handling: Questions

Shop

Best Python online courses for 2022

$

Best laptop for Fortnite

$

Best laptop for Excel

$

Best laptop for Solidworks

$

Best laptop for Roblox

$

Best computer for crypto mining

$

Best laptop for Sims 4

$

Best laptop for Zoom

$499

Latest questions

NUMPYNUMPY

psycopg2: insert multiple rows with one query

12 answers

NUMPYNUMPY

How to convert Nonetype to int or string?

12 answers

NUMPYNUMPY

How to specify multiple return types using type-hints

12 answers

NUMPYNUMPY

Javascript Error: IPython is not defined in JupyterLab

12 answers

News

Wiki

Python OpenCV | cv2.putText () method

numpy.arctan2 () in Python

Python | os.path.realpath () method

Python OpenCV | cv2.circle () method

Python OpenCV cv2.cvtColor () method

Python - Move item to the end of the list

time.perf_counter () function in Python

Check if one list is a subset of another in Python

Python os.path.join () method