Обработка текстов с использованием НЛП | основы

| | | | | | | | | |

В этой статье мы обсудим, как можно получить текст из текстовых файлов в Интернете и извлечь из них необходимые данные. В этой статье мы будем использовать текстовый файл, доступный здесь < /a>.

В вашей текущей производственной среде должны быть установлены следующие компоненты:

Шаг № 1: импортируйте необходимые библиотеки


import nltk

from bs4 import BeautifulSoup

from urllib.request import urlopen

Некоторая основная информация о вышеуказанных библиотеках:

  • Библиотека NLTK. Библиотека nltk — это набор библиотек и программ, написанных для обработки английского языка и написанных на языке программирования Python.
  • библиотека urllib: — это библиотека обработки URL-адресов для Python. Подробнее об этом https://www.w3.org/TR/PNG/iso_8859-1.txt " ). читать ()

    Итак, необработанные данные загружаются в необработанную переменную.

    Шаг 3: Затем мы обрабатываем данные, чтобы удалить все html/теги xml, которые могут присутствовать в нашей необработанной переменной, используя:


    raw1 = BeautifulSoup (raw)

Шаг 4. Теперь мы получаем текст в "сырой" переменной.


raw2 = raw1.get_text ()

Вывод:

Шаг № 5: Далее мы разбиваем текст на слова.


маркер = nltk.word_tokenize (raw2)

Вывод:

Это делается в качестве предварительной обработки для следующего шага, где мы получаем окончательный текст.

Шаг № 6: Наконец, мы получаем наш окончательный текст


text2 = ` ` .join (токен)

Вывод: < br>

Ниже приведен полный код:


<граница таблицы = "0" cellpadding = "0" cellpacing = "0">

# импорт библиотек

import nltk

from bs4 import BeautifulSoup

from urllib.request import urlopen


# извлечь все содержимое текста файл.

raw = urlopen ( " https: //www.w3.org/TR/PNG/iso_8859-1.txt " ). read()


# удалить все теги html/xml

raw1 = BeautifulSoup (raw)


# получить текст, присутствующий в ' необработанный '

raw2 = raw1.get_text ()


# разбить текст на слова.

токен = nltk.word_tokenize (raw2 )

text2 = `` <класс кода = "обычный">. соединение (токен)

Обработка текстов с использованием НЛП | основы _files: Questions

Обработка текстов с использованием НЛП | основы File handling: Questions

Shop

Best Python online courses for 2022

$

Best laptop for Fortnite

$

Best laptop for Excel

$

Best laptop for Solidworks

$

Best laptop for Roblox

$

Best computer for crypto mining

$

Best laptop for Sims 4

$

Best laptop for Zoom

$499

Latest questions

NUMPYNUMPY

psycopg2: insert multiple rows with one query

12 answers

NUMPYNUMPY

How to convert Nonetype to int or string?

12 answers

NUMPYNUMPY

How to specify multiple return types using type-hints

12 answers

NUMPYNUMPY

Javascript Error: IPython is not defined in JupyterLab

12 answers

News

Wiki

Python OpenCV | cv2.putText () method

numpy.arctan2 () in Python

Python | os.path.realpath () method

Python OpenCV | cv2.circle () method

Python OpenCV cv2.cvtColor () method

Python - Move item to the end of the list

time.perf_counter () function in Python

Check if one list is a subset of another in Python

Python os.path.join () method