Processamento de texto usando PNL | Fundamentos

| | | | | | | | | |

Neste artigo, vamos discutir como podemos obter texto de arquivos de texto online e extrair os dados necessários deles. Para este artigo, usaremos um arquivo de texto disponível aqui < /a>.

O seguinte deve ser instalado em seu ambiente de produção atual:

Etapa 1: importe as bibliotecas necessárias


importar nltk

from bs4 import BeautifulSoup

from urllib.request import urlopen

Algumas informações básicas sobre as bibliotecas acima:

  • biblioteca NLTK. Biblioteca nltk é uma coleção de bibliotecas e programas escritos para processamento em inglês e escritos na linguagem de programação Python.
  • biblioteca urllib: é uma biblioteca de processamento de URL para python ... Saiba mais sobre isso https://www.w3.org/TR/PNG/iso_8859-1. txt " ). leia ()

    Assim, os dados brutos são carregados na variável bruta.

    Etapa 3: Em seguida, processamos os dados para remover todos os html/tags xml que podem estar presentes em nossa variável bruta usando:


    raw1 = BeautifulSoup (cru)

Etapa 4: Agora temos o texto na variável "raw".


raw2 = raw1.get_text()

Saída:

Passo nº 5: Em seguida, dividimos o texto em palavras.


token = nltk.word_tokenize (raw2)

Saída:

Isso é feito como pré-processamento para a próxima etapa, onde obtemos o texto final.

Etapa 6: Finalmente, obtemos nosso texto final .


text2 = ` ` . join (token)

Saída: < br>

Abaixo está o código completo:


Shop

Learn programming in R: courses

$

Best Python online courses for 2022

$

Best laptop for Fortnite

$

Best laptop for Excel

$

Best laptop for Solidworks

$

Best laptop for Roblox

$

Best computer for crypto mining

$

Best laptop for Sims 4

$

Latest questions

NUMPYNUMPY

psycopg2: insert multiple rows with one query

12 answers

NUMPYNUMPY

How to convert Nonetype to int or string?

12 answers

NUMPYNUMPY

How to specify multiple return types using type-hints

12 answers

NUMPYNUMPY

Javascript Error: IPython is not defined in JupyterLab

12 answers


Wiki

Python OpenCV | cv2.putText () method

numpy.arctan2 () in Python

Python | os.path.realpath () method

Python OpenCV | cv2.circle () method

Python OpenCV cv2.cvtColor () method

Python - Move item to the end of the list

time.perf_counter () function in Python

Check if one list is a subset of another in Python

Python os.path.join () method

# importando bibliotecas

import nltk

from bs4 import BeautifulSoup

from urllib.request import urlopen


# extrair todo o conteúdo do texto Arquivo.

raw = urlopen ( " https: //www.w3.org/TR/PNG/iso_8859-1.txt " ). read()


# remove todas as tags html/xml

raw1 = BeautifulSoup (raw)


# obtém o texto presente em ' cru '

raw2 = raw1.get_text()


# quebra o texto em palavras.

token = nltk.word_tokenize (raw2 )

text2 = `` . join (token)