Neste artigo, vamos discutir como podemos obter texto de arquivos de texto online e extrair os dados necessários deles. Para este artigo, usaremos um arquivo de texto disponível aqui < /a>.
O seguinte deve ser instalado em seu ambiente de produção atual:
- Biblioteca NLTC
- urllib
- BeautifulSoup Biblioteca
Etapa 1: importe as bibliotecas necessárias
importar nltk
from bs4 import BeautifulSoup
from urllib.request import urlopen
Algumas informações básicas sobre as bibliotecas acima: - biblioteca NLTK. Biblioteca nltk é uma coleção de bibliotecas e programas escritos para processamento em inglês e escritos na linguagem de programação Python.
- biblioteca urllib: é uma biblioteca de processamento de URL para python ... Saiba mais sobre isso https://www.w3.org/TR/PNG/iso_8859-1. txt "
). leia () Assim, os dados brutos são carregados na variável bruta. Etapa 3: Em seguida, processamos os dados para remover todos os html/tags xml que podem estar presentes em nossa variável bruta usando:
raw1 = BeautifulSoup (cru)
|
Etapa 4: Agora temos o texto na variável "raw".
raw2
=
raw1.get_text()
Saída:

Passo nº 5: Em seguida, dividimos o texto em palavras.
token
=
nltk.word_tokenize (raw2)
Saída:

Isso é feito como pré-processamento para a próxima etapa, onde obtemos o texto final.
Etapa 6: Finalmente, obtemos nosso texto final .
text2
=
` `
. join (token)
Saída: < br>
Abaixo está o código completo:
# importando bibliotecas
import nltk
from bs4 import BeautifulSoup from urllib.request import urlopen
# extrair todo o conteúdo do texto Arquivo.
raw = urlopen ( " https: //www.w3.org/TR/PNG/iso_8859-1.txt " ). read()
# remove todas as tags html/xml
raw1 = BeautifulSoup (raw)
raw2 = raw1.get_text()
# quebra o texto em palavras.
token = nltk.word_tokenize (raw2 )
text2 = `` código> . join (token)
|
table>
Shop
Learn programming in R: courses
$
Best Python online courses for 2022
$
Best laptop for Fortnite
$
Best laptop for Excel
$
Best laptop for Solidworks
$
Best laptop for Roblox
$
Best computer for crypto mining
$
Best laptop for Sims 4
$
Latest questions
NUMPYNUMPY
psycopg2: insert multiple rows with one query
12 answers
NUMPYNUMPY
How to convert Nonetype to int or string?
12 answers
NUMPYNUMPY
How to specify multiple return types using type-hints
12 answers
NUMPYNUMPY
Javascript Error: IPython is not defined in JupyterLab
12 answers
Wiki
Python OpenCV | cv2.putText () method
numpy.arctan2 () in Python
Python | os.path.realpath () method
Python OpenCV | cv2.circle () method
Python OpenCV cv2.cvtColor () method
Python - Move item to the end of the list
time.perf_counter () function in Python
Check if one list is a subset of another in Python
Python os.path.join () method