В этой статье мы обсудим, как можно получить текст из текстовых файлов в Интернете и извлечь из них необходимые данные. В этой статье мы будем использовать текстовый файл, доступный здесь < /a>.
В вашей текущей производственной среде должны быть установлены следующие компоненты:
- Библиотека NLTC
- urllib
- BeautifulSoup Библиотека
Шаг № 1: импортируйте необходимые библиотеки
Некоторая основная информация о вышеуказанных библиотеках:
|
Шаг 4. Теперь мы получаем текст в "сырой" переменной.
raw2
=
raw1.get_text ()
Вывод:
Шаг № 5: Далее мы разбиваем текст на слова.
маркер
=
nltk.word_tokenize (raw2)
Вывод:
Это делается в качестве предварительной обработки для следующего шага, где мы получаем окончательный текст.
Шаг № 6: Наконец, мы получаем наш окончательный текст
text2
=
` `
.join (токен)
Вывод: < br>
Ниже приведен полный код:
<граница таблицы = "0" cellpadding = "0" cellpacing = "0">
# импорт библиотек
import
nltk
from
bs4
import
BeautifulSoup
from
urllib.request
import
urlopen
# извлечь все содержимое текста файл.
raw
=
urlopen (
" https: //www.w3.org/TR/PNG/iso_8859-1.txt "
). read()
# удалить все теги html/xml
raw1
=
BeautifulSoup (raw)
raw2
=
raw1.get_text ()
# разбить текст на слова.
токен
=
nltk.word_tokenize (raw2 )
text2
=
`` код> <класс кода = "обычный">. соединение (токен)