NLP Kullanarak Kelime İşleme | temelleri

| | | | | | | | | |

Bu makalede, çevrimiçi metin dosyalarından nasıl metin alabileceğimizi ve onlardan gerekli verileri nasıl çıkarabileceğimizi tartışacağız. Bu makale için burada .

Mevcut üretim ortamınızda aşağıdakilerin kurulu olması gerekir:

Adım # 1: gerekli kitaplıkları içe aktarın


import nltk

`dan bs4 import GüzelSoup

`dan urllib.request import urlopen

Yukarıdaki kitaplıklar hakkında bazı temel bilgiler:

  • NLTK kitaplığı. Kitaplık nltk, İngilizce dil işleme için yazılmış ve Python programlama dilinde yazılmış bir kitaplık ve program koleksiyonudur.
  • urllib kitaplığı: , python için bir URL işleme kitaplığıdır ... Bu https://www.w3.org/TR/PNG/iso_8859-1.txt " ). oku ()

    Böylece ham veriler ham değişkene yüklenir.

    Adım # 3: Ardından, ham değişkenimizde bulunabilecek tüm html / etiketleri xml`yi kaldırmak için verileri aşağıdakileri kullanarak işleriz:


    < kod sınıfı = "düz"> ham1 = BeautifulSoup (ham)

4. Adım: Şimdi metni "raw" değişkeninde alıyoruz.


raw2 = raw1.get_text ()

Çıktı:

Adım # 5: Sonra metni kelimelere ayırıyoruz.


belirteç = nltk.word_tokenize (raw2)

Çıktı:

Bu, son metni aldığımız sonraki adım için ön işleme olarak yapılır.

Adım # 6: Son olarak, son metnimizi alırız. .


text2 = ` ` . join (token)

Çıktı: < br>

Kodun tamamı aşağıdadır:


NLP Kullanarak Kelime İşleme | temelleri _files: Questions

NLP Kullanarak Kelime İşleme | temelleri File handling: Questions

Shop

Best Python online courses for 2022

$

Best laptop for Fortnite

$

Best laptop for Excel

$

Best laptop for Solidworks

$

Best laptop for Roblox

$

Best computer for crypto mining

$

Best laptop for Sims 4

$

Best laptop for Zoom

$499

Latest questions

NUMPYNUMPY

psycopg2: insert multiple rows with one query

12 answers

NUMPYNUMPY

How to convert Nonetype to int or string?

12 answers

NUMPYNUMPY

How to specify multiple return types using type-hints

12 answers

NUMPYNUMPY

Javascript Error: IPython is not defined in JupyterLab

12 answers

Wiki

Python OpenCV | cv2.putText () method

numpy.arctan2 () in Python

Python | os.path.realpath () method

Python OpenCV | cv2.circle () method

Python OpenCV cv2.cvtColor () method

Python - Move item to the end of the list

time.perf_counter () function in Python

Check if one list is a subset of another in Python

Python os.path.join () method

# kitaplıkları içe aktarma

import nltk

bs4 import BeautifulSoup `dan

`dan urllib.request import urlopen


# metnin tüm içeriğini çıkar dosya.

ham = urlopen ( " https: //www.w3.org/TR/PNG/iso_8859-1.txt " ). read ()


# tüm html / xml etiketlerini kaldırın

raw1 = BeautifulSoup (ham)


# ' ham '

raw2 = raw1.get_text ()


# metni kelimelere ayırın.

belirteç = nltk.word_tokenize (raw2 )

text2 = `` . katıl (belirteç)