NLP를 사용한 워드 프로세싱 | 기초

| | | | | | | | | |

이 기사에서는 온라인 텍스트 파일에서 텍스트를 가져와 필요한 데이터를 추출하는 방법에 대해 설명합니다. 이 기사에서는 여기 < /a>.

현재 프로덕션 환경에 다음이 설치되어 있어야 합니다.

1단계: 필요한 라이브러리 가져오기


<코드 클래스 ="키워드 "> 가져오기 <코드 클래스 ="일반 "> nltk

bs4 가져오기 BeautifulSoup

urllib.request 가져오기 urlopen

위 라이브러리에 대한 몇 가지 기본 정보:

  • NLTK 라이브러리. 라이브러리 nltk는 영어 처리를 위해 작성되고 Python 프로그래밍 언어로 작성된 라이브러리 및 프로그램 모음입니다.
  • urllib 라이브러리: 는 파이썬용 URL 처리 라이브러리입니다... urlopen( <코드 클래스 = "문자열"> " https://www.w3.org/TR/PNG/iso_8859-1.txt " ). 읽기 ()

    따라서 원시 데이터가 원시 변수에 로드됩니다.

    3단계: 그런 다음 다음을 사용하여 원시 변수에 있을 수 있는 모든 html / tags xml을 제거하기 위해 데이터를 처리합니다.


    < 코드 클래스 = "일반"> raw1 <코드 클래스 = "키워드 "> = BeautifulSoup(원시)

4단계: 이제 "원시" 변수의 텍스트를 가져옵니다.


<코드 클래스 = "일반"> raw2 <코드 클래스 = "키워드"> = <코드 클래스 = "일반"> raw1.get_text()

출력:

5단계: 다음으로 텍스트를 단어로 나눕니다.


토큰 = nltk.word_tokenize (raw2)

출력:

이것은 최종 텍스트를 얻는 다음 단계를 위한 전처리로 수행됩니다.

6단계: 마지막으로 최종 텍스트를 얻습니다. .


<코드 클래스 = "일반"> 텍스트2 <코드 클래스 = "키워드"> = <코드 클래스 = "문자열"> ` ` . 조인(토큰)

출력: < br>

아래는 전체 코드입니다.


<표 테두리 = "0" 셀 패딩 = "0" 셀 간격 = "0">

<코드 클래스 ="주석 "> # 라이브러리 가져오기

가져오기 nltk

bs4 가져오기 BeautifulSoup

urllib.request 가져오기 urlopen


# 텍스트의 전체 내용 추출 파일.

raw = urlopen ( <코드 클래스 = "문자열"> " https: //www.w3.org/TR/PNG/iso_8859-1.txt " <코드 클래스 ="일반 ">). read ()


# 모든 html/xml 태그 제거

raw1 = BeautifulSoup(원시)


# '에 있는 텍스트를 가져옵니다. 원시 '

<코드 클래스 = "일반"> raw2 <코드 클래스 = " 키워드 "> = <코드 클래스 ="일반 "> raw1.get_text()


# 텍스트를 단어로 나눕니다.

토큰 = nltk.word_tokenize (raw2 )

<코드 클래스 = "일반"> 텍스트2 <코드 클래스 = "키워드"> = <코드 클래스 = "문자열"> `` <코드 클래스 = "일반">. 조인(토큰)

Shop

Learn programming in R: courses

$

Best Python online courses for 2022

$

Best laptop for Fortnite

$

Best laptop for Excel

$

Best laptop for Solidworks

$

Best laptop for Roblox

$

Best computer for crypto mining

$

Best laptop for Sims 4

$

Latest questions

NUMPYNUMPY

psycopg2: insert multiple rows with one query

12 answers

NUMPYNUMPY

How to convert Nonetype to int or string?

12 answers

NUMPYNUMPY

How to specify multiple return types using type-hints

12 answers

NUMPYNUMPY

Javascript Error: IPython is not defined in JupyterLab

12 answers

News


Wiki

Python OpenCV | cv2.putText () method

numpy.arctan2 () in Python

Python | os.path.realpath () method

Python OpenCV | cv2.circle () method

Python OpenCV cv2.cvtColor () method

Python - Move item to the end of the list

time.perf_counter () function in Python

Check if one list is a subset of another in Python

Python os.path.join () method