이 기사에서는 온라인 텍스트 파일에서 텍스트를 가져와 필요한 데이터를 추출하는 방법에 대해 설명합니다. 이 기사에서는 여기 < /a>.
현재 프로덕션 환경에 다음이 설치되어 있어야 합니다.
- NLTC 라이브러리
- urllib
- BeautifulSoup 라이브러리
1단계: 필요한 라이브러리 가져오기
<코드 클래스 ="키워드 "> 가져오기 <코드 클래스 ="일반 "> nltk
위 라이브러리에 대한 몇 가지 기본 정보:
|
4단계: 이제 "원시" 변수의 텍스트를 가져옵니다.
<코드 클래스 = "일반"> raw2 <코드 클래스 = "키워드"> = <코드 클래스 = "일반"> raw1.get_text()
출력:
5단계: 다음으로 텍스트를 단어로 나눕니다.
토큰
=
nltk.word_tokenize (raw2)
출력:
이것은 최종 텍스트를 얻는 다음 단계를 위한 전처리로 수행됩니다.
6단계: 마지막으로 최종 텍스트를 얻습니다. .
<코드 클래스 = "일반"> 텍스트2 <코드 클래스 = "키워드"> = <코드 클래스 = "문자열"> ` ` . 조인(토큰)
출력: < br>
아래는 전체 코드입니다.
<표 테두리 = "0" 셀 패딩 = "0" 셀 간격 = "0">
<코드 클래스 ="주석 "> # 라이브러리 가져오기
가져오기
nltk
bs4
가져오기
BeautifulSoup
urllib.request
가져오기
urlopen
# 텍스트의 전체 내용 추출 파일.
raw
=
urlopen (
<코드 클래스 = "문자열"> " https: //www.w3.org/TR/PNG/iso_8859-1.txt " <코드 클래스 ="일반 ">). read ()
# 모든 html/xml 태그 제거
raw1
=
BeautifulSoup(원시)
<코드 클래스 = "일반"> raw2 <코드 클래스 = " 키워드 "> = <코드 클래스 ="일반 "> raw1.get_text()
# 텍스트를 단어로 나눕니다.
토큰
=
nltk.word_tokenize (raw2 )
<코드 클래스 = "일반"> 텍스트2 <코드 클래스 = "키워드"> = <코드 클래스 = "문자열"> `` 코드> <코드 클래스 = "일반">. 조인(토큰)