Pandas str.get_dummies()
는 전달된 구분 기호에서 호출자 행의 각 줄을 분할하는 데 사용됩니다. 데이터 프레임은 각 행이 분할된 후 가능한 모든 값과 함께 반환됩니다. 인덱스가 동일한 원본 데이터 프레임의 텍스트 값에 문자열(열 이름/구분 값)이 포함된 경우 해당 위치의 값은 1이고 그렇지 않은 경우 — 0.
이것은 문자열 연산이므로 이 함수를 호출하기 전에 각 호출 앞에 .str < /엠> . 그렇지 않으면 오류가 발생합니다.
구문: Series.str.get_dummies(sep=’|’)
매개변수:
sep: 문자열 값,반환 유형: 이진 값만 있는 데이터 프레임
다음 예제에 사용된 데이터 세트를 다운로드하려면 여기에서 를 클릭하세요.
다음 예에서 사용된 데이터 프레임에는 일부 직원의 데이터가 포함되어 있습니다. 작업 전 데이터 프레임의 이미지가 아래에 첨부되어 있습니다.
예제 # 1: 공백에서 여러 줄을 구분합니다.
이 예에서 Command 열의 행은 ""(공백)으로 분할되었으며 분할 후 가능한 모든 값과 함께 데이터 프레임이 반환됩니다. 문자열(열 이름)이 이전 데이터 프레임의 동일한 인덱스에 있는 텍스트 값에 있는 경우 반환된 데이터 프레임의 값은 1입니다.
<코드>
<표 테두리 = "0" 셀 패딩 = "0" 셀 간격 = "0"><코드 클래스 = "주석"> # 팬더 가져오기
<코드 클래스 = "키워드"> 가져오기 <코드 클래스 = " plain"> pd로 pandas
# URL로 CSV에서 데이터 프레임 생성
데이터 <코드 클래스 = "키워드"> =
<코드 클래스 = "일반"> pd.read_csv( <코드 클래스 = "문자열"> " https://media.python.engineering/wp- content/uploads/employees.csv " )
# 생성 get_dummies()를 사용하는 데이터 프레임
더미
=
데이터 [
" 팀 " <코드 클래스 ="일반 ">].
<코드 클래스 ="기능 "> str <코드 클래스 ="일반 ">. Get_dummies ( ""
)
# 디스플레이
dummies.head (
10
)
종료:
출력 이미지와 같이 데이터 프레임의 원본 이미지와 비교할 수 있습니다. 동일한 인덱스를 가진 문자열이 존재하는 경우 값은 1이고 그렇지 않으면 0입니다.
중요 사항:
예 # 2: 여러 개의 점으로 분할/정적 값 열
이 예에서는 새 열("Hello gfg family")에 대해 정적 값을 사용합니다. 그런 다음 get_dummies() 메서드가 적용되고 문자열이 "g"로 분할됩니다. "g"가 두 번 이상 나타나므로 하나 이상의 열이 있고 모든 열의 값은 문자열이 모든 행에 대해 동일해야 하므로 모든 열의 값이 동일해야 합니다.
<표 테두리 = "0" cellpadding = "0" cellspacing = "0">
# pandas 가져오기
가져오기
pd로 pandas
# URL로 CSV에서 데이터 프레임 생성
데이터
<코드 클래스 = "키워드"> = <코드 클래스 = "일반"> pd.read_csv ( <코드 클래스 = "문자열"> " https://media.python.engineering/wp-content/uploads/employees.csv " )
# 새 열 행
문자열
=
" 안녕하세요 gfg 가족"
# 새 열 생성
데이터 [
"New_column"
<코드 클래스 = "일반">] <코드 클래스 = "키워드"> = <코드 클래스 = "일반"> 문자열
# 더미 만들기
df
=
< 코드 클래스 = "일반"> 데이터 [ <코드 클래스 = "문자열"> "New_column" <코드 클래스 = "일반">]. str
.get_dummies (
"g"
)
# 표시
<코드 클래스 = "일반"> df.head ( <코드 클래스 = "값"> 10 <코드 클래스 = "일반">)
출력:
출력 이미지와 같이 , 새 데이터 프레임에는 3개의 열이 있고 각 행에는 동일한 값이 있습니다.