본문 바로가기
Python

[Python] 파이썬 쿡북: 순서 없는 범주형 특성 인코딩(미완)

by 다랭킴 2020. 1. 20.

* 아래 내용은 '파이썬을 활용한 머신러닝 쿡북'에서

어느정도 이해한 내용만 적은 글입니다.

 

1. numpy를 이용한 순서없는 범주형 특성 인코딩

 

 

 

 

 

이 구조에서 '범주형_특성_인코딩()'에 들어갈 기본 뼈대만 익히면 된다.

 

 

 

 

 

유형에 따라 feature 구조도 조금씩 다른데,

아래 사진이 feature에 들어가는 리스트 구조이다.

 

순서대로 설명하면,

 [ ]안에 여러 개의 ["문자열"]이 들어있고

[ ]안에 여러개의 ("문자열1", "문자열2")가 들어있다.

[ ]안에 여러개의 ["문자열", 정수]가 있다.

 

 

 

 

 

 

인코딩된 결과는 아래 사진과 같다.

첫 번째 결과는 한 괄호 당 하나의 클래스를 나타내는 1이 있다.

두 번째 결과는 열제목을 각 클래스라고 생각했을 때 해당하는 클래스에만 1이 있다.

세번째 결과 중 세 번째 열까지는 문자열끼리 인코딩, 마지막 두 열은 정수 1,3의 인코딩이다.

(feature에서 찾아보면 세 열과 두 열로 나누어 생각했을 때 이해하기 쉽다.)

 

 

댓글