* 아래 내용은 '파이썬을 활용한 머신러닝 쿡북'에서
어느정도 이해한 내용만 적은 글입니다.
1. numpy를 이용한 순서없는 범주형 특성 인코딩
이 구조에서 '범주형_특성_인코딩()'에 들어갈 기본 뼈대만 익히면 된다.
유형에 따라 feature 구조도 조금씩 다른데,
아래 사진이 feature에 들어가는 리스트 구조이다.
순서대로 설명하면,
[ ]안에 여러 개의 ["문자열"]이 들어있고
[ ]안에 여러개의 ("문자열1", "문자열2")가 들어있다.
[ ]안에 여러개의 ["문자열", 정수]가 있다.
인코딩된 결과는 아래 사진과 같다.
첫 번째 결과는 한 괄호 당 하나의 클래스를 나타내는 1이 있다.
두 번째 결과는 열제목을 각 클래스라고 생각했을 때 해당하는 클래스에만 1이 있다.
세번째 결과 중 세 번째 열까지는 문자열끼리 인코딩, 마지막 두 열은 정수 1,3의 인코딩이다.
(feature에서 찾아보면 세 열과 두 열로 나누어 생각했을 때 이해하기 쉽다.)
'Python' 카테고리의 다른 글
데이터프레임에 리스트를 행으로 넣기 (0) | 2022.02.28 |
---|---|
pip install시, FileNotFoundError: [Errno 2] No such file or directory 에러 갈아엎기 (0) | 2020.03.25 |
[Python, 데이터캠프] 딕셔너리(Dictionary) (0) | 2020.03.23 |
[Python, 데이터 캠프] Intermediate Python - Matplotlib(히스토그램, 산점도 위주) (0) | 2020.02.02 |
댓글