개발자 미니민의 개발스터디

[파이썬] sklearn.feature_extraction.text import CountVectorizer

by mini_min

파이썬으로 추천 기능을 짜려고 하니까

sklearn.feature_extraction.text import CountVectorizer
 
이걸 알아야한다. 사이킷 런
 
 
✨ CountVectorizer
: 단어들의 카운트(출현 빈도)로 여러 문서들을 벡터화한다.
모두 소문자로 변환시킨다. 
 

그럼 (0, 16) (4800, 44) 이런 식의 결과가 나온다.

앞에 0, 4800은 문장 수이고 뒤에 16, 44은 feature 개수라고 한다. 4800개의 문장이 1개의 토큰으로 표현된 것..!

 

 

블로그의 프로필 사진

블로그의 정보

개발자 미니민의 개발로그

mini_min

활동하기