개발자 미니민의 개발스터디

[파이썬] 명사 빈도 계산 konlpy

by mini_min

파이썬에서 워드클라우드를 만들거나 추천 기능을 만들려면 명사 빈도를 계산해야했다!

명사 빈도 계산은 파이썬 오픈소스 라이브러리인 konlpy 을 사용한다. 

<파이썬 한글 형태소 분석기> 이며 코엔엘파이 라고 부른다.

 

konlpy 의 Okt(Twitter) 클래스로 한글 명사 단어 빈도를 계산할 수 있다!

 

from konlpy.tag import Okt

okt = Okt()
from collections import Counter

noun = okt.nouns("")

for crawlTitle, crawlContent in movies_df.iterrows():
    noun += okt.nouns(crawlContent.crawlContent)

count = Counter(noun)

for i, v in enumerate(noun):
    if len(v) < 2:
        noun.pop(i)
        
count = Counter(noun)

noun_list = count.most_common(300)
for v in noun_list:
    print(v)

 

행이 많은 경우 iterrows() 로 원하는 내용에서 명사 빈도를 출력할 수도 있고,

아래 코드처럼 하나의 문장에서 명사 빈도 카운트도 가능하다.

from konlpy.tag import Okt

okt = Okt()
from collections import Counter

noun = okt.nouns(categoryTuple[2])
for m, v in enumerate(noun):
    if len(v) < 2:
        noun.pop(m)

count = Counter(noun)

noun_list = count.most_common(3)
for v in noun_list:
    print(v)

 

 

 

블로그의 정보

개발자 미니민의 개발로그

mini_min

활동하기