728x90

단어 연관도 분석 3

[단어 연관도 - Lab meeting] 연관어 분석 방법 - 2021.12.28.화

이번주는 Word2Vec 이외에 연관어를 분석하는 방법 2가지를 공부해보았다. 같은 단어 쌍(순서 무관)이 여러번 등장할수록 연관되어 있다고 보는 '동시 출현 기반 연관어 분석' 방법이 있다. 가중치를 활용한 '통계적 가중치 기반 연관어 분석' 방법이 있는데, 이 방법에서 가중치를 이용해 유사도를 계산하는 수식이 3가지 정도 존재한다.(더 존재할수도 있지만 내가 발견한 글에는 대표적으로 3가지가 설명되어 있었다) 수식을 자세히 보지도 않고 어려워 보여서 건너뛰었는데, 교수님이 해당 수식은 어려운 것이 아니라고 하셨다. 나중에 자세히 보면서 공부할 필요가 있을 것 같다. 연관어 분석에서 단어별 중요성을 파악하는 데 쓰이는 중심성 계수에 대해서도 공부해보았다. 교수님과 대화를 나누다보니 이 부분은 이해가 확..

[단어 연관도 - Lab meeting] Skip-gram 활용 사례 - 2021.11.29.월

이전 랩미팅에서 CBOW 설명 시 사용했던 단어 2차원 그래프가 어떻게 나온 것인지 실제 코드를 보며 공부를 해보았다. 해당 코드는 아마존의 휴대폰 관련 리뷰 댓글을 입력 데이터로 받아 단어 간의 연관성을 분석한 것이다. CBOW를 설명할 때 해당 그래프를 사용했는데, 이 코드는 skip-gram을 이용한 것이었다. 그리고 알고보니 CBOW보다 skip-gram의 성능이 더 좋아서 많이 사용된다고 한다. +) 참고 https://nbviewer.org/github/dreamgonfly/phone-review-nlp/blob/master/phone_reviews_nlp.ipynb#Modern-NLP-on-mobile-phone-reviews Jupyter Notebook Viewer You can find..

728x90