MI Lab/Word2Vec - 2021.11~2022.01

[단어 연관도 - Lab meeting] 연관어 분석 방법 - 2021.12.28.화

코딩뽀시래기 2021. 12. 29. 16:50
728x90

이번주는 Word2Vec 이외에 연관어를 분석하는 방법 2가지를 공부해보았다.

 

1
2
3

같은 단어 쌍(순서 무관)이 여러번 등장할수록 연관되어 있다고 보는 '동시 출현 기반 연관어 분석' 방법이 있다.

4

가중치를 활용한 '통계적 가중치 기반 연관어 분석' 방법이 있는데, 이 방법에서 가중치를 이용해 유사도를 계산하는 수식이 3가지 정도 존재한다.(더 존재할수도 있지만 내가 발견한 글에는 대표적으로 3가지가 설명되어 있었다) 수식을 자세히 보지도 않고 어려워 보여서 건너뛰었는데, 교수님이 해당 수식은 어려운 것이 아니라고 하셨다. 나중에 자세히 보면서 공부할 필요가 있을 것 같다.

5

연관어 분석에서 단어별 중요성을 파악하는 데 쓰이는 중심성 계수에 대해서도 공부해보았다. 교수님과 대화를 나누다보니 이 부분은 이해가 확실이 부족한 것이 느껴졌다. 다시 자세히 공부해야 할 것 같다.

6

다음 랩미팅 때에는 word2vec를 이용하여 단어의 연관도를 분석할 때, 어떤 입력 데이터를 사용해야 더 좋은 결과값을 얻을 수 있을지를 중점적으로 공부해보려고 한다. 그리고 이제는 이걸 활용해서 앱을 개발할 수 있는 단계로 넘어가야 할 것 같은데... 너무 늦장 부린 것 같다. 어렵지만 빨리 공부해서 구현해보아야겠다. 이번 주부터 방학동안은 화요일에 랩미팅을 진행한다.

 

+) 매번 글을 올릴 때마다 학번이나 이름 같은 정보는 가리고 올리는데 그 이유는 혹시 개인정보 유출 걱정... 깜빡하면 안 가리고 올릴 수도 있지만 최대한 가리고 올리려고 하고 있다. (요즘은 학번은 가려도 이름은 가리지 말까 고민 중)

 

+) 참고 링크

https://romanticq.github.io/%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D/text-mining-tech3/

 

[텍스트 마이닝] 텍스트 마이닝 기법3

텍스트 마이닝 기법 중 하나인 연관어 분석에 대해 정리한다.

romanticq.github.io

 

728x90