๐ NLP์ ์ข ๋ฅ
- major conferences: ACC, EMNLP, NAACL
๐ฅ Low-level parsing: Tokenization, stemming
๐ฅ Word and Phrase level
- NER(Named Entity Recognition), POS(Part-of-Speech) tagging, Noun-Phrase chunking, Dependency parsing, Coreference resulution
๐ฅ Sentence level: Sentiment analysis, Machine translation
๐ฅ Multi-sentence and Paragraph level: Entailment prediction, Question answering, Dialog systems, Sumarization
๐ฅ Text Mining
- ๊ธ์ด๋ ๋ฌธ์ ๋ฐ์ดํฐ์์ ํ์ฉ๊ฐ๋ฅํ ์ ๋ณด๋ insight๋ฅผ ์ถ์ถํด ๋ด๋ ๊ฒ.
- Document clustering
๐ฅ Information retrieval: social science์ ๋์ ์ฐ๊ด์ด ์์ด ์ถ์ฒ ์๋น์ค์ ๋ง์ด ์ฌ์ฉ๋๋ ๊ธฐ์
๐ฅ NLP ํธ๋ ๋
- ๊ฐ ๋จ์ด๋ฅผ ๋ฒกํฐ๋ก ๋ํ๋ด ์ฒ๋ฆฌ -> RNN๊ณ์ด ๋ชจ๋ธ์ ์ฌ์ฉ(LSTM, GRU) -> Attention module๊ณผ Transformer model ์ฌ์ฉ -> Self-Supervised Training์ ํ์ฉ(BERT, GPT-3 ๋ฑ)
- ๊ฒฐ๊ตญ ๋ง์ ์๋ณธ๊ณผ ์ ๋ณด๋ฅผ ๊ฐ์ง ์ ์ธ๊ณ์ ๊ธฐ์ (Tesla, Google ๋ฑ)์์ ์ฐ๊ตฌ๊ฐ ํ๋ฐํ ์งํ
๐ Bag-of-Words
- ๋ฌธ์ฅ ๋ด ๊ฐ ๋จ์ด๋ค์ one-hot vector๋ก ๊ณ ์น ๊ฐ์ผ๋ก ์ ๋ถ ๋ํ์ฌ ๋ํ๋ธ ๊ฒ.
1. ์์ ๋ฌธ์ฅ๋ค์ ๊ฐ ๋จ์ด๋ฅผ vocabulary๋ผ๋ ๊ณต๊ฐ์ uniqueํ๊ฒ ๋ฃ์
2. uniqueํ ๋จ์ด๋ค์ one-hot vector๋ก encoding ํจ
3. ๋ฌธ์ฅ์ one-hot vector๋ค์ ํฉ์ผ๋ก ๋ํ๋.
๐ฅ Naive bayes classifier
- ์คํธ ๋ฉ์ผ ํํฐ, ํ ์คํธ ๋ถ๋ฅ, ๊ฐ์ ๋ถ์, ์ถ์ฒ ์์คํ ๋ฑ์ ๊ด๋ฒ์ํ๊ฒ ํ์ฉ๋๋ ๋ถ๋ฅ ๊ธฐ๋ฒ
- ํน์ document๋ฅผ d๋ผํ๊ณ ์ ์ฒด class๋ฅผ c๋ผ ํ์ ๋, ์๋์ ๊ฐ์ ์์ด ๋์ด
- ๋ํ, P(d|c)๋ฅผ ์๋์ ๊ฐ์ด ๋ํ๋ผ ์ ์๋ค.
๐ Word Embedding
๐ฅ Embedding
- ์์ฐ์ด๋ฅผ ์ ๋ณด์ ๊ธฐ๋ณธ ๋จ์๋ก ํด(Sequence)๋ณผ ๋, ๊ฐ ๋จ์ด๋ค์ ํน์ ์ฐจ์์ผ๋ก ์ด๋ฃจ์ด์ง ๊ณต๊ฐ ์์ ํ ์ , ํน์ ์ ์ ์ขํ๋ฅผ ๋ํ๋ด๋ ๋ฒกํฐ๋ก ๋ณํํด ์ฃผ๋ ๊ธฐ๋ฒ
- ๋น์ทํ ์๋ฏธ๋ ๊ฐ๊น์ด ๊ฑฐ๋ฆฌ์ ์์ถฉ๋๋ ์๋ฏธ๋ ๋ฉ๋ฆฌ
๐ฅ Word2Vec
- ์ฃผ์ด์ง ์๋ฃ๋ฅผ ๋ฐํ์ผ๋ก ํน์ ์ธ์ด์์ ๊ด๊ณ๋ฅผ ์ ์ํด ํ์ต
- ์ฃผ์ด์ง ๋ฌธ์ฅ์์ ๊ฐ์ฅ ์๋ฏธ๊ฐ ์์ํ ๋จ์ด๋ฅผ ์ฐพ์๋(Word intrusion detction)
- Word2Vec์ ์๊ณ ๋ฆฌ์ฆ์ ์ฃผ์ด์ง ๋ฌธ์ฅ์ ๋จ์ด๋ก ์ชผ๊ฐ๊ณ window sliding์ ํ์ฉํด ๋ฌธ์ฅ๊ฐ์ ์ ์ฌ๋ ๋ฐ ๊ด๋ จ์ฑ์ ์ฐพ์ ๊ฒฐ๊ณผ๋ฅผ ๋์ถํด ๋ธ๋ค.
๐ฅ GloVe(Global Vectors)
- ๊ฐ ์ ๋ ฅ, ์ถ๋ ฅ ์๋ค์ ๋ํด์ ํ์ต ๋ฐ์ดํฐ์์ ๋ ๋จ์ด๊ฐ ํ ์๋์ฐ ๋ด์์ ์ด ๋ช ๋ฒ ๋์์ ๋ฑ์ฅ ํ๋์ง๋ฅผ ์ฌ์ ์ ๊ณ์ฐํ์ฌ(Pij)์ฐ์ฐ์ ์ํํจ.
- Word2Vec๋ณด๋ค ๋น ๋ฆ
'์ธ๊ณต์ง๋ฅ' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[Day 18] NLP - Seq2Seq with Attention & Beam search & BLEU (0) | 2021.02.17 |
---|---|
[Day 17] NLP - RNN & LSTM & GRU (0) | 2021.02.16 |
[Day 15] DL Basic - Generative Model โ & โ ก (0) | 2021.02.06 |
[Day 14] Math for AI - RNN (0) | 2021.02.04 |
[Day 13] DL Basic - CNN & Computer Vision Applications (0) | 2021.02.03 |