๐ ์ ํ ๋ฐ์ดํฐ
- Excel ํ์ผ ํ์ ๋๋ ๊ด๊ณํ ๋ฐ์ดํฐ๋ฒ ์ด์ค์ ํ ์ด๋ธ์ ๋ด์ ์ ์๋ ๋ฐ์ดํฐ
- ํ(row)๊ณผ ์ด(Column)์ผ๋ก ํํ ๊ฐ๋ฅํ ๋ฐ์ดํฐ - Excel ํ์ผ ํ์ ๋๋ ๊ด๊ณํ ๋ฐ์ดํฐ๋ฒ ์ด์ค์ ํ ์ด๋ธ์ ๋ด์ ์ ์๋ ๋ฐ์ดํฐ
- ํ(row)๊ณผ ์ด(Column)์ผ๋ก ํํ ๊ฐ๋ฅํ ๋ฐ์ดํฐ
๐ ๋ถ๋ฅ๋ฌธ์ ํ๊ฐ์งํ
๐ฅ Confusion Matrix
- Precision์์๋ Negative์ ์ค์๋๊ฐ Positive๋ณด๋ค ๋๋ค(ex. ์คํธ ๋ฉ์ผ)
- Recall์์๋ Positive์ ์ค์๋๊ฐ Negative๋ณด๋ค ๋๋ค(ex. ์ข ์ ๋ฐ๊ฒฌ)
๐ฅ ROC(Receiver operator Characteristic, ์์ ์ ์กฐ์ ํน์ฑ)
- ๋ชจ๋ธ์ ์ฑ๋ฅ์ด ๊ธฐ์ค์ ์ ๋์๋์ง ํ์ธํ๊ธฐ ์ํ ์๊ฐ์ ์ผ๋ก ํํํ ๊ทธ๋ํ
๐ฅ AUC(Area Under Curve)
- ROC๊ณก์ ์๋์ ๋์ด๋ฅผ ์๋ฏธ
- AUC ๊ฐ์ ๋ชจ๋ธ์์ ํญ๋ชฉ์ ์์๋ก ์ถ์ถํ์ ๋ ๊ธ์ ํญ๋ชฉ์ด ๋ถ์ ํญ๋ชฉ๋ณด๋ค ๋ ์ ํ๋ ํ๋ฅ ์ ๋ํ๋
- ๋์ AUC๊ฐ ๋ ์ข์ ๋ชจ๋ธ
๐ EDA(Exploratory Data Analysis, ํ์์ ๋ฐ์ดํฐ ๋ถ์)
- ๋ฐ์ดํฐ๋ฅผ ํ์ํ๊ณ ๊ฐ์ค์ ์ธ์ฐ๊ณ ์ฆ๋ช ํ๋ ๊ณผ์
-> ํ์ - ์๊ฐ - ์ฆ๋ช ๊ณผ์ ์ ๋ฐ๋ณต
- ๋ค์ํ ์๊ฐ์ ํตํด ๋ฐ์ดํฐ๋ฅผ ์ดํดํ๊ณ ํน์ง์ ์ฐพ๋ ๊ณผ์
-> ์๊ฐํ, ํต๊ณ๋์ผ๋ก ํํ
- ๋ชจ๋ ๋ฐ์ดํฐ๋ ๋ถ์์ ์์ EDA๊ณผ์ ์ ์๋ฐ
- ๋ง์ ์๋ฌธ์ ๊ฐ์ง๋ฉด ๋ ๋ค์ํ ์๊ฐ์ ๊ฐ์ง ์ ์์
๐ฅ ์(ํ์ดํ๋ ๋ฐ์ดํฐ)
- ๋ชฉ์ ์ ์์์ผ ํจ
- ๊ฐ column์ด ๋ฌด์์ ์๋ฏธํ๋ ์ง ์ ์ ์์ด์ผ ํ๋ค.
- ๋ณ์๊ฐ์ ๊ด๊ณ๋ฅผ ํ์ ํจ
'์ธ๊ณต์ง๋ฅ' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[์ ํ๋ฐ์ดํฐ ๋ถ๋ฅ] ๊ธฐ๋ณธ ๊ฐ๋ (0) | 2021.04.14 |
---|---|
[์ ํ๋ฐ์ดํฐ ๋ถ๋ฅ] ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ (0) | 2021.04.13 |
[Day 27] ํ์ต (0) | 2021.03.03 |
[Day 26] ํ์ต (0) | 2021.03.02 |
[Day 23] Graph - ๊ตฐ์ง & ๊ตฐ์ง ํ์ ์๊ณ ๋ฆฌ์ฆ & ์ถ์ฒ ์์คํ (0) | 2021.03.02 |