๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ

์ธ๊ณต์ง€๋Šฅ

[์ •ํ˜•๋ฐ์ดํ„ฐ ๋ถ„๋ฅ˜] ๋ฐ์ดํ„ฐ ์ „์ฒ˜๋ฆฌ

๐Ÿ“ ๋ฐ์ดํ„ฐ ์ „์ฒ˜๋ฆฌ(Preprocessing)

    - ๋จธ์‹ ๋Ÿฌ๋‹ ๋ชจ๋ธ์— ๋ฐ์ดํ„ฐ๋ฅผ ์ž…๋ ฅํ•˜๊ธฐ ์œ„ํ•ด ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” ๊ณผ์ •

      -> EDA, ๋ชฉ์ ์— ๋”ฐ๋ผ ๋‹ฌ๋ผ์ง

 

  ๐Ÿ”ฅ ์—ฐ์†ํ˜• ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ

    - Scaling: ๋ฐ์ดํ„ฐ์˜ ๋‹จ์œ„ ํ˜น์€ ๋ถ„ํฌ๋ฅผ ๋ณ€๊ฒฝ

      -> ์„ ํ˜•๊ธฐ๋ฐ˜์˜ ๋ชจ๋ธ(์„ ํ˜•ํšŒ๊ท€, ๋”ฅ๋Ÿฌ๋‹ ๋“ฑ)์ธ ๊ฒฝ์šฐ ๋ณ€์ˆ˜๋“ค ๊ฐ„์˜ ์Šค์ผ€์ผ์„ ๋งž์ถ”๋Š” ๊ฒƒ์ด ํ•„์ˆ˜์ 

Robust Scaling์ด ์ด์ƒ์น˜์— ์˜ํ–ฅ์„ ์ ๊ฒŒ ๋ฐ›์Œ

 

  ๐Ÿ”ฅ ๋ฒ”์ฃผํ˜• ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ

    - Encoding

      -> One Hot encoding

      -> Lavel encoding

      -> Frequency encoding

      -> Target encoding

 

  ๐Ÿ”ฅ ๊ฒฐ์ธก์น˜ ์ฒ˜๋ฆฌ

    - Pattern์„ ํŒŒ์•…ํ•ด ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋‹ค.

 

    - ํ‰๊ท ๊ฐ’, ์ค‘์œ„๊ฐ’, ์ƒ์ˆ˜๊ฐ’์„ ์‚ฝ์ž…ํ•ด ์ค„ ์ˆ˜ ์žˆ๋‹ค.

 

  ๐Ÿ”ฅ ์ด์ƒ์น˜ ์ฒ˜๋ฆฌ

    - ๋ชจ์—ฌ์žˆ๋Š” ๊ฐ’์ด ์•„๋‹ˆ๋ผ ๋„ˆ๋ฌด ๋ฒ—์–ด๋‚˜ ์žˆ๋Š” ๊ฐ’๋“ค

    - Z Score, IQR์„ ํ†ตํ•ด ์ด์ƒ์น˜๋ฅผ ํƒ์ƒ‰ํ•  ์ˆ˜ ์žˆ๋‹ค.

    - ์ •์„ฑ์ ์ธ ์ธก๋ฉด๊ณผ ์„ฑ๋Šฅ์ ์ธ ์ธก๋ฉด์—์„œ ์ƒ๊ฐํ•  ์ˆ˜ ์žˆ๋‹ค.