๋ฐ์ดํ„ฐ ์—”์ง€๋‹ˆ์–ด๋กœ ์‚ด์•„๋‚จ๊ธฐ - ๋น…๋ฐ์ดํ„ฐ์— ๊ด€๋ฆฌ์™€ ์ฒ˜๋ฆฌ๋ฅผ ์œ„ํ•œ ์ „๋ฐ˜์ ์ธ ๊ธฐ์ˆ 

๋ฐ์ดํ„ฐ ์—”์ง€๋‹ˆ์–ด๋กœ์„œ ํ•„์š”ํ•œ ๊ธฐ์ˆ ์— ๋Œ€ํ•ด ์ฐจ๊ทผ์ฐจ๊ทผ, ์ง„๋“ํ•˜๊ฒŒ ๊ณต๋ถ€ํ•ด๋ณด๋ ค ํ•ฉ๋‹ˆ๋‹ค.

์ •๋ฆฌ๋œ ๋‚ด์šฉ์€ [๋น…๋ฐ์ดํ„ฐ๋ฅผ ์ง€ํƒฑํ•˜๋Š” ๊ธฐ์ˆ ] ๋„์„œ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•ฉ๋‹ˆ๋‹ค.

์ด ์ฑ…์—์„œ ๋‹ค๋ฃจ๋Š” ๋‚ด์šฉ

  • ์ž๋™ํ™”๋œ ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ(๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ๋ฅผ ์‹œ์Šคํ…œํ™”)
  • ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ ๊ณผ์ •์—์„œ ์‚ฌ์šฉ๋˜๋Š” SW, DB, ํ”„๋กœ๊ทธ๋ž˜๋ฐ ์–ธ์–ด, ์‹œ๊ฐํ™” ๋„๊ตฌ ํŠน์ง•, ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ๋ฅผ ์ž๋™ํ™”ํ•˜๋Š” ๊ธฐ์ˆ (์›Œํฌํ”Œ๋กœ์šฐ ๊ด€๋ฆฌ, ์ŠคํŠธ๋ฆผ ์ฒ˜๋ฆฌ ๋“ฑ)

*๋น…๋ฐ์ดํ„ฐ ์ทจ๊ธ‰์ด ์–ด๋ ค์šด ์ด์œ 

  1. ๋ฐ์ดํ„ฐ์˜ ๋ถ„์„ ๋ฐฉ๋ฒ•์„ ๋ชจ๋ฅธ๋‹ค (๋ฐ์ดํ„ฐ ๋ถ„์„๊ฐ€์˜ ์—ญํ• )
  2. ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ์— ์ˆ˜๊ณ ์™€ ์‹œ๊ฐ„์ด ๊ฑธ๋ฆฐ๋‹ค (๋ฐ์ดํ„ฐ ์—”์ง€๋‹ˆ์–ด์˜ ์—ญํ• )

1-1. [๋ฐฐ๊ฒฝ]๋น…๋ฐ์ดํ„ฐ์˜ ์ •์ฐฉ

๋ถ„์‚ฐ ์‹œ์Šคํ…œ์— ์˜ํ•œ ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ์˜ ๊ณ ์†ํ™”

์›น ์„œ๋ฒ„ ๋“ฑ์—์„œ ์ƒ์„ฑ๋œ ๋ฐ์ดํ„ฐ๋Š” 1์ฐจ์ ์œผ๋กœ RDB, NoSQL์— ์ €์žฅ. ์ดํ›„ ๋ชจ๋“  ๋ฐ์ดํ„ฐ๊ฐ€ Hadoop์— ๋ชจ์ด๋ฉด ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ ๊ฐ€๋Šฅ

1. Hadoop

โ€œ๋‹ค์ˆ˜์˜ ์ปดํ“จํ„ฐ์—์„œ ๋Œ€๋Ÿ‰์˜ ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌโ€

  • Hadoop : ์—ฌ๋Ÿฌ ์„œ๋น„์Šค, ์‹œ์Šคํ…œ์—์„œ ๋ฐœ์ƒํ•œ ๋Œ€๊ทœ๋ชจ์˜ ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ•˜๊ธฐ ์œ„ํ•ด ์—ฌ๋Ÿฌ ๋Œ€์˜ ์ปดํ“จํ„ฐ๋ฅผ ์ด์šฉํ•ด์•ผํ•  ์ˆ˜ ์žˆ์Œ. ์ด๋Ÿฌํ•œ ๋ถ„์‚ฐ ํ™˜๊ฒฝ์„ ๊ด€๋ฆฌํ•˜๋Š” ํ”„๋ ˆ์ž„์›Œํฌ(์†”๋ฃจ์…˜)
  • Hive : SQL๊ณผ ๊ฐ™์€ ์ฟผ๋ฆฌ ์–ธ์–ด๋ฅผ ์ด์šฉํ•ด Hadoop ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ๋ฅผ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜๋Š” ์†Œํ”„ํŠธ์›จ์–ด. Hadoop์œผ๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” java ์–ธ์–ด๋ฅผ ์ด์šฉํ•œ MapReduce๋ผ๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์ด์šฉํ•ด์•ผํ•จ. ์ด๋ฅผ SQL ์ฟผ๋ฆฌ ์–ธ์–ด๋กœ ์ฒ˜๋ฆฌ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜์—ฌ ์‚ฌ์šฉ์„ฑ์„ ๋†’์ธ ์†”๋ฃจ์…˜

2. NoSQL ๋ฐ์ดํ„ฐ๋ฒ ์ด์Šค

โ€œ๋นˆ๋ฒˆํ•œ ์ฝ๊ธฐ/์“ฐ๊ธฐ ๋ฐ ๋ถ„์‚ฐ ์ฒ˜๋ฆฌ๊ฐ€ ๊ฐ•์ โ€

  • ๊ณ ์†์˜ ์ฝ๊ธฐ, ์“ฐ๊ธฐ, ๋ถ„์‚ฐ ์ฒ˜๋ฆฌ๋ฅผ ์šฉ์ดํ•˜๊ฒŒ ํ•˜์—ฌ RDB์˜ ์ œ์•ฝ์„ ๊ทน๋ณตํ•˜๊ณ  ๋น…๋ฐ์ดํ„ฐ๋ฅผ ๊ด€๋ฆฌํ•  ์ˆ˜ ์žˆ๋Š” ๋ฐ์ดํ„ฐ๋ฒ ์ด์Šค
  • ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜์—์„œ ์‹ค์‹œ๊ฐ„์œผ๋กœ ์ ‘์†ํ•˜์—ฌ ๋ฐ์ดํ„ฐ ์ฝ๊ธฐ/์“ฐ๊ธฐ๋ฅผ ํ•˜๋Š” ๋ฐ์ดํ„ฐ๋ฒ ์ด์Šค
  • ํ‚ค ๋ฐธ๋ฅ˜ ์Šคํ† ์–ด, ๋„ํ๋ฉ˜ํŠธ ์Šคํ† ์–ด, ์™€์ด๋“œ ์นผ๋Ÿผ ์Šคํ† ์–ด ๋“ฑ

-> โ€œNoSQL ๋ฐ์ดํ„ฐ๋ฒ ์ด์Šค์— ๊ธฐ๋กํ•˜๊ณ  Hadoop์œผ๋กœ ๋ถ„์‚ฐ ์ฒ˜๋ฆฌํ•˜๊ธฐโ€

3. ๋ถ„์‚ฐ ์‹œ์Šคํ…œ์˜ ๋น„์ฆˆ๋‹ˆ์Šค ์ด์šฉ ๊ฐœ์ฒ™

โ€œEDW์™€ Hadoop์˜ ๊ณต์กดโ€

  • Hadoop ๋„์ž… ์ „๋ถ€ํ„ฐ ๋Œ€๋Ÿ‰์˜ ๋น„์ฆˆ๋‹ˆ์Šค ๋ฐ์ดํ„ฐ ๊ด€๋ฆฌ(๊ณ ๊ฐ ์ •๋ณด, ํŒ๋งค ๋ฐ์ดํ„ฐ ๋“ฑ) ๋ฐ ๋ถ„์„์„ ์œ„ํ•ด EDW(Enterprise Data Warehouse)๋ฅผ ๊ตฌ์ถ•ํ•˜์—ฌ ์‚ฌ์šฉํ•˜๊ณ  ์žˆ๋Š” ๊ฒฝ์šฐ๊ฐ€ ์žˆ์—ˆ์Œ.
  • ๊ทธ๋Ÿฌ๋‚˜ ์ตœ๊ทผ ๋‹ค์ˆ˜์˜ ๋น…๋ฐ์ดํ„ฐ ๋ถ„์„ ๋„๊ตฌ๊ฐ€ Hadoop, Hive์™€์˜ ์—ฐ๊ณ„๋ฅผ ์ง€์›ํ•˜๋ฉฐ Hadoop ์ƒํƒœ๊ณ„๊ฐ€ ์กฐ์„ฑ๋˜๋Š” ์ถ”์„ธ
  • ๋˜ํ•œ ๊ณผ๊ฑฐ ์ผ๋ถ€ EDW์˜ ๊ฒฝ์šฐ HW์™€ SW๊ฐ€ ํ†ตํ•ฉ ์žฅ๋น„๋กœ ์ œ๊ณต๋˜์–ด ์„ฑ๋Šฅ์„ ๋†’์ด๋ ค๋ฉด HW๊ฐ€ ๊ต์ฒด๋˜์–ด์•ผํ•˜๋Š” ๋“ฑ์˜ ๋ถˆํŽธํ•จ์ด ์žˆ์—ˆ์Œ
  • ๋”ฐ๋ผ์„œ ๋Œ€๋Ÿ‰+์‹ค์‹œ๊ฐ„(๋งค์ผ, ์ฃผ๊ธฐ์  ์ž‘์—…) ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ๋Š” Hadoop์œผ๋กœ, ์ž‘์€ ๋ฐ์ดํ„ฐ, ์ค‘์š” ๋ฐ์ดํ„ฐ๋Š” DW๋กœ ๋ถ„๋ฆฌํ•˜์—ฌ ๊ด€๋ฆฌ

์Šค๋ชฐ๋ฐ์ดํ„ฐ๋ž€?

  • ์ข…๋ฅ˜ : ์—‘์…€ ๋ฐ์ดํ„ฐ, CSV ๋“ฑ
  • ๊ทœ๋ชจ : ์ˆ˜๋ฐฑ๋งŒ ~ ์ˆ˜์ฒœ๋งŒ ๋ ˆ์ฝ”๋“œ, ์ˆ˜ GB
  • ์Šค๋ชฐ๋ฐ์ดํ„ฐ์˜ ๊ฒฝ์šฐ ๋ฐ์ดํ„ฐ ์–‘์ด ์ฆ๊ฐ€ํ•˜๋ฉด ์ฒ˜๋ฆฌ ์‹œ๊ฐ„์ด ๊ธ‰๊ฒฉํžˆ ์ฆ๊ฐ€ํ•จ. ๋น…๋ฐ์ดํ„ฐ์˜ ๊ฒฝ์šฐ ์Šค๋ชฐ๋ฐ์ดํ„ฐ์™€ ๋น„๊ตํ•˜์—ฌ ๋ฐ์ดํ„ฐ์˜ ์–‘์ด ๋Š˜์–ด๋‚˜๋„ ์ฒ˜๋ฆฌ์‹œ๊ฐ„์˜ ์ฆ๊ฐ€๋Š” ์–ต์ œ๋จ.
  • ๋ฐ์ดํ„ฐ ์–‘์ด ์ ์€ ์ƒํ™ฉ์—์„œ๋Š” ์Šค๋ชฐ๋ฐ์ดํ„ฐ ๊ธฐ์ˆ ์ด ๋” ์šฐ์ˆ˜ํ•จ.

1-2. ๋น…๋ฐ์ดํ„ฐ ์‹œ๋Œ€์˜ ๋ฐ์ดํ„ฐ ๋ถ„์„ ๊ธฐ๋ฐ˜

๋น…๋ฐ์ดํ„ฐ ๊ธฐ์ˆ ๊ณผ DW์™€์˜ ์ฐจ์ด์  : ๋น…๋ฐ์ดํ„ฐ ๊ธฐ์ˆ ์€ ๋‹ค์ˆ˜์˜ ๋ถ„์‚ฐ ์‹œ์Šคํ…œ์„ ์กฐํ•ฉํ•˜์—ฌ ํ™•์žฅ์„ฑ์ด ๋›ฐ์–ด๋‚œ ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ ๊ตฌ์กฐ๋ฅผ ๋งŒ๋“œ๋Š” ๊ฒƒ

1. ๋ฐ์ดํ„ฐ ํŒŒ์ดํ”„๋ผ์ธ

โ€œ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘์—์„œ ์›Œํฌํ”Œ๋กœ์šฐ ๊ด€๋ฆฌ๊นŒ์ง€โ€

1) ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘

  • ๋ฒŒํฌ(bulk) ํ˜• : ์ด๋ฏธ ์ถ•์ ๋œ ๋ฐ์ดํ„ฐ๋ฅผ ์ •๋ฆฌ ๋ฐ ์ถ”์ถœํ•˜๋Š” ๋ฐฉ๋ฒ•. ๋ฐ์ดํ„ฐ๋ฒ ์ด์Šค, ํŒŒ์ผ ์„œ๋ฒ„์—์„œ ์ •๊ธฐ์ ์œผ๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘ํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ.
  • ์ŠคํŠธ๋ฆฌ๋ฐ(streaming) ํ˜• : ์ฐจ๋ก€๋กœ ์ƒ์„ฑ๋˜๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ๋Š์ž„์—†์ด ๊ณ„์†ํ•ด์„œ ๋ณด๋‚ด๋Š” ๋ฐฉ๋ฒ•. ๋ชจ๋ฐ”์ผ ์•ฑ, ์ž„๋ฒ ๋””๋“œ ์žฅ๋น„ ๋“ฑ์—์„œ ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘ํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ.

2) ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ(์ŠคํŠธ๋ฆผ ์ฒ˜๋ฆฌ์™€ ๋ฐฐ์น˜ ์ฒ˜๋ฆฌ)

  • ์ŠคํŠธ๋ฆผ(stream) ์ฒ˜๋ฆฌ : ์ŠคํŠธ๋ฆฌ๋ฐ ํ˜• ๋ฐฉ๋ฒ•์œผ๋กœ ๋ฐ›์€ ๋ฐ์ดํ„ฐ๋ฅผ ์‹ค์‹œ๊ฐ„์œผ๋กœ ์ฒ˜๋ฆฌํ•˜๊ณ  ์‹ถ์„ ๋•Œ(ex. ์‹ค์‹œ๊ฐ„ ๋ฐ์ดํ„ฐ ๋ถ„์„, ๊ณผ๊ฑฐ 30๋ถ„๊ฐ„์˜ ๋ฐ์ดํ„ฐ๋ฅผ ์ง‘๊ณ„ํ•˜์—ฌ ๊ทธ๋ž˜ํ”„๋ฅผ ๊ทธ๋ฆผ ๋“ฑ). ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ๋ฒ ์ด์Šค ๋“ฑ์œผ๋กœ ๊ด€๋ฆฌ
  • ๋ฐฐ์น˜(batch) ์ฒ˜๋ฆฌ : ๋Œ€๋Ÿ‰์˜ ๋ฐ์ดํ„ฐ๋ฅผ ์ €์žฅํ•˜๊ณ  ์ฒ˜๋ฆฌํ•˜๊ณ  ์‹ถ์„ ๋•Œ(ex. ์žฅ๊ธฐ๊ฐ„ ๋ฐ์ดํ„ฐ ๋ถ„์„, ์ง€๋‚œ 1๋…„๊ฐ„์˜ ๋ฐ์ดํ„ฐ๋ฅผ ์ง‘๊ณ„ํ•˜์—ฌ ๋ถ„์„ํ•˜๋Š” ๋“ฑ). ๋ถ„์‚ฐ ์‹œ์Šคํ…œ ๋“ฑ์œผ๋กœ ๊ด€๋ฆฌ

3) ๋ฐ์ดํ„ฐ ์ €์žฅ(๋ถ„์‚ฐ ์Šคํ† ๋ฆฌ์ง€, ๊ฐ์ฒด ์Šคํ† ๋ฆฌ์ง€, NoSQL ๋ฐ์ดํ„ฐ๋ฒ ์ด์Šค)

  • ๋ถ„์‚ฐ ์Šคํ† ๋ฆฌ์ง€(distribute storage) : ์—ฌ๋Ÿฌ ์ปดํ“จํ„ฐ์™€ ๋””์Šคํฌ๋กœ ๊ตฌ์„ฑ๋œ ์Šคํ† ๋ฆฌ์ง€ ์‹œ์Šคํ…œ
  • ๊ฐ์ฒด ์Šคํ† ๋ฆฌ์ง€(object storage) : ํ•œ ๋ฉ์–ด๋ฆฌ๋กœ ๋ชจ์ธ ๋ฐ์ดํ„ฐ ์ด๋ฆ„์„ ๋ถ€์—ฌํ•˜์—ฌ ํŒŒ์ผ๋กœ ์ €์žฅ. Amazon S3 ๋“ฑ
  • NoSQL ๋ฐ์ดํ„ฐ๋ฒ ์ด์Šค : ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜์—์„œ ์‹ค์‹œ๊ฐ„์œผ๋กœ ๋Œ€์šฉ๋Ÿ‰์˜ ๋ฐ์ดํ„ฐ๋ฅผ ์ฝ๊ธฐ/์“ฐ๊ธฐํ•  ๋•Œ ์œ ๋ฆฌ. ๋‹จ, ํ–ฅํ›„ ํ™•์žฅ์„ฑ์„ ๊ณ ๋ คํ•˜์—ฌ ์ œํ’ˆ ์„ ํƒํ•ด์•ผ ํ•จ.

4) ๋ถ„์‚ฐ ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ

  • ๋ถ„์‚ฐ ์Šคํ† ๋ฆฌ์ง€์— ์ €์žฅ๋œ ๋ฐ์ดํ„ฐ๋ฅผ MapReduce ๋“ฑ์˜ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ด์šฉํ•ด ์ฒ˜๋ฆฌํ•˜๋Š” ๊ณผ์ •.
  • ๋ชฉ์  : ๋ถ„์‚ฐ ์Šคํ† ๋ฆฌ์ง€์— ์ €์žฅ๋œ ๋ฐ์ดํ„ฐ๋ฅผ ํ–ฅํ›„์— ์–ธ์ œ๋“ ์ง€ ์‰ฝ๊ฒŒ ๋ถ„์„ํ•˜๊ธฐ ์œ„ํ•ด ๊ฐ€๊ณตํ•˜์—ฌ ์™ธ๋ถ€ ๋ฐ์ดํ„ฐ๋ฒ ์ด์Šค์— ์ €์žฅํ•˜๋Š” ๊ฒƒ
  • MapReduce ์ด์™ธ์˜ SQL ์ฟผ๋ฆฌ๋ฅผ ์ด์šฉํ•ด ์ง‘๊ณ„ํ•˜๋Š” ๋ฐฉ๋ฒ• ๋ฐœ์ „๋จ(์•„๋ž˜ 2๊ฐ€์ง€ ๋ฐฉ๋ฒ•)
  • ์ฟผ๋ฆฌ ์—”์ง„ ๋„์ž… : Hive, ๋Œ€ํ™”ํ˜• ์ฟผ๋ฆฌ ์—”์ง„(interactive query engine) ๋“ฑ
  • ์™ธ๋ถ€์˜ ๋ฐ์ดํ„ฐ ์›จ์–ดํ•˜์šฐ์Šค ์ œํ’ˆ ์ด์šฉ : ๋ถ„์‚ฐ ์Šคํ† ๋ฆฌ์ง€ ๋ฐ์ดํ„ฐ๋ฅผ DW์— ์ ์žฌ(ETL)ํ•˜์—ฌ ์‚ฌ์šฉ

๋ฐ์ดํ„ฐ๋ฒ ์ด์Šค์— ์ ์žฌํ•˜๊ธฐ ์ „ ๋ฏธ๋ฆฌ ๋ฐ์ดํ„ฐ๋ฅผ ๊ฐ€๊ณตํ•˜๋Š” ํ”„๋กœ์„ธ์Šค๋ฅผ ETL(Extract-Transform-Load), ๋ฐ์ดํ„ฐ๋ฒ ์ด์Šค์— ์šฐ์„  ๋ฐ์ดํ„ฐ๋ฅผ ์ฝ์–ด๋“ค์ด๊ณ  ํ•„์š”์—๋”ฐ๋ผ ๊ฐ€๊ณตํ•˜์—ฌ ์‚ฌ์šฉํ•˜๋Š” ํ”„๋กœ์„ธ์Šค๋ฅผ ELT(Extract-Load-Transform)๋ผ๊ณ  ํ•จ

5) ์›Œํฌํ”Œ๋กœ์šฐ ๊ด€๋ฆฌ

  • ๋ฐฐ์น˜ ์Šค์ผ€์ฅด๋ง, ์˜ค๋ฅ˜ ๋ฐœ์ƒ ์‹œ ์ฒ˜๋ฆฌ(๊ด€๋ฆฌ์ž ํ†ต์ง€, ์žฌ ์ฒ˜๋ฆฌ

2. ๋ฐ์ดํ„ฐ ์›จ์–ดํ•˜์šฐ์Šค์™€ ๋ฐ์ดํ„ฐ ๋งˆํŠธ

โ€œ๋ฐ์ดํ„ฐ ํŒŒ์ดํ”„๋ผ์ธ ๊ธฐ๋ณธํ˜•โ€

1) DW(Data Warehouse, ๋ฐ์ดํ„ฐ ์›จ์–ดํ•˜์šฐ์Šค)

  • ๋Œ€๋Ÿ‰์˜ ๋ฐ์ดํ„ฐ๋ฅผ ์žฅ๊ธฐ ๋ณด์กด
  • ์ •๋ฆฌ๋œ ๋ฐ์ดํ„ฐ๋ฅผ ํ•œ ๋ฒˆ์— ์ „์†กํ•˜๋Š” ๊ฒƒ์— ์œ ๋ฆฌํ•จ, ์†Œ๋Ÿ‰์˜ ๋ฐ์ดํ„ฐ๋ฅผ ์ž์ฃผ ์ฝ๊ณ  ์“ฐ๋Š” ๋ฐ์—๋Š” ๋ถˆ๋ฆฌ
  • ์ฃผ๋กœ ์—…๋ฌด ์‹œ์Šคํ…œ์—์„œ ๊บผ๋‚ธ ๋ฐ์ดํ„ฐ๋ฅผ ํ•˜๋ฃจ๊ฐ€ ๋๋‚  ๋•Œ ์ •๋ฆฌํ•˜์—ฌ ์“ฐ๊ณ , ์ด๋ฅผ ํ™œ์šฉํ•ด ์•ผ๊ฐ„ ์‹œ๊ฐ„์— ์ง‘๊ณ„ํ•˜์—ฌ ๋ณด๊ณ ์„œ ์ž‘์„ฑํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ์‚ฌ์šฉ
  • ๋ฐ์ดํ„ฐ ์†Œ์Šค(data source, ์—…๋ฌด ์‹œ์Šคํ…œ์„ ์œ„ํ•œ RDB, ๋กœ๊ทธ ๋ฐ์ดํ„ฐ๋ฅผ ์ €์žฅํ•˜๋Š” ํŒŒ์ผ ์„œ๋ฒ„ ๋“ฑ)์—์„œ ๋กœ์šฐ ๋ฐ์ดํ„ฐ(raw data, ์›์‹œ ๋ฐ์ดํ„ฐ)๋ฅผ ์ถ”์ถœํ•˜๊ณ , ํ•„์š”์— ๋”ฐ๋ผ ๊ฐ€๊ณตํ•˜์—ฌ DW์— ์ €์žฅ(ETL ํ”„๋กœ์„ธ์Šค)

2) DM(Data Mart, ๋ฐ์ดํ„ฐ ๋งˆํŠธ)

  • DW์—์„œ ํ•„์š”ํ•œ ๋ฐ์ดํ„ฐ๋งŒ์„ ์ถ”์ถœํ•˜์—ฌ ๋ฐ์ดํ„ฐ ๋ถ„์„, ์‹œ๊ฐํ™”(BI)์šฉ ํ…Œ์ด๋ธ”์„ ๊ตฌ์ถ•ํ•œ ๊ฒƒ
  • DW๋Š” ์—…๋ฌด์— ์ค‘์š”ํ•œ ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ๊ฐ€ ์—ฐ๊ณ„๋˜์–ด ์žˆ์œผ๋ฏ€๋กœ ๋ถ„์„์„ ์œ„ํ•ด ์ž์ฃผ ์ ‘๊ทผํ•  ๊ฒฝ์šฐ ์‹œ์Šคํ…œ ๊ณผ๋ถ€ํ•˜๋˜์–ด ๋ฌธ์ œ ๋ฐœ์ƒ ๊ฐ€๋Šฅ
  • DM ๊ตฌ์ถ•์„ ์œ„ํ•ด์„œ๋Š” ํ…Œ์ด๋ธ” ์„ค๊ณ„, DW์—์„œ์˜ ETL ํ”„๋กœ์„ธ์Šค ์„ค๊ณ„๊ฐ€ ๋งค์šฐ ์ค‘์š”ํ•จ

3. ๋ฐ์ดํ„ฐ ๋ ˆ์ดํฌ์™€ ๋ฐ์ดํ„ฐ ๋งˆํŠธ

1) DL(Data Lake, ๋ฐ์ดํ„ฐ ๋ ˆ์ดํฌ)

โ€œ๋ฐ์ดํ„ฐ๋ฅผ ๊ทธ๋Œ€๋กœ ์ถ•์ โ€

  • ๋ชจ๋“  ๋ฐ์ดํ„ฐ๋ฅผ ์›๋ž˜์˜ ํ˜•ํƒœ๋กœ ์ถ•์ ํ•ด๋‘๊ณ  ๋‚˜์ค‘์— ํ•„์š”์— ๋”ฐ๋ผ DM ๋“ฑ์œผ๋กœ ๊ฐ€๊ณตํ•˜์—ฌ ์‚ฌ์šฉํ•˜๊ธฐ ์œ„ํ•œ ๊ตฌ์กฐ
  • ๋ถ„์‚ฐ ์Šคํ† ๋ฆฌ์ง€๊ฐ€ ๋ฐ์ดํ„ฐ ๋ ˆ์ดํฌ๋กœ ์ด์šฉ๋จ.
  • DW์˜ ํฌ์ง€์…˜์— DL์ด ์น˜ํ™˜๋˜๋Š” ์•„ํ‚คํ…์ฒ˜๋กœ ๋ฐ์ดํ„ฐ ๊ด€๋ฆฌํ•  ์ˆ˜ ์žˆ์Œ. ๋‹จ, DW ์•„ํ‚คํ…์ฒ˜์—์„œ๋Š” ETL ํ”„๋กœ์„ธ์Šค๋ฅผ ํ†ตํ•ด DW์— ๋งž๊ฒŒ ๋ฐ์ดํ„ฐ๋ฅผ ๊ฐ€๊ณตํ•˜์ง€๋งŒ, DL ์•„ํ‚คํ…์ฒ˜์—์„œ๋Š” ๋ฏธ๊ฐ€๊ณต์˜ ์›์‹œ ๋ฐ์ดํ„ฐ๋ฅผ ๊ทธ๋Œ€๋กœ ์ €์žฅํ•œ๋‹ค๋Š” ์ฐจ์ด๊ฐ€ ์žˆ์Œ.
  • DL์€ ์Šคํ† ๋ฆฌ์ง€ ๊ฐœ๋…์ด๋ฏ€๋กœ MapReduce ๋“ฑ์˜ ๋ถ„์‚ฐ ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ ๊ธฐ์ˆ ์„ ์ด์šฉํ•ด DM์œผ๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ๊ฐ€๊ณตํ•œ ๋’ค, ๋ถ„์„ํ•˜๋Š” ๋ฐ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์Œ

๋ฐ์ดํ„ฐ ํŒŒ์ดํ”„๋ผ์ธ ๊ตฌ์ถ• ์‹œ ๊ณ ๋ฏผํ•ด์•ผํ•  ์ 

  • ์ €์žฅํ•  ์ˆ˜ ์žˆ๋Š” ๋ฐ์ดํ„ฐ ์šฉ๋Ÿ‰์— ์ œํ•œ์ด ์—†์„ ๊ฒƒ
  • ๋ฐ์ดํ„ฐ๋ฅผ ํšจ์œจ์ ์œผ๋กœ ์ถ”์ถœํ•  ์ˆ˜๋‹จ์ด ์žˆ์„ ๊ฒƒ

4. ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘ํ•˜๋Š” ๋ชฉ์ 

โ€œ๊ฒ€์ƒ‰, ๊ฐ€๊ณต, ์‹œ๊ฐํ™”์˜ ์„ธ ๊ฐ€์ง€ ์˜ˆโ€

  • ๋ฐ์ดํ„ฐ ๊ฒ€์ƒ‰ : ํ•„์š” ์‹œ ๋Œ€๋Ÿ‰์˜ ๋ฐ์ดํ„ฐ์—์„œ ์กฐ๊ฑด์— ๋งž๋Š” ๊ฒฐ๊ณผ๋ฅผ ์‹ ์†ํ•˜๊ฒŒ ๊ฒ€์ƒ‰ํ•˜์—ฌ ์–ป๊ธฐ ์œ„ํ•œ ๋ชฉ์ (์ˆ˜๋™) ์‹œ์Šคํ…œ ๋กœ๊ทธ, ๊ณ ๊ฐ์˜ ํ–‰๋™ ์ด๋ ฅ ๋“ฑ์˜ ๋กœ์šฐ ๋ฐ์ดํ„ฐ์—์„œ ์‹ค์‹œ๊ฐ„ ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ, ๊ฒ€์ƒ‰ ์—”์ง„ ๋“ฑ์„ ์‚ฌ์šฉํ•˜์—ฌ ํ‚ค์›Œ๋“œ๋ฅผ ์ฐพ๋Š” ๊ฒƒ์ด ๊ด€๊ฑด ex. ์‹œ์Šคํ…œ ์žฅ์•  ๋ฐœ์ƒ ์‹œ ์›์ธ ํŒŒ์•…, ๊ณ ๊ฐ ๋ฌธ์˜ ์‹œ ๋กœ๊ทธ ํ™•์ธ ๋“ฑ
  • ๋ฐ์ดํ„ฐ์˜ ๊ฐ€๊ณต : ์—…๋ฌด ์‹œ์Šคํ…œ์˜ ์ผ๋ถ€๋กœ์„œ ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ ๊ฒฐ๊ณผ๋ฅผ ์ด์šฉํ•˜๊ณ  ์‹ถ์„ ๋•Œ ๋ฐ์ดํ„ฐ๋ฅผ ๊ฐ€๊ณตํ•˜์—ฌ ์‚ฌ์šฉ(์ž๋™ํ™”) ์›Œํฌํ”Œ๋กœ์šฐ๋ฅผ ํ†ตํ•ด ์ž๋™ํ™”๋œ ์ฒ˜๋ฆฌ ํ•„์š” ex. ์›น ์‚ฌ์ดํŠธ์—์„œ ์ถ”์ฒœ ์ƒํ’ˆ ์ œ์•ˆ, ์„ผ์„œ ๋ฐ์ดํ„ฐ์˜ ๋น„์ •์ƒ์  ์ƒํƒœ ๊ฐ์ง€ ๋ฐ ํ†ต๋ณด ๋“ฑ
  • ๋ฐ์ดํ„ฐ ์‹œ๊ฐํ™” : ๋ฐ์ดํ„ฐ๋ฅผ ์‹œ๊ฐ์ ์œผ๋กœ ํ‘œํ˜„ํ•˜์—ฌ ์˜๋ฏธ๋ฅผ ํŒŒ์•…(์ˆ˜๋™, ์ž๋™ํ™”) ํšจ์œจ์ ์ธ ์‹œ๊ฐํ™”๋ฅผ ์œ„ํ•ด ๋ฐ์ดํ„ฐ ๋งˆํŠธ ๊ตฌ์ถ•ํ•˜์—ฌ ์‚ฌ์šฉ ex. ํ†ต๊ณ„ ๋ถ„์„ SW, BI ๋„๊ตฌ๋กœ ๊ทธ๋ž˜ํ”„๋ฅผ ๋งŒ๋“ค๊ณ  ๋ฏธ๋ž˜ ์ƒํ™ฉ์„ ์˜ˆ์ธกํ•˜๊ฑฐ๋‚˜ ์˜์‚ฌ๊ฒฐ์ •์˜ ๋ฐ”ํƒ•์œผ๋กœ ์‚ฌ์šฉ

๊ธฐ๊ฐ„๊ณ„ ์‹œ์Šคํ…œ๊ณผ ์ •๋ณด๊ณ„ ์‹œ์Šคํ…œ์˜ ๋ถ„๋ฆฌ

  • ๊ธฐ๊ฐ„๊ณ„ ์‹œ์Šคํ…œ(mission-critical system) : ๋น„์ฆˆ๋‹ˆ์Šค ์ฒ˜๋ฆฌ์™€ ๊ด€๋ จ๋œ ์ค‘์š” ์‹œ์Šคํ…œ์œผ๋กœ ํ˜„์—…์— ์ง์ ‘์ ์œผ๋กœ ์‚ฌ์šฉ๋˜๊ณ  ์˜ํ–ฅ์„ ๋ฏธ์น˜๋Š” ์‹œ์Šคํ…œ
  • ์ •๋ณด๊ณ„ ์‹œ์Šคํ…œ(information system) : ์‚ฌ๋‚ด ์ปค๋ฎค๋‹ˆ์ผ€์ด์…˜, ์˜์‚ฌ๊ฒฐ์ • ๋“ฑ์„ ์œ„ํ•ด ์ด์šฉ๋˜๋Š” ์‹œ์Šคํ…œ
  • ๋ฐ์ดํ„ฐ๋Š” ๊ธฐ๊ฐ„๊ณ„ ์‹œ์Šคํ…œ๊ณผ ์ •๋ณด๊ณ„ ์‹œ์Šคํ…œ์„ ์—ฐ๊ฒฐํ•˜๋Š” ๊ฒƒ. ๋ถ„์„์„ ์œ„ํ•œ ๋ฐ์ดํ„ฐ๋Š” ๊ธฐ๊ฐ„๊ณ„์—์„œ ์ •๋ณด๊ณ„๋กœ ๋ณต์‚ฌํ•˜์—ฌ ์‚ฌ์šฉํ•จ์œผ๋กœ์จ ๊ธฐ๊ฐ„๊ณ„ ์‹œ์Šคํ…œ์— ๋ถ€ํ•˜๋ฅผ ์ค„์ด๊ณ  ๋ถ„์„ ์„ฑ๋Šฅ, ํšจ์œจ์„ฑ์„ ๋†’์ž„
  • ํ•œ ๋ฒˆ ๋ณต์‚ฌํ•œ ๋ฐ์ดํ„ฐ๋Š” ์ง€์šฐ์ง€ ์•Š๋„๋ก ์ฃผ์˜ํ•˜๋ฉฐ, ๋ถ„์„์— ํ•„์š”ํ•œ ๋ฐ์ดํ„ฐ๋งŒ์„ ๊ฐ€๊ณต(DM ๋“ฑ)ํ•˜์—ฌ ์‚ฌ์šฉํ•œ๋‹ค.