티스토리 뷰

IT/ADsP

[ADSP] 02 day. 빅데이터의 이해

useful-jang 2019. 8. 29. 12:09

1절. 빅데이터의 이해

1. 빅데이터의 이해

1_1. 빅데이터의 정의

  • 맥킨지의 정의 : 데이터의 규모에 중점. 빅데이터란 일반적인 데이터 관리 툴로 다룰 수 없을 정도로 거대한 규모의 데이터를 의미.
  • IDC International Data Corporation : 분석 비용에 초점. 다양한 종류의 데이터로부터 저렴한 비용으로 가치를 추출하고 데이터의 초고속 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍처.
  • 메이어-쇤베르거 & 쿠키어 : 통찰에 중점. 작은 크기의 데이터에서는 얻을 수 없었던 통찰이나 가치를 추출해 내는 일. 나아가 많은 분야에 변화를 가져오는 일
  • 가트너 그룹 더그 래니의 3V Gartner Group Doug Laney : 빅데이터의 특징 양 Volume(데이터의 규모), 다양성 Variety(데이터의 유형과 소스 측면), 속도 Velocity(데이터의 수집과 처리 측면)

정리

  • 데이터 변화 : 규모, 형태, 속도
  • 기술 변화 : 새로운 데이터 처리, 저장, 분석, 기술 및 아키텍처
  • 인재, 조직 변화 : 데이터 사이언스 인재, 데이터 중심 조직

2. 출현 배경

빅데이터는 이전에 없던 것이 갑자기 생긴 것이 아니다. 기존의 데이터, 처리 방식, 조직 차원에서 일어나는 변화를 의미하는 것이다.

2_1. 출현 배경

고객 데이터의 축척, 거대 데이터의 활용과 확산, 관련 기술의 발전. 예: 디지털화, 저장 기술 발전, 인터넷 보급, 모바일 혁명, 클라우딩 컴퓨터, 플랫폼의 발전

2_2. 빅데이터 출현에 따른 변화

[User Log 사용자 로그 정보] : 사용자가 인터넷에 접속한 시간과 로그 정보, 검색 기록 등을 의미.

빅데이터 시대에 들어서 중요도와 활용도가 높아짐. 사용자 로그 정보에 대한 프로파일링이 이루어지면서 아이덴티티가 뚜렷해지고 사용자와 광고를 매칭 하는 정확도도 향상.

정리

  • 기술의 발전으로 빅데이터의 중요성이 증가.
  • 사용자 로그 정보에 대한 프로파일링으로 인해 광고 매칭의 정확도 향상.

3. 빅데이터 기능

빅데이터를 과거 산업혁명에 비해서 표현하는 단어가 있다.

3_1. 빅데이터에 기대를 잘 표현한 비유

  • 차세대 산업혁명에서 석탄과 철의 역할을 할 것으로 기대된다 : 생산성 향상, 모든 분야에 혁명적 변화
  • 21세기의 원유 : 경제성장에 정보를 제공, 산업 전반의 생산성을 향상. 기존에 없던 범주의 산업.
  • 생물학의 렌즈 : 구글의 Ngram Viewer. 방대한 서적 데이터셋
  • 플랫폼 역할 : 페이스북 서드파티 개발자들의 페이스북 위에서 작동하는 앱을 제작.

4. 빅데이터가 만들어내는 본질적인 변화

  1. 사전처리에서 사후처리의 시대 : 과거 분석에 필요한 정보들만 수집하던 방식에서 이제는 가능한 많은 데이터를 모으고 분석.

  2. 표본조사에서 전수조사로 : 데이터 수집 비용의 감소와 클라우딩 컴퓨팅 기술의 발전으로 처리 비용이 낮아짐.일부 데이터보다는 전수조사를 분석하여 보다 다양한 패턴이나 정보를 알 수 있음.

  3. 질에서 양으로 : 데이터가 많을수록 양질의 정보가 오류 정보다 많아져 전체적으로 좋은 결과를 낼 수 있음.

  4. 인과관계에서 상관관계로 : 특정 현상의 발생 가능성이 포착할 확률이 늘어남에 따라 인과관계에 의한 미래예측을 압도.


 


2절. 빅데이터의 가치와 영향

1. 빅데이터의 가치

빅데이터의 가치를 정확히 측정하는 것은 어렵다.

  • 누가 언제 어디서 활용하는지 알기 어려움.
  • 이전에는 없던 새로운 가치
  • 미래 기술 개발에 도움이 될 수 있는 가치 없는 정보들

2. 빅데이터의 영향

기업 : 혁신, 경쟁력 재고, 생산성 향상 : 소비자의 행동 분석하여 시장 변동을 예측. 정부 : 환경 탐색, 상황 분석, 미래 대응 : 기상 및 인구이동 등 각종 통계 데이터를 수집, 사회 변화를 추정. 개인 : 목적에 따라 활용. 맞춤형 서비스를 저렴하게 이용, 적시에 양질의 정보를 얻어 기회비용을 절감.


 


3절. 비즈니스 모델

 

1. 빅데이터 활용 사례

  • 구글 : 사용자 로그 데이터 -> 기존의 페이지랭크 알고리즘 혁신
  • 월마트 : 구매 패턴 -> 상품 진열에 활용
  • 정부 : 실시간 교통 정보, 시루, 지질 정보 모니터링 -> 국가 안전 확보
  • 정부 : 빅데이터 활용 -> 의료와 교육 개선
  • 정치 : 사회관계망 분석 -> 유세지역 선정, 유권자 영향 분석
  • 가수 : 음악 청취 기록 분석 -> 공연 계획

 

2. 빅데이터 활용 기본 테크닉

연관 규칙, 유형분석, 유전자 알고리즘, 기계학습, 회귀분석, 감정분석, 소셜 네트워크 분석.

  1. 연관 규칙 학습 : 어떤 변인들의 상관관계를 분석. 커피를 구매한 사람이 탄산음료를 더 많이 사는가?

  2. 유형분석 : 문서 분류, 조직을 그룹화할 때 특성에 따라 분류. 이 사용자는 어떤 특성을 가진 집단에 속하는가?

  3. 유전자 알고리즘 : 적응 돌연변이처럼 점진적으로 진화시켜 나가는 방법. 최대의 시청률을 위해 어떤 프로그램을 언제 반영할까?

  4. 기계학습 : 훈련 데이터로부터 학습한 내용을 통해 예측. 기존 시청률 데이터를 통해 가장 인기가 좋을 영화를 예상

  5. 회귀분석 : 독립변수와 종속변수가 어떻게 변하는지 파악. 구매자의 나이가 추매 차량 타입에 어떤 영향을 주는지 예상

  6. 감정분석 : 특정 주제에 대한 글쓴이의 감정을 분석. 새로운 정책에 대한 고객의 평가.

  7. 소셜 네트워크 분석 : 특정인과 다른 사람이 몇 촌 정도의 관계인지 파악.

 



4절. 위기요인과 통제방안

1. 위기요인

  • 빅데이터가 생활 전반에 본격적으로 사용되기 시작하면서 여러 문제점들이 발생하고 있다.
  • 구글의 높은 분석 신뢰도 -> 개인정보 [Anoymization 역명화] 기술 필요 : 2010년 사용자가 1시간 뒤에 무엇을 할지 87% 정확도로 예측할 수 있는 프로그램을 개발. 집주인이 여행을 간 것을 트위터로 확인한 강도가 집을 노리는 사건이 발생.
  • 사생활 침해(마이너리티 리포트) -> 책임원칙 훼손 : 범죄 예측 프로그램에 의해 범죄를 저지르기 전에 부당하게 미리 채포 될 가능성이 있음. 민주국가의 형서 처벌은 명확히 이루어진 행위에 대하여 책임을 묻고 있다.
  • 데이터 오용 : 베트남 전쟁 때 맥나마라 장군은 전쟁의 진척상황을 적군의 사망자 수를 지표로 삼아 적군의 사망자 수를 과장하여고 이는 치명적인 오보로 나타남.

 

2. 통제방안

이런 문제점들을 해결하기 위해 몇 가지 대응책들이 있다.

  • 미국연방거래위원회의 소비자 프라이버시 보호 3대 권고사항 : 소비자의 프라이버시 보호 방안을 적용, 공유 정보 선택 옵션을 제공, 수집 정보 내용 공개 및 접근권 부여.
  • 개인정보 제공자의 동의 -> 개인정보 사용자의 책임 : 동의제를 책임제로 바꾸어 좀 더 적극적으로 행동 유도.
  • 알고리즘에 대한 접근권을 제공하여 알고리즘의 부당함을 반증.

 



5절. 미래의 빅데이터

1. 미래의 빅데이터

미래에는 어떤 점들을 기대하는지 전망을 분석한 자료가 있다.

  • 데이터 사이언티스트 : 다각적 분석을 통해 통찰을 도출하고 조직의 전략 방향 제시에 활용하는 전문가 역할.
  • 알고리즈미스트 : 데이터 사이언티스트의 분석 결과로 인해 부당한 피해가 발생하는 것을 방지. 알고리즘을 해석하여 피해를 입는 사람들을 구제.

'IT > ADsP' 카테고리의 다른 글

[ADSP] 01 day. 데이터의 이해  (0) 2019.08.29
댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/05   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함