데이터 분석 기초 이론 230511~230517
1. 비즈니스 애널리틱스
2. 데이터
3. 측정 척도
4. 데이터 분석 도구
5. 기초 통계 분석
6. 시각화
1. 비즈니스 애널리틱스
비즈니스 애널리틱스 : 데이터에서 가치 추출, 광범위한 영역, 정성적인 추론과 정량적인 도구의 결합
- 데이터 사이언스 : 최종 사용자를 위한 애플리케이션을 개발하는 고급 컴퓨터 알고리즘에 초점
- 비즈니스 애널리틱스 : 가용한 데이터의 분석에 더 초점을 맞추는 경향
데이터에서 가치를 추출하는 분석기법의 3유형
1. 기술분석 Descriptive
데이터를 수집, 조직화, 표로 구성하고 시각화하여 '어떤 일이 일어났는지?'를 요약
주로 비즈니스 인텔리전스(BI)라고 불림
예. 재무보고, 공중보건통계, 대학등록, 학생 성적표, 지역별 시기별 범죄율 등
2. 예측분석 Predictive
과거의 데이터를 사용하여 '미래에 어떤 일이 일어날 수 있을까?'를 예측
통계학과 데이터마이닝 기법을 사용하여 해결
예. 특정 마케팅 캠페인에 반응할 가능성이 가장 높은 고객, 등록할 가능성이 높은 합격 학생, 사기일 것 같은 신용카드 거래 또는 특정 지역과 시기에서의 범죄 발생 식별 등
3. 처방분석 Prescriptive
최적화 및 시뮬레이션 알고리즘으로 '우리가 무엇을 해야 하는가?'에 대한 조언
통계학과 데이터마이닝 기법을 사용하여 해결
예. 고객의 수요에 부응하는 직원의 근무기간 배치 및 공급량에 대한 조언 제공, 제조할 생산품의 혼합비율 선택, 재무목표를 달성하기 위한 투자 포트폴리오 구성, 그리고 제한된 예산에서 특정 고객그룹에 대한 마케팅 캠페인 타켓팅 등
중요한 비즈니스 애널리틱스 응용
패션 소매 업체 : 갭 (The Gap, Inc.) - 직원들에게 충성도 높은 고객 식별, 고객과 제품 매칭, 고객의 만족도 향상, 제품 재구매 관리 등
온라인 구독 : 넷플릭스 (Netflix) - 영화와 티비 프로그램에 대한 추천시스템인 시네매치 활용, 빅데이터 분석 기반 유사한 추천시스템
게임산업 : 하라스 엔터테인먼트 (Harrah's Entertainment) - 어느 카지노에 방문했는지, 어떤 게임을 오랜 시간 했는지, 어디서 식사를 했는 지 등 방대한 고객데이터의 웨어하우스를 구축. 충성 고객으로 전환
스포츠 : 오클랜드 에스레틱스 (Okland Athletics) - 과거 스카우트 선수들의 체형, 속도, 예상되는 신뢰도 등 주관적인 척도가 아닌 통계분석을 적용시킨 평가법으로 저평가된 선수들의 숨겨진 가치를 평가
보건의료 : 구글 (Google) 인공지능 시스템 - 20만 명 이상의 성인 환자들에 대한 460억 개의 데이터 분석하여 병원 방문 결과 및 최종 진단명을 예측하는 모델 개발, 환자의 사망 예측할 수 있어 인명구조 절차를 시행 / 미국국립암센터(NCI) 암 정복(Cancer Moonshot) 프로그램 - 생체검사 보고서, 치료계획 및 환자 회복률을 분석하여 특정 암 담백질이 서로 다른 치료법과 상호작용하는 방식에 대한 추세를 연구하고 개별 환자에게 가장 유망한 치료계획 추천
데이터 유출 및 오용
2018년 메리어트 (Marriott International) - 최대 5억 명의 게스트에게 영향을 미치는 대규모 데이터 유출
캠브리지 애널리티카 (Cambridge Analytica) - 2016년 도날드 트럼프 대통령의 선거 캠페인에서 고용된 정치데이터 회사, 페이스북에서 개인정보를 수집하여 유권자 개인특성 모델을 만들었고, 디지털 광고를 만드는 데 사용함
2. 데이터
데이터 Data < 정보 Information < 지식 Knowledge < 지혜 Wisdom
데이터 : 수치적 및 비수치적 사실, 숫자 또는 다른 콘텐츠의 집합체. 모든 유형과 형식의 데이터는 다중 출처로부터 생성
정보 : 의미 있고 목적 있는 방식으로 구성, 분석 및 처리된 데이터
지식 : 특정 상황에서 적용하고 실행에 옮길 수 있는 정보, 데이터, 상황적 정보, 경험 및 직관을 조합
지혜 : 지식 기반 이해로 예측하는 것
모집단 <-> 표본
횡단면 <-> 시계열 데이터
정형 <-> 비정형 데이터
정형 데이터 : 헹*열 구조데이터 / 가격, 수입, 소매 판매량, 연령, 성별 / 기계센서(분당 회전 수), 속도카메라(시간당 마일), 웹서버 로그(방문자 수) 등
비정형 데이터 : 내부 이메일 텍스트, 소셜 미디어 데이터, 프레젠테이션, 휴대전화 대화, 문자메시지 데이터 / 위성 이미지, 기상 데이터, 감시 비디오 데이터, 교통 카메라 이미지
빅데이터의 특성 3V : 규모 Volumne, 속도 Velocity, 다양성 Variety + 진실성 Veracity, 가치 Values
데이터 랭글링 data wangling
후속 데이터 분석을 지원하기 위해 데이터를 검색, 정제, 통합, 변환 및 보강하는 프로세스
원자료를 보다 더 적절하고 분석하기 쉬운 형식으로 변환하는 데 중점
목적 : 데이터 품질을 개선하고, 분석을 수행하는 데 필요한 시간과 노력을 줄이며, 데이터의 진정한 정보를 드러내는 데 도움
데이터 모델링 : 데이터베이스의 구조를 정의하는 프로세스
개체관계도 ERD : 데이터의 구조를 모델링하는 데 사용되는 그래프 표현 (개체 - 인스턴스 - 관계)
데이터베이스 DB -> 데이트웨어하우스 DW -> 데이터마트DM
동네 슈퍼 -> 이마트 트레이더스 -> 동네 마트
각 부서 DV -> 창고, 전사적 내용 -> 특별 정리
관계형 데이터베이스 RDB
조직에서 사용되는 DB의 가장 일반적인 유형, Oracle이 대표적
하나 이상의 논리적으로 연결된 데이터 파일(흔히 테이블 또는 릴레이션)으로 구성 - 행/열
데이터 웨어하우스 : 조직 내 여러 부서로부터 데이터의 중앙 저장소
조직 전체에 걸쳐 데이터 통합, 경영 의사결정을 지원, 비즈니스 의사결정에 관련된 판매,고객,제품과 같은 주제를 중심으로 구성, 조직 전체에 대한 역사적이고 포괄적인 관점을 제공
데이터 마트 : 소규모 데이터 웨어하우스 (DW의 부분집합)
특정 주제 또는 의사결정 영역에 초점, 스타 스키마라고 불리는 다차원 데이터 모델(특수 관계형 데이터베이스 모델)
차원 테이블 : 고객, 제품, 위치 및 시간과 같은 관심 있는 비즈니스 차원을 설명
사실 테이블 : 비즈니스 운영에 대한 사실 흔히 정량적 형식
차원 테이블 : 사실 테이블 = 1 : M 관계
데이터 마트에서 여러 개의 사실 테이블이 차원 테이블 그룹과 관계를 공유
스타 스키마의 주요 장점 : 다양한 차원을 기반으로 데이터를 분할하는 기능
데이터베이스, 데이터 웨어하우스 또는 데이터 마트에서 원자료를 추출하면 일반적으로 데이터셋을 검토하고 점검하여 이후 분석을 위한 데이터 품질과 관련 정보를 평가
결측치 missing values, null, NaN, NA, 비어있는 값
결측치 처리 방법 : 제거 OR 대체
수치형 변수의 경우, 결측치를 관련 관측치의 평균or중앙값으로 대체하는 단순평균 대체를 사용
범주형 변수의 경우, 가장 빈도가 높은 범주(최빈값, 빈도, 비율)가 대체된 값을 자주 사용
이상치 outlier
매우 크거나 매우 작은 값, 이상치는 결측치로 처리
부분집합화 subsetting : 분석과 관련된 데이터셋의 일부를 추출하는 프로세스, 데이터에서 통찰력을 드러내는 도움되는 기술적 분석의 일부로 수행
구간화 binning : 숫자 값을 소수의 그룹 또는 구간으로 그룹화하여 수치형 변수를 범주형 변수로 전환하는 프로세스
예. 10,20,30대 그룹화 , 소득 실제값 -> 상, 중, 하로 구간화
3. 측정 척도 ★★★
범주형 변수를 수치형 변수로 변환하는 방법
1. 더미변수(지시/이항변수) : 기준이 되는 비교 집단 0 / 관심 있는 집단 1
그룹개수 k개, 더비변수 개수 k-1개(기준변수는 굳이 필요 없기 때문에)
종종 범주형 변수는 3개 이상의 범주로 정의.
척도 변환 : 표준화 정규화 사용
2. 범주점수 생성 : 서열척도를 숫자로 만든다. 매우 불만족 ~ 만족을 1~5로 변환
측정 척도
- 양적변수 = 연속(수치)형변수 = 등간척도 = 비율척도
- 질적변수 = 범주형변수 = 명목척도 = 서열척도
명목척도 Nominal scale : 범주형 변수
각 숫자마다 구분할 수 있는 범주의 고유한 의미(특별한 의미,정체성)가 있어 분류 가능
가장 낮은 정교한 수준의 측정, 값은 이름이나 레이블만 다름, 그룹화하는 특정 범주의 특성이나 속성을 숫자로 대체
예. 남/여, 주식거래소 - 미국증권거래협회/뉴욕증권거래소
서열척도 Ordinal scale : 범주형 변수
분류 뿐만 아니라 내재된 순서에 따라 크고 작음(크기)까지 부여
더 강한 측정 수준, 특성 또는 속성에 따라 데이터를 분류하고 순위를 정할 수 있음, 순위 값 간의 차이를 해석할 수 없음
예. 호텔 리뷰 - 별 5개~1개 분류
등간척도 Interval scale : 수치형 변수
숫자 사이의 차이 크기(간격)가 일정하여 크기/간격의 구체적 정도 파악 가능(원점수)
데이터를 분류하고 순위를 매길 수 있음, 관측치 간의 차이가 의미가 있음, 0의 값이 임의로 선택됨, 데이터의 완전한 부재를 의미하지 않음, 의미 있는 비율 계산할 수 없음
예. 온도 - 화씨 60도는 50도보다 더 덥고 동일한 10도 차이가 화씨 90도에서 80도 사이에도 존재
비율척도 Ratio scale : 수치형 변수
절대 0이라는 기준점(절대영점)이 존재하여 절대적 크기 측정 가능
가장 강력한 측정 수준, 등간척도의 모든 특성과 실제 0점 존재, 관측치 간의 비율 해석 가능
예. 매출, 수익, 재고수준, 무게, 시간, 거리
4. 데이터 분석 도구
엑셀 Excel
전통적인 금융권의 분석 도구, 비전공자들에게도 익숙한 도구
데이터관리 & 추가 기능인 데이터 분석 도구의 간단한 설치만으로도 상당한 수준의 다양한 통계 분석과 데이터 분석기 가능함
파이썬 Python
1991년 귀도 반 로섬이 개발
초보자가 쉽게 배울 수 있는 프로그래밍 언어
1970년대부터 방영되었던 "Month Python's Flying Circus"라는 코미디 시리즈, 그리스 신화에 등장하는 커다란 뱀의 이름(피톤), 파란색 뱀은 Python의 P를, 노란색 뱀은 Y의 못브을 형상화
C언어에 비해 일반적으로 10~350배 느림
아나콘다 Anaconda
2012년 출시, 가장 널리 사용되고 있는 배포판 Python + IDE
패키지와 관리 사용 단순하게 할 수 있음
구글 코랩 Colab
Colaboratory 의 약자로 구글에서 제공하는 무료 온라인 텍스트 에디터
구글 클라우드 기반의 주피터(브라우저 기반의 대화형 셸) 노트북 개발 환경
5. 기초 통계 분석
통계 : 정보 또는 데이터를 규정하고 구성하며 해석하는 데 사용되는 여러 도구와 기법
- 기술통계 : 수집된 자료의 특성을 정리 및 요약하여 설명 / 평균, 최빈값
- 추론통계 : 표본의 통계량을 기초로 모집단 전체의 특성을 추론하고 일반화 / 모집단(모수)과 표본(통계량)
변수 variable
- 독립변수 = 설명변수 = 원인변수 = x변수
- 종속변수 = 반응변수 = 결과변수 = y변수
- 양적변수 = 연속(수치)형변수 = 등간척도 = 비율척도
- 질적변수 = 범주형변수 = 명목척도 = 서열척도
척도는 계산, 해석 및 서로 비교하기 쉬운 정확하고 객관적으로 결정된 값 제공
요약척도 : 데이터에서 의미 있는 정보를 추출하기 위해 수치적 기술 척도를 사용
1. 중심위치 (중심경향 측도) central location
데이터의 전형적인 또는 중심적인 값
1.1 (산술)평균 mean
평균은 광범위하게 사용된다. 이상치라는 극히 작거나 큰 관측치가 있는 경우 분포의 중심에 대한 잘못된 설명을 제공한다.
1.2 중앙값 median
보통 중앙값 사용.
평균과 중앙값이 유의하게 다르면 변수에 이상치가 포함되어 있을 가능성이 높음
사분위수 quantile : 위치측도로 자료의 위치를 25%씩 4개로 구분
백분위수 percentile : 자료의 위치를 1%씩 100개로 구분
1번째 사분위수 = 25번째 백분위수
2번째 사분위수 = 50번째 백분위수 = 중앙값
3번째 사분위수 = 75번째 백분위수
1.3. 최빈값 mode
가장 자주 발생하는 관측치
하나의 최빈값 = 단봉 unimodal / 두 개의 최빈값 = 이봉 bimodal / 두 개 이상의 최빈값 : 다봉 multimodal
세 개보다 많은 최빈값을 갖는 변수의 경우, 최빈값의 유용성은 감소하는 경향 있다.
중심위치 척도는 변수의 기본 산포를 설명하지 못한다.
2. 산포 dispersion
변동성을 측정. 퍼저있는 정도
0은 모든 관측치가 동일함을 나타냄, 관측치가 다양해질 수록 증가
2.1. 범위 range
산포의 가장 간단한 척도. 변수의 최대와 최소 관측치 간의 차이
사분위범위 IQR : 3사분위와 1사분위의 차이 Q3-Q1
평균절대편차 MAD : 관측치와 평균 간의 차이 절대값의 평균
2.2. 분산 variance & 표준편차 standard deviation
분산 = 평균과 차이 제곱의 평균
2.3. 샤프지수 sharp ratio
"변동성 대비 보상" 비율
샤프지수가 높을수록 투자는 투자자에게 위험에 대해 더 잘 보상함
3. 형태 shape
왜도 좌우 / 첨도 위아래 + -
3.1 왜도계수 skewness coefficient
분포가 평균에 대해 대칭이 아닌 정도를 측정
왜도 0 = 좌우 대칭 : 평균 = 중앙값
왜도 양 = 오른쪽으로 긴 꼬리 : 최빈값 < 중앙값 < 평균
왜도 음 = 왼쪽으로 긴 꼬리 : 평균 < 중앙값 < 최빈값
3.2. 첨도계수 kurtosis coefficient
분포의 꼬리가 정규분포보다 더 또는 덜 극단적인지를 알려주는 요약척도
정규분포의 첨도계수는 3
첨도 양 = 뾰족
첨도 음 = 뚱뚱. 완만
4. 연관성 association
4.1 산점도
4.2 연관성 척도
공분산 covariance : 두 변수 간의 선형관계의 방향을 설명
상관계수 correlation coefficient -1 <= r <= 1 : 두 변수 간의 선형관계의 방향과 강도를 모두 설명
6. 시각화
범주형 변수
빈도분포 - 막대그래프 (수평/수직) = 독립적 그룹, 범주형, 막대 떨어져있음
막대높이 = 각 범주에 대한 빈도/상대빈도
수치형 변수
그룹이 없기 때문에 "구간" 만들어야 함
각 관측치는 구간이 겹치지 않음 = 상호배타적
빈도분포의 총 구간 수는 일반적으로 5~20개
빈도분포 - 히스토그램 = 연속형 구간, 수치형, 막대 붙어있음
2차원. 두 변수 간의 관계
분할표 - 누적 세로 막대형 그래프
산점도
버블차트 - 버블의 크기까지 세 수치형 변수 간의 관계를 보여줌
선 그래프
히트맵 - 색상/색 강도 이용
기본적으로 따뜻한 색상(주황/빨간색)을 사용하여 작은 값을 표시, 차가운 색상(노란/흰색)을 사용하여 큰 값을 표시
'Daily > 디지털하나로' 카테고리의 다른 글
시각화 도구 seaborn (0) | 2023.06.15 |
---|---|
데이터 분석 관련 필수 라이브러리 : pandas, matplotlib (0) | 2023.06.15 |
SQL 이론&실습 (2) (0) | 2023.06.13 |
SQL 이론&실습 (1) | 2023.06.13 |
파이썬 기초 실습 (1) | 2023.06.07 |
댓글