분석 방법

최종 업데이트: 2026-03-28

분석 체계 개요

본 연구는 13개 분석 트랙(T0~T8)을 통해 K-하이테크 플랫폼 데이터를 다각적으로 분석한다. 각 트랙은 독립적인 R 프로젝트로 구성되어 있으며, QMD 보고서를 통해 재현 가능한 형태로 결과를 산출한다.

T0: 탐색적 분석

분석 도구 목적
기술통계 R psych::describe() 핵심 변수 분포 파악, DV 후보 선정
상관분석 R cor.test() IV-DV 관계 탐색
요인분석 (EFA) R psych::fa() DT인식 3항목 → 단일요인, 스마트시스템 7영역 → 단일요인
집단비교 R t.test(), aov() DT추진부서/SF도입/교육경험별 교육효과 차이

핵심 판정 기준:

  • KMO > .60, Bartlett p < .001
  • 요인부하 > .70, Cronbach alpha > .80
  • 효과크기: Cohen’s d, eta-squared

T1: 회귀/요인 분석

분석 도구 목적
CFA (현업적용도 4구인) R lavaan CFI>.90, RMSEA<.08
위계적 회귀 R lm 통제→DT인식→스마트시스템→인프라 순차 투입
매개분석 PROCESS M4 / lavaan 조직환경 매개효과 (부트스트랩 5000회)
조절분석 PROCESS M1 기업규모, DT추진부서 조절효과
과정유형 비교 R aov, Tukey HSD 6개 과정유형별 교육효과 차이

T2: 잠재 프로파일 분석 (LPA)

단계 분석 도구 기준
1 LPA 1~5 class 비교 R tidyLPA / mclust BIC, AIC, BLRT, aLMR
2 최적 프로파일 결정 Entropy>.80, 최소 클래스>5%
3 프로파일 명명/특성 기술 지표 평균 라인 그래프
4 BCH-proxy ANOVA 분류오차 보정 교육효과 비교
5 mclust 교차검증 R mclust tidyLPA 결과 검증

지표변수 (6개): DT인식_산업분야이해, DT인식_대응방안, 직무전환_필요성, 스마트팩토리_현재수준, 교육훈련수준, 디지털업무자동화수준

최적 솔루션: 3-class (Entropy = 0.846)

T3: 질적비교분석 (QCA)

단계 분석 도구 기준
1 Calibration (fuzzy 4 + crisp 2) R QCA 직접 캘리브레이션
2 필요조건 분석 consistency > 0.9
3 진리표 구성 → 충분조건 raw consistency > 0.80
4 중간 해(Intermediate solution) PRI > 0.75, coverage > 0.25
5 부정 분석 (~outcome) 비대칭 인과 확인

Outcome: Q3_전후차이 (M=1.45, SD=1.21)

Conditions: DT인식_합산, 스마트시스템_합산, 교육훈련수준, DT부서_보유(crisp), DT교육_있음(crisp)

결과: 8개 충분 경로 도출 (등결과성 확인)

T4: 종단 분석 (복수참여 기업)

단계 분석 대상 도구
1 대응표본 t-검정 / Wilcoxon 48개 기업 R t.test(paired=TRUE)
2 효과크기 산출 Cohen’s d
3 변화량 예측 회귀 (Baseline Regression) 48개 R lm
4 변화 궤적 시각화 (Spaghetti Plot) R ggplot2
5 변화 패턴 유형화 14개 (3회+) 질적 기술

핵심: 교육훈련수준 평균 +0.77 향상 (d=0.60)

T5: 텍스트 분석 (STM)

단계 분석 도구 기준
1 한국어 형태소 분석 mecab-ko 명사 추출
2 DTM 생성, 불용어 제거 R tidytext 도메인 불용어 사전
3 STM K=5~15 탐색 R stm semantic coherence + exclusivity
4 최적 K=7 선택, 주제 명명 해석 가능성
5 Prevalence 공변량 R stm 11개 공변량 투입
6 LPA 프로파일별 토픽 차별화 T2 연계
7 복수참여 기업 텍스트 변화 T4 연계
8 다중 텍스트 컬럼별 독립 분석 DT애로사항, TO_BE, 성과상세, AS_IS
9 Content covariate 효과 토픽 내용에 대한 공변량
10 Sensitivity analysis 토픽 수(k) 변동

공변량 (11개): 연도, 기업규모, DT대응수준, 교육훈련수준, SF도입, DT추진부서, DT교육경험, 업종, 스마트시스템 수준, DT인식 합산, 교육훈련 필요성

T6: 네트워크 분석

단계 분석 도구
1 공동출현 행렬 R igraph
2 네트워크 시각화 + 중심성 R ggraph, igraph
3 커뮤니티 탐지 Louvain Algorithm
4 MCA (다중대응분석) R FactoMineR::MCA()
5 기업규모별 기술수요 패턴 R ggplot2
6 연관분석 (Association Rules) R arules

분석 대상: 18개 노드 (DT기술 + DT기대효과 + DT필요교육), 이분형 복수응답

T7: IPA 갭분석

단계 분석 도구
1 IPA 4사분면 매트릭스 R ggplot2 scatter
2 스마트시스템 7영역 레이더차트 R fmsb
3 연도별 오버레이 R ggplot2
4 하위집단 IPA 비교 R ggplot2 facet
5 Paired t-test (필요성 vs 수준) R t.test(paired=TRUE)

핵심 갭: 교육필요성(M=4.36) vs 교육수준(M=2.52) = 1.84점 갭

T8: 인과추론 분석

T8-1: 패널 회귀분석

모형 방법 도구
Pooled OLS 클러스터 강건 표준오차 R lm, sandwich
Random Effects GLS R plm
Fixed Effects Within 추정 R plm
모형 선택 Hausman 검정 R plm::phtest()

DV: 현업적용도_조직환경, Q3_차이

T8-2: 성향점수매칭 (PSM)

3가지 처치 변수에 대해 독립적 PSM 분석을 수행한다.

PSM 유형 처치 변수 대조군 처치군 매칭 방법
T8-2-1 DT교육경험 유무 없음 있음 Nearest neighbor, caliper=0.2
T8-2-2 스마트팩토리 도입 미도입 도입 Nearest neighbor, caliper=0.2
T8-2-3 복수참여 여부 1회 2회+ Nearest neighbor, caliper=0.2

공통 도구: R MatchIt, cobalt (균형 진단)

분석 환경

항목 사양
R 버전 4.4+
주요 패키지 tidyverse, lavaan, tidyLPA, mclust, QCA, stm, igraph, FactoMineR, plm, MatchIt
보고서 형식 Quarto (.qmd) → HTML/PDF/DOCX/MD (4포맷)
R 프로젝트 13개 독립 프로젝트
총 코드 라인 4,362 lines