연구 Q&A

2026-03-24

Q: 토픽 모델링에서 전문 vs. 코드+인용문의 장단점은?

전문(Full Transcripts) → STM

장점: - 표준적 접근, 기존 STM 문헌과 직접 비교 가능 - 연구자 선택 편향 없음 — 기계가 전체 텍스트에서 패턴 발견 - 코퍼스가 클수록 LDA/STM 결과 안정적 - 전처리만 동일하면 재현 가능

단점: - 노이즈 다량 포함: 면담자 질문, 추임새, 주제 이탈 발화 - 인터뷰 구조 편향: 토픽이 질문 카테고리를 반영할 수 있음 - 한국어 형태소 처리 부담 (자모분리 문제 실제 존재) - 1,018개 GT 코딩 자산 미활용

코드+인용문 → STM

장점: - 고밀도 신호: 연구자가 선별한 5,707개 인용문, 노이즈 제거 - STM 공변량 완전 활용 (섹터, 연도, 직위, 혼인 상태) - 방법론적 독창성: Computational Grounded Theory (Nelson, 2020) 실제 구현 - 삼각검증: 동일 데이터에서 GT 코드 vs. STM 토픽 비교 - 한국어 처리 유리: 의미 있는 문장 단위, 전처리 부담 감소

단점: - 선택 편향: 코딩되지 않은 발화는 분석에서 제외 - 짧은 텍스트 세그먼트: LDA가 매우 짧은 텍스트에서 불안정할 수 있음 (5,707개 물량으로 보완) - 잠재적 순환논리: 연구자 선별 텍스트 → 기계가 연구자 코딩 확인

결정 (2026-03-24): 둘 다 수행. 결과 비교 자체가 논문 A의 방법론적 기여.


Q: 기존 STM 분석(Analysis0~8)을 바로 활용할 수 있나?

답변: 결과물 존재. 연구방향 확정 후 업데이트 예정. 분석 파이프라인(R 스크립트, 전처리)은 기존분석/Quan/Analysis0~8/에 있음.


Q: 팀 협업이 활성 상태인가?

답변: 그렇다. 조연주·유지은·이수미 교수 협업 중.


Q: 2026-04-30 마감은 무엇을 의미하는가?

답변: 초고(논문 A) 완성 목표.


Q: GT에서 AI는 어디까지 할 수 있는가?

GT는 연구자를 주된 해석 주체로 전제한다. AI-human-in-loop GT에서:

GT 단계 AI 역할 인간 역할
초기 코딩 (line-by-line) 높은 일관성으로 수행 가능 검토·검증
이론적 민감성 부분 가능 (문헌 기반 패턴 인식) 필수 — 맥락적 판단
지속적 비교 200개 문서 전체에서 대규모 수행 가능 방향 설정·해석
포화 판단 빈도 패턴 보조 가능 최종 해석적 판단
메모잉 분석 메모 초안 작성 가능 심화·수정·검증
이론 구축 독립적으로 불가 주도 필수

이 경계 지도가 논문 C-1의 핵심 기여다.