exQuery : 응용통계연구 <간행물 < KISS

간행물

한국통계학회> 응용통계연구

응용통계연구 update

The Korean Journal of Applied Statistics

  • : 한국통계학회
  • : 자연과학분야  >  통계학
  • : KCI등재
  • :
  • : 연속간행물
  • : 격월
  • : 1225-066x
  • : 2383-5818
  • :

수록정보
34권5호(2021) |수록논문 수 : 14
간행물 제목
35권6호(2022년 12월) 수록논문
최근 권호 논문
| | | |

KCI등재

1KNOCKOFF를 이용한 성근 VHAR 모형의 FDR 제어

저자 : 박민수 ( Minsu Parka ) , 이재원 ( Jaewon Leea ) , 백창룡 ( Changryong Baek )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 6호 발행 연도 : 2022 페이지 : pp. 685-701 (17 pages)

freeForAll :
ftpRoot : 3
freeForAll :

다운로드

(기관인증 필요)

초록보기

FDR은 1종 오류를 제어하는 매우 보수적인 FWER과 달리 더 자유로운 변수 판단을 제공하여 고차원 자료의 추론에 있어 널리 쓰이고 있다. 본 논문은 Barber와 Candès (2015)가 제안한 knockoff 방법론을 사용하여 FDR을 일정 수준으로 제어하면서 고차원 장기억 시계열 모형인 성근 VHAR 모형을 추정하는 방법을 제안한다. 또한 기존의 방법론인 AL (adaptive Lasso)와의 모의실험을 통한 비교 연구를 통해서 장단점을 비교하였다. 그 결과 AL이 성근 일치성을 보이는 등 전체적으로 좋은 성질을 가지고 있지만, FDR의 관점에서는 비교적 높은 값을 주는 것을 관찰했다. 즉 AL은 0인 계수를 0이 아닌 계수로 추정하려는 경향이 있었다. 반면, knockoff 방법론은 FDR을 일정 수준으로 유지하였지만 표본의 수가 작을 경우 매우 보수적으로 0이 아닌 계수를 찾아냄을 관찰할 수 있었다. 하지만, 모형이 희박할 수록 knockoff의 성능이 크게 향상됨을 확인할 수 있어 표본의 개수가 크고 성근 모형일 경우 knockoff 방법론이 우수함을 살펴볼 수 있었다.


FDR is widely used in high-dimensional data inference since it provides more liberal criterion contrary to FWER which is known to be very conservative by controlling Type-1 errors. This paper proposes a sparse VHAR model estimation method controlling FDR by adapting the knockoff introduced by Barber and Cand`es (2015).We also compare knocko_ with conventional method using adaptive Lasso (AL) through extensive simulation study. We observe that AL shows sparsistency and decent forecasting performance, however, AL is not satisfactory in controlling FDR. To be more specific, AL tends to estimate zero coefficients as non-zero coefficients. On the other hand, knockoff controls FDR sufficiently well under desired level, but it finds too sparse model when the sample size is small. However, the knockoff is dramatically improved as sample size increases and the model is getting sparser.

KCI등재

2베이지안 다변량 선형 모형을 이용한 청소년 패널 데이터 분석

저자 : 이인선 ( Insun Lee ) , 이근백 ( Keunbaik Lee )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 6호 발행 연도 : 2022 페이지 : pp. 703-724 (22 pages)

freeForAll :
ftpRoot : 3
freeForAll :

다운로드

(기관인증 필요)

초록보기

다변량 경시적 자료 분석은 반복 측정된 자료에 존재하는 상관관계를 올바르게 추정하면서 자료를 분석해야 한다. 경시적 연구에서는 다변량 경시적 자료가주로 생성되지만, 기존통계적 모형은 대부분단변량으로 분석되어 다변량 경시적 자료에 존재하는 복잡한 상관관계를 제대로 설명하지 못하게 된다. 따라서 본 논문에서는 복잡한 상관관계를 설명하기 위해 공분산 행렬을 모형화하는 다양한 방법에 대해 고찰한다. 그 중 수정된 콜레스키 분해, 수정된 콜레스키 블록분해와 초구분해를 살펴본다. 그리고 일반화 자기회귀모수 행렬이 가지는 희박성 문제를 해결하기 위해 베이지안 방법을 이용하여 청소년 패널 데이터를 분석한다. 청소년 패널 데이터는 다변량 경시적 자료이며, 반응 변수로는 학교 적응도, 학업 성취도, 휴대전화 의존도를 고려한다. 자기 상관 구조와 혁신 표준 편차 구조를 달리 가정하여 여러 모형을 비교한다. 가장 적합한 모형에 대해 학교 적응도와 학업 성취도에 대해 모든 설명 변수가 유의미하며, 휴대전화 의존도가 반응 변수일 때 사교육 시간을 제외한 모든 설명 변수가 유의미한 것으로 나타난다.


Although longitudinal studies mainly produce multivariate longitudinal data, most of existing statistical models analyze univariate longitudinal data and there is a limitation to explain complex correlations properly. Therefore, this paper describes various methods of modeling the covariance matrix to explain the complex correlations. Among them, modified Cholesky decomposition, modified Cholesky block decomposition, and hypersphere decomposition are reviewed. In this paper, we review these methods and analyze Korean children and youth panel (KCYP) data are analyzed using the Bayesian method. The KCYP data are multivariate longitudinal data that have response variables: School adaptation, academic achievement, and dependence on mobile phones. Assuming that the correlation structure and the innovation standard deviation structure are different, several models are compared. For the most suitable model, all explanatory variables are significant for school adaptation, and academic achievement and only household income appears as insignificant variables when cell phone dependence is a response variable.

KCI등재

33개의 모수영역을 모니터링하는 EWMA 관리도

저자 : 김유경 ( Yukyung Kim ) , 이재헌 ( Jaeheon Lee )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 6호 발행 연도 : 2022 페이지 : pp. 725-737 (13 pages)

freeForAll :
ftpRoot : 3
freeForAll :

다운로드

(기관인증 필요)

초록보기

통계적 공정 모니터링에서 관리 상태일 때 품질 특성치의 모수값은 하나 값으로 지정하는 경우가 대부분이다. 그러나 관리 상태로부터 공정 모수의 작은 변화는 실제적으로 크게 중요하지 않은 경우, 품질 특성치의 모수 영역은 관리 상태, 무관심, 그리고 이상 상태의 세 영역으로 구성될 수 있다. 이 논문에서는 3 개의 모수 영역이 있는 공정에 적용할 수 있는 두 가지 지수가중 이동평균(exponentially weighted moving average; EWMA) 관리도 절차를 제안하고, 제안된 절차의 성능을 Shewhart 관리도 및 누적합(cumulative sum; CUSUM) 관리도와 비교하여 그 효율을 평가하였다.


In the standard assumption of statistical process monitoring (SPM) under consideration, the in-control region of the control parameter of quality characteristic consists of a single point. However, if small deviations from the ideal situation may not be of practical importance, the parametric space can consist of three regions: In-control, indifference, and out-of-control. In this paper, we propose two exponentially weighted moving average (EWMA) charting procedures applicable to the situation with three parameter regions, and compare the efficiency of the proposed procedures with the Shewhart chart and the cumulative sum (CUSUM) chart.

KCI등재

4토픽 모형을 이용한 텍스트 데이터의 단어 선택

저자 : 장우솔 ( Woosol Jang ) , 김예은 ( Ye Eun Kim ) , 손원 ( Won Son )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 6호 발행 연도 : 2022 페이지 : pp. 739-754 (16 pages)

freeForAll :
ftpRoot : 3
freeForAll :

다운로드

(기관인증 필요)

초록보기

텍스트 데이터는 일반적으로 많은 변수를 포함하고 있으며 변수들 사이의 연관성도 높아 통계 분석의 정확성, 효율성 등에서 문제가 생길 수 있다. 이러한 문제점에 대처하기 위해 목표 변수가 주어진 지도 학습에서는 목표 변수를 잘 설명할 수 있는 단어들을 선택하여 이 단어들만 통계 분석에 이용하기도 한다. 반면, 비지도 학습에서는 목표 변수가 주어지지 않으므로 지도 학습에서와 같은 단어 선택 절차를 활용하기 어렵다. 이 연구에서는 토픽 모형을 이용하여 지도 학습에서의 목표 변수를 대신할 수 있는 토픽을 생성하고 각 토픽별로 연관성이 높은 단어들을 선택하는 단어 선택 절차를 제안한다. 제안된 절차를 실제 텍스트 데이터에 적용한 결과, 단어 선택 절차를 이용하면 많은 토픽에서 공통적으로 자주 등장하는 단어들을 제거함으로써 토픽을 더 명확하게 식별할 수 있었다. 또한, 군집 분석에 적용한 결과, 군집과 범주 사이에 높은 연관성을 가지는 군집 분석 결과를 얻을 수 있는 것으로 나타났다. 목표 변수에 대한 정보없이 토픽 모형을 이용하여 선택한 단어들을 분류 분석에 적용하였을 때 목표 변수를 이용하여 단어들을 선택한 경우와 비슷한 분류 정확성을 얻을 수 있음도 확인하였다.


Usually, text data consists of many variables, and some of them are closely correlated. Such multi-collinearity often results in inefficient or inaccurate statistical analysis. For supervised learning, one can select features by examining the relationship between target variables and explanatory variables. On the other hand, for unsupervised learning, since target variables are absent, one cannot use such a feature selection procedure as in supervised learning. In this study, we propose a word selection procedure that employs topic models to find latent topics. We substitute topics for the target variables and select terms which show high relevance for each topic. Applying the procedure to real data, we found that the proposed word selection procedure can give clear topic interpretation by removing high-frequency words prevalent in various topics. In addition, we observed that, by applying the selected variables to the classifiers such as naïve Bayes classifiers and support vector machines, the proposed feature selection procedure gives results comparable to those obtained by using class label information.

KCI등재

5금융 시계열 변동성 추정을 위한 준-우도 이노베이션의 멱변환

저자 : 정선아 ( Sunah Chung ) , 황선영 ( Sun Young Hwang ) , 이성덕 ( Sung Duck Lee )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 6호 발행 연도 : 2022 페이지 : pp. 755-764 (10 pages)

freeForAll :
ftpRoot : 3
freeForAll :

다운로드

(기관인증 필요)

초록보기

본 논문에서는 금융 시계열 변동성 추정을 위한 준-모수(quasi-likelihood) 방법을 다루고 있다. 모형식에서 오차항의 분포를 미 지 (unknown)로 하여 준-우도 함수를 통한 모수 추정을 하는 경우 이노베이션의 지정을 멱변환을 통해 구성하였다. 고정된 멱변환에 대한 프로파일-정보 행렬을 비교하여 최대값을 제공하는 멱변환을 제안하였다. 이차원 이노베이션으로의 확장을 다루었으며 코로나 펜데믹 기간의 높은 변동성을 보이는 국내 9개 주가 자료 분석을 통해 방법론을 예시하고 있다.


This paper is concerned with power transformations in estimating GARCH volatility. To handle a semiparametric case for which the exact likelihood is not known, quasi-likelihood (QL) rather than maximumlikelihood method is investigated to best estimate GARCH via maximizing the information criteria. A power transformation is introduced in the innovation generating QL estimating functions and then optimum power is selected by maximizing the profile information. A combination of two different power transformations is also studied in order to increase the parameter estimation efficiency. Nine domestic stock prices data are analyzed to order to illustrate the main idea of the paper. The data span includes Covid-19 pandemic period in which financial time series are really volatile.

1
권호별 보기
같은 권호 수록 논문
| | | | 다운로드

KCI등재

1층별 응답률을 사용한 멱배정 방법의 확장

저자 : 박현아 ( Hyeonah Park )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 5호 발행 연도 : 2021 페이지 : pp. 671-683 (13 pages)

freeForAll :
ftpRoot : 3
freeForAll :

다운로드

(기관인증 필요)

초록보기

멱배정의 전체 효율은 최적배정보다 감소하지만, 층별 표본을 골고루 배정하는 기법이며 조사 현장에서는 제곱근 비례배정으로 많이 사용된다. 그리고 실제조사에서는 무응답을 고려하여 이론적 공식에서 나오는 것보다 더 많은 표본크기를 추출한다. 본 연구에서는 층별 표본크기를 결정함에 있어서 멱배정 방법에 층별 응답률의 정보를 추가하여 배정하는 기법을 연구한다. 제안된 배정기법들을 비례, 최적, 제곱근 비례 배정과 비교하며 응답률이 추가된 비례, 최적배정과도 비교하는 것을 모의실험을 통해 살펴봄으로써 배정방법들의 장단점을 살펴본다.

KCI등재

2경제활동인구조사 자료를 위한 다중대체 방식 연구

저자 : 박민정 ( Min-jeong Park ) , 배윤종 ( Yoonjong Bae ) , 김정연 ( Joungyoun Kim )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 5호 발행 연도 : 2021 페이지 : pp. 685-696 (12 pages)

freeForAll :
ftpRoot : 3
freeForAll :

다운로드

(기관인증 필요)

초록보기

경제활동인구조사는 고용 관련 통계를 생성하는 국가조사로서, 국민의 경활상태(취업/실업/비경활)를 파악하는 것이 주요 목적이다. 정확한 통계를 내기 위해 무응답률을 낮추는 것이 중요하고, 이미 발생한 무응답을 보완하기 위한 방법으로 무응답 대체가 가능하다. 경제활동인구조사는 응답 방식이 순차적 흐름을 따라가기 때문에 구조적인 무응답이 존재한다. 또한 전체 가구원내 무응답 항목이 하나라도 있으면 해당 가족 구성원 전체를 무응답 처리하기에 최종 자료에는 항목 무응답이 아닌 단위 무응답만 존재한다는 특징이 있다. 본 연구에서는 구조적 무응답 이해 및 연계자료를 통한 과거 자료의 활용 등을 통해 기존의 방법보다 효과적인 무응답 대체 모형을 제시하고자 한다. 대체 모형의 성능을 일치도/비일치도를 기반으로 평가한다. 이를 위해, 2019년 11월 경제활동인구조사 자료를 기반으로 모의실험을 실시한다. 총 59,996명의 응답자 중 일부를 랜덤하게 선택한 뒤, 경활상태를 판정하는데 결정적인 설명변수 6개와 경활상태를 무응답 처리한다. 기존 무응답 대체 모형에서 사용하였던 설명 변수 이외에 산업변수와 종사상지위 변수를 추가함으로써 모형을 개선한다. 이는 과거자료의 연계 및 활용을 가정한 것으로, 기존의 모형모다 성능이 향상되는 것을 확인한다. 또한, 경활상태별 무응답자 수에 대한 다양한 시나리오를 고려한다.

KCI등재

3상대오차예측을 이용한 자동차 보험의 손해액 예측: 패널자료를 이용한 연구

저자 : 박흥선 ( Heungsun Park )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 5호 발행 연도 : 2021 페이지 : pp. 697-710 (14 pages)

freeForAll :
ftpRoot : 3
freeForAll :

다운로드

(기관인증 필요)

초록보기

상대오차를 이용한 예측법은 상대오차(혹은 퍼센트오차)가 중요시되는 분야, 특히 계량경제학이나 소프트웨어 엔지니어링, 또는 정부기관 공식통계 부분에서 기존 예측방법 외에 선호되는 예측방법이다. 그 동안 상대오차를 이용한 예측법은 선형 혹은 비선형 회귀분석 뿐 아니라, 커널회귀를 이용한 비모수 회귀모형, 그리고 정상시계열분석에 이르기까지 그 범위가 확장되어 왔다. 그러나, 지금까지의 분석은 고정효과(fixed effect)만을 고려한 것이어서 임의효과(random effect)에 관한 상대오차 예측법에 대한 확장이 필요하였다. 본 논문의 목적은 상대오차예측법을 일반화선형혼합모형(GLMM)에 속한 감마회귀(gamma regression), 로그정규회귀(lognormal regression), 그리고 역가우스회귀(inverse gaussian regression)의 패널자료(panel data)에 적용시키는데 있다. 이를 위해 실제 자동차 보험회사의 손해액 자료를 사용하였고, 최량예측량과 최량상대오차예측량을 각각 적용-비교해 보았다.

KCI등재

4불균형 자료에서 불순도 지수를 활용한 분류 임계값 선택

저자 : 장서인 ( Shuin Jang ) , 여인권 ( In-kwon Yeo )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 5호 발행 연도 : 2021 페이지 : pp. 711-721 (11 pages)

freeForAll :
ftpRoot : 3
freeForAll :

다운로드

(기관인증 필요)

초록보기

이 논문에서는 불균형 자료에 대한 분류 분석에서 불순도지수를 이용하여 임계값을 조정하는 방법에 대해 알아본다. 이항자료에 대한 분류에서는 소수범주를 Positive, 다수범주를 Negative라고 하면, 일반적으로 사용하는 0.5 기준으로 범주를 정하면 불균형 자료에서는 특이도는 높은 반면 민감도는 상대적으로 낮게 나오는 경향이 있다. 소수범주에 속한 개체를 제대로 분류하는 것이 상대적으로 중요한 문제에서는 민감도를 높이는 것이 중요한데 이를 분류기준이 되는 임계값을 조정을 통해 높이는 방법에 대해 알아본다. 기존연구에서는 G-mean이나 F1-score와 같은 측도를 기준으로 임계값을 조정했으나 이 논문에서는 CHAID의 카이제곱통계량, CART의 지니지수, C4.5의 엔트로피를 이용하여 최적임계값을 선택하는 방법을 제안한다. 최적임계값이 여러 개 나올 수 있는 경우 해결방법을 소개하고 불균형 분류 예제로 사용되는 데이터 분석을 통해 0.5를 기준으로?(무엇?)을 때와 비교하여 어떤 개선이 이루어졌는지 등을 분류성능측도로 알아본다.

KCI등재

5시계열 모형과 기계학습 모형을 이용한 풍력 발전량 예측 연구

저자 : 박수진 ( Sujin Park ) , 이진영 ( Jin-young Lee ) , 김삼용 ( Sahm Kim )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 5호 발행 연도 : 2021 페이지 : pp. 723-734 (12 pages)

freeForAll :
ftpRoot : 3
freeForAll :

다운로드

(기관인증 필요)

초록보기

빠르게 발전하고 있는 재생에너지 중 하나인 풍력에너지는 기후변화 대응에 맞추어 개발 및 투자가 이루어지고있다. 신재생에너지 정책과 발전소 설치가 추진됨에 따라 국내 풍력 보급이 점차 확대되어 수요를 정확히 예측하기 위한 시도들이 확대되고 있다. 본 논문에서는 전남지역과 경북지역의 풍력 발전량 예측을 위하여 시계열 기법인 ARIMA, ARIMAX 모형과 기계학습 모형인 SVR, Random Forest, XGBoost 모형들을 비교 분석하였다. 모형의 예측 결과를 비교하기 위한 지표로서 mean absolute error (MAE)와 mean absolute percentage error (MAPE)를 사용하였다. 2018년 1월 1일부터 2020년 10월 24일까지의 시간별 원 데이터를 차분한 후 모형을 훈련시켜 2020년 10월 25일부터 2020년 10월 31일까지의 168시간에 대한 풍력 발전량을 예측하였다. 모형의 예측력 비교 결과, Random Forest와 XGBoost 모형이 전남지역, 경북지역 순으로 가장 우수한 성능을 보였다. 향후 연구에서는 기계학습뿐 아니라 최근 활발한 연구가 이루어지는 데이터 마이닝 기법 기반의 풍력 발전량 예측을 시도할 것이다.

KCI등재

6제1형 우측중도절단된 로그정규 수명 자료를 모니터링하는 누적합 관리도

저자 : 최민재 ( Minjae Choi ) , 이재헌 ( Jaeheon Lee )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 5호 발행 연도 : 2021 페이지 : pp. 735-744 (10 pages)

freeForAll :
ftpRoot : 3
freeForAll :

다운로드

(기관인증 필요)

초록보기

제품의 수명을 유지시키는 것은 품질관리의 주요 목표 중 하나이다. 실제 공정에서는 시간 및 비용의 문제로 인해 모든 표본의 수명을 측정할 수 없는 경우가 많이 발생하기 때문에, 대부분 중도절단된 자료를 포함시켜 표본을 구성한다. 이 논문에서는 제1형의 우측중도절단된 수명 자료가 로그정규분포를 따르는 경우, 제품 수명의 평균을 모니터링하는 두 가지 누적합 관리도 절차를 제안한다. 하나는 우도비에 기초한 누적합 관리도이고, 다른 하나는 이항분포에 기초한 누적합 관리도 절차이다. 모의실험을 통해 평균런길이를 비교하는 방법으로 제안된 두 관리도 절차의 성능을 비교하였다. 모의실험 결과, 중도절단율이 낮은 경우, 형상모수값이 작은 경우, 평균의 감소 변화량이 큰 경우에는 우도비 누적합 관리도가 더 효율적이며, 반대로 중도절단율이 높은 경우, 형상모수값이 큰 경우, 평균의 감소 변화량이 적은 경우에는 이항 누적합 관리도가 더 효율적인 것으로 나타났다.

KCI등재

7기계학습을 활용한 주식 가격의 이동 방향 예측

저자 : 김용환 ( Yonghwan Kim ) , 송성주 ( Seongjoo Song )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 5호 발행 연도 : 2021 페이지 : pp. 745-760 (16 pages)

freeForAll :
ftpRoot : 3
freeForAll :

다운로드

(기관인증 필요)

초록보기

금융시장에서 주식 가격 자체 또는 가격의 방향성에 대한 예측은 오래 전부터 관심의 대상이 되어 왔기에 여러 방면에서 다양한 연구가 이어져 왔다. 특히 1960년대에 들어서며 많은 연구가 진행되었고 예측가능성에 대해 찬반의 의견들이 있었는데, 1970년대에 나타난 효율적 시장 가설이 지지를 받으면서 주식 가격의 예측은 불가능하다는 의견이 주를 이루었다. 그러나 최근 기계학습 등 예측기술의 발달로 인해 주식 시장에서 미래를 예측해 보려는 새로운 시도가 이어져, 주식시장의 효율성을 부정하고 높은 예측력을 주장하는 연구들이 등장하고 있다.
이 논문에서는 과거 연구들을 평가방법 별로 정리하고, 새로운 주장의 신빙성을 확인하기 위해 이차판별분석, support vector machine, random forest, extreme gradient boost, 심층신경망 등 다양한 기계학습 모형을 적용하여 한국유가증권시장에 상장된 종목 중 삼성전자, LG화학, Naver 주식 가격의 방향성을 예측해보았다. 이때, 널리 사용되는 기술적 지표 변수들과 더불어 price earning ratio, price book-value ratio 등 회계지표를 활용한 변수와, 은닉마르코프모형의 출력값 변수를 사용하였다. 분석결과, 이번 연구의 조건 하에서는 통계적으로 유의미한 예측력을 제시하는 모형이 존재하지 않았고, 현 시점에서 단기 주가 방향성의 예측은 어렵다고 판단되었다. 비교적 단순한 이차판별분석 모형과 회계지표를 활용한 변수를 추가한 모형이 상대적으로 높은 예측력을 보였다는 점에서, 복잡한 모형을 시도하기 보다는 주식 가격에 대한 투자자들의 의견 및 심리가 반영될 수 있는 다양한 변수를 개발하여 활용한다면 향후 유의미한 예측이 가능할 수도 있을 것이다.

KCI등재

8통계모형을 이용하여 모의실험 결과 분석하기

저자 : 김지현 ( Ji-hyun Kim ) , 김봉성 ( Bongseong Kim )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 5호 발행 연도 : 2021 페이지 : pp. 761-772 (12 pages)

freeForAll :
ftpRoot : 3
freeForAll :

다운로드

(기관인증 필요)

초록보기

모의실험 결과를 보통 표나 그림으로 보고한다. 하지만 모의실험이 다양한 조건에서 실시되었고 실험조건마다 추정량의 성능 우위에 대한 결과가 다르면 표와 그림만으로 추정량의 성능을 비교하기가 어렵다. 또한 실행시간이 오래 걸리는 모의실험의 경우 모의실험 반복횟수를 크게 하기 어렵다. 회귀모형을 이용하여 모의실험 결과를 분석하면 보다 체계적이고 효과적으로 추정량의 성능을 비교할 수 있다. 이때 실험조건과 추정량에 따라 성능의 변동이 다를 수 있으므로 회귀모형에서 오차항의 이분산성을 허용해야 하며, 여러 개의 추정량을 동시에 비교해야 하므로 다중비교를 실시해야 한다. 모의실험 결과에 대한 분석이라는 맥락에서 이분산성과 다중비교에 대한 배경이론을 소개하고 예시를 통해 구체적 분석방법도 제시한다.

KCI등재

9함수회귀분석을 통한 교통량 예측

저자 : 이인주 ( Injoo Lee ) , 이영경 ( Young K. Lee )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 5호 발행 연도 : 2021 페이지 : pp. 773-794 (22 pages)

freeForAll :
ftpRoot : 3
freeForAll :

다운로드

(기관인증 필요)

초록보기

교통량 예측은 지방 행정의 의사결정에 매우 중요한 정보를 제공한다. 교통량 예측을 통해 교통혼잡비용을 줄이고 지역경제를 활성화 함으로써 사회적, 경제적 이익을 창출할 수 있다. 교통량은 미지의 확률적 규칙 하에서 시간의 흐름에 따라 궤적을 가지며 변화하는 함수데이터의 일종이다. 본 논문에서는 세 가지 함수회귀모형을 이용하여 과거에 관측된 교통량 궤적을 기반으로 미래의 관측되지 않은 교통량 궤적을 예측하는 방법을 제시한다. 본 논문에서 소개하는 세가지 방법은 전국 고속도로 영업소 중 서울, 춘천, 강릉 세 개 영업소에서 수집된 고속도로 영업소 데이터에 적용한다. 각 영업소 별로 세가지 방법의 예측오차를 비교함으로써 영업소별 최적 교통량 예측모형을 찾는다.

KCI등재

10관리도를 활용한 국민청원 토픽 모니터링 연구

저자 : 이희연 ( Heeyeon Lee ) , 최지은 ( Jieun Choi ) , 이성임 ( Sungim Lee ) , 손원 ( Won Son )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 5호 발행 연도 : 2021 페이지 : pp. 795-806 (12 pages)

freeForAll :
ftpRoot : 3
freeForAll :

다운로드

(기관인증 필요)

초록보기

최근 온라인 채널을 통한 텍스트 자료가 방대해 지면서 이를 요약하고 분석하는 연구에 관한 관심이 커지고 있는 추세이다. 먼저 텍스트 자료에 대한 기본적인 분석 중 하나는 어떤 주제나 내용을 포함하고 있는지 잠재된 토픽을 추출하는 것이다. 연구자가 일일이 모든 자료를 읽고 내용을 요약할 수도 있겠지만, 대용량 데이터를 다루는 경우에는 결코 쉽지 않기 때문에, 통계적 모형을 사용하여 토픽을 추출하는 토픽모형 방법들이 제안되어 왔다 (Blei와 Lafferty, 2007; Blei 등, 2003). 시간에 따라 수집된 텍스트 데이터로부터 토픽의 변화를 모니터링하기 위하여, 본 연구에서는 잠재적 디리슈레 할당(latent Dirichlet allocation) 모형을 통해 토픽을 분류하고 그 결과를 바탕으로 한 토픽 지수를 제안하였다. 또한, 이를 통계적 공정관리의 대표적 도구인 관리도에 적용하여 시간 경과에 따른 토픽의 변화를 모니터링하는 데 적용해 보았다. 실제 데이터로 2018년 3월 5일부터 2020년 3월 5일 사이에 청와대 국민청원 온라인 게시판에 접수된 텍스트 데이터를 사용하였으며, 토픽 지수를 모니터링함으로써 토픽에 대한 이상변화를 탐지할 수 있음을 살펴 보았다.

12
회사소개 이용약관 개인정보취급방침 배너 다운로드 사이트맵 뷰어다운로드 온라인카드결제

KISS 콘텐츠를 사전허가 없이 무단으로 크롤링 및 복제, 배포할 경우 민형사상 책임을 물을 수 있습니다.

(우)10881 경기도 파주시 회동길 230(문발동 513-5) 한국학술정보(주) 대표이사 : 채종준 고객센터 : 031-940-1055

사업자등록번호 : 111-81-26181 통신판매업신고 : 파주-1250호 개인정보관리책임자 : 조동범

Copyright KISS. All rights reserved.

내가 찾은 최근 검색어

최근 열람 자료

맞춤 논문

보관함

내 보관함
공유한 보관함

1:1문의

닫기