본문 바로가기
심리학

좋은 심리검사의 요건

by 럭키리타 2023. 10. 11.
반응형

어떤 심리검사가 좋은 검사인지 그렇지 않은지를 판단할 때 사용하는 기준으로는 신뢰도 타당도 표준화와 규준이 있다.
신뢰도란 검사에서 얻은 점수를 믿을 수 있는 정도를 뜻하는 것으로, 한 검사를 두 번 또는 여러 번 실시했을 때 일관된 점수가 나올 때 신뢰도가 높다고 할 수 있다. 어떤 물체의 무게를 잰다고 생각해 보자. 잴 때마다 아주 조금씩 다른 값이 나올 것이다. 이때 조금씩 다른 값은 측정 오차를 반영한다. 여기서 얻은 값은 물체의 실제 무게에 측정오차를 더한 값이다. 만약 물체의 실제 무게에 비해 측정오차가 매우 작다면 이 오차값은 무시해도 좋을 것이다. 그러나 만약 오차값이 매우 크다면 잴 때마다 물체의 무게에 큰 차이가 있을 것이다. 그렇게 되면 이 물체의 진짜 무게가 얼마나 될지 확신하기 어렵다. 만약 같은 심리검사를 두 번 실시했을 때 점수가 현저하게 다르게 나왔다면 어떤 점수가 그 사람의 진짜 점수일까? 두 점수가 유사하지 않으면 우리는 그 검사에서 얻은 점수를 믿고 해석할 수가 없다. 어떤 검사를 한 사람에게 반복적으로 실시했을 때 유사한 점수가 나와야 그 점수가 그 사람에 대한 안정적인 점수임을 확신할 수 있고 해석할 수 있다. 신뢰도를 평가하는 방법에는 검사-재검사 신뢰도, 동형 검사 신뢰도, 반분 신뢰도, 내적 일관성 신뢰도, 평정자 간 일치도 등이 있다. 검사-재검사 신뢰도란 동일한 검사를 시간 간격을 두고 두 번 실시 했을 때 얻은 두 점수의 일치 정도를 말한다. 두 점수 간에 차이가 심하다면 어떤 것이 그 사람의 진짜 점수일까? 어떤 사람에게 어떤 지능검사를 약간의 시간 간격을 두고 두 번 실시한 경우를 생각해 보자. 개인의 지능은 시간과 상황에 따라 그때그때 변하는 것이 아니라 매우 안정적인 만큼 두 점수가 비슷한 정도로 나올 것으로 기대된다. 그런데 3개월 전에 실시했을 때 IQ가 96으로 나왔고 그 검사를 오늘 다시 실시했더니 IQ가 116으로 나왔다면 이 사람의 진짜 지능은 얼마일까? 이때 얻은 지능은 믿을 수가 없다. 즉, 신뢰도가 낮은 것이다. 검사-재검사 신뢰도는 신뢰도의 의미를 잘 반영하는 좋은 평가 방법이지만 약점도 있다. 만약 정서 상태, 피로도처럼 측정 시기에 따라 가변성이 큰 특성을 측정하는 검사라면, 검사의 실시 시점에 따른 서로 다른 결과가 검사 자체의 비 신뢰성 때문이라고 보기는 어렵다. 또 기억검사 처럼 검사를 일단 한 번 실시하고 나면, 검사를 해본 경험이 그다음 검사의 결과에 영향을 준다. 이 경우 두 번째 검사의 점수는 수검자의 순수한 기억 능력 또는 창의력을 측정하는 것으로 보기 어렵다. 이를 연습효과 또는 학습효과라고 한다. 연습효과 또는 학습효과가 작용할 수 있는 검사의 경우 검사를 두 번 실시하여 그 일치도를 보는 방식으로 신뢰도를 평가하기는 곤란하다. 신뢰도를 평가하는 다른 방법은 동형 검사 신뢰도이다. 이는 문항의 구체적인 내용은 다르지만 통해 측정하고자 하는 영역, 난이도 그리고 형식은 동일한 두 검사를 한 시점에 다 실시하여 두 검사 점수의 일치도, 즉 신뢰도를 확인하는 방법이다. 예를 들어 초등학생용 산수 문제에 사용한 구체적인 숫자는 다르지만 측정하고자 하는 영역, 난이도, 형식은 거의 동일하다고 볼 수 있다. 이런 방식으로 두 개의 검사를 같은 시기에 실시하여 검사 점수의 일치 정도를 통해 신뢰도를 산출할 수 있다. 이 방법은 측정 시기의 차이로 인한 문제가 개입하지 않고 연습효과도 그다지 작용하지 않기 때문에 신뢰도를 평가하기에 매우 적합하다. 다만 이러한 종류의 심리검사를 만들기가 어렵기 때문에 실제로는 매우 드물게만 사용된다. 비교적 최근에 웩슬러 기초학습 기능 검사 A형과 B형은 측정 영역 거의 동일하지만 구체적인 문항 내용은 다른 두 개의 검사 즉 동형 검사이다. 일반적으로 동형 검사는 교육이나 치료의 효과를 판단하기 위해 처치 전과 후 두 번에 걸쳐 검사를 실시하고 두 점수의 비교를 하는 경우에 적합하다. 만약 교육 전의 점수에 비해 교육 후의 점수가 월등하게 우수하다면 이 점수 차이는 교육의 효과라고 판단할 수 있을 것이다. 동형 검사 신뢰도의 대안으로 반분 신뢰도가 흔히 사용된다. 이 방법은 예를 들어 50문항으로 구성된 심리 검사를 25문항으로 구성된 2개의 동형검사인 것처럼 간주하여 두 점수 간 일치 정도를 통해 신뢰도를 평가하는 방법이다. 이 방법은 개념적으로 동형 검사 신뢰도의 훌륭한 대안이고, 간편하기 때문에 널리 사용되는 신뢰도 평가 방법이지만 한 가지 약점이 있다. 검사에 포함된 문항의 수가 반으로 줄어들면 검사에서 산출되는 점수의 범위도 반으로 줄게 된다. 두 검사 점수 간의 일치도는 흔히 이 둘 간의 상관계술 측정하는데, 일반적으로 산출되는 점수의 범위가 줄면 그로 인해 두 점수 간의 상관계수가 낮게 나온다. 이 때문에 결과적으로 신뢰도가 검사 자체의 실제 신뢰도보다 낮게 나올 수 있다.

반분 신뢰도를 산출할 때 한 가지 더 고려해야 하는 것은 검사 문항들을 반분하는 방법이다. 50문항으로 구성된 어떤 심리검사를 두 개의 25문항 검사로 만드는 방법은 얼마나 있을까? 엄청나게 많은 방법이 존재한다. 이 중 어떤 방법을 사용하는가에 따라 신뢰도 계수가 조금씩 다르게 나올 수 있다. 이러한 경우 생각해 볼 수 있는 것은 가능한 모든 반분신뢰도를 산출하여 그 값들을 평균하는 방법이다. 이 방법을 반영하는 것이 내적 합치도 또는 내적 일관성 신뢰도이다. 이 신뢰도는 한 검사에 들어 있는 모든 문항 간의 상관의 평균값으로, 검사 문항들이 동일한 개념을 측정하는 정도를 말해준다. 평정자 간 일치도는 문항에 대한 평정을 누가 실시하는지에 따라 문항에 대한 채점과 결과가 달라질 수 있는 검사의 경우에 흔히 사용하는 신뢰도 평가 방법이다. 구체적으로, 한 대상자에 대해 두 명의 평정자가 따로 평정하고 이 두 평정 결과의 일치 정도를 계산하여 신뢰도를 산출한다. 동일한 대상자를 같은 도구로 평가했다면 동일한 결과가 나와야 그 도구가 신뢰가 가라고 할 수 있다. 아동의 행동에 관한 일련의 질문에 아동의 어머니와 아버지가 각각 따로 응답할 때 두 사람의 평정 점수가 큰 차이를 보인다면 이 자료로 아동의 실제 모습을 짐작하기 어렵다. 채점자 간 일치도와 진단과 간 일치도도 평정자 간 일치도와 유사한 내용의 신뢰도이다.

반응형