객관적인 UX 평가 기법
UX, 정량적으로 측정하기
기가인터넷의 상용화 등 잘 갖춰진 국내 인터넷 환경 영향 때문일까. 국내를 대표하는 웹사이트의 대부분은 외양을 중시해서인지 유독 디자인이 화려하다. 주요 인터넷 포털의 첫 화면이 그 대표적인 사례이며, 이런 특징은 기업용 인트라넷 웹사이트에서도 쉽게 찾을 수 있다. 물론 우수한 디자인이 단점이 될 수는 없다. 그러나 제작 과정에서 사용성에 대한 체계적인 조사와 고민 없이 ‘주먹구구식’으로 웹사이트를 만들고 고치는 과정의 반복 속에서 사용자의 요구는 뒷전일 수밖에 없고 결국, 개선(改善)이 아닌 개악(改惡)했다는 비판에서 자유롭지 못하게 된다.
----------------------------------------------------------------------------
유호석 tigerear@godev.kr | 기술기획 및 기술경영 전문가다. 삼성SDS IT 기획, 삼성전자 정보 전략, KT 계열사 신사업/R&D 기획을 거쳐 현재 올레TV 콘텐츠의 백엔드를 관리하고 있다. 카이스트 기술경영대학원에 재학 중인 기술번역/저술 전문 집단인 GoDEV.kr의 멤버로, 최근 <알기 쉬운 UX디자인 평가(원제 : Beyond The Usability Lab)>란 책을 번역했다.
----------------------------------------------------------------------------
정략적인 UX(User eXperience) 측정에 대해 살펴보기에 앞서 두개의 가상 시나리오를 통해 UX의 정량적 측정이 왜 중요한 지를 확인해보자.
장면 1. UX를 둘러싼 갈등
완성된 지 6개월이 지난 A사의 HR 시스템이 있다. 핵심 사용자 그룹 중 상당히 자주 사용되는 목록 형태의 UI에 대한 변경 요청이 들어왔다고 가정하자.
“우리의 시스템 작업 순서대로 목록이 정렬돼야만 업무가 효율적인데 이와 달라 불편해요. 정렬 순서를 바꿔주세요”란 요구사항을 접한 PL(Project Leader)은 상당히 당황스럽다. 그도 그럴 것이 의견을 개진한 사용자 그룹이 정확히 어떻게 바꿔 달라는 지 요구사항이 구체적이지 않기 때문이다. 일단 검토하겠다고만 우선 답변하고, 퇴근하는 PL의 마음은 심히 불편하다.
장면 2. UX가 더 좋아졌다는 데 정말인가?
최근 경영정보 시스템을 리뉴얼한 B사의 보고회. 한 직원이 CEO 앞에서 경영 대시보드 화면 설명에 열을 올리고 있다. 최고의 디자이너를 투입해 경영진이 한 눈에 회사 현황을 볼 수 있도록 UX를 개선했다는 게 그의 설명이다. 화려한 애니메이션 효과와 유려해진 컬러 배치를 볼 때 한층 화려해졌다는 것은 분명해 보인다. 박수갈채와 함께 보고회가 끝나고 자신의 사무실에 돌아간 CEO는 리뉴얼한 시스템에서 경영 현황을 조회하려고 하지만 어디부터 시작해야 할지 몰라 당황하고 있다. CEO는 사용법을 모르기 때문이라고 스스로를 위안하지만 어딘가 석연치 않다.
정량적 UX 측정의 중요성
앞선 가상의 시나리오 중 장면 1에서 한 사용자 그룹의 요청대로 UI 정렬 순서를 변경한다면 PL은 다른 그룹의 원성을 듣기 십상이다. 어느 부서는 데이터 발생 순서대로, 또다른 부서는 업데이트 순서대로, 혹은 분류코드 기준으로 목록이 정렬되는 것을 선호할 수 있기 때문이다. 이렇듯 서비스 이용자들의 UI/UX에 대한 요구는 대부분의 자기중심적일 뿐 아니라 직관적인 판단에 근거한 주장인 경우가 많다. 그렇다면 장면 1에서 UI 디자인의 개선 포인트를 어떻게 파악해야 하는 걸까? 또 장면 2에서 UI가 좋아졌다고 주장한 근거는 대체 무엇일까?
바로 이러한 상황이 정량적으로 UX를 측정해야 할 순간이다. 서비스 이용자가 UX를 어떻게 이용하고 사용하는 과정에서 어떤 점이 불편한지를 있는 살펴보고 이에 대한 객관적인 판단을 내리는 데 정량적 UX 측정이 필요하다.
무엇을 측정할 것인가?
만약 시스템에서 일어나는 사용자의 모든 행동을 측정하려 한다면 아무것도 얻지 못할 가능성이 높다. 그러므로 먼저 사용자 의도에 집중해 측정할 지표를 단순화하는 과정이 필요하다. 일반적인 시스템이라면 사용자의 의도는 크게 두 가지로 볼 수 있다.
① 원하는 정보를 얻거나 생성하기
② ①을 더 빠르게 처리하기
여기서 ①은 태스크 성공률, ②는 태스크 소요시간을 의미하며, 이 두 가지를 측정함으로써 정량적으로 UX를 분석할 수 있다.
- 태스크 성공률
사용자의 의도가 어떻든 간에 태스크 성공률에서 가장 중요한 것은 서비스 이용자가 태스크에서 원하는 것을 얻었는지 여부다. 그러므로 사용자의 입장에서의 태스크 성공률이란 ‘찾았다’나 ‘못 찾았다’의 문제로 볼 수 있다. 그러나 여기서 문제는 성공과 실패가 불분명할 수 있다는 점이다. 이 경우 태스크의 종료 시점이 중요한 기준이 되며, 때론 데이터 수집 메커니즘에 따라 차이가 발생할 수 있다. 성공한 태스크 수를 관찰대상 태스크로 나누고 백분율로 표시하는 것이 태스크 성공률을 구하는 공식이다.
- 태스크 소요시간(평균)
사용자가 태스크를 성공했는지 여부뿐 아니라 이를 수행하는 데 얼마나 오래 걸렸는가도 중요한 평가 요건일 것이다. 예컨대 온라인 쇼핑몰에서 원하는 제품을 검색하는 데 어떤 곳은 20분이, 또 다른 웹사이트는 2분이 걸렸다면 소비자는 당연히 후자를 선호할 것이며 기업의 서비스도 마찬가지다. 태스크 소요시간은 사용자별 태스크 소요시간을 사용자 수로 나눈 값이다.
테스트 시간이 중요한 세 가지 상황을 확인해보자.
1) 테스트 수행 시간이 중요한 경우
급한 이메일을 처리 같은 시간에 민감한 활동이 여기에 속한다. 대부분의 사람들은 시간이 얼마나 흘렀는지를 정확히 인식하기 어렵다. 그러므로 태스크 수행 시간과 관련된 문제는 절대적인 소요시간보다는 사용자가 기대했던 소요시간과의 상대적인 차이가 더 중요하다.
2) 사용자들의 업무 효율이 시간보다 중요한 경우
수많은 웹사이트에서 태스크 수행에 10분이 소요되든 12분이 소요되든 큰 문제는 아니다. 웹사이트 운영자라면 더 그럴 것이다. 대부분의 B2C 웹사이트에 있어 방문자가 웹사이트에 머문 시간이 길수록 좋다고 여긴다. 머문 시간이 길다는 것은콘텐츠가 이용자의 관심을 끌었거나 이용자가 서비스 이용에 더 적극적으로 참여했다는 의미이기 때문이다. 그러나 이와 반대로 태스크를 수행하는 데 사용자가 많은 혼란을 겪었기 때문일 수도 있다.
만약 이 같은 시나리오가 B2C 웹사이트가 아닌 기업의 시스템이었다면 태스크 수행에 더 많은 시간이 걸릴수록 기업 차원에서는 지출해야 할 비용이 더 늘어남을 의미한다. 시간은 곧 돈인 것이다.
3) 태스크 간에 성공률 차이가 없는 경우
태스크가 너무 쉬워 태스크 간 성공률에 차이가 거의 없는 경우, 성공률 만 분석하는 것은 의미가 없다. 이 때 태스크 소요 시간을 상세히 분석함으로서 의미 있는 결과를 기대할 수 있다. 실제로 대다수 UX 평가에서 태스크 소요시간을 중점 분석대상으로 삼는다.
구분 | 태스크 성공률 | 태스크 평균 소요시간 |
측정대상 | 사용자가 원하는 것을 얻었는가? | 원하는 것을 얻는 데 소요된 시간은? |
산출공식 | ||
단위 | % | 초, 분 |
주의사항 | 태스크 성공에 대한 기준을 사전에 정의해야 함 | 소요시간이 그리 중요하지 않은 경우도 있음 |
<표 1> 태스크 성공률과 태스크 평균 소요시간
정량적 UX 측정 절차
정량적 UX 측정 절차는 일반적으로 태스크를 정의하고, 측정한 후 데이터를 수입한 이후 분석하는 단계를 거친다.
<그림 1> 정량적 UX 측정 절차
- 태스크 정의
태스크에서의 기본 원칙은 클수록 작게 나눠 정복해야 한다는 것이다. 측정하길 원하는 UI의 흐름을 태스크로 세분화하고 태스크의 시작점과 종료점, 태스크의 성공조건을 정의해야 한다. 만약 앞선 A 시스템의 작업 목록 화면에서 작업할 아이템을 찾는 것을 예로 든다면 목록 화면에서 이용자가 작업할 아이템을 찾고 클릭하는 것을 하나의 태스크로 정의하면 된다. 이 경우 태스크 시작점은 목록 화면을 띄우기 위한 클릭, 태스크 종료점은 목록에서 작업을 입력하기 위한 화면으로 이동하기 위해 한 건의 작업을 클릭하는 지점이 될 것이다. 해당 작업에서 입력화면의 필드에 값을 입력하면 해당 태스크가 성공한 것으로 간주할 수 있다.
태스크 명 | 작업 아이템 찾기 |
태스크 시작점 | 작업 목록 화면을 띄우기 위해 클릭하는 순간 |
태스크 종료점 | 작업 목록 화면에서 작업 입력화면으로 이동하기 위해 한 건의 작업을 클릭한 순간 |
태스크 성공조건 | 3번 이내에 작업 목록 화면에서 아이템을 찾아 클릭한 후 작업 입력화면에 값을 입력했는지 여부 |
<표 2> 태스크 정의 예 ‘작업 아이템 찾기‘
- 태스크 측정
태스크를 측정하는 것은 측정 대상의 태스크 구간에서 발생한 로그를 활성화하는 것에서 시작된다. 로그는 시스템 로그와 사용자 로그 중 어떤 것이든 무방하다. 측정에 적합한 로그가 없다면 시스템의 코드를 수정해 적합한 로그를 생성해야 한다.
- 데이터의 수집·변환·정비
대상 태스크에서 발생한 로그를 수집해 테이블 형태로 변환하자. <표 3>처럼 관찰 대상의 태스크가 10개로 고정된 경우 테이블 열에 태스크를 놓고 행에 사용자를 놓으면 사용자의 수 증가에 따라 세로로 스크롤하면서 데이터를 관찰할 수 있어 편리하다.
| 태스크1 | 태스크2 | 태스크3 | … | … | … | … | 태스크10 |
사용자1 | 28초 | 42초 | 56초 | … | … | … | … | 38초 |
사용자2 | 39초 | 58초 | 21초 | … | … | … | … | 23초 |
사용자3 | 27초 | 61초 | 143초 | … | … | … | … | 35초 |
… | … | … | … | … | … | … | … | … |
<표 3> 로그 데이터를 테이블로 변환 ‘태스크 소요시간’
변환된 데이터로 약식 그래프를 그려 이상치 데이터를 찾아 제거하는 것을 데이터 정비작업이라고 한다. 이상치 데이터는 일반 사용자가 아닌 운영자·개발자의 데이터(테스트 목적으로 시스템 사용), 소요 시간이 지나치게 긴 데이터(수십 분이 소요됐다면 중간에 자리를 비웠을 수 있음), 에러가 발생해 우회적인 방법으로 태스크를 완료한 데이터 등을 의미한다.
결과 분석
이제 정리된 테이블의 데이터를 엑셀, 미니탭, SPSS, R 등의 분석 솔루션을 통해 결과를 분석해보자.
- 태스크 성공률 분석
첫 번째로 봐야할 것은 태스크 성공률이며, <표 2>의 예시를 따르면 목록 화면에서 3회 이내로 클릭해 원하는 정보를 찾은 경우에만 성공으로 간주한다. <그림 2>는 10개의 태스크의 성공률 분포를 오차막대와 함께 표시한 그래프다.
<그림 2> 태스크 성공률 그래프로 오차막대는 95% 신뢰구간을 의미(출처 : <알기 쉬운 UX디자인 평가> 유호석 역, 지앤선출판사, 2013)
----------------------------------박스 시작--------------------------------
Tip. 엑셀에서 오차막대 표시하기
오피스 엑셀에서 신뢰구간을 보기 위해서는 막대 위에서 우클릭하고 [데이터계열 서식]을 선택한 후 [Y 오차막대] 탭을 클릭한다. 스프레드시트의 해당 셀은 [+], [-], [사용자 정의]로 선택해야 하는 신뢰구간을 의미한다. 이 같은 방법을 통해 신뢰구간을 의미하는 오차막대를 표시할 수 있다.
----------------------------------박스 끝--------------------------------
<그림 2>에 표시된 오차막대는 무슨 의미일까? 성공률이라는 평균값을 사용하고자 할때 샘플링한 표본집단의 평균(표본평균)과 실제평균(모평균) 간의 차이를 함께 감안해야 한다. 선거예측조사에서 "두 후보가 오차범위 안에서 접전이다" 라는 말을 들어봤을 것이다. 이 말은 샘플링한 표본집단의 득표수 차이가 너무 적어서 실제선거에서 어느 후보가 이길지(평균득표수가 더 많은지) 알 수 없다는 말이다. 여기서 말하는 오차범위가 곧 오차막대의 길이로 생각하면 된다.
○ 두 평균값 사이의 오차막대가 겹치지 않는다면, 통계적인 관점에서 이 두 표본집단의 평균값이 오차범위 넘어서 차이가 나므로 실제 모집단도 차이날 가능성이 매우 높다. 따라서 태스크 5번과 7번은 서로 겹치지 않아 실제 다른 평균값이라고 거의 확신할 수 있다.
○ 두 평균값들의 오차막대가 넓게 겹친다면 통계적인 관점에서 이 두 표본집단의 평균값이 오차범위내에서 차이를 보이므로 실제 모집단의 차이가 있다고 주장한다면 오차일 가능성이 높다(틀릴 가능성이 높다). 태스크 3번과 4번이 그 예로서 실제 평균값에 차이가 난다고 확신할 수 없다.
○ 두 평균값들의 오차막대가 살짝 겹친다면 이 두 평균값이 실제로 다른지를 확인하기 위한 추가적인 통계검정을 해야 한다(지면 관계상 여기서는 다루지 않는다).
- 태스크 소요시간 분석
두 번째로 분석할 대상은 태스크 소요시간이다. 앞선 분석 방법과 같이 그래프를 통해 수행시간이 긴 태스크를 식별하자. <그림 3> 막대그래프에는 측정된 모든 태스크와 성공한 태스크의 소요시간을 함께 확인할 수 있다. 3번 태스크는 오차 범위를 초과했을 뿐 아니라 성공 태스크의 시간이 상대적으로 짧으므로 상세 분석대상이 된다. 성공 태스크만을 별도로 분석하지 않았다면 이 같은 유용한 정보를 얻을 수 없었을 것이다.
<그림 3> 태스크 소요시간 그래프로 오차막대는 95% 신뢰구간을 의미(출처 : <알기 쉬운 UX디자인 평가> 유호석 외 역, 지앤선출판사, 2013)
----------------------------------박스 시작--------------------------------
Tip. 신뢰구간(Confidence Interval)은 무엇이며 왜 주의해야 하는가?
사용자가 20명이고 전체 태스크 성공률이 70%인 UX를 조사해야 한다고 가정하자. 같은 조사를 다른 20명과 진행해도 결과가 같다고 확신할 수 있을까? 신뢰구간이 바로 이를 판단하기 위한 기준이 된다. 신뢰구간은 표본 집단이 모집단을 얼마나 정확하게 대변하고 있는지를 말한다. 다르게 표현하면 수십만 명의 사람(기본적으로는 모집단)들과 연구를 수행해 평균 성공률을 계산하면 20명의 표본 집단의 태스크 성공률에 얼마나 근접하는지 여부다. 시간과 같은 연속적인 데이터의 신뢰구간은 엑셀의 CONFIDENCE 함수로 구할 수 있으며, 해당 함수에 대입해야 할 3개의 매개변수는 다음과 같다.
○ 알파 : 신뢰도에 대한 유의 수준으로 주로 0.05(95% 신뢰구간)나 0.10(90% 신뢰구간)을 사용함
○ Standard_dev : 표본의 표준편차(STDEV 함수로 구함)
○ 규모 : 표준 집단의 크기로 COUNT 함수로 구할 수 있음
해당 공식을 사용하면 95%의 신뢰구간은 8%다. 이 말은 태스크 성공률이 70±8% 즉, 62~78% 구간에 있을 확률이 95%임을 의미한다. 이를 더 쉽게 말한다면 같은 조사를 100번 했을 때 95번은 62~78% 성공률을 보이고, 나머지 5번은 해당 범위를 벗어난다는 뜻이다. 결국 신뢰구간은 보고된 평균값의 정확도를 얼마나 확신할 수 있는지를 알려준다.
----------------------------------박스 끝--------------------------------
한정된 지면에 정량적 UX 측정의 핵심 절차만 소개하다보니 다소 어렵게 느껴질지도 모르겠다.
UX측정에서 가장 중요한 것은 사용자가 시스템에서 실제 어떠한 일을 겪고 있는지 실상을 정확하게 파악하려는 마음가짐이다. 위의 방법론과 약간의 통계기법은 그 마음가짐을 지원하는 툴일 뿐이다.
지면 관계상 소개하지 못했던 로그 생성 코드를 추가하지 못하는 경우 어떻게 해야 할까? 사용자에게 UX에 대한 만족도 점수를 묻거나 주관식으로 의견을 받을 수는 없을까? UX 평가를 위한 좋은 툴은 무엇인가? 등의 의문에 대한 답은 <알기 쉬운 UX 디자인 평가(원제 : Beyond The Usability Lab)>에서 찾아보길 바란다.
* 본 글은 마이크로소프트웨어 '13년 5월호에 기고한 컬럼입니다.
'Biz Development' 카테고리의 다른 글
소프트웨어와 서비스 사업성공을 위한 사용자 주도 혁신 전략(1) (0) | 2014.03.19 |
---|---|
기술자여, 그대에게 네트워킹을 허하라! (0) | 2013.07.11 |
무료 소프트웨어의 경제학 (0) | 2013.03.01 |
최고의 기술기업 Qualcomm에서 배우는 필승 벤처 전략 (0) | 2012.05.02 |