人機測試,又稱人機對話測試,指將編制開發(fā)好的標準化測驗通過軟件技術加載在計算機上,并按照測驗的規(guī)范要求設定操作程序。被評價者根據程序指引直接在計算機上答題,答題結束后,計算機自動統(tǒng)計各測量內容的得分,并對比事先設定的常模,得出測評結果。簡單點說,人機對話測試就是在計算機上完成的測試。

類型

目前,人機對話測試分單機版、局域網版、遠程網絡版幾大類型。隨著經濟高速發(fā)展,企業(yè)規(guī)模不斷擴大,網絡技術日新月異,遠程網絡版人機對話測試逐漸成為主流,它不僅避免了傳統(tǒng)紙筆測試在人力、物力、時間上的資源浪費,以及分數統(tǒng)計誤差,還能解決不同地區(qū)同時測試統(tǒng)一管理的問題。

常識

標準化測驗

標準化測驗是通過嚴格完整的程序編制的,具有事先確定的測驗題目、規(guī)范的施測流程、客觀的評分標準和標準的結果解釋系統(tǒng),此外還有測驗的信度、效度和項目分析數據等相關資料用以說明測驗的質量。因此,一套好的標準化測驗的編制成本比較高,但相應地,它的科學性和價值也非常高,此外,一旦編制成功,它具有使用方便、經濟、客觀等特點。

編制一套標準化測驗時,專業(yè)研究人員通常要經過如下幾大步驟:確定與分析測量的目標和內容——題目的編寫與排列——預測與題目分析——題目修訂——規(guī)范測試程序和要求——樣本收集與建立常?!哦刃Ф鹊认嚓P分析——制定結果解釋

標準化測驗能夠對人的許多方面進行比較客觀的評價,尤其在評價底層潛在的、不易從行為表現中直接觀察出來的素質時。而且顯示出比較高的有效性,如個性特征、智力、能力傾向、價值觀、興趣等。

信度

信度表示測量數據和結論的可靠性程度,即評價工具穩(wěn)定地測評到它要測量的內容的程度。一般來說,檢驗信度有以下幾種方法:

重測信度:在恰當的時間間隔前后,重復同樣的測量,統(tǒng)計兩次測量結果的匹配程度。

復本信度:用原本和復本同時進行測量,統(tǒng)計原本和復本測量結果的相關程度。

分半信度:在沒有復本且不能重測的情況下,將同一測量內容的測驗題目隨機分成兩組,統(tǒng)計兩組測量結果的相關程度。

評分者信度:用于測量工具的標準化程度較低的情況下,比較典型的是評委主觀評分的測量。不同評委的判分標準會影響測量的信度,因此需用計算兩位評委評分的相關程度。

效度

效度表示評價的正確性程度,即評價工具準確地反映到它要測量的內容的程度。一般來說,檢驗效度有以下幾種方法:

內容效度:系統(tǒng)地檢查測量內容的適當性,即根據對要測量內容的了解去鑒別測驗題目。

準則效度:用已經被假設或定義為測量某一內容有效的工具作為效標,當用新的測量工具對該內容進行測量時,統(tǒng)計測量結果與效標測量結果的一致性程度。

結構效度:系統(tǒng)地檢查測量工具是否反映了要測量內容的概念和命題結構,這種方法常常在理論的研究中使用,因此也被稱為理論效度。

從信度和效度的關系上來看,信度不高,效度必定不高;信度高,效度不一定高;效度不高,信度不一定不高;效度高,信度必定高。

常模

測量結果是否準確,常模(Norm)的適合性是非常關鍵的因素。常模是一群人在同一測量工具中得分的分布情形,這群人就是獲得該常模的樣本。某人在某一測量工具中的得分,需要經過常模的比較才具有意義和參考價值。例如,某人完成100題數學題,答對了70題,那么他的成績屬于優(yōu)秀、普通還是不及格,就需要和他同年齡、同教育水平的群體進行比較。因此,為使測量結果更為準確,常模需要依據性別、年齡、學歷,甚至所在區(qū)域、崗位性質、職位高低、行業(yè)背景等進行細分。

標準九分

它是一種標準分,將樣本的測驗原始得分劃分為9部分,最高是9分,最低1分,除1和9的范圍略大以外,其余均是以5為中心向兩邊各包含0.5個標準差的分數段。簡單理解,即9為最高分,1為最低分,5為中間分。

掩飾性

受到測評動機的影響,被評價者在完成某些測驗(如個性特征測驗)時,有時會掩飾自身的真實情況,揣測測驗編制者的出題用意,從社會贊許度較高的方向答題,容易導致測評結果不能準確反映被評價者的實際,甚至與實際截然相反。為鑒別真實回答與虛假回答,測驗編制者在非能力測評的測驗中加入掩飾性分量表,通過分析被評價在掩飾性分量表上的得分高低,了解其在測驗過程中是否存在掩飾性以及掩飾程度,從而推斷整個測驗結果的準確性和有效性。