小編整理: 分類變量是用于表示事物類別的變量,其取值是分類數(shù)據(jù),如“性別”、“行業(yè)”等。分類變量的取值是離散的,通常是一組有限的非連續(xù)值。它們可以被用來區(qū)分不同的事物,并描述它們的特征和屬性。
分類變量 分類變量(categorical variable)是說明事物類別的一個名稱,其取值是 分類數(shù)據(jù) 。如“性別”就是一個分類變量,其變量值為“男”或“女”;“行業(yè)”也是一個分類變量,其變量值可以為“零售業(yè)”、“旅游業(yè)”、“汽車制造 業(yè)”等。
基本信息
性質
說明事物類別的一個名稱,其取值是分類數(shù)據(jù)
簡介
特征 (categorical variable):其變量值是定性的,表現(xiàn)為互不相容的類別或屬性。
處理方法 中序次測度變量和名義測度變量的處理方法一樣,所以一般并不加以區(qū)分,序次測度變量常作為名義測度變量來用,把二者合稱為分類變量。
啞變量 分類自變量的啞變量(dummy variables)編碼來源:生物統(tǒng)計學論壇 在多重回歸、Logistic回歸模型中,自變量可以是連續(xù)型變量(interval variables),也可以是二項分類變量,和多分類變量。為了便于解釋,對二項分類變量(如好壞、死活、發(fā)病不發(fā)病等)一般按0、1編碼,一般0表示 陰性 或較輕情況,而1表示陽性或較嚴重情況。如果對二項分類變量按+1與-1編碼,那么所得的 logistic回歸 OR=exp(2beta),多重回歸的beta同樣增加一倍,容易造成錯誤的解釋。因此建議盡量避免“+1”、“-1”編碼形式。多分類變量又可分為有序(等級)或無序(也叫名義),如果是有序(ordinal)分類變量,一般可按對 因變量 影響由小到大的順序編碼為1、2、3、...,或按數(shù)據(jù)的自然大小,將它當作連續(xù)型變量處理。如果是無序的(nominal)分類變量,則需要采用啞變量(dummy variables)進行編碼,下面以職業(yè)(J)為例加予以說明。假如職業(yè)分類為工、農、商、學、兵5類,則可定義比分類數(shù)少1個,即5-1=4個啞變量
類型 變量類型不是一成不變的,根據(jù)研究目的的需要,各類變量之間可以進行轉化。例如血紅蛋白量(g/L)原屬數(shù)值變量,若按 血紅蛋白 正常與偏低分為兩類時,可按二項分類資料分析;若按重度貧血、中度貧血、輕度貧血、正常、血紅蛋白增高分為五個等級時,可按等級資料分析(資料是根據(jù)臨床數(shù)據(jù)得出)。有時亦可將分類資料數(shù)量化,如可將病人的惡心反應以0、1、2、3表示,則可按數(shù)值變量資料(定量資料)分析。
分類 分類變量可分為無序變量和有序變量兩類。
釋義 無序分類變量(unordered categorical variable)是指所分類別或屬性之間無程度和順序的差別。,它又可分為①二項分類,如性別(男、女),藥物反應(陰性和陽性)等;②多項分類,如血型(O、A、B、AB),職業(yè)(工、農、商、學、兵)等。對于無序分類變量的分析,應先按類別分組,清點各組的觀察單位數(shù),編制分類變量的頻數(shù)表,所得資料為無序分類資料,亦稱 計數(shù)資料 。 有序分類變量 (ordinal categorical variable)各類別之間有程度的差別。如尿糖化驗結果按-、±、+、++、+++分類;療效按治愈、顯效、好轉、無效分類。對于有序分類變量,應先按等級順序分組,清點各組的觀察單位個數(shù),編制有序變量(各等級)的頻數(shù)表,所得資料稱為 等級資料 。