nav emailalert searchbtn searchbox tablepage yinyongbenwen piczone journalimg journalInfo journalinfonormal searchdiv searchzone qikanlogo popupnotification paper paperNew
2025, 11, v.42 152-160
属性数据分析方法的应用误区——基于2010—2024年CSSCI来源期刊文献的分析
基金项目(Foundation): 教育部人文社会科学研究青年项目“普惠医疗保险高质量发展的精算定价模型与风险管理研究”(23YJC790200); 北京市属高等学校优秀青年人才培育计划项目“大数据背景下老年人健康预期寿命不平等的多维测度研究”(BPHR202203166)
邮箱(Email): xiaojun_wang@ruc.edu.cn;
DOI: 10.19343/j.cnki.11-1302/c.2025.11.012
摘要:

属性数据分析是统计学中的重要方法,在社会科学领域研究中有着广泛应用,但在当前学术研究应用中存在较多的使用误区。本文通过梳理2010—2024年社会科学领域CSSCI来源期刊中使用Logit模型或Probit模型等分析方法的文献,并从模型选取、变量选择、统计推断、结果解释和因果推断5个方面,总结属性数据分析方法的应用现状及常见错误类型。结果表明,学术研究在使用属性数据分析方法时,主要存在线性模型与非线性模型的混淆使用、变量选择标准缺乏统一性、统计推断方法误用和参数估计结果错误解读等问题。此外,本文分析了错误应用产生的原因,并给出相应的建议。研究结果以期阐释属性数据分析方法常见误区背后的统计学原理,为社会科学研究中正确使用属性数据分析方法提供借鉴。

Abstract:

Categorical data analysis is an important statistical method widely used in social science research. However, there are numerous mistakes in current academic research. This study reviews the literature from CSSCI journals in social sciences between 2010 and 2024 that utilizes methods such as Logit model or Probit model. It summarizes the application status and common error types in categorical data analysis from five aspects: model selection, variable selection, statistical inference, result interpretation, and causal inference. The results indicate that the main issues include the incorrectly distinguish linear and nonlinear models, inconsistent variable selection criteria, misuse of statistical inference methods, and misinterpretation of parameter estimation results when using attribute data analysis methods in academic research. Additionally, this paper analyzes the causes of these mistakes and provides corresponding strategies. The research aims to clarify the statistical principles behind the common mistakes in categorical data analysis methods, and offers guidance for their correct application in social science research.

参考文献

[1]陈强.高级计量经济学及Stata应用[M].第2版.北京:高等教育出版社, 2014.

[2]丹尼尔.A.鲍威斯,谢宇.分类数据分析的统计方法[M].第2版.北京:社会科学文献出版社, 2018.

[3]郭志刚.社会统计分析方法[M].北京:中国人民大学出版社, 1999.

[4]洪岩璧. Logistic模型的系数比较问题及解决策略:一个综述[J].社会, 2014, 35(4):220–241.

[5]胡安宁.教育能否让我们更健康——基于2010年中国综合社会调查的城乡比较分析[J].中国社会科学, 2014(5):116–130.

[6]江艇.因果推断经验研究中的中介效应与调节效应[J].中国工业经济, 2022(5):100–120.

[7]李仲武,王群勇.提高女性家庭地位的心理途径:自我认同的例子[J].统计研究, 2020, 37(11):44–56.

[8]谢宇.回归分析[M].北京:社会科学文献出版社, 2010.

[9]朱家祥,张文睿.调节效应的陷阱[J].经济学(季刊), 2021, 21(5):1867–1876.

[10] Agresti A. Categorical Data Analysis[M]. 3rd Edition. New Jersey:Wiley, 2012.

[11] Allson P D. Comparing Logit and Probit Coefficients Across Groups[J]. Sociological Methods&Research, 1999, 28(2):186–208.

[12] Baron R M, Kenny, D A. Moderator-Mediator Variables Distinction in Social Psychological Research:Conceptual, Strategic, and Statistical Considerations[J]. Journal of Personality and Social Psychology, 1986, 51(6):1173–1182.

[13] Bartlett M S. Some Examples of Statistical Methods of Research in Agriculture and Applied Biology[J]. Journal of the Royal Statistical Society,1937(4):137–183.

[14] Berkson J. Application of the Logistic Function to Bio-Assay[J]. Journal of the American Statistical Association, 1944, 39(227):357–365.

[15] Breen R, Karlson K B, Holm A. Total, Direct, and Indirect Effects in Logit and Probit Models[J]. Sociological Methods&Research, 2013, 42(2):164–191.

[16] Clogg C C, Shihadeh E S. Statistical Models for Ordinal Variable[M]. Thousand Oaks:Sage Publications, 1994.

[17] Greenland S, Pearl J, Robins J M. Causal Diagrams for Epidemiologic Research[J]. Epidemiology, 1999, 10(1):37–48.

[18] Karlson K B, Holm A, Breen H R. Comparing Regression Coefficients Between Same-sample Nested Models Using Logit and Probit:A New Method[J]. Sociological Methodology, 2012, 42(1):286–313.

[19] Leamer E E. Let’s Take the Con Out of Econometrics[J]. American Economic Review, 1983, 73(1):31–43.

[20] Lee P H. Is a Cutoff of 10%Appropriate for the Change-in-Estimate Criterion of Confounder Identification?[J]. Journal of Epidemiology, 2014,24(2):161–167.

[21] MacKinnon D P, Lockwood C M, Williams J. Confidence Limits for the Indirect Effect:Distribution of the Product and Resampling Methods[J].Multivariate Behavioral Research, 2004, 39(1):99–128.

[22] Mcfadden D. Modelling the Choice of Residential Location[J]. Spatial Interaction Theory&Residential Location, 1977, 673(477):72–77.

[23] Mize T D. Best Practices for Estimating, Interpreting, and Presenting Nonlinear Interaction Effects[J]. Sociological Science, 2019, 6(4):81–117.

[24] Mood C. Logistic Regression:Why We Cannot Do What We Think We Can Do, and What We Can Do About It[J]. European Sociological Review, 2010, 26(1):67–82.

[25] Mustillo S A, Lizardo O A, Mcveigh R M. Editors’ Comment:A Few Guidelines for Quantitative Submissions[J]. American Sociological Review, 2018, 83(6):1281–1283.

[26] Nelder J A, Wedderburn R W M. Generalized Linear Models[J]. Journal of the Royal Statistical Society, Series A, 1972, 135(3):370–384.

[27] Ronald L W, Nicole A L. The ASA’s Statement on p-Values:Context, Process, and Purpose[J]. The American Statistician, 2016, 70(2):129–133.

[28] Roodman D. CMP:Stata Module to Implement Conditional(Recursive)Mixed Process Estimator[CT], 2021.

[29] Sobel M E. Asymptotic Confidence Intervals for Indirect Effects in Structural Equation Models[J]. Sociological Methodology, 1982, 13:290–312.

[30] Yuan Y, MacKinnon D P. Bayesian Mediation Analysis[J]. Psychological Methods, 2009, 14(4):301–322.

(1)“篇关摘”是中国知网中的一种检索字段,代表在文献的篇名、关键词、摘要三个字段范围内进行检索。

(1)文献中对Odds指标的翻译有如下几种。几率、比率、优势、发生比率等,则对应的Odds Ratio(OR)翻译为几率比、比率比、优势比、发生比率比等。上述翻译均能表达出Odds指标的中文含义,在具体应用时,建议根据研究问题的不同,选择语境上更为适合的翻译即可。

(1)当前针对p值的应用饱受学术界的争议,本文并不对此进行讨论,仅是在没有提出更好的取代p值进行统计推断的方法之前,来避免p值应用中的常见误区。

(2)M模型是指研究者所建立的待检验模型。

(1)此处的系数主要是指Logit模型中的几率比(OR)或对数几率比(lnOR)。

(2)由于Probit模型回归系数不具有直观含义,研究中往往通过边际效应进行解释和推断,因此在Probit模型中添加交互项时往往会避免直接使用系数进行统计推断。

(1)当前已有较多研究指出了中介分析方法忽略了内生性问题的错误之处(江艇,2022),对此本研究不再重复讨论,而是在假设模型设定不存在内生性问题的前提下,探讨非线性模型使用中介分析方法存在的常见应用误区,并阐释方法背后的统计学原理,为正确使用中介效应分析方法提供借鉴。

基本信息:

DOI:10.19343/j.cnki.11-1302/c.2025.11.012

中图分类号:C81

引用信息:

[1]赵明,王晓军.属性数据分析方法的应用误区——基于2010—2024年CSSCI来源期刊文献的分析[J].统计研究,2025,42(11):152-160.DOI:10.19343/j.cnki.11-1302/c.2025.11.012.

基金信息:

教育部人文社会科学研究青年项目“普惠医疗保险高质量发展的精算定价模型与风险管理研究”(23YJC790200); 北京市属高等学校优秀青年人才培育计划项目“大数据背景下老年人健康预期寿命不平等的多维测度研究”(BPHR202203166)

投稿时间:

2025-06-16

投稿日期(年):

2025

终审时间:

2025-11-12

终审日期(年):

2025

审稿周期(年):

1

发布时间:

2025-11-25

出版时间:

2025-11-25

检 索 高级检索

引用

GB/T 7714-2015 格式引文
MLA格式引文
APA格式引文