丁香实验_LOGO
登录
提问
我要登录
|免费注册

进行倾向得分匹配纳入的变量数

相关实验:食品中大肠菌群的测定实验

user-title

纳什的那时

想请问下各位老师:

ps评分是由logistic回归得出的,是否要遵循5-10EPV的原则纳入变量计算Ps评分呢?因为看到很多文章,都把把所有变量纳入,会不会导致过度拟合,结果不准确呢?


比如某篇文章,病例组和对照组分别45和93例,确纳入了所有基线变量(13个)计算PS评分,EPV仅有45/13=3.46,是否最多只能纳入45/5=9个变量?

wx-share
分享

2 个回答

user-title

毛利小五郎的徒弟

有帮助

所有变量纳入一定会过度拟合,所以不要这样做

user-title

loveliufudan

有帮助

PS评分的构建可以采用多种方法,其中包括logistic回归等。在构建PS评分时,确保有足够的EPV是很重要的,因为EPV越高,对结果的置信度就越高。通常,建议至少每个分组(例如治疗组和对照组)需要有10个事件(例如死亡或复发)才能确保具有足够的EPV。

因此,如果病例组和对照组分别有45和93个个体,那么病例组的EPV仅为4.5,而对照组的EPV为9.3。在这种情况下,最好不要使用所有的基线变量来构建PS评分,因为这可能导致过度拟合和不准确的结果。

建议使用适当数量的变量,以确保足够的EPV。通常建议每个变量至少有5-10个事件(或10%的事件比例)来获得可靠的结果。因此,在这种情况下,建议最多只使用4-9个变量来构建PS评分,具体取决于每个变量的事件比例。同时,建议使用交叉验证或其他技术来评估模型的性能和稳定性。

提问
扫一扫
丁香实验小程序二维码
实验小助手
丁香实验公众号二维码
关注公众号
反馈
TOP
打开小程序