没有完美的数据插补法,只有最适合的
发布时间:2018-10-27 10:01:11 所属栏目:教程 来源:大数据文摘
导读:副标题#e# 大数据文摘出品 编译:张秋玥、胡笳、夏雅薇 数据缺失是数据科学家在处理数据时经常遇到的问题,本文作者基于不同的情境提供了相应的数据插补解决办法。没有完美的数据插补法,但总有一款更适合当下情况。 我在数据清理与探索性分析中遇到的最常
根据数据类型的不同,距离度量也不尽相同:
KNN算法最吸引人的特点之一在于,它易于理解也易于实现。其非参数的特性在某些数据非常“不寻常”的情况下非常有优势。 KNN算法的一个明显缺点是,在分析大型数据集时会变得非常耗时,因为它会在整个数据集中搜索相似数据点。此外,在高维数据集中,最近与最远邻居之间的差别非常小,因此KNN的准确性会降低。
在上述方法中,多重插补与KNN最为广泛使用,而由于前者更为简单,因此其通常更受青睐。 相关报道:https://towardsdatascience.com/how-to-handle-missing-data-8646b18db0d4 【本文是51CTO专栏机构大数据文摘的原创文章,微信公众号“大数据文摘( id: BigDataDigest)”】 戳这里,看该作者更多好文 【编辑推荐】
点赞 0 (编辑:PHP编程网 - 黄冈站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |