pydbgen:一个数据库随机生成器
副标题[/!--empirenews.page--]
在研究数据科学的过程中,最麻烦的往往不是算法或者技术,而是如何获取到一批原始数据。尽管网上有很多真实优质的数据集可以用于机器学习,然而在学习 SQL 时却不是如此。 对于数据科学来说,熟悉 SQL 的重要性不亚于了解 Python 或 R 编程。如果想收集诸如姓名、年龄、信用卡信息、地址这些信息用于机器学习任务,在 Kaggle 上查找专门的数据集比使用足够大的真实数据库要容易得多。 如果有一个简单的工具或库来帮助你生成一个大型数据库,表里还存放着大量你需要的数据,岂不美哉? 不仅仅是数据科学的入门者,即使是经验丰富的软件测试人员也会需要这样一个简单的工具,只需编写几行代码,就可以通过随机(但是是假随机)生成任意数量但有意义的数据集。 因此,我要推荐这个名为 pydbgen 的轻量级 Python 库。在后文中,我会简要说明这个库的相关内容,你也可以阅读它的文档详细了解更多信息。 pydbgen 是什么
如何安装 pydbgen目前 1.0.5 版本的 pydbgen 托管在 PyPI(Python 包索引存储库)上,并且对 Faker 有依赖关系。安装 pydbgen 只需要执行命令:
已经在 Python 3.6 环境下测试安装成功,但在 Python 2 环境下无法正常安装。 如何使用 pydbgen在使用
随后就可以调用
另外,如果你输入的是
生成随机的 Pandas Dataframe你可以指定生成数据的数量和种类,但需要注意的是,返回结果均为字符串或文本类型。
最终产生的 Dataframe 类似下图所示。 生成数据库表你也可以指定生成数据的数量和种类,而返回结果是数据库中的文本或者变长字符串类型。在生成过程中,你可以指定对应的数据库文件名和表名。
上面的例子种生成了一个能被 MySQL 和 SQLite 支持的 生成 Excel 文件和上面的其它示例类似,下面的代码可以生成一个具有随机数据的 Excel 文件。值得一提的是,通过将
(编辑:PHP编程网 - 黄冈站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |