Python是一门动态的、面向对象的脚本语言,同时也是一门简约、通俗易懂的编程语言。Python是开源的,它拥有非常多优秀的库,在做数据分析会需要用到Numpy库、Pandas库、Matplotlib库、Seaborn库、NLTK库、SciPy库、scikit-learn库、statsmodels库等。

Numpy是Python开源的数值计算扩展工具,能够支持高级的维度数组与矩阵运算。此外,针对数组运算也提供了大量的数学函数库,是大部分Python科学计算的基础,具有很多功能。

Pandas是一个基于Numpy的数据分析包,纳入了大量库和标准的数据模型,提供了高效地操作大型数据集所需要的函数和方法,使用户能快速便捷地处理数据。

Matplotlib是一个用在Python中绘制数组的2D图形库,是Python中最出色的绘图库。主要用纯Python语言编写的,它大量使用Numpy和其他扩展代码,即使对大型数组也能提供良好的性能。

Seaborn是Python中基于Matplotlib的数据可视化工具,提供了很多高层封装的函数,帮助数据分析人员快速绘制美观的数据图形,从而避免了许多额外的参数配置问题。

NLTK是用于构建使用人类语言数据的Python程序,它为超过50个语料库和词汇资源提供了易于使用的接口,还提供了一套文本处理库,用于分类、标记化、词干化、解析和语义推理。

发表评论

您的电子邮箱地址不会被公开。