关于问题数据分析需要用什么技术?java 还 python 好一点?一共有 2 位热心网友为你解答:
【1】、来自网友【数据分析攻略】的最佳回答:
先说结论,
问题 1 回答:数据分析技术简单来说可归类为统计分析技术和数据可视化两类。
问题 2 回答:目前阶段做数据分析使用 Python 更高效,方便一点。
希望我作为数据分析师的经验能对你有帮助
1、数据分析的本质
数据分析是指用适当的统计方法对收集的大量数据进行数据分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程,最后再通过得到的结论应用到行业中解决实际问题。
简单概括来说数据分析就是– 处理数据然后推进优化现实工作。
数据分析应用在各行各业,互联网,工业,咨询行业等,有一个共同点,数据分析都是
为业务服务
的,用于解决实际运营中出来的问题,或者探索业务可优化的空间。
明白了这一点,就知道数据分析不是目的,数据分析的结果产出对业务的实际提升和优化才是目的,数据分析只是一种解决的方法,既然是方法,我们就要考虑它的效果,成本(学习成本,使用成本)等。
2.数据分析的技能要求
以现在最热门的互联网行业的数据分析而言,随便从招聘网站上截取部分应届生数据分析师招聘 JD,选取应届生是因为相对要求低一点,对题主想要入门应该更有参考下价值。
不同公司业务不同,对于“岗位职责”先可以不用太关注,我们这里主要看“任职资格”这一部分,关于技能方面,可以看到有 SQL,Python/R,Spark,hive,BI 工具等。
看起来需要掌握的很多,那我们再来通过大数据的方法看一下,获取招聘网站上的招聘要求,根据工具关键词出现的频率,绘制成数据分析所需工具
词云图
:
可以看到,Excel,sql,python,PPT,hive,spss 等出现的评率最高,同时可以可以看到还有很多其他的工具技能要求,但这几个出现频率最高的肯定是基本要求,那么是否这些工具我们都需要掌握呢,这个根据两个方面,一是你所处的工作阶段,二是作为数据分析师的不同方向。
我这里从数据分析方法的角度将数据分析方向分为三个:
业务数据分析,数据挖掘分析,大数据分析
。将每个方向对应的工具和方法做成思维导图如下:
可以见到,每个方向所对应的主要工具要求都不一样,一般来说,从业务数据分析》数据挖掘分析》大数据分析的技能门槛是逐步提高的,而且技能要求也是叠加的,也就是说例如数据挖掘分析师也需要掌握业务数据分析的工具和方法。
但这并不是数据分析师的发展路径
,这只是数据分析不同的方向,如果对业务数据分析非常感兴趣且工作非常有成效,有很好的数据分析思维,那么完全可以往业务方向发展,只掌握 SQL,EXCEL,PPT 等成为商业分析师和集团战略分析师也是没有问题的,所以根据自己的情况,不用过分追求技术,别忘记,
数据分析是为业务服务的!
。
根据以上部分我们可以总结回答下题主的第一个问题(数据分析需要的技术),结合上图,可以归纳为
描述性统计分析技术
(业务数据分析),
探索性统计分析技术
(数据挖掘,大数据分析),
数据可视化
(将数据分析结果图表化,撰写报告用或汇报用)。
3.Python
VS Java, 更高效,方便一点
既然题主提出 Python 和 Java 的对比,说明对编程语言和数据分析还是有一定了解的,结合上面
2
部分的分析,题主可能实际想知道的是 Python 和 Java 哪一个更适合做探索性的数据分析(数据挖掘和大数据分析),做简单的探索性分析其实用 SPSS 和 R 语言等一样可行。
但探索性数据分析里目前非常重要且流行的一个方法是机器学习,目前机器学习的主要框架如 Tensorflow, sklearn 等均是基于 Python 语言,因为应用广泛且被证明是
高效可行
的,所以目前来看使用成本相对较低,另外考虑到公司里的团队合作,使用同样的编程语言,团队交流合作也会更加高效。
另外涉及
学习成本
,Python 出名的灵活便捷使其成为数据分析的首选,使用 Python 做数据分析,掌握基本语法之后,学会使用 Numpy,Pandas,matplotlib 等库之后就可以开始数据分析,实现同样的数据分析功能,先比于 Java, Python 用更少的代码即可实现, 另外 Python 的众多数据分析相关的开源库也提供了很好的数据分析平台。
而 Java 并非在数据领域很少使用,相反它是大数据平台的基础,例如 Hadoop 等大数据平台是基于 Java, 但这部分更多的是数据开发和数据仓库方向的技术开发的内容,与数据分析有较大区别。即使是大数据分析师,在使用大数据平台时,掌握 Hive sql 也能完成取数要求,并不需要掌握 Java。
综上,数据分析技术因数据分析方向和阶段各异,主要是统计分析和数据可视化,现阶段 Python 比 Java 更适合做数据分析。谢谢
【2】、来自网友【IT 人刘俊明】的最佳回答:
这是一个非常好的问题,作为一名 IT 从业者,我来回答一下。
首先,随着大数据技术的落地应用,数据分析作为大数据的常见任务会逐渐增多,未来不仅 IT(互联网)行业会需要进行大量的数据分析,传统行业领域也会逐渐释放出大量的数据分析任务。
从当前的技术体系来看,目前常见的数据分析方式有两种,一种是统计学方式,另一种是机器学习方式,而无论采用哪种数据分析方式,通常都离不开程序设计。当前在生产环境下,数据分析任务通常都基于平台来展开,比如 Hadoop、Spark 就是比较常见的数据分析平台。
在 Hadoop 和 Spark 平台下,采用 Java 和 Python 都可以,同时也可以采用 Scala 和 R 等编程语言,开发人员可以根据自身的知识结构来选择具体的编程语言,而对于初学者来说,当前学习 Python 语言是不错的选择。
采用 Python 进行数据分析有三方面好处,其一是 Python 语言自身比较简单易学,初学者很容易上手;其二是 Python 语言有众多的库可以使用,比如 Numpy、Matplotlib、Pandas 等,这些库对于提升 Python 数据分析能力有非常直接的帮助;其三是 Python 语言本身就是一门全场景编程语言,具有较强的落地应用能力。
从当前的使用情况来看,在数据分析领域,Python 语言的上升趋势还是比较明显的,而且数据分析人员也比较愿意使用 Python,与 Java 语言主要应用在 IT(互联网)行业不同,Python 语言在传统行业的应用也比较普遍。
我从事互联网行业多年,目前也在带计算机专业的研究生,主要的研究方向集中在大数据和人工智能领域,我会陆续写一些关于互联网技术方面的文章,感兴趣的朋友可以关注我,相信一定会有所收获。
如果有互联网、大数据、人工智能等方面的问题,或者是考研方面的问题,都可以在评论区留言,或者私信我!