Dpark

Dpark-AND-Spark
Dpark：Dpark是国内豆瓣公司根据Spark进行的克隆版本的实现
DPark 是一个类似MapReduce 的基于Mesos（Apache 下的一个集群管理器，提供了有效的、跨分布式应用或框架的资源隔离和共享等功能）的集群并行计算框架（Cluster Computing Framework），DPark 是Spark 的Python克隆版本，是一个Python 实现的分布式计算框架，可以非常方便地实现大规模数据处理和低延时的迭代计算。该计算框架类似于MapReduce，但是比其更灵活，可以用Python 非常方便地进行分布式计算，并且提供了更多的功能，以便更好地进行迭代式计算。DPark 由国内的豆瓣公司开发实现和负责维护，据豆瓣公司的描述，目前豆瓣公司内部的绝大多数数据分析都使用DPark 完成，整个项目也正趋于完善。
Dpark克隆与Spark
参考网站：http://suanfazu.com/t/dpark-de-chu-bu-shi-yong/444
本例实现参考自：https://blog.csdn.net/myjiayan/article/details/52463053?hmsr=toutiao.io&utm_medium=toutiao.io&utm_source=toutiao.io
Spark官方文档：http://spark.apache.org/docs/latest/api/python/pyspark.sql.html
Dpark：https://github.com/douban/dpark
简介：
DPark is a Python clone of Spark, MapReduce(R) alike computing framework supporting iterative computation.
Example for word counting (wc.py):
from dpark import DparkContext
ctx = DparkContext()
file = ctx.textFile("/tmp/words.txt")
words = file.flatMap(lambda x:x.split()).map(lambda x:(x,1))
wc = words.reduceByKey(lambda x,y:x+y).collectAsMap()
print wc
This script can run locally or on a Mesos cluster without any modification, just using different command-line arguments:
$ python wc.py
$ python wc.py -m process
$ python wc.py -m host[:port]
参考资料：
1:https://blog.csdn.net/ns2250225/article/details/43484369
2:dpark和spark区别https://blog.csdn.net/sanqima/article/details/51201067
3：官方资料https://github.com/jackfengji/test_pro/wiki

#---------------------------------------------------------------------------------------------------------------------------------------# 关于本例：./Dpark/Dpark_Test 目录为网上demo，一个是PI值估算，一个是wordcount；
./Dpark/DparkAndSpark 目录主要解析网页访问请求'127.0.0.1 - - [01/Aug/1995:00:00:01 -0400] "GET /images/launch-logo.gif HTTP/1.0" 200 1839' 解析不同状态等信息获取所需消息。
./data/NASA_LOG_MIN.txt 文件为http访问请求状态，完整数据来源：http://ita.ee.lbl.gov/html/contrib/NASA-HTTP.html 或者（链接：https://pan.baidu.com/s/1mi04sys 密码：3max），本例中只使用了部分数据。
Regularization.py:对信息进行规则化处理，此过程借用了spark中的ROW方法，日后可根据返回数据类型做更改。
DparkAnalysis.py:使用dpark对信息进行map reduce操作。
StatisticAnalysis.py:进行各种分析，详见代码注释
StatisticAnalysis404.py:专门对404状态url进行分析。

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
DparkAndSpark		DparkAndSpark
Dpark_Test		Dpark_Test
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

DparkAndSpark

DparkAndSpark

Dpark_Test

Dpark_Test

.gitignore

.gitignore

LICENSE

LICENSE

README.md

README.md

Repository files navigation

Dpark

About

Releases

Packages

Languages

License

Liangchengdeye/Dpark

Folders and files

Latest commit

History

Repository files navigation

Dpark

About

Resources

License

Stars

Watchers

Forks

Languages