列表 第页
我在格式的日志,名为.tar.gz在S3中许多文件。我想处理它们,对它们进行处理(提取每行一个字段),并将其存储在一个新的文件。I have many files in the format log-.tar.gz in s3. I would like to process them, process them (...阅读全文
保存数据时到Amazon S3我怎样才能让Apache星火使用多部分上传。使用 RDD.saveAs ...文件方法星火写入数据。当目标被以 S3N:// 自动星火使用JetS3Tt做上传,但这种失败的文件超过5G大。大文件需要使用多载,这被认为是有益的更小的文件,以及要上传到S3。在JetS3Tt与 Multipar...阅读全文
我创建了所有可用的应用程序,包括星火在AWS的 EMR 4.0 实例。我手工做的,通过AWS控制台。我开始集群和SSHed到主节点时,它涨。在那里,我跑了 pyspark 。我收到以下错误,当 pyspark 试图创建 SparkContext :I created an EMR 4.0 instance in AW...阅读全文
我创建了一个火花集群,SSH到主,并启动外壳:I created a spark cluster, ssh into the master, and launch the shell:MASTER=yarn-client ./spark/bin/pyspark当我做到以下几点: x = sc.textFile("...阅读全文
我写一个火花的工作,尝试使用Scala读取文本文件,下面的工作正常在我的本地机器上。 VAL MYFILE =myLocalPath / myFile.csv对(线474; - Source.fromFile(MYFILE).getLines()){VAL数据= line.split()myHashMap.put(...阅读全文
我正在运行电子病历的Spark集群上的一些机器学习算法。我很好奇哪一种情况下的使用,因此我可以得到最佳的成本/性能提升?I am running some machine learning algorithms on EMR Spark cluster. I am curious about which kind o...阅读全文
为什么阿帕奇星火任务失败?我认为,由于DAG,即使没有缓存的任务是recomputable?我其实缓存,和我要么得到一个 FileNotFoundException异常或以下内容:Why do Apache Spark tasks fail? I thought, due to the DAG, that even...阅读全文
下面的指令通过EC2脚本安装集群后,我不能够正确地启动我的.jar,因为他们没有找到我穿上/根/持久HDFS /在主机和从机节点的数据文件。我读的其他职位,我需要preFIX与文件中的文件位置://,但它不会改变任何东西......我有这样的错误:After following instruction to ins...阅读全文
我在尝试使用星火主机上的EC2使用的这个指南,我的code是这样的:I am attempting to perform a simple transformation of common crawl data using Spark host on an EC2 using this guide, my code...阅读全文
我做对Cassandra的读性能的基准。在测试设置步骤,我创建1/2/4的EC2实例和数据节点的群集。我用100万条(约3 GB的CSV文件)写了1台。然后,我推出的Spark应用程序中使用的火花卡桑德拉连接器读取数据到一个RDD。 I'm doing a benchmark on Cassandra's Readi...阅读全文
我处理包含在星火csv.gz文件的S3文件夹。每个csv.gz文件都有一个包含列名的标题。I am processing an S3 folder containing csv.gz files in Spark. Each csv.gz file has a header that contains column...阅读全文
真的需要你的帮助来理解,我在做什么错。realy need your help to understand, what I'm doing wrong.我的实验的目的是利用./spark-shell运行火花的工作,而不是编程或./spark-submit(这两者的工作对我来说)The intent of my e...阅读全文
我试图运行FPGrowth算法星火的例子,但是,我穿过一个错误的到来。这是我的code:I am trying to run an example of the FPGrowth algorithm in Spark, however, I am coming across an error. This is my...阅读全文
我使用Flex星火滑块作为一个时间线,我创建了一个Flex视频播放器自定义组件。I am using Flex Spark Slider as a time-line for a Flex video player custom component I have created.我想prevent从点击滑块,并改变...阅读全文
我有:在数字的ArrayCollection; 使用上述ArrayCollection的,因为它的dataProvider一个列表,并virtualLayout = TRUE; 在自定义的ItemRenderer这显示了一个标签:一个)的数量二)根据数的y位置和最高数量可见an ArrayCollection...阅读全文
我有一个火花列表项渲染器和一个瓷砖布局。如果我滚动通过用鼠标点击滚动条上,并试图与滚动后的鼠标滚轮,有一个问题:I have a spark List with an item renderer and a tile layout.If I scroll by clicking with the mouse on...阅读全文
我有一个数据(比如用于例如,一百万行)在移动应用程序来显示在DataGrid中。我想弄清楚,只要滚动到达页面即末端的途径,使。网格上的最后一排它再次请求到服务器进行下一堆记录。滚动事件MX数据网格( HTTP ://blog.tremend.ro/2009/03/02/flex-live-scroll-datagri...阅读全文
我有一个Spark列表包括填写表单应用程序列表的数据提供者。什么是添加一个按钮,每个列表项(窗体应用程序)的最佳方法是什么?此按钮将被命名为开放式,并定位到指定的表单应用程序。I have a Spark List with a data provider consisting of a list of filled...阅读全文