亚洲免费在线-亚洲免费在线播放-亚洲免费在线观看-亚洲免费在线观看视频-亚洲免费在线看-亚洲免费在线视频

MultipleOutputFormat和MultipleOutputs

系統(tǒng) 2417 0

?

文章出處:http://www.cnblogs.com/liangzh/archive/2012/05/22/2512264.html

?

?

MultipleOutputFormat和MultipleOutputs

?

一,介紹

?

1, 舊API 中有 org.apache.hadoop.mapred.lib. MultipleOutputFormat 和org.apache.hadoop.mapred.lib. MultipleOutputs

?

MultipleOutputFormat allowing to write the output data to different output files.

?

MultipleOutputs creates multiple OutputCollectors. Each OutputCollector can have its own OutputFormat and types for the key/value pair. Your MapReduce program will decide what to output to each OutputCollector.

?

2, 新API中? org.apache.hadoop.mapreduce.lib.output. MultipleOutputs

?

整合了上面舊API兩個(gè)的功能,沒有了MultipleOutputFormat。

?

  The MultipleOutputs class simplifies writing output data to multiple outputs

?

  Case one: writing to additional outputs other than the job default output. Each additional output, or named output, may be configured with its own             OutputFormat, with its own key class and with its own value class.

?

  Case two: to write data to different files provided by user

?

下面這段話來自Hadoop:The.Definitive.Guide(3rd,Early.Release) P 251

?

  “In the old MapReduce API there are two classes for producing multiple outputs: MultipleOutputFormat and MultipleOutputs. In a nutshell, MultipleOutputs is more fully featured, but MultipleOutputFormat has more control over the output directory structure and file naming. MultipleOutputs in the new API combines the best features of the two multiple output classes in the old API.”

?

二,應(yīng)用

?

?1, 輸出到多個(gè)文件或多個(gè)文件夾:

?

  驅(qū)動(dòng)中不需要額外改變,只需要在MapClass或Reduce類中加入如下代碼

?

  private MultipleOutputs<Text,IntWritable> mos;
  public void?setup(Context context)?throws IOException,InterruptedException {
    mos = new MultipleOutputs(context);
  }
  public void?cleanup(Context context) throws IOException,InterruptedException {
    mos.close();
  }
  然后就可以用 mos.write(Key key,Value value,String baseOutputPath) 代替context.write(key, value);
  在MapClass或Reduce中使用,輸出時(shí)也會(huì)有默認(rèn)的文件part-m-00*或part-r-00*,不過這些文件是無內(nèi)容的,大小為0. 而且只有part-m-00*會(huì)傳給Reduce 。

?

? 2, 以多種格式輸出:

?

public class TestwithMultipleOutputs extends Configured implements Tool {

?

  public static class MapClass extends Mapper<LongWritable,Text,Text,IntWritable> {

?

    private MultipleOutputs<Text,IntWritable> mos;

?

    protected void setup(Context context) throws IOException,InterruptedException {
      mos = new MultipleOutputs<Text,IntWritable>(context);
    }

?

public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException{
      String line = value.toString();
      String[] tokens = line.split("-");

?

      mos.write("MOSInt",new Text(tokens[0]), new IntWritable(Integer.parseInt(tokens[1])));? //(第一處)
      mos.write("MOSText", new Text(tokens[0]),tokens[2]);    ? //(第二處)
      mos.write("MOSText", new Text(tokens[0]),line,tokens[0]+"/");   //(第三處)同時(shí)也可寫到指定的文件或文件夾中
    }

?

    protected void cleanup(Context context) throws IOException,InterruptedException {
      mos.close();
    }

?

  }
  public int run(String[] args) throws Exception {

?

    Configuration conf = getConf();

?

    Job job = new Job(conf,"word count with MultipleOutputs");

?

    job.setJarByClass(TestwithMultipleOutputs.class);

?

    Path in = new Path(args[0]);
    Path out = new Path(args[1]);

?

    FileInputFormat.setInputPaths(job, in);
    FileOutputFormat.setOutputPath(job, out);

?

    job.setMapperClass(MapClass.class);
    job.setNumReduceTasks(0);  

?

    MultipleOutputs.addNamedOutput(job,"MOSInt",TextOutputFormat.class,Text.class,IntWritable.class);
    MultipleOutputs.addNamedOutput(job,"MOSText",TextOutputFormat.class,Text.class,Text.class);

?

    System.exit(job.waitForCompletion(true)?0:1);
    return 0;
  }

  public static void main(String[] args) throws Exception {

?

    int res = ToolRunner.run(new Configuration(), new TestwithMultipleOutputs(), args);
    System.exit(res);
  }

?

}

?

測試的數(shù)據(jù):

?

abc-1232-hdf
abc-123-rtd
ioj-234-grjth
ntg-653-sdgfvd
kju-876-btyun
bhm-530-bhyt
hfter-45642-bhgf
bgrfg-8956-fmgh
jnhdf-8734-adfbgf
ntg-68763-nfhsdf
ntg-98634-dehuy
hfter-84567-drhuk

?

結(jié)果截圖:(結(jié)果輸出到/test/testMOSout)

?

MultipleOutputFormat和MultipleOutputs

?

遇到的一個(gè)問題:

?

  如果沒有mos.close(), 程序運(yùn)行中會(huì)出現(xiàn)異常:

?

  12/05/21 20:12:47 WARN hdfs.DFSClient: DataStreamer Exception:

  org.apache.hadoop.ipc.RemoteException:org.apache.hadoop.hdfs.server.namenode.LeaseExpiredException: No lease on
   /test/mosreduce/_temporary/_attempt_local_0001_r_000000_0/h-r-00000 File does not exist. [Lease. Holder: DFSClient_-352105532, pendingcreates: 5]

MultipleOutputFormat和MultipleOutputs


更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號聯(lián)系: 360901061

您的支持是博主寫作最大的動(dòng)力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點(diǎn)擊下面給點(diǎn)支持吧,站長非常感激您!手機(jī)微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點(diǎn)擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對您有幫助就好】

您的支持是博主寫作最大的動(dòng)力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長會(huì)非常 感謝您的哦?。?!

發(fā)表我的評論
最新評論 總共0條評論
主站蜘蛛池模板: 天天爆操 | 久久99久久99精品免观看不卡 | 涩涩免费播放观看在线视频 | 亚洲无线码一区在线观看 | 不卡一级毛片免费高清 | 精品中文字幕一区在线 | 日日狠日 | 国产精品一区二区在线观看 | 天天天天鲁天天拍一拍 | 91青草久久久久久清纯 | 在线观看国产福利 | 免费一级特黄欧美大片勹久久网 | 国产精品日韩欧美一区二区三区 | 国产午夜亚洲精品久久www | 99精品大学生啪啪自拍 | 国产永久 | 91在线播放免费不卡无毒 | 狠狠色噜噜狠狠狠狠米奇777 | 91成人国产 | 黑人和黑人激情一级毛片 | 天天视频国产免费入口 | 久久精品免费一区二区视 | 奇米影视777在线观看 | 天天操天天干天天摸 | 精品国产午夜久久久久九九 | 天天色天天射天天干 | 日韩伦理一区二区 | 成人国内精品久久久久影院 | 午夜dj影院在线视频观看完整 | 天天草天天干 | 四虎国产精品免费久久影院 | 久久婷婷激情综合中文字幕 | 亚洲va久久久久综合 | 搡女人免费的视频 | 中午字幕在线观看 | 日本夜夜夜 | 午夜免费福利在线观看 | 免费久久久久 | 精品福利影院 | 国产欧美久久一区二区 | 日韩精品国产自在久久现线拍 |