org.apache.hadoop.mapreduce.lib.input.LineRecordReader源码实例Demo-ICode联盟

类org.apache.hadoop.mapreduce.lib.input.LineRecordReader源码实例Demo

下面列出了怎么用org.apache.hadoop.mapreduce.lib.input.LineRecordReader的API类实例代码及写法，或者点击链接到github查看源代码。

源代码1 项目： aliyun-maxcompute-data-collectors 文件： CombineShimRecordReader.java

/**
 * Actually instantiate the user's chosen RecordReader implementation.
 */
@SuppressWarnings("unchecked")
private void createChildReader() throws IOException, InterruptedException {
  LOG.debug("ChildSplit operates on: " + split.getPath(index));

  Configuration conf = context.getConfiguration();

  // Determine the file format we're reading.
  Class rrClass;
  if (ExportJobBase.isSequenceFiles(conf, split.getPath(index))) {
    rrClass = SequenceFileRecordReader.class;
  } else {
    rrClass = LineRecordReader.class;
  }

  // Create the appropriate record reader.
  this.rr = (RecordReader<LongWritable, Object>)
      ReflectionUtils.newInstance(rrClass, conf);
}

源代码2 项目： incubator-retired-pirk 文件： JSONRecordReader.java

@Override
public void initialize(InputSplit inputSplit, TaskAttemptContext context) throws IOException
{
  key = new Text();
  value = new MapWritable();
  jsonParser = new JSONParser();

  lineReader = new LineRecordReader();
  lineReader.initialize(inputSplit, context);

  queryString = context.getConfiguration().get("query", "?q=*");

  // Load the data schemas
  FileSystem fs = FileSystem.get(context.getConfiguration());
  try
  {
    SystemConfiguration.setProperty("data.schemas", context.getConfiguration().get("data.schemas"));
    DataSchemaLoader.initialize(true, fs);
  } catch (Exception e)
  {
    e.printStackTrace();
  }
  String dataSchemaName = context.getConfiguration().get("dataSchemaName");
  dataSchema = DataSchemaRegistry.get(dataSchemaName);
}

源代码3 项目： components 文件： ConfigurableHDFSFileSource.java

protected Job jobInstance() throws IOException {
    Job job = Job.getInstance();
    // deserialize map to conf
    Configuration conf = job.getConfiguration();
    for (Map.Entry<String, String> entry : map.entrySet()) {
        conf.set(entry.getKey(), entry.getValue());
    }
    // TODO: We've explicitly listed all the schemas supported here, but the filesystem schema could be dynamically
    // generated from the path (resolved against the default name node).
    conf.set("fs.gs.impl.disable.cache", "true");
    conf.set("fs.s3t.impl.disable.cache", "true");
    conf.set("fs.file.impl.disable.cache", "true");
    conf.set("fs.hdfs.impl.disable.cache", "true");
    conf.set(LineRecordReader.MAX_LINE_LENGTH,
             Integer.toString(conf.getInt("maxRowSize", 10*1024*1024))); // 10 Mo Max per line.

    return job;
}

源代码4 项目： hadoop-connectors 文件： GsonRecordReader.java

/**
 * Called once at initialization to initialize the RecordReader.
 *
 * @param genericSplit the split that defines the range of records to read.
 * @param context the information about the task.
 * @throws IOException on IO Error.
 */
@Override
public void initialize(InputSplit genericSplit, TaskAttemptContext context)
    throws IOException, InterruptedException {
  if (logger.atFine().isEnabled()) {
      logger.atFine().log(
          "initialize('%s', '%s')",
          HadoopToStringUtil.toString(genericSplit), HadoopToStringUtil.toString(context));
  }
  Preconditions.checkArgument(genericSplit instanceof FileSplit,
      "InputSplit genericSplit should be an instance of FileSplit.");
  // Get FileSplit.
  FileSplit fileSplit = (FileSplit) genericSplit;
  // Create the JsonParser.
  jsonParser = new JsonParser();
  // Initialize the LineRecordReader.
  lineReader = new LineRecordReader();
  lineReader.initialize(fileSplit, context);
}

源代码5 项目： components 文件： LimitedLineRecordReader.java

public static <KEYIN, VALUEIN>  RecordReader<KEYIN, VALUEIN> buildReader(RecordReader<KEYIN, VALUEIN> reader) {
    if (reader instanceof LimitedLineRecordReader) {
        // already encapsulate
        return reader;
    }
    if (!LineRecordReader.class.isInstance(reader) &&
        !CSVFileRecordReader.class.isInstance(reader)) {
        // only line file reader.
        return reader;
    }
    return (RecordReader<KEYIN, VALUEIN>) new LimitedLineRecordReader(reader);
}

源代码6 项目： mrgeo 文件： DelimitedVectorRecordReader.java

@Override
@SuppressWarnings("squid:S2095") // recordReader is closed explictly in the close() method
public void initialize(InputSplit split, TaskAttemptContext context) throws IOException,
    InterruptedException
{
  if (split instanceof FileSplit)
  {
    FileSplit fsplit = (FileSplit) split;
    delimitedParser = getDelimitedParser(fsplit.getPath().toString(),
        context.getConfiguration());
    recordReader = new LineRecordReader();
    recordReader.initialize(fsplit, context);
    // Skip the first
    if (delimitedParser.getSkipFirstLine())
    {
      // Only skip the first line of the first split. The other
      // splits are somewhere in the middle of the original file,
      // so their first lines should not be skipped.
      if (fsplit.getStart() != 0)
      {
        nextKeyValue();
      }
    }
  }
  else
  {
    throw new IOException("input split is not a FileSplit");
  }
}

源代码7 项目： presto 文件： GenericHiveRecordCursorProvider.java

@Override
public Optional<ReaderRecordCursorWithProjections> createRecordCursor(
        Configuration configuration,
        ConnectorSession session,
        Path path,
        long start,
        long length,
        long fileSize,
        Properties schema,
        List<HiveColumnHandle> columns,
        TupleDomain<HiveColumnHandle> effectivePredicate,
        DateTimeZone hiveStorageTimeZone,
        TypeManager typeManager,
        boolean s3SelectPushdownEnabled)
{
    configuration.setInt(LineRecordReader.MAX_LINE_LENGTH, textMaxLineLengthBytes);

    // make sure the FileSystem is created with the proper Configuration object
    try {
        this.hdfsEnvironment.getFileSystem(session.getUser(), path, configuration);
    }
    catch (IOException e) {
        throw new PrestoException(HIVE_FILESYSTEM_ERROR, "Failed getting FileSystem: " + path, e);
    }

    Optional<ReaderProjections> projectedReaderColumns = projectBaseColumns(columns);

    RecordCursor cursor = hdfsEnvironment.doAs(session.getUser(), () -> {
        RecordReader<?, ?> recordReader = HiveUtil.createRecordReader(
                configuration,
                path,
                start,
                length,
                schema,
                projectedReaderColumns
                        .map(ReaderProjections::getReaderColumns)
                        .orElse(columns));

        return new GenericHiveRecordCursor<>(
                configuration,
                path,
                genericRecordReader(recordReader),
                length,
                schema,
                projectedReaderColumns
                        .map(ReaderProjections::getReaderColumns)
                        .orElse(columns),
                hiveStorageTimeZone);
    });

    return Optional.of(new ReaderRecordCursorWithProjections(cursor, projectedReaderColumns));
}

源代码8 项目： tinkerpop 文件： ScriptRecordReader.java

public ScriptRecordReader() {
    this.lineRecordReader = new LineRecordReader();
}

源代码9 项目： tinkerpop 文件： GraphSONRecordReader.java

public GraphSONRecordReader() {
    this.lineRecordReader = new LineRecordReader();
}

源代码10 项目： hadoop-connectors 文件： JsonTextBigQueryInputFormat.java

@Override
public RecordReader<LongWritable, Text> createDelegateRecordReader(
    InputSplit split, Configuration configuration) throws IOException, InterruptedException {
  logger.atFine().log("createDelegateRecordReader -> new LineRecordReader");
  return new LineRecordReader();
}

源代码11 项目： spork 文件： RegExLoader.java

@SuppressWarnings("unchecked")
@Override
public void prepareToRead(RecordReader reader, PigSplit split)
        throws IOException {
    in = (LineRecordReader) reader;
}

源代码12 项目： phoenix 文件： PhoenixTextInputFormat.java

@Override
public RecordReader<LongWritable, Text> createRecordReader(InputSplit split, TaskAttemptContext context) {
  RecordReader<LongWritable,Text> rr = super.createRecordReader(split, context);
  
  return new PhoenixLineRecordReader((LineRecordReader) rr);
}

源代码13 项目： phoenix 文件： PhoenixTextInputFormat.java

private PhoenixLineRecordReader(LineRecordReader rr) {
  this.rr = rr;
}

源代码14 项目： mrgeo 文件： DelimitedVectorRecordReader.java

public VectorLineProducer(LineRecordReader recordReader)
{
  lineRecordReader = recordReader;
}

源代码15 项目： geowave 文件： GeonamesDataFileInputFormat.java

@Override
public RecordReader<LongWritable, Text> createRecordReader(
    final InputSplit split,
    final TaskAttemptContext context) throws IOException, InterruptedException {
  return new LineRecordReader();
}

源代码16 项目： kangaroo 文件： S3TextInputFormat.java

@Override
public RecordReader<LongWritable, Text> createRecordReader(InputSplit split, TaskAttemptContext context) {
    final String delimiter = context.getConfiguration().get("textinputformat.record.delimiter");
    return new LineRecordReader(delimiter != null ? delimiter.getBytes() : null);
}

类所在包

org.apache.hadoop.mapreduce

类方法

同包方法

org.apache.hadoop.mapreduce.Job

org.apache.hadoop.mapreduce.lib.input.FileInputFormat

org.apache.hadoop.mapreduce.lib.output.FileOutputFormat

org.apache.hadoop.mapreduce.Mapper

org.apache.hadoop.mapreduce.TaskAttemptContext

org.apache.hadoop.mapreduce.InputSplit

org.apache.hadoop.mapreduce.JobContext

org.apache.hadoop.mapreduce.Reducer

org.apache.hadoop.mapreduce.RecordReader

org.apache.hadoop.mapreduce.RecordWriter

org.apache.hadoop.mapreduce.lib.input.FileSplit

org.apache.hadoop.mapreduce.InputFormat

org.apache.hadoop.mapreduce.lib.input.TextInputFormat

org.apache.hadoop.mapreduce.lib.output.TextOutputFormat

org.apache.hadoop.mapreduce.TaskAttemptID

org.apache.hadoop.mapreduce.OutputCommitter

org.apache.hadoop.mapreduce.OutputFormat

org.apache.hadoop.mapreduce.Partitioner

org.apache.hadoop.mapreduce.JobID

org.apache.hadoop.mapreduce.Counter

org.apache.hadoop.mapreduce.lib.output.SequenceFileOutputFormat

org.apache.hadoop.mapreduce.lib.input.SequenceFileInputFormat

org.apache.hadoop.mapreduce.lib.output.FileOutputCommitter

org.apache.hadoop.mapreduce.task.TaskAttemptContextImpl

org.apache.hadoop.mapreduce.TaskType

org.apache.hadoop.mapreduce.MRJobConfig

org.apache.hadoop.mapreduce.lib.output.NullOutputFormat

org.apache.hadoop.mapreduce.Mapper.Context

org.apache.hadoop.mapreduce.Counters

org.apache.hadoop.mapreduce.JobStatus

org.apache.hadoop.mapreduce.TaskID

org.apache.hadoop.mapreduce.task.JobContextImpl

org.apache.hadoop.mapreduce.TaskInputOutputContext

org.apache.hadoop.mapreduce.lib.input.LineRecordReader

org.apache.hadoop.mapreduce.security.TokenCache

org.apache.hadoop.mapreduce.MapContext

org.apache.hadoop.mapreduce.lib.output.MultipleOutputs

org.apache.hadoop.mapreduce.lib.input.CombineFileSplit

org.apache.hadoop.mapreduce.lib.input.CombineFileInputFormat

org.apache.hadoop.mapreduce.CounterGroup

org.apache.hadoop.mapreduce.Cluster

org.apache.hadoop.mapreduce.lib.partition.HashPartitioner

org.apache.hadoop.mapreduce.lib.map.WrappedMapper

org.apache.hadoop.mapreduce.TaskCounter

org.apache.hadoop.mapreduce.lib.input.SequenceFileRecordReader

org.apache.hadoop.mapreduce.lib.output.LazyOutputFormat

org.apache.hadoop.mapreduce.StatusReporter

org.apache.hadoop.mapreduce.lib.partition.TotalOrderPartitioner

org.apache.hadoop.mapreduce.lib.input.CombineFileRecordReader

org.apache.hadoop.mapreduce.TaskReport

org.apache.hadoop.mapreduce.lib.input.MultipleInputs

org.apache.hadoop.mapreduce.ReduceContext

org.apache.hadoop.mapreduce.lib.input.NLineInputFormat

org.apache.hadoop.mapreduce.security.token.delegation.DelegationTokenIdentifier

org.apache.hadoop.mapreduce.v2.MiniMRYarnCluster

org.apache.hadoop.mapreduce.Reducer.Context

org.apache.hadoop.mapreduce.MRConfig

org.apache.hadoop.mapreduce.filecache.DistributedCache

org.apache.hadoop.mapreduce.JobSubmissionFiles

org.apache.hadoop.mapreduce.lib.reduce.WrappedReducer

org.apache.hadoop.mapreduce.v2.jobhistory.JHAdminConfig

org.apache.hadoop.mapreduce.TaskCompletionEvent

org.apache.hadoop.mapreduce.FileSystemCounter

org.apache.hadoop.mapreduce.lib.output.MapFileOutputFormat

org.apache.hadoop.mapreduce.task.MapContextImpl

org.apache.hadoop.mapreduce.JobPriority

org.apache.hadoop.mapreduce.task.ReduceContextImpl

org.apache.hadoop.mapreduce.JobStatus.State

org.apache.hadoop.mapreduce.lib.input.KeyValueTextInputFormat

org.apache.hadoop.mapreduce.QueueAclsInfo

org.apache.hadoop.mapreduce.lib.reduce.LongSumReducer

org.apache.hadoop.mapreduce.v2.api.records.TaskAttemptId

org.apache.hadoop.mapreduce.protocol.ClientProtocol

org.apache.hadoop.mapreduce.ClusterMetrics

org.apache.hadoop.mapreduce.counters.GenericCounter

org.apache.hadoop.mapreduce.v2.api.protocolrecords.GetDelegationTokenRequest

org.apache.hadoop.mapreduce.lib.partition.InputSampler

org.apache.hadoop.mapreduce.v2.api.HSClientProtocol

org.apache.hadoop.mapreduce.v2.jobhistory.JobHistoryUtils

org.apache.hadoop.mapreduce.v2.api.MRClientProtocol

org.apache.hadoop.mapreduce.QueueInfo

org.apache.hadoop.mapreduce.TypeConverter

org.apache.hadoop.mapreduce.TaskTrackerInfo

org.apache.hadoop.mapreduce.split.SplitMetaInfoReader

org.apache.hadoop.mapreduce.v2.api.protocolrecords.GetJobReportResponse

org.apache.hadoop.mapreduce.protocol.ClientProtocolProvider

org.apache.hadoop.mapreduce.v2.api.protocolrecords.GetTaskReportResponse

org.apache.hadoop.mapreduce.v2.api.protocolrecords.GetTaskAttemptReportRequest

org.apache.hadoop.mapreduce.v2.api.protocolrecords.CancelDelegationTokenRequest

org.apache.hadoop.mapreduce.server.jobtracker.JTConfig

org.apache.hadoop.mapreduce.v2.api.protocolrecords.GetJobReportRequest

org.apache.hadoop.mapreduce.v2.util.MRApps

org.apache.hadoop.mapreduce.v2.api.protocolrecords.GetTaskReportRequest

org.apache.hadoop.mapreduce.v2.api.protocolrecords.GetTaskAttemptReportResponse

org.apache.hadoop.mapreduce.v2.LogParams

org.apache.hadoop.mapreduce.lib.join.TupleWritable

org.apache.hadoop.mapreduce.lib.db.DBWritable

org.apache.hadoop.mapreduce.v2.api.records.TaskReport

org.apache.hadoop.mapreduce.v2.api.records.JobReport

org.apache.hadoop.mapreduce.lib.join.CompositeInputFormat

org.apache.hadoop.mapreduce.v2.api.protocolrecords.KillJobResponse

org.apache.hadoop.mapreduce.JobACL

org.apache.hadoop.mapreduce.v2.api.protocolrecords.KillJobRequest

org.apache.hadoop.mapreduce.v2.api.protocolrecords.FailTaskAttemptResponse

org.apache.hadoop.mapreduce.v2.api.protocolrecords.GetDiagnosticsResponse

org.apache.hadoop.mapreduce.v2.api.protocolrecords.GetCountersRequest

org.apache.hadoop.mapreduce.split.JobSplitWriter

org.apache.hadoop.mapreduce.v2.api.protocolrecords.KillTaskAttemptResponse

org.apache.hadoop.mapreduce.v2.api.protocolrecords.GetTaskReportsRequest

org.apache.hadoop.mapreduce.v2.api.records.Counters

org.apache.hadoop.mapreduce.v2.api.records.JobState

org.apache.hadoop.mapreduce.v2.api.records.CounterGroup

org.apache.hadoop.mapreduce.security.token.JobTokenSecretManager

org.apache.hadoop.mapreduce.v2.api.protocolrecords.GetTaskAttemptCompletionEventsResponse

org.apache.hadoop.mapreduce.v2.api.records.TaskType

org.apache.hadoop.mapreduce.v2.api.protocolrecords.KillTaskAttemptRequest

org.apache.hadoop.mapreduce.Cluster.JobTrackerStatus

org.apache.hadoop.mapreduce.lib.db.DBOutputFormat

org.apache.hadoop.mapreduce.server.tasktracker.TTConfig

org.apache.hadoop.mapreduce.v2.api.records.TaskId

org.apache.hadoop.mapreduce.jobhistory.EventType

org.apache.hadoop.mapreduce.v2.api.protocolrecords.CancelDelegationTokenResponse

org.apache.hadoop.mapreduce.split.JobSplit.TaskSplitMetaInfo

org.apache.hadoop.mapreduce.v2.api.records.TaskAttemptCompletionEvent

org.apache.hadoop.mapreduce.jobhistory.JobHistoryParser

org.apache.hadoop.mapreduce.v2.api.protocolrecords.KillTaskResponse

org.apache.hadoop.mapreduce.lib.db.DBInputFormat.NullDBWritable

org.apache.hadoop.mapreduce.v2.api.records.TaskState

org.apache.hadoop.mapreduce.v2.api.protocolrecords.GetTaskAttemptCompletionEventsRequest

org.apache.hadoop.mapreduce.v2.api.records.JobId

org.apache.hadoop.mapreduce.v2.api.protocolrecords.GetDelegationTokenResponse

org.apache.hadoop.mapreduce.v2.api.protocolrecords.KillTaskRequest

org.apache.hadoop.mapreduce.v2.api.protocolrecords.GetTaskReportsResponse

org.apache.hadoop.mapreduce.v2.api.protocolrecords.RenewDelegationTokenRequest

org.apache.hadoop.mapreduce.v2.api.protocolrecords.FailTaskAttemptRequest

org.apache.hadoop.mapreduce.v2.api.protocolrecords.GetDiagnosticsRequest

org.apache.hadoop.mapreduce.v2.api.protocolrecords.GetCountersResponse

org.apache.hadoop.mapreduce.counters.CounterGroupBase

org.apache.hadoop.mapreduce.split.JobSplit.TaskSplitIndex

org.apache.hadoop.mapreduce.split.JobSplit.SplitMetaInfo

org.apache.hadoop.mapreduce.v2.api.protocolrecords.RenewDelegationTokenResponse

org.apache.hadoop.mapreduce.lib.jobcontrol.ControlledJob

org.apache.hadoop.mapreduce.v2.api.protocolrecords.impl.pb.KillJobRequestPBImpl

org.apache.hadoop.mapreduce.jobhistory.HistoryViewer

org.apache.hadoop.mapreduce.v2.api.protocolrecords.impl.pb.GetJobReportRequestPBImpl

org.apache.hadoop.mapreduce.lib.reduce.IntSumReducer

org.apache.hadoop.mapreduce.v2.app.AppContext

org.apache.hadoop.mapreduce.v2.app.job.Task

org.apache.hadoop.mapreduce.v2.api.MRDelegationTokenIdentifier

org.apache.hadoop.mapreduce.v2.jobhistory.JobIndexInfo

org.apache.hadoop.mapreduce.jobhistory.JobHistoryParser.TaskAttemptInfo

org.apache.hadoop.mapreduce.task.TaskAttemptContextImpl.DummyReporter

org.apache.hadoop.mapreduce.lib.output.FileOutputFormatCounter

org.apache.hadoop.mapreduce.v2.hs.HistoryContext

org.apache.hadoop.mapreduce.v2.app.job.Job

org.apache.hadoop.mapreduce.lib.map.MultithreadedMapper

org.apache.hadoop.mapreduce.jobhistory.MapAttemptFinishedEvent

org.apache.hadoop.mapreduce.lib.jobcontrol.ControlledJob.State

org.apache.hadoop.mapreduce.lib.input.InvalidInputException

org.apache.hadoop.mapreduce.filecache.ClientDistributedCacheManager

org.apache.hadoop.mapreduce.v2.hs.HistoryServerStateStoreService.HistoryServerState

org.apache.hadoop.mapreduce.jobhistory.HistoryEvent

org.apache.hadoop.mapreduce.lib.chain.ChainReducer

org.apache.hadoop.mapreduce.lib.chain.ChainMapper

org.apache.hadoop.mapreduce.v2.proto.MRServiceProtos.GetTaskAttemptReportRequestProto

org.apache.hadoop.mapreduce.v2.proto.MRServiceProtos.GetJobReportRequestProto

org.apache.hadoop.mapreduce.lib.input.SplitLineReader

org.apache.hadoop.mapreduce.v2.jobhistory.FileNameIndexUtils

org.apache.hadoop.mapreduce.lib.jobcontrol.JobControl

org.apache.hadoop.mapreduce.lib.db.DBConfiguration

org.apache.hadoop.mapreduce.v2.proto.MRServiceProtos.KillJobRequestProto

org.apache.hadoop.mapreduce.jobhistory.Event

org.apache.hadoop.mapreduce.v2.hs.JobHistoryServer

org.apache.hadoop.mapreduce.split.JobSplit

org.apache.hadoop.mapreduce.counters.AbstractCounters

org.apache.hadoop.mapreduce.v2.app.webapp.App

org.apache.hadoop.mapreduce.v2.proto.MRServiceProtos.GetTaskReportRequestProto

org.apache.hadoop.mapreduce.counters.Limits

org.apache.hadoop.mapreduce.lib.input.CombineTextInputFormat

org.apache.hadoop.mapreduce.v2.api.records.TaskAttemptReport

org.apache.hadoop.mapreduce.jobhistory.ReduceAttemptFinishedEvent

org.apache.hadoop.mapreduce.lib.input.CompressedSplitLineReader

org.apache.hadoop.mapreduce.v2.util.MRBuilderUtils

org.apache.hadoop.mapreduce.jobhistory.NormalizedResourceEvent

org.apache.hadoop.mapreduce.MapReduceTestUtil

org.apache.hadoop.mapreduce.v2.api.protocolrecords.impl.pb.GetTaskAttemptReportRequestPBImpl

org.apache.hadoop.mapreduce.JobCounter

org.apache.hadoop.mapreduce.v2.hs.JHSDelegationTokenSecretManager

org.apache.hadoop.mapreduce.v2.api.protocolrecords.impl.pb.GetTaskReportRequestPBImpl

org.apache.hadoop.mapreduce.v2.app.security.authorize.ClientHSPolicyProvider

org.apache.hadoop.mapreduce.lib.db.DBInputFormat

org.apache.hadoop.mapreduce.jobhistory.JobHistoryParser.JobInfo