14 files changed, 387 insertions, 749 deletions
diff --git a/vp9/common/vp9_blockd.h b/vp9/common/vp9_blockd.h
index 21e2b16a4..ad78b0dc4 100644
--- a/vp9/common/vp9_blockd.h
+++ b/vp9/common/vp9_blockd.h
@@ -122,7 +122,6 @@ typedef struct {
   TX_SIZE tx_size;
   int_mv mv[2];                // for each reference frame used
   int_mv ref_mvs[MAX_REF_FRAMES][MAX_MV_REF_CANDIDATES];
-  int_mv best_mv[2];
 
   uint8_t mode_context[MAX_REF_FRAMES];
 
@@ -242,6 +241,9 @@ typedef struct macroblockd {
   /* pointer to current frame */
   const YV12_BUFFER_CONFIG *cur_buf;
 
+  /* mc buffer */
+  DECLARE_ALIGNED(16, uint8_t, mc_buf[80 * 2 * 80 * 2]);
+
   int lossless;
   /* Inverse transform function pointers. */
   void (*itxm_add)(const int16_t *input, uint8_t *dest, int stride, int eob);
diff --git a/vp9/common/vp9_reconinter.c b/vp9/common/vp9_reconinter.c
index 397f446f3..b5a9248c3 100644
--- a/vp9/common/vp9_reconinter.c
+++ b/vp9/common/vp9_reconinter.c
@@ -20,15 +20,16 @@
 #include "vp9/common/vp9_reconinter.h"
 #include "vp9/common/vp9_reconintra.h"
 
-static void build_mc_border(const uint8_t *src, uint8_t *dst, int stride,
-                             int x, int y, int b_w, int b_h, int w, int h) {
+static void build_mc_border(const uint8_t *src, int src_stride,
+                            uint8_t *dst, int dst_stride,
+                            int x, int y, int b_w, int b_h, int w, int h) {
   // Get a pointer to the start of the real data for this row.
-  const uint8_t *ref_row = src - x - y * stride;
+  const uint8_t *ref_row = src - x - y * src_stride;
 
   if (y >= h)
-    ref_row += (h - 1) * stride;
+    ref_row += (h - 1) * src_stride;
   else if (y > 0)
-    ref_row += y * stride;
+    ref_row += y * src_stride;
 
   do {
     int right = 0, copy;
@@ -49,16 +50,16 @@ static void build_mc_border(const uint8_t *src, uint8_t *dst, int stride,
       memset(dst, ref_row[0], left);
 
     if (copy)
-      memmove(dst + left, ref_row + x + left, copy);
+      memcpy(dst + left, ref_row + x + left, copy);
 
     if (right)
       memset(dst + left + copy, ref_row[w - 1], right);
 
-    dst += stride;
+    dst += dst_stride;
     ++y;
 
     if (y > 0 && y < h)
-      ref_row += stride;
+      ref_row += src_stride;
   } while (--b_h);
 }
 
@@ -281,7 +282,7 @@ static void dec_build_inter_predictors(MACROBLOCKD *xd, int plane, int block,
 
     MV32 scaled_mv;
     int xs, ys, x0, y0, x0_16, y0_16, x1, y1, frame_width,
-        frame_height, subpel_x, subpel_y;
+        frame_height, subpel_x, subpel_y, buf_stride;
     uint8_t *ref_frame, *buf_ptr;
     const YV12_BUFFER_CONFIG *ref_buf = xd->block_refs[ref]->buf;
 
@@ -308,7 +309,7 @@ static void dec_build_inter_predictors(MACROBLOCKD *xd, int plane, int block,
       scaled_mv = vp9_scale_mv(&mv_q4, mi_x + x, mi_y + y, sf);
       xs = sf->x_step_q4;
       ys = sf->y_step_q4;
-      // Get block position in the scaled reference frame.
+      // Map the top left corner of the block into the reference frame.
       x0 = sf->scale_value_x(x0, sf);
       y0 = sf->scale_value_y(y0, sf);
       x0_16 = sf->scale_value_x(x0_16, sf);
@@ -321,7 +322,7 @@ static void dec_build_inter_predictors(MACROBLOCKD *xd, int plane, int block,
     subpel_x = scaled_mv.col & SUBPEL_MASK;
     subpel_y = scaled_mv.row & SUBPEL_MASK;
 
-    // Get reference block top left coordinate.
+    // Calculate the top left corner of the best matching block in the reference frame.
     x0 += scaled_mv.col >> SUBPEL_BITS;
     y0 += scaled_mv.row >> SUBPEL_BITS;
     x0_16 += scaled_mv.col;
@@ -329,24 +330,28 @@ static void dec_build_inter_predictors(MACROBLOCKD *xd, int plane, int block,
 
     // Get reference block bottom right coordinate.
     x1 = ((x0_16 + (w - 1) * xs) >> SUBPEL_BITS) + 1;
-    y1 = ((y0_16 + (h - 1) * xs) >> SUBPEL_BITS) + 1;
+    y1 = ((y0_16 + (h - 1) * ys) >> SUBPEL_BITS) + 1;
 
     // Get reference block pointer.
     buf_ptr = ref_frame + y0 * pre_buf->stride + x0;
+    buf_stride = pre_buf->stride;
 
-    // Do border extension if there is motion or
+    // Do border extension if there is motion or the
     // width/height is not a multiple of 8 pixels.
     if (scaled_mv.col || scaled_mv.row ||
         (frame_width & 0x7) || (frame_height & 0x7)) {
+      int x_pad = 0, y_pad = 0;
 
-      if (subpel_x) {
+      if (subpel_x || (sf->x_step_q4 & SUBPEL_MASK)) {
         x0 -= VP9_INTERP_EXTEND - 1;
         x1 += VP9_INTERP_EXTEND;
+        x_pad = 1;
       }
 
-      if (subpel_y) {
+      if (subpel_y || (sf->y_step_q4 & SUBPEL_MASK)) {
         y0 -= VP9_INTERP_EXTEND - 1;
         y1 += VP9_INTERP_EXTEND;
+        y_pad = 1;
       }
 
       // Skip border extension if block is inside the frame.
@@ -354,12 +359,14 @@ static void dec_build_inter_predictors(MACROBLOCKD *xd, int plane, int block,
           y0 < 0 || y0 > frame_height - 1 || y1 < 0 || y1 > frame_height - 1) {
         uint8_t *buf_ptr1 = ref_frame + y0 * pre_buf->stride + x0;
         // Extend the border.
-        build_mc_border(buf_ptr1, buf_ptr1, pre_buf->stride, x0, y0, x1 - x0,
-                        y1 - y0, frame_width, frame_height);
+        build_mc_border(buf_ptr1, pre_buf->stride, xd->mc_buf, x1 - x0,
+                        x0, y0, x1 - x0, y1 - y0, frame_width, frame_height);
+        buf_stride = x1 - x0;
+        buf_ptr = xd->mc_buf + y_pad * 3 * buf_stride + x_pad * 3;
       }
     }
 
-    inter_predictor(buf_ptr, pre_buf->stride, dst, dst_buf->stride, subpel_x,
+    inter_predictor(buf_ptr, buf_stride, dst, dst_buf->stride, subpel_x,
                     subpel_y, sf, w, h, ref, &xd->subpix, xs, ys);
   }
 }
diff --git a/vp9/encoder/vp9_bitstream.c b/vp9/encoder/vp9_bitstream.c
index ec4dc14f4..2ab4c7907 100644
--- a/vp9/encoder/vp9_bitstream.c
+++ b/vp9/encoder/vp9_bitstream.c
@@ -260,6 +260,7 @@ static void pack_inter_mode_mvs(VP9_COMP *cpi, MODE_INFO *m, vp9_writer *bc) {
   struct segmentation *seg = &cm->seg;
   MB_MODE_INFO *const mi = &m->mbmi;
   const MV_REFERENCE_FRAME rf = mi->ref_frame[0];
+  const MV_REFERENCE_FRAME sec_rf = mi->ref_frame[1];
   const MB_PREDICTION_MODE mode = mi->mode;
   const int segment_id = mi->segment_id;
   int skip_coeff;
@@ -355,11 +356,11 @@ static void pack_inter_mode_mvs(VP9_COMP *cpi, MODE_INFO *m, vp9_writer *bc) {
             active_section = 11;
 #endif
             vp9_encode_mv(cpi, bc, &m->bmi[j].as_mv[0].as_mv,
-                          &mi->best_mv[0].as_mv, nmvc, allow_hp);
+                          &mi->ref_mvs[rf][0].as_mv, nmvc, allow_hp);
 
             if (has_second_ref(mi))
               vp9_encode_mv(cpi, bc, &m->bmi[j].as_mv[1].as_mv,
-                            &mi->best_mv[1].as_mv, nmvc, allow_hp);
+                            &mi->ref_mvs[sec_rf][0].as_mv, nmvc, allow_hp);
           }
         }
       }
@@ -368,11 +369,11 @@ static void pack_inter_mode_mvs(VP9_COMP *cpi, MODE_INFO *m, vp9_writer *bc) {
       active_section = 5;
 #endif
       vp9_encode_mv(cpi, bc, &mi->mv[0].as_mv,
-                    &mi->best_mv[0].as_mv, nmvc, allow_hp);
+                    &mi->ref_mvs[rf][0].as_mv, nmvc, allow_hp);
 
       if (has_second_ref(mi))
         vp9_encode_mv(cpi, bc, &mi->mv[1].as_mv,
-                      &mi->best_mv[1].as_mv, nmvc, allow_hp);
+                      &mi->ref_mvs[sec_rf][0].as_mv, nmvc, allow_hp);
     }
   }
 }
diff --git a/vp9/encoder/vp9_encodeframe.c b/vp9/encoder/vp9_encodeframe.c
index a66b9fb8e..9966cb6ae 100644
--- a/vp9/encoder/vp9_encodeframe.c
+++ b/vp9/encoder/vp9_encodeframe.c
@@ -500,17 +500,8 @@ static void update_state(VP9_COMP *cpi, PICK_MODE_CONTEXT *ctx,
     if (is_inter_block(mbmi) &&
         (mbmi->sb_type < BLOCK_8X8 || mbmi->mode == NEWMV)) {
       int_mv best_mv[2];
-      const MV_REFERENCE_FRAME rf1 = mbmi->ref_frame[0];
-      const MV_REFERENCE_FRAME rf2 = mbmi->ref_frame[1];
-      best_mv[0].as_int = ctx->best_ref_mv[0].as_int;
-      best_mv[1].as_int = ctx->best_ref_mv[1].as_int;
-      if (mbmi->mode == NEWMV) {
-        best_mv[0].as_int = mbmi->ref_mvs[rf1][0].as_int;
-        if (rf2 > 0)
-          best_mv[1].as_int = mbmi->ref_mvs[rf2][0].as_int;
-      }
-      mbmi->best_mv[0].as_int = best_mv[0].as_int;
-      mbmi->best_mv[1].as_int = best_mv[1].as_int;
+      for (i = 0; i < 2; ++i)
+        best_mv[i].as_int = mbmi->ref_mvs[mbmi->ref_frame[i]][0].as_int;
       vp9_update_mv_count(cpi, x, best_mv);
     }
 
diff --git a/vp9/encoder/vp9_firstpass.c b/vp9/encoder/vp9_firstpass.c
index 0a5af18cb..cdc5dfd8e 100644
--- a/vp9/encoder/vp9_firstpass.c
+++ b/vp9/encoder/vp9_firstpass.c
@@ -504,6 +504,7 @@ void vp9_first_pass(VP9_COMP *cpi) {
   int new_mv_count = 0;
   int sum_in_vectors = 0;
   uint32_t lastmv_as_int = 0;
+  struct twopass_rc *const twopass = &cpi->twopass;
 
   int_mv zero_ref_mv;
 
@@ -830,23 +831,22 @@ void vp9_first_pass(VP9_COMP *cpi) {
     fps.duration = (double)(cpi->source->ts_end - cpi->source->ts_start);
 
     // don't want to do output stats with a stack variable!
-    cpi->twopass.this_frame_stats = fps;
-    output_stats(cpi, cpi->output_pkt_list, &cpi->twopass.this_frame_stats);
-    accumulate_stats(&cpi->twopass.total_stats, &fps);
+    twopass->this_frame_stats = fps;
+    output_stats(cpi, cpi->output_pkt_list, &twopass->this_frame_stats);
+    accumulate_stats(&twopass->total_stats, &fps);
   }
 
   // Copy the previous Last Frame back into gf and and arf buffers if
   // the prediction is good enough... but also dont allow it to lag too far
-  if ((cpi->twopass.sr_update_lag > 3) ||
+  if ((twopass->sr_update_lag > 3) ||
       ((cm->current_video_frame > 0) &&
-       (cpi->twopass.this_frame_stats.pcnt_inter > 0.20) &&
-       ((cpi->twopass.this_frame_stats.intra_error /
-         DOUBLE_DIVIDE_CHECK(cpi->twopass.this_frame_stats.coded_error)) >
-        2.0))) {
+       (twopass->this_frame_stats.pcnt_inter > 0.20) &&
+       ((twopass->this_frame_stats.intra_error /
+         DOUBLE_DIVIDE_CHECK(twopass->this_frame_stats.coded_error)) > 2.0))) {
     vp8_yv12_copy_frame(lst_yv12, gld_yv12);
-    cpi->twopass.sr_update_lag = 1;
+    twopass->sr_update_lag = 1;
   } else {
-    cpi->twopass.sr_update_lag++;
+    twopass->sr_update_lag++;
   }
   // swap frame pointers so last frame refers to the frame we just compressed
   swap_yv12(lst_yv12, new_yv12);
@@ -1034,37 +1034,38 @@ extern void vp9_new_framerate(VP9_COMP *cpi, double framerate);
 void vp9_init_second_pass(VP9_COMP *cpi) {
   FIRSTPASS_STATS this_frame;
   FIRSTPASS_STATS *start_pos;
+  struct twopass_rc *const twopass = &cpi->twopass;
 
-  zero_stats(&cpi->twopass.total_stats);
-  zero_stats(&cpi->twopass.total_left_stats);
+  zero_stats(&twopass->total_stats);
+  zero_stats(&twopass->total_left_stats);
 
-  if (!cpi->twopass.stats_in_end)
+  if (!twopass->stats_in_end)
     return;
 
-  cpi->twopass.total_stats = *cpi->twopass.stats_in_end;
-  cpi->twopass.total_left_stats = cpi->twopass.total_stats;
+  twopass->total_stats = *twopass->stats_in_end;
+  twopass->total_left_stats = twopass->total_stats;
 
   // each frame can have a different duration, as the frame rate in the source
   // isn't guaranteed to be constant.   The frame rate prior to the first frame
   // encoded in the second pass is a guess.  However the sum duration is not.
   // Its calculated based on the actual durations of all frames from the first
   // pass.
-  vp9_new_framerate(cpi, 10000000.0 * cpi->twopass.total_stats.count /
-                       cpi->twopass.total_stats.duration);
+  vp9_new_framerate(cpi, 10000000.0 * twopass->total_stats.count /
+                        twopass->total_stats.duration);
 
   cpi->output_framerate = cpi->oxcf.framerate;
-  cpi->twopass.bits_left = (int64_t)(cpi->twopass.total_stats.duration *
-                                     cpi->oxcf.target_bandwidth / 10000000.0);
+  twopass->bits_left = (int64_t)(twopass->total_stats.duration *
+                                 cpi->oxcf.target_bandwidth / 10000000.0);
 
   // Calculate a minimum intra value to be used in determining the IIratio
   // scores used in the second pass. We have this minimum to make sure
   // that clips that are static but "low complexity" in the intra domain
   // are still boosted appropriately for KF/GF/ARF
-  cpi->twopass.kf_intra_err_min = KF_MB_INTRA_MIN * cpi->common.MBs;
-  cpi->twopass.gf_intra_err_min = GF_MB_INTRA_MIN * cpi->common.MBs;
+  twopass->kf_intra_err_min = KF_MB_INTRA_MIN * cpi->common.MBs;
+  twopass->gf_intra_err_min = GF_MB_INTRA_MIN * cpi->common.MBs;
 
   // This variable monitors how far behind the second ref update is lagging
-  cpi->twopass.sr_update_lag = 1;
+  twopass->sr_update_lag = 1;
 
   // Scan the first pass file and calculate an average Intra / Inter error score
   // ratio for the sequence.
@@ -1072,43 +1073,43 @@ void vp9_init_second_pass(VP9_COMP *cpi) {
     double sum_iiratio = 0.0;
     double IIRatio;
 
-    start_pos = cpi->twopass.stats_in;  // Note the starting "file" position.
+    start_pos = twopass->stats_in;  // Note the starting "file" position.
 
-    while (input_stats(&cpi->twopass, &this_frame) != EOF) {
+    while (input_stats(twopass, &this_frame) != EOF) {
       IIRatio = this_frame.intra_error
                 / DOUBLE_DIVIDE_CHECK(this_frame.coded_error);
       IIRatio = (IIRatio < 1.0) ? 1.0 : (IIRatio > 20.0) ? 20.0 : IIRatio;
       sum_iiratio += IIRatio;
     }
 
-    cpi->twopass.avg_iiratio = sum_iiratio /
-        DOUBLE_DIVIDE_CHECK((double)cpi->twopass.total_stats.count);
+    twopass->avg_iiratio = sum_iiratio /
+        DOUBLE_DIVIDE_CHECK((double)twopass->total_stats.count);
 
     // Reset file position
-    reset_fpf_position(&cpi->twopass, start_pos);
+    reset_fpf_position(twopass, start_pos);
   }
 
   // Scan the first pass file and calculate a modified total error based upon
   // the bias/power function used to allocate bits.
   {
-    double av_error = cpi->twopass.total_stats.ssim_weighted_pred_err /
-                      DOUBLE_DIVIDE_CHECK(cpi->twopass.total_stats.count);
+    double av_error = twopass->total_stats.ssim_weighted_pred_err /
+                      DOUBLE_DIVIDE_CHECK(twopass->total_stats.count);
 
-    start_pos = cpi->twopass.stats_in;  // Note starting "file" position
+    start_pos = twopass->stats_in;  // Note starting "file" position
 
-    cpi->twopass.modified_error_total = 0.0;
-    cpi->twopass.modified_error_min =
+    twopass->modified_error_total = 0.0;
+    twopass->modified_error_min =
       (av_error * cpi->oxcf.two_pass_vbrmin_section) / 100;
-    cpi->twopass.modified_error_max =
+    twopass->modified_error_max =
       (av_error * cpi->oxcf.two_pass_vbrmax_section) / 100;
 
-    while (input_stats(&cpi->twopass, &this_frame) != EOF) {
-      cpi->twopass.modified_error_total +=
+    while (input_stats(twopass, &this_frame) != EOF) {
+      twopass->modified_error_total +=
           calculate_modified_err(cpi, &this_frame);
     }
-    cpi->twopass.modified_error_left = cpi->twopass.modified_error_total;
+    twopass->modified_error_left = twopass->modified_error_total;
 
-    reset_fpf_position(&cpi->twopass, start_pos);  // Reset file position
+    reset_fpf_position(twopass, start_pos);
   }
 }
 
@@ -2060,7 +2061,8 @@ void vp9_get_second_pass_params(VP9_COMP *cpi) {
   this_frame_coded_error = this_frame.coded_error;
 
   // keyframe and section processing !
-  if (rc->frames_to_key == 0) {
+  if (rc->frames_to_key == 0 ||
+      (cpi->common.frame_flags & FRAMEFLAGS_KEY)) {
     // Define next KF group and assign bits to it
     this_frame_copy = this_frame;
     find_next_key_frame(cpi, &this_frame_copy);
@@ -2231,12 +2233,13 @@ static void find_next_key_frame(VP9_COMP *cpi, FIRSTPASS_STATS *this_frame) {
   double recent_loop_decay[8] = {1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0};
 
   RATE_CONTROL *const rc = &cpi->rc;
+  struct twopass_rc *const twopass = &cpi->twopass;
 
   vp9_zero(next_frame);
 
   vp9_clear_system_state();  // __asm emms;
 
-  start_position = cpi->twopass.stats_in;
+  start_position = twopass->stats_in;
   cpi->common.frame_type = KEY_FRAME;
 
   // is this a forced key frame by interval
@@ -2253,14 +2256,14 @@ static void find_next_key_frame(VP9_COMP *cpi, FIRSTPASS_STATS *this_frame) {
   // Take a copy of the initial frame details
   first_frame = *this_frame;
 
-  cpi->twopass.kf_group_bits = 0;        // Total bits available to kf group
-  cpi->twopass.kf_group_error_left = 0;  // Group modified error score.
+  twopass->kf_group_bits = 0;        // Total bits available to kf group
+  twopass->kf_group_error_left = 0;  // Group modified error score.
 
   kf_mod_err = calculate_modified_err(cpi, this_frame);
 
   // find the next keyframe
   i = 0;
-  while (cpi->twopass.stats_in < cpi->twopass.stats_in_end) {
+  while (twopass->stats_in < twopass->stats_in_end) {
     // Accumulate kf group error
     kf_group_err += calculate_modified_err(cpi, this_frame);
 
@@ -2272,11 +2275,11 @@ static void find_next_key_frame(VP9_COMP *cpi, FIRSTPASS_STATS *this_frame) {
 
     // load a the next frame's stats
     last_frame = *this_frame;
-    input_stats(&cpi->twopass, this_frame);
+    input_stats(twopass, this_frame);
 
     // Provided that we are not at the end of the file...
     if (cpi->oxcf.auto_key &&
-        lookup_next_frame_stats(&cpi->twopass, &next_frame) != EOF) {
+        lookup_next_frame_stats(twopass, &next_frame) != EOF) {
       // Normal scene cut check
       if (test_candidate_kf(cpi, &last_frame, this_frame, &next_frame))
         break;
@@ -2326,7 +2329,7 @@ static void find_next_key_frame(VP9_COMP *cpi, FIRSTPASS_STATS *this_frame) {
     tmp_frame = first_frame;
 
     // Reset to the start of the group
-    reset_fpf_position(&cpi->twopass, start_position);
+    reset_fpf_position(twopass, start_position);
 
     kf_group_err = 0;
     kf_group_intra_err = 0;
@@ -2340,17 +2343,17 @@ static void find_next_key_frame(VP9_COMP *cpi, FIRSTPASS_STATS *this_frame) {
       kf_group_coded_err += tmp_frame.coded_error;
 
       // Load a the next frame's stats
-      input_stats(&cpi->twopass, &tmp_frame);
+      input_stats(twopass, &tmp_frame);
     }
     rc->next_key_frame_forced = 1;
-  } else if (cpi->twopass.stats_in == cpi->twopass.stats_in_end) {
+  } else if (twopass->stats_in == twopass->stats_in_end) {
     rc->next_key_frame_forced = 1;
   } else {
     rc->next_key_frame_forced = 0;
   }
 
   // Special case for the last key frame of the file
-  if (cpi->twopass.stats_in >= cpi->twopass.stats_in_end) {
+  if (twopass->stats_in >= twopass->stats_in_end) {
     // Accumulate kf group error
     kf_group_err += calculate_modified_err(cpi, this_frame);
 
@@ -2362,8 +2365,7 @@ static void find_next_key_frame(VP9_COMP *cpi, FIRSTPASS_STATS *this_frame) {
   }
 
   // Calculate the number of bits that should be assigned to the kf group.
-  if ((cpi->twopass.bits_left > 0) &&
-      (cpi->twopass.modified_error_left > 0.0)) {
+  if (twopass->bits_left > 0 && twopass->modified_error_left > 0.0) {
     // Max for a single normal frame (not key frame)
     int max_bits = frame_max_bits(cpi);
 
@@ -2372,19 +2374,18 @@ static void find_next_key_frame(VP9_COMP *cpi, FIRSTPASS_STATS *this_frame) {
 
     // Default allocation based on bits left and relative
     // complexity of the section
-    cpi->twopass.kf_group_bits = (int64_t)(cpi->twopass.bits_left *
-                                           (kf_group_err /
-                                            cpi->twopass.modified_error_left));
+    twopass->kf_group_bits = (int64_t)(twopass->bits_left *
+       (kf_group_err / twopass->modified_error_left));
 
     // Clip based on maximum per frame rate defined by the user.
     max_grp_bits = (int64_t)max_bits * (int64_t)rc->frames_to_key;
-    if (cpi->twopass.kf_group_bits > max_grp_bits)
-      cpi->twopass.kf_group_bits = max_grp_bits;
+    if (twopass->kf_group_bits > max_grp_bits)
+      twopass->kf_group_bits = max_grp_bits;
   } else {
-    cpi->twopass.kf_group_bits = 0;
+    twopass->kf_group_bits = 0;
   }
   // Reset the first pass file position
-  reset_fpf_position(&cpi->twopass, start_position);
+  reset_fpf_position(twopass, start_position);
 
   // Determine how big to make this keyframe based on how well the subsequent
   // frames use inter blocks.
@@ -2396,7 +2397,7 @@ static void find_next_key_frame(VP9_COMP *cpi, FIRSTPASS_STATS *this_frame) {
   for (i = 0; i < rc->frames_to_key; i++) {
     double r;
 
-    if (EOF == input_stats(&cpi->twopass, &next_frame))
+    if (EOF == input_stats(twopass, &next_frame))
       break;
 
     // Monitor for static sections.
@@ -2408,11 +2409,11 @@ static void find_next_key_frame(VP9_COMP *cpi, FIRSTPASS_STATS *this_frame) {
 
     // For the first few frames collect data to decide kf boost.
     if (i <= (rc->max_gf_interval * 2)) {
-      if (next_frame.intra_error > cpi->twopass.kf_intra_err_min)
+      if (next_frame.intra_error > twopass->kf_intra_err_min)
         r = (IIKFACTOR2 * next_frame.intra_error /
              DOUBLE_DIVIDE_CHECK(next_frame.coded_error));
       else
-        r = (IIKFACTOR2 * cpi->twopass.kf_intra_err_min /
+        r = (IIKFACTOR2 * twopass->kf_intra_err_min /
              DOUBLE_DIVIDE_CHECK(next_frame.coded_error));
 
       if (r > RMAX)
@@ -2434,21 +2435,21 @@ static void find_next_key_frame(VP9_COMP *cpi, FIRSTPASS_STATS *this_frame) {
     FIRSTPASS_STATS sectionstats;
 
     zero_stats(&sectionstats);
-    reset_fpf_position(&cpi->twopass, start_position);
+    reset_fpf_position(twopass, start_position);
 
     for (i = 0; i < rc->frames_to_key; i++) {
-      input_stats(&cpi->twopass, &next_frame);
+      input_stats(twopass, &next_frame);
       accumulate_stats(&sectionstats, &next_frame);
     }
 
     avg_stats(&sectionstats);
 
-    cpi->twopass.section_intra_rating = (int) (sectionstats.intra_error /
+    twopass->section_intra_rating = (int) (sectionstats.intra_error /
         DOUBLE_DIVIDE_CHECK(sectionstats.coded_error));
   }
 
   // Reset the first pass file position
-  reset_fpf_position(&cpi->twopass, start_position);
+  reset_fpf_position(twopass, start_position);
 
   // Work out how many bits to allocate for the key frame itself
   if (1) {
@@ -2465,7 +2466,7 @@ static void find_next_key_frame(VP9_COMP *cpi, FIRSTPASS_STATS *this_frame) {
     // Make a note of baseline boost and the zero motion
     // accumulator value for use elsewhere.
     rc->kf_boost = kf_boost;
-    cpi->twopass.kf_zeromotion_pct = (int)(zero_motion_accumulator * 100.0);
+    twopass->kf_zeromotion_pct = (int)(zero_motion_accumulator * 100.0);
 
     // We do three calculations for kf size.
     // The first is based on the error score for the whole kf group.
@@ -2480,11 +2481,9 @@ static void find_next_key_frame(VP9_COMP *cpi, FIRSTPASS_STATS *this_frame) {
     // cpi->rc.frames_to_key-1 because key frame itself is taken
     // care of by kf_boost.
     if (zero_motion_accumulator >= 0.99) {
-      allocation_chunks =
-        ((rc->frames_to_key - 1) * 10) + kf_boost;
+      allocation_chunks = ((rc->frames_to_key - 1) * 10) + kf_boost;
     } else {
-      allocation_chunks =
-        ((rc->frames_to_key - 1) * 100) + kf_boost;
+      allocation_chunks = ((rc->frames_to_key - 1) * 100) + kf_boost;
     }
 
     // Prevent overflow
@@ -2494,58 +2493,54 @@ static void find_next_key_frame(VP9_COMP *cpi, FIRSTPASS_STATS *this_frame) {
       allocation_chunks /= divisor;
     }
 
-    cpi->twopass.kf_group_bits = (cpi->twopass.kf_group_bits < 0) ? 0
-           : cpi->twopass.kf_group_bits;
+    twopass->kf_group_bits = (twopass->kf_group_bits < 0) ? 0
+           : twopass->kf_group_bits;
 
     // Calculate the number of bits to be spent on the key frame
-    cpi->twopass.kf_bits = (int)((double)kf_boost *
-              ((double)cpi->twopass.kf_group_bits / (double)allocation_chunks));
+    twopass->kf_bits = (int)((double)kf_boost *
+        ((double)twopass->kf_group_bits / allocation_chunks));
 
     // If the key frame is actually easier than the average for the
     // kf group (which does sometimes happen... eg a blank intro frame)
     // Then use an alternate calculation based on the kf error score
     // which should give a smaller key frame.
     if (kf_mod_err < kf_group_err / rc->frames_to_key) {
-      double  alt_kf_grp_bits =
-        ((double)cpi->twopass.bits_left *
+      double  alt_kf_grp_bits = ((double)twopass->bits_left *
          (kf_mod_err * (double)rc->frames_to_key) /
-         DOUBLE_DIVIDE_CHECK(cpi->twopass.modified_error_left));
+         DOUBLE_DIVIDE_CHECK(twopass->modified_error_left));
 
       alt_kf_bits = (int)((double)kf_boost *
                           (alt_kf_grp_bits / (double)allocation_chunks));
 
-      if (cpi->twopass.kf_bits > alt_kf_bits) {
-        cpi->twopass.kf_bits = alt_kf_bits;
-      }
+      if (twopass->kf_bits > alt_kf_bits)
+        twopass->kf_bits = alt_kf_bits;
     } else {
     // Else if it is much harder than other frames in the group make sure
     // it at least receives an allocation in keeping with its relative
     // error score
-      alt_kf_bits = (int)((double)cpi->twopass.bits_left *
-              (kf_mod_err /
-               DOUBLE_DIVIDE_CHECK(cpi->twopass.modified_error_left)));
+      alt_kf_bits = (int)((double)twopass->bits_left * (kf_mod_err /
+               DOUBLE_DIVIDE_CHECK(twopass->modified_error_left)));
 
-      if (alt_kf_bits > cpi->twopass.kf_bits) {
-        cpi->twopass.kf_bits = alt_kf_bits;
+      if (alt_kf_bits > twopass->kf_bits) {
+        twopass->kf_bits = alt_kf_bits;
       }
     }
 
-    cpi->twopass.kf_group_bits -= cpi->twopass.kf_bits;
+    twopass->kf_group_bits -= twopass->kf_bits;
 
     // Peer frame bit target for this frame
-    rc->per_frame_bandwidth = cpi->twopass.kf_bits;
+    rc->per_frame_bandwidth = twopass->kf_bits;
     // Convert to a per second bitrate
-    cpi->target_bandwidth = (int)(cpi->twopass.kf_bits *
-                                  cpi->output_framerate);
+    cpi->target_bandwidth = (int)(twopass->kf_bits * cpi->output_framerate);
   }
 
   // Note the total error score of the kf group minus the key frame itself
-  cpi->twopass.kf_group_error_left = (int)(kf_group_err - kf_mod_err);
+  twopass->kf_group_error_left = (int)(kf_group_err - kf_mod_err);
 
   // Adjust the count of total modified error left.
   // The count of bits left is adjusted elsewhere based on real coded frame
   // sizes.
-  cpi->twopass.modified_error_left -= kf_group_err;
+  twopass->modified_error_left -= kf_group_err;
 }
 
 void vp9_twopass_postencode_update(VP9_COMP *cpi, uint64_t bytes_used) {
diff --git a/vp9/encoder/vp9_mcomp.c b/vp9/encoder/vp9_mcomp.c
index 88d527a22..e81dd0db7 100644
--- a/vp9/encoder/vp9_mcomp.c
+++ b/vp9/encoder/vp9_mcomp.c
@@ -174,8 +174,10 @@ void vp9_init3smotion_compensation(MACROBLOCK *x, int stride) {
       error_per_bit + 4096) >> 13 : 0)
 
 
-#define SP(x) (((x) & 7) << 1)  // convert motion vector component to offset
-                                // for svf calc
+// convert motion vector component to offset for svf calc
+static INLINE int sp(int x) {
+  return (x & 7) << 1;
+}
 
 #define IFMVCV(r, c, s, e)                                \
     if (c >= minc && c <= maxc && r >= minr && r <= maxr) \
@@ -183,12 +185,14 @@ void vp9_init3smotion_compensation(MACROBLOCK *x, int stride) {
     else                                                  \
       e;
 
-/* pointer to predictor base of a motionvector */
-#define PRE(r, c) (y + (((r) >> 3) * y_stride + ((c) >> 3) -(offset)))
+static INLINE uint8_t *pre(uint8_t *buf, int stride, int r, int c, int offset) {
+  return &buf[(r >> 3) * stride + (c >> 3) - offset];
+}
 
 /* returns subpixel variance error function */
 #define DIST(r, c) \
-    vfp->svf(PRE(r, c), y_stride, SP(c), SP(r), z, src_stride, &sse)
+    vfp->svf(pre(y, y_stride, r, c, offset), y_stride, sp(c), sp(r), z, \
+             src_stride, &sse)
 
 /* checks if (r, c) has better score than previous best */
 #define CHECK_BETTER(v, r, c) \
@@ -358,7 +362,7 @@ int vp9_find_best_sub_pixel_tree(MACROBLOCK *x,
 #undef DIST
 /* returns subpixel variance error function */
 #define DIST(r, c) \
-    vfp->svaf(PRE(r, c), y_stride, SP(c), SP(r), \
+    vfp->svaf(pre(y, y_stride, r, c, offset), y_stride, sp(c), sp(r), \
               z, src_stride, &sse, second_pred)
 
 int vp9_find_best_sub_pixel_comp_tree(MACROBLOCK *x,
diff --git a/vp9/encoder/vp9_onyx_if.c b/vp9/encoder/vp9_onyx_if.c
index 59d36ee14..3e1daca28 100644
--- a/vp9/encoder/vp9_onyx_if.c
+++ b/vp9/encoder/vp9_onyx_if.c
@@ -3279,12 +3279,12 @@ static void Pass2Encode(VP9_COMP *cpi, size_t *size,
   vp9_twopass_postencode_update(cpi, *size);
 }
 
-static void check_initial_width(VP9_COMP *cpi, YV12_BUFFER_CONFIG *sd) {
+static void check_initial_width(VP9_COMP *cpi, int subsampling_x,
+                                int subsampling_y) {
   VP9_COMMON *const cm = &cpi->common;
   if (!cpi->initial_width) {
-    // TODO(agrange) Subsampling defaults to assuming sampled chroma.
-    cm->subsampling_x = sd != NULL ? (sd->uv_width < sd->y_width) : 1;
-    cm->subsampling_y = sd != NULL ? (sd->uv_height < sd->y_height) : 1;
+    cm->subsampling_x = subsampling_x;
+    cm->subsampling_y = subsampling_y;
     alloc_raw_frame_buffers(cpi);
     cpi->initial_width = cm->width;
     cpi->initial_height = cm->height;
@@ -3298,8 +3298,10 @@ int vp9_receive_raw_frame(VP9_PTR ptr, unsigned int frame_flags,
   VP9_COMP              *cpi = (VP9_COMP *) ptr;
   struct vpx_usec_timer  timer;
   int                    res = 0;
+  const int    subsampling_x = sd->uv_width  < sd->y_width;
+  const int    subsampling_y = sd->uv_height < sd->y_height;
 
-  check_initial_width(cpi, sd);
+  check_initial_width(cpi, subsampling_x, subsampling_y);
   vpx_usec_timer_start(&timer);
   if (vp9_lookahead_push(cpi->lookahead, sd, time_stamp, end_time, frame_flags,
                          cpi->active_map_enabled ? cpi->active_map : NULL))
@@ -3798,7 +3800,7 @@ int vp9_set_size_literal(VP9_PTR comp, unsigned int width,
   VP9_COMP *cpi = (VP9_COMP *)comp;
   VP9_COMMON *cm = &cpi->common;
 
-  check_initial_width(cpi, NULL);
+  check_initial_width(cpi, 1, 1);
 
   if (width) {
     cm->width = width;
diff --git a/vp9/encoder/vp9_picklpf.c b/vp9/encoder/vp9_picklpf.c
index 4ca85ee62..a4ceabdf1 100644
--- a/vp9/encoder/vp9_picklpf.c
+++ b/vp9/encoder/vp9_picklpf.c
@@ -20,65 +20,43 @@
 #include "vp9/common/vp9_loopfilter.h"
 #include "./vpx_scale_rtcd.h"
 
-// Enforce a minimum filter level based upon baseline Q
 static int get_min_filter_level(VP9_COMP *cpi, int base_qindex) {
-  int min_filter_level;
-  min_filter_level = 0;
-
-  return min_filter_level;
+  return 0;
 }
 
-// Enforce a maximum filter level based upon baseline Q
 static int get_max_filter_level(VP9_COMP *cpi, int base_qindex) {
-  int max_filter_level = MAX_LOOP_FILTER;
-  (void)base_qindex;
-
-  if (cpi->twopass.section_intra_rating > 8)
-    max_filter_level = MAX_LOOP_FILTER * 3 / 4;
-
-  return max_filter_level;
+  return cpi->twopass.section_intra_rating > 8 ? MAX_LOOP_FILTER * 3 / 4
+                                               : MAX_LOOP_FILTER;
 }
 
-
 // Stub function for now Alt LF not used
 void vp9_set_alt_lf_level(VP9_COMP *cpi, int filt_val) {
 }
 
 void vp9_pick_filter_level(YV12_BUFFER_CONFIG *sd, VP9_COMP *cpi, int partial) {
+  MACROBLOCKD *const xd = &cpi->mb.e_mbd;
   VP9_COMMON *const cm = &cpi->common;
   struct loopfilter *const lf = &cm->lf;
-
-  int best_err = 0;
-  int filt_err = 0;
   const int min_filter_level = get_min_filter_level(cpi, cm->base_qindex);
   const int max_filter_level = get_max_filter_level(cpi, cm->base_qindex);
-
-  int filter_step;
-  int filt_high = 0;
-  // Start search at previous frame filter level
-  int filt_mid = lf->filter_level;
-  int filt_low = 0;
+  int best_err = 0;
+  int filt_err = 0;
   int filt_best;
   int filt_direction = 0;
-
-  int Bias = 0;  // Bias against raising loop filter in favor of lowering it.
-
-  //  Make a copy of the unfiltered / processed recon buffer
-  vpx_yv12_copy_y(cm->frame_to_show, &cpi->last_frame_uf);
+  // Start the search at the previous frame filter level unless it is now out of
+  // range.
+  int filt_mid = clamp(lf->filter_level, min_filter_level, max_filter_level);
+  int filter_step = filt_mid < 16 ? 4 : filt_mid / 4;
 
   lf->sharpness_level = cm->frame_type == KEY_FRAME ? 0
                                                     : cpi->oxcf.sharpness;
 
-  // Start the search at the previous frame filter level unless it is now out of
-  // range.
-  filt_mid = clamp(lf->filter_level, min_filter_level, max_filter_level);
-
-  // Define the initial step size
-  filter_step = filt_mid < 16 ? 4 : filt_mid / 4;
+  //  Make a copy of the unfiltered / processed recon buffer
+  vpx_yv12_copy_y(cm->frame_to_show, &cpi->last_frame_uf);
 
   // Get baseline error score
   vp9_set_alt_lf_level(cpi, filt_mid);
-  vp9_loop_filter_frame(cm, &cpi->mb.e_mbd, filt_mid, 1, partial);
+  vp9_loop_filter_frame(cm, xd, filt_mid, 1, partial);
 
   best_err = vp9_calc_ss_err(sd, cm->frame_to_show);
   filt_best = filt_mid;
@@ -87,35 +65,32 @@ void vp9_pick_filter_level(YV12_BUFFER_CONFIG *sd, VP9_COMP *cpi, int partial) {
   vpx_yv12_copy_y(&cpi->last_frame_uf, cm->frame_to_show);
 
   while (filter_step > 0) {
-    Bias = (best_err >> (15 - (filt_mid / 8))) * filter_step;
+    const int filt_high = MIN(filt_mid + filter_step, max_filter_level);
+    const int filt_low = MAX(filt_mid - filter_step, min_filter_level);
+
+    // Bias against raising loop filter in favor of lowering it.
+    int bias = (best_err >> (15 - (filt_mid / 8))) * filter_step;
 
     if (cpi->twopass.section_intra_rating < 20)
-      Bias = Bias * cpi->twopass.section_intra_rating / 20;
+      bias = bias * cpi->twopass.section_intra_rating / 20;
 
     // yx, bias less for large block size
-    if (cpi->common.tx_mode != ONLY_4X4)
-      Bias >>= 1;
-
-    filt_high = ((filt_mid + filter_step) > max_filter_level)
-                    ? max_filter_level
-                    : (filt_mid + filter_step);
-    filt_low = ((filt_mid - filter_step) < min_filter_level)
-                   ? min_filter_level
-                   : (filt_mid - filter_step);
+    if (cm->tx_mode != ONLY_4X4)
+      bias >>= 1;
 
-    if ((filt_direction <= 0) && (filt_low != filt_mid)) {
+    if (filt_direction <= 0 && filt_low != filt_mid) {
       // Get Low filter error score
       vp9_set_alt_lf_level(cpi, filt_low);
-      vp9_loop_filter_frame(cm, &cpi->mb.e_mbd, filt_low, 1, partial);
+      vp9_loop_filter_frame(cm, xd, filt_low, 1, partial);
 
       filt_err = vp9_calc_ss_err(sd, cm->frame_to_show);
 
-      //  Re-instate the unfiltered frame
+      // Re-instate the unfiltered frame
       vpx_yv12_copy_y(&cpi->last_frame_uf, cm->frame_to_show);
 
       // If value is close to the best so far then bias towards a lower loop
       // filter value.
-      if ((filt_err - Bias) < best_err) {
+      if ((filt_err - bias) < best_err) {
         // Was it actually better than the previous best?
         if (filt_err < best_err)
           best_err = filt_err;
@@ -125,9 +100,9 @@ void vp9_pick_filter_level(YV12_BUFFER_CONFIG *sd, VP9_COMP *cpi, int partial) {
     }
 
     // Now look at filt_high
-    if ((filt_direction >= 0) && (filt_high != filt_mid)) {
+    if (filt_direction >= 0 && filt_high != filt_mid) {
       vp9_set_alt_lf_level(cpi, filt_high);
-      vp9_loop_filter_frame(cm, &cpi->mb.e_mbd, filt_high, 1, partial);
+      vp9_loop_filter_frame(cm, xd, filt_high, 1, partial);
 
       filt_err = vp9_calc_ss_err(sd, cm->frame_to_show);
 
@@ -135,7 +110,7 @@ void vp9_pick_filter_level(YV12_BUFFER_CONFIG *sd, VP9_COMP *cpi, int partial) {
       vpx_yv12_copy_y(&cpi->last_frame_uf, cm->frame_to_show);
 
       // Was it better than the previous best?
-      if (filt_err < (best_err - Bias)) {
+      if (filt_err < (best_err - bias)) {
         best_err = filt_err;
         filt_best = filt_high;
       }
diff --git a/vp9/encoder/vp9_pickmode.c b/vp9/encoder/vp9_pickmode.c
index 17d1f5984..f317f2a0d 100644
--- a/vp9/encoder/vp9_pickmode.c
+++ b/vp9/encoder/vp9_pickmode.c
@@ -174,7 +174,7 @@ int64_t vp9_pick_inter_mode(VP9_COMP *cpi, MACROBLOCK *x,
   for (ref_frame = LAST_FRAME; ref_frame <= ALTREF_FRAME; ++ref_frame) {
     x->pred_mv_sad[ref_frame] = INT_MAX;
     if (cpi->ref_frame_flags & flag_list[ref_frame]) {
-      vp9_setup_buffer_inter(cpi, x, tile, get_ref_frame_idx(cpi, ref_frame),
+      vp9_setup_buffer_inter(cpi, x, tile,
                              ref_frame, block_size, mi_row, mi_col,
                              frame_mv[NEARESTMV], frame_mv[NEARMV], yv12_mb);
     }
diff --git a/vp9/encoder/vp9_rdopt.c b/vp9/encoder/vp9_rdopt.c
index fa6b362d4..3c1bd392d 100644
--- a/vp9/encoder/vp9_rdopt.c
+++ b/vp9/encoder/vp9_rdopt.c
@@ -419,18 +419,12 @@ static void model_rd_for_sb(VP9_COMP *cpi, BLOCK_SIZE bsize,
     struct macroblock_plane *const p = &x->plane[i];
     struct macroblockd_plane *const pd = &xd->plane[i];
     const BLOCK_SIZE bs = get_plane_block_size(bsize, pd);
-    int rate;
-    int64_t dist;
     (void) cpi->fn_ptr[bs].vf(p->src.buf, p->src.stride,
                               pd->dst.buf, pd->dst.stride, &sse);
     if (i == 0)
       x->pred_sse[ref] = sse;
-    // sse works better than var, since there is no dc prediction used
-    model_rd_from_var_lapndz(sse, 1 << num_pels_log2_lookup[bs],
-                             pd->dequant[1] >> 3, &rate, &dist);
 
-    rate_sum += rate;
-    dist_sum += (int)dist;
+    dist_sum += (int)sse;
   }
 
   *out_rate_sum = rate_sum;
@@ -2276,41 +2270,38 @@ static void setup_pred_block(const MACROBLOCKD *xd,
 
 void vp9_setup_buffer_inter(VP9_COMP *cpi, MACROBLOCK *x,
                             const TileInfo *const tile,
-                            int idx, MV_REFERENCE_FRAME frame_type,
+                            MV_REFERENCE_FRAME ref_frame,
                             BLOCK_SIZE block_size,
                             int mi_row, int mi_col,
                             int_mv frame_nearest_mv[MAX_REF_FRAMES],
                             int_mv frame_near_mv[MAX_REF_FRAMES],
                             struct buf_2d yv12_mb[4][MAX_MB_PLANE]) {
-  VP9_COMMON *cm = &cpi->common;
-  YV12_BUFFER_CONFIG *yv12 = &cm->yv12_fb[cpi->common.ref_frame_map[idx]];
+  const VP9_COMMON *cm = &cpi->common;
+  const YV12_BUFFER_CONFIG *yv12 = get_ref_frame_buffer(cpi, ref_frame);
   MACROBLOCKD *const xd = &x->e_mbd;
-  MB_MODE_INFO *const mbmi = &xd->mi_8x8[0]->mbmi;
-  const struct scale_factors *const sf = &cm->frame_refs[frame_type - 1].sf;
-
+  MODE_INFO *const mi = xd->mi_8x8[0];
+  int_mv *const candidates = mi->mbmi.ref_mvs[ref_frame];
+  const struct scale_factors *const sf = &cm->frame_refs[ref_frame - 1].sf;
 
   // TODO(jkoleszar): Is the UV buffer ever used here? If so, need to make this
   // use the UV scaling factors.
-  setup_pred_block(xd, yv12_mb[frame_type], yv12, mi_row, mi_col, sf, sf);
+  setup_pred_block(xd, yv12_mb[ref_frame], yv12, mi_row, mi_col, sf, sf);
 
   // Gets an initial list of candidate vectors from neighbours and orders them
-  vp9_find_mv_refs(cm, xd, tile, xd->mi_8x8[0],
-                   xd->last_mi,
-                   frame_type,
-                   mbmi->ref_mvs[frame_type], mi_row, mi_col);
+  vp9_find_mv_refs(cm, xd, tile, mi, xd->last_mi, ref_frame, candidates,
+                   mi_row, mi_col);
 
   // Candidate refinement carried out at encoder and decoder
-  vp9_find_best_ref_mvs(xd, cm->allow_high_precision_mv,
-                        mbmi->ref_mvs[frame_type],
-                        &frame_nearest_mv[frame_type],
-                        &frame_near_mv[frame_type]);
+  vp9_find_best_ref_mvs(xd, cm->allow_high_precision_mv, candidates,
+                        &frame_nearest_mv[ref_frame],
+                        &frame_near_mv[ref_frame]);
 
   // Further refinement that is encode side only to test the top few candidates
   // in full and choose the best as the centre point for subsequent searches.
   // The current implementation doesn't support scaling.
   if (!vp9_is_scaled(sf) && block_size >= BLOCK_8X8)
-    mv_pred(cpi, x, yv12_mb[frame_type][0].buf, yv12->y_stride,
-            frame_type, block_size);
+    mv_pred(cpi, x, yv12_mb[ref_frame][0].buf, yv12->y_stride,
+            ref_frame, block_size);
 }
 
 YV12_BUFFER_CONFIG *vp9_get_scaled_ref_frame(VP9_COMP *cpi, int ref_frame) {
@@ -3173,7 +3164,7 @@ int64_t vp9_rd_pick_inter_mode_sb(VP9_COMP *cpi, MACROBLOCK *x,
   for (ref_frame = LAST_FRAME; ref_frame <= ALTREF_FRAME; ++ref_frame) {
     x->pred_mv_sad[ref_frame] = INT_MAX;
     if (cpi->ref_frame_flags & flag_list[ref_frame]) {
-      vp9_setup_buffer_inter(cpi, x, tile, get_ref_frame_idx(cpi, ref_frame),
+      vp9_setup_buffer_inter(cpi, x, tile,
                              ref_frame, block_size, mi_row, mi_col,
                              frame_mv[NEARESTMV], frame_mv[NEARMV], yv12_mb);
     }
@@ -3798,7 +3789,7 @@ int64_t vp9_rd_pick_inter_mode_sub8x8(VP9_COMP *cpi, MACROBLOCK *x,
 
   for (ref_frame = LAST_FRAME; ref_frame <= ALTREF_FRAME; ref_frame++) {
     if (cpi->ref_frame_flags & flag_list[ref_frame]) {
-      vp9_setup_buffer_inter(cpi, x, tile, get_ref_frame_idx(cpi, ref_frame),
+      vp9_setup_buffer_inter(cpi, x, tile,
                              ref_frame, block_size, mi_row, mi_col,
                              frame_mv[NEARESTMV], frame_mv[NEARMV],
                              yv12_mb);
diff --git a/vp9/encoder/vp9_rdopt.h b/vp9/encoder/vp9_rdopt.h
index 696cf6b11..9ac1f5404 100644
--- a/vp9/encoder/vp9_rdopt.h
+++ b/vp9/encoder/vp9_rdopt.h
@@ -39,7 +39,7 @@ void vp9_initialize_me_consts(VP9_COMP *cpi, int qindex);
 
 void vp9_setup_buffer_inter(VP9_COMP *cpi, MACROBLOCK *x,
                             const TileInfo *const tile,
-                            int idx, MV_REFERENCE_FRAME frame_type,
+                            MV_REFERENCE_FRAME ref_frame,
                             BLOCK_SIZE block_size,
                             int mi_row, int mi_col,
                             int_mv frame_nearest_mv[MAX_REF_FRAMES],
diff --git a/vp9/encoder/vp9_sad_c.c b/vp9/encoder/vp9_sad_c.c
index 55d595baf..58c5df47e 100644
--- a/vp9/encoder/vp9_sad_c.c
+++ b/vp9/encoder/vp9_sad_c.c
@@ -8,31 +8,44 @@
  *  be found in the AUTHORS file in the root of the source tree.
  */
 
-
 #include <stdlib.h>
+
 #include "./vp9_rtcd.h"
 #include "./vpx_config.h"
-#include "vp9/encoder/vp9_sadmxn.h"
-#include "vp9/encoder/vp9_variance.h"
+
 #include "vpx/vpx_integer.h"
+#include "vp9/encoder/vp9_variance.h"
+
+static INLINE unsigned int sad(const uint8_t *a, int a_stride,
+                               const uint8_t *b, int b_stride,
+                               int width, int height) {
+  int y, x;
+  unsigned int sad = 0;
+
+  for (y = 0; y < height; y++) {
+    for (x = 0; x < width; x++)
+      sad += abs(a[x] - b[x]);
+
+    a += a_stride;
+    b += b_stride;
+  }
+
+  return sad;
+}
 
 #define sad_mxn_func(m, n) \
-unsigned int vp9_sad##m##x##n##_c(const uint8_t *src_ptr, \
-                                  int  src_stride, \
-                                  const uint8_t *ref_ptr, \
-                                  int  ref_stride, \
+unsigned int vp9_sad##m##x##n##_c(const uint8_t *src_ptr, int src_stride, \
+                                  const uint8_t *ref_ptr, int ref_stride, \
                                   unsigned int max_sad) { \
-  return sad_mx_n_c(src_ptr, src_stride, ref_ptr, ref_stride, m, n); \
+  return sad(src_ptr, src_stride, ref_ptr, ref_stride, m, n); \
 } \
-unsigned int vp9_sad##m##x##n##_avg_c(const uint8_t *src_ptr, \
-                                      int  src_stride, \
-                                      const uint8_t *ref_ptr, \
-                                      int  ref_stride, \
+unsigned int vp9_sad##m##x##n##_avg_c(const uint8_t *src_ptr, int src_stride, \
+                                      const uint8_t *ref_ptr, int ref_stride, \
                                       const uint8_t *second_pred, \
                                       unsigned int max_sad) { \
   uint8_t comp_pred[m * n]; \
   comp_avg_pred(comp_pred, second_pred, m, n, ref_ptr, ref_stride); \
-  return sad_mx_n_c(src_ptr, src_stride, comp_pred, m, m, n); \
+  return sad(src_ptr, src_stride, comp_pred, m, m, n); \
 }
 
 sad_mxn_func(64, 64)
@@ -49,567 +62,263 @@ sad_mxn_func(8, 4)
 sad_mxn_func(4, 8)
 sad_mxn_func(4, 4)
 
-void vp9_sad64x32x4d_c(const uint8_t *src_ptr,
-                       int  src_stride,
-                       const uint8_t* const ref_ptr[],
-                       int  ref_stride,
+void vp9_sad64x32x4d_c(const uint8_t *src_ptr, int src_stride,
+                       const uint8_t* const ref_ptr[], int ref_stride,
                        unsigned int *sad_array) {
-  sad_array[0] = vp9_sad64x32(src_ptr, src_stride,
-                              ref_ptr[0], ref_stride, 0x7fffffff);
-  sad_array[1] = vp9_sad64x32(src_ptr, src_stride,
-                              ref_ptr[1], ref_stride, 0x7fffffff);
-  sad_array[2] = vp9_sad64x32(src_ptr, src_stride,
-                              ref_ptr[2], ref_stride, 0x7fffffff);
-  sad_array[3] = vp9_sad64x32(src_ptr, src_stride,
-                              ref_ptr[3], ref_stride, 0x7fffffff);
+  int i;
+  for (i = 0; i < 4; ++i)
+    sad_array[i] = vp9_sad64x32(src_ptr, src_stride, ref_ptr[i], ref_stride,
+                                0x7fffffff);
 }
 
-void vp9_sad32x64x4d_c(const uint8_t *src_ptr,
-                       int  src_stride,
-                       const uint8_t* const ref_ptr[],
-                       int  ref_stride,
+void vp9_sad32x64x4d_c(const uint8_t *src_ptr, int src_stride,
+                       const uint8_t* const ref_ptr[], int ref_stride,
                        unsigned int *sad_array) {
-  sad_array[0] = vp9_sad32x64(src_ptr, src_stride,
-                              ref_ptr[0], ref_stride, 0x7fffffff);
-  sad_array[1] = vp9_sad32x64(src_ptr, src_stride,
-                              ref_ptr[1], ref_stride, 0x7fffffff);
-  sad_array[2] = vp9_sad32x64(src_ptr, src_stride,
-                              ref_ptr[2], ref_stride, 0x7fffffff);
-  sad_array[3] = vp9_sad32x64(src_ptr, src_stride,
-                              ref_ptr[3], ref_stride, 0x7fffffff);
+  int i;
+  for (i = 0; i < 4; ++i)
+    sad_array[i] = vp9_sad32x64(src_ptr, src_stride, ref_ptr[i], ref_stride,
+                                0x7fffffff);
 }
 
-void vp9_sad32x16x4d_c(const uint8_t *src_ptr,
-                       int  src_stride,
-                       const uint8_t* const ref_ptr[],
-                       int  ref_stride,
+void vp9_sad32x16x4d_c(const uint8_t *src_ptr, int src_stride,
+                       const uint8_t* const ref_ptr[], int ref_stride,
                        unsigned int *sad_array) {
-  sad_array[0] = vp9_sad32x16(src_ptr, src_stride,
-                              ref_ptr[0], ref_stride, 0x7fffffff);
-  sad_array[1] = vp9_sad32x16(src_ptr, src_stride,
-                              ref_ptr[1], ref_stride, 0x7fffffff);
-  sad_array[2] = vp9_sad32x16(src_ptr, src_stride,
-                              ref_ptr[2], ref_stride, 0x7fffffff);
-  sad_array[3] = vp9_sad32x16(src_ptr, src_stride,
-                              ref_ptr[3], ref_stride, 0x7fffffff);
+  int i;
+  for (i = 0; i < 4; ++i)
+    sad_array[i] = vp9_sad32x16(src_ptr, src_stride, ref_ptr[i], ref_stride,
+                                0x7fffffff);
 }
 
-void vp9_sad16x32x4d_c(const uint8_t *src_ptr,
-                       int  src_stride,
-                       const uint8_t* const ref_ptr[],
-                       int  ref_stride,
+void vp9_sad16x32x4d_c(const uint8_t *src_ptr, int src_stride,
+                       const uint8_t* const ref_ptr[], int ref_stride,
                        unsigned int *sad_array) {
-  sad_array[0] = vp9_sad16x32(src_ptr, src_stride,
-                              ref_ptr[0], ref_stride, 0x7fffffff);
-  sad_array[1] = vp9_sad16x32(src_ptr, src_stride,
-                              ref_ptr[1], ref_stride, 0x7fffffff);
-  sad_array[2] = vp9_sad16x32(src_ptr, src_stride,
-                              ref_ptr[2], ref_stride, 0x7fffffff);
-  sad_array[3] = vp9_sad16x32(src_ptr, src_stride,
-                              ref_ptr[3], ref_stride, 0x7fffffff);
+  int i;
+  for (i = 0; i < 4; ++i)
+    sad_array[i] = vp9_sad16x32(src_ptr, src_stride, ref_ptr[i], ref_stride,
+                                0x7fffffff);
 }
 
-void vp9_sad64x64x3_c(const uint8_t *src_ptr,
-                      int  src_stride,
-                      const uint8_t *ref_ptr,
-                      int  ref_stride,
+void vp9_sad64x64x3_c(const uint8_t *src_ptr, int src_stride,
+                      const uint8_t *ref_ptr, int ref_stride,
                       unsigned int *sad_array) {
-  sad_array[0] = vp9_sad64x64(src_ptr, src_stride, ref_ptr, ref_stride,
-                              0x7fffffff);
-  sad_array[1] = vp9_sad64x64(src_ptr, src_stride, ref_ptr + 1, ref_stride,
-                              0x7fffffff);
-  sad_array[2] = vp9_sad64x64(src_ptr, src_stride, ref_ptr + 2, ref_stride,
-                              0x7fffffff);
+  int i;
+  for (i = 0; i < 3; ++i)
+    sad_array[i] = vp9_sad64x64(src_ptr, src_stride, ref_ptr + i, ref_stride,
+                                0x7fffffff);
 }
 
-void vp9_sad32x32x3_c(const uint8_t *src_ptr,
-                      int  src_stride,
-                      const uint8_t *ref_ptr,
-                      int  ref_stride,
+void vp9_sad32x32x3_c(const uint8_t *src_ptr, int src_stride,
+                      const uint8_t *ref_ptr, int ref_stride,
                       unsigned int *sad_array) {
-  sad_array[0] = vp9_sad32x32(src_ptr, src_stride,
-                              ref_ptr, ref_stride, 0x7fffffff);
-  sad_array[1] = vp9_sad32x32(src_ptr, src_stride,
-                              ref_ptr + 1, ref_stride, 0x7fffffff);
-  sad_array[2] = vp9_sad32x32(src_ptr, src_stride,
-                              ref_ptr + 2, ref_stride, 0x7fffffff);
+  int i;
+  for (i = 0; i < 3; ++i)
+    sad_array[i] = vp9_sad32x32(src_ptr, src_stride, ref_ptr + i, ref_stride,
+                                0x7fffffff);
 }
 
-void vp9_sad64x64x8_c(const uint8_t *src_ptr,
-                      int  src_stride,
-                      const uint8_t *ref_ptr,
-                      int  ref_stride,
+void vp9_sad64x64x8_c(const uint8_t *src_ptr, int src_stride,
+                      const uint8_t *ref_ptr, int ref_stride,
                       unsigned int *sad_array) {
-  sad_array[0] = vp9_sad64x64(src_ptr, src_stride,
-                              ref_ptr, ref_stride,
-                              0x7fffffff);
-  sad_array[1] = vp9_sad64x64(src_ptr, src_stride,
-                              ref_ptr + 1, ref_stride,
-                              0x7fffffff);
-  sad_array[2] = vp9_sad64x64(src_ptr, src_stride,
-                              ref_ptr + 2, ref_stride,
-                              0x7fffffff);
-  sad_array[3] = vp9_sad64x64(src_ptr, src_stride,
-                              ref_ptr + 3, ref_stride,
-                              0x7fffffff);
-  sad_array[4] = vp9_sad64x64(src_ptr, src_stride,
-                              ref_ptr + 4, ref_stride,
-                              0x7fffffff);
-  sad_array[5] = vp9_sad64x64(src_ptr, src_stride,
-                              ref_ptr + 5, ref_stride,
-                              0x7fffffff);
-  sad_array[6] = vp9_sad64x64(src_ptr, src_stride,
-                              ref_ptr + 6, ref_stride,
-                              0x7fffffff);
-  sad_array[7] = vp9_sad64x64(src_ptr, src_stride,
-                              ref_ptr + 7, ref_stride,
-                              0x7fffffff);
+  int i;
+  for (i = 0; i < 8; ++i)
+    sad_array[i] = vp9_sad64x64(src_ptr, src_stride, ref_ptr + i, ref_stride,
+                                0x7fffffff);
 }
 
-void vp9_sad32x32x8_c(const uint8_t *src_ptr,
-                      int  src_stride,
-                      const uint8_t *ref_ptr,
-                      int  ref_stride,
+void vp9_sad32x32x8_c(const uint8_t *src_ptr, int src_stride,
+                      const uint8_t *ref_ptr, int ref_stride,
                       unsigned int *sad_array) {
-  sad_array[0] = vp9_sad32x32(src_ptr, src_stride,
-                              ref_ptr, ref_stride,
-                              0x7fffffff);
-  sad_array[1] = vp9_sad32x32(src_ptr, src_stride,
-                              ref_ptr + 1, ref_stride,
-                              0x7fffffff);
-  sad_array[2] = vp9_sad32x32(src_ptr, src_stride,
-                              ref_ptr + 2, ref_stride,
-                              0x7fffffff);
-  sad_array[3] = vp9_sad32x32(src_ptr, src_stride,
-                              ref_ptr + 3, ref_stride,
-                              0x7fffffff);
-  sad_array[4] = vp9_sad32x32(src_ptr, src_stride,
-                              ref_ptr + 4, ref_stride,
-                              0x7fffffff);
-  sad_array[5] = vp9_sad32x32(src_ptr, src_stride,
-                              ref_ptr + 5, ref_stride,
-                              0x7fffffff);
-  sad_array[6] = vp9_sad32x32(src_ptr, src_stride,
-                              ref_ptr + 6, ref_stride,
-                              0x7fffffff);
-  sad_array[7] = vp9_sad32x32(src_ptr, src_stride,
-                              ref_ptr + 7, ref_stride,
-                              0x7fffffff);
+  int i;
+  for (i = 0; i < 8; ++i)
+    sad_array[i] = vp9_sad32x32(src_ptr, src_stride, ref_ptr + i, ref_stride,
+                                0x7fffffff);
 }
 
-void vp9_sad16x16x3_c(const uint8_t *src_ptr,
-                      int  src_stride,
-                      const uint8_t *ref_ptr,
-                      int  ref_stride,
+void vp9_sad16x16x3_c(const uint8_t *src_ptr, int src_stride,
+                      const uint8_t *ref_ptr, int ref_stride,
                       unsigned int *sad_array) {
-  sad_array[0] = vp9_sad16x16(src_ptr, src_stride,
-                              ref_ptr, ref_stride, 0x7fffffff);
-  sad_array[1] = vp9_sad16x16(src_ptr, src_stride,
-                              ref_ptr + 1, ref_stride, 0x7fffffff);
-  sad_array[2] = vp9_sad16x16(src_ptr, src_stride,
-                              ref_ptr + 2, ref_stride, 0x7fffffff);
+  int i;
+  for (i = 0; i < 3; ++i)
+    sad_array[i] = vp9_sad16x16(src_ptr, src_stride, ref_ptr + i, ref_stride,
+                                0x7fffffff);
 }
 
-void vp9_sad16x16x8_c(const uint8_t *src_ptr,
-                      int  src_stride,
-                      const uint8_t *ref_ptr,
-                      int  ref_stride,
+void vp9_sad16x16x8_c(const uint8_t *src_ptr, int src_stride,
+                      const uint8_t *ref_ptr, int ref_stride,
                       uint32_t *sad_array) {
-  sad_array[0] = vp9_sad16x16(src_ptr, src_stride,
-                              ref_ptr, ref_stride,
-                              0x7fffffff);
-  sad_array[1] = vp9_sad16x16(src_ptr, src_stride,
-                              ref_ptr + 1, ref_stride,
-                              0x7fffffff);
-  sad_array[2] = vp9_sad16x16(src_ptr, src_stride,
-                              ref_ptr + 2, ref_stride,
-                              0x7fffffff);
-  sad_array[3] = vp9_sad16x16(src_ptr, src_stride,
-                              ref_ptr + 3, ref_stride,
-                              0x7fffffff);
-  sad_array[4] = vp9_sad16x16(src_ptr, src_stride,
-                              ref_ptr + 4, ref_stride,
-                              0x7fffffff);
-  sad_array[5] = vp9_sad16x16(src_ptr, src_stride,
-                              ref_ptr + 5, ref_stride,
-                              0x7fffffff);
-  sad_array[6] = vp9_sad16x16(src_ptr, src_stride,
-                              ref_ptr + 6, ref_stride,
-                              0x7fffffff);
-  sad_array[7] = vp9_sad16x16(src_ptr, src_stride,
-                              ref_ptr + 7, ref_stride,
-                              0x7fffffff);
+  int i;
+  for (i = 0; i < 8; ++i)
+    sad_array[i] = vp9_sad16x16(src_ptr, src_stride, ref_ptr + i, ref_stride,
+                                0x7fffffff);
 }
 
-void vp9_sad16x8x3_c(const uint8_t *src_ptr,
-                     int  src_stride,
-                     const uint8_t *ref_ptr,
-                     int  ref_stride,
+void vp9_sad16x8x3_c(const uint8_t *src_ptr, int src_stride,
+                     const uint8_t *ref_ptr, int ref_stride,
                      unsigned int *sad_array) {
-  sad_array[0] = vp9_sad16x8(src_ptr, src_stride,
-                             ref_ptr, ref_stride, 0x7fffffff);
-  sad_array[1] = vp9_sad16x8(src_ptr, src_stride,
-                             ref_ptr + 1, ref_stride, 0x7fffffff);
-  sad_array[2] = vp9_sad16x8(src_ptr, src_stride,
-                             ref_ptr + 2, ref_stride, 0x7fffffff);
+  int i;
+  for (i = 0; i < 3; ++i)
+    sad_array[i] = vp9_sad16x8(src_ptr, src_stride, ref_ptr + i, ref_stride,
+                               0x7fffffff);
 }
 
-void vp9_sad16x8x8_c(const uint8_t *src_ptr,
-                     int  src_stride,
-                     const uint8_t *ref_ptr,
-                     int  ref_stride,
+void vp9_sad16x8x8_c(const uint8_t *src_ptr, int src_stride,
+                     const uint8_t *ref_ptr, int ref_stride,
                      uint32_t *sad_array) {
-  sad_array[0] = vp9_sad16x8(src_ptr, src_stride,
-                             ref_ptr, ref_stride,
-                             0x7fffffff);
-  sad_array[1] = vp9_sad16x8(src_ptr, src_stride,
-                             ref_ptr + 1, ref_stride,
-                             0x7fffffff);
-  sad_array[2] = vp9_sad16x8(src_ptr, src_stride,
-                             ref_ptr + 2, ref_stride,
-                             0x7fffffff);
-  sad_array[3] = vp9_sad16x8(src_ptr, src_stride,
-                             ref_ptr + 3, ref_stride,
-                             0x7fffffff);
-  sad_array[4] = vp9_sad16x8(src_ptr, src_stride,
-                             ref_ptr + 4, ref_stride,
-                             0x7fffffff);
-  sad_array[5] = vp9_sad16x8(src_ptr, src_stride,
-                             ref_ptr + 5, ref_stride,
-                             0x7fffffff);
-  sad_array[6] = vp9_sad16x8(src_ptr, src_stride,
-                             ref_ptr + 6, ref_stride,
-                             0x7fffffff);
-  sad_array[7] = vp9_sad16x8(src_ptr, src_stride,
-                             ref_ptr + 7, ref_stride,
-                             0x7fffffff);
+  int i;
+  for (i = 0; i < 8; ++i)
+    sad_array[i] = vp9_sad16x8(src_ptr, src_stride, ref_ptr + i, ref_stride,
+                               0x7fffffff);
 }
 
-void vp9_sad8x8x3_c(const uint8_t *src_ptr,
-                    int  src_stride,
-                    const uint8_t *ref_ptr,
-                    int  ref_stride,
+void vp9_sad8x8x3_c(const uint8_t *src_ptr, int src_stride,
+                    const uint8_t *ref_ptr, int ref_stride,
                     unsigned int *sad_array) {
-  sad_array[0] = vp9_sad8x8(src_ptr, src_stride,
-                            ref_ptr, ref_stride, 0x7fffffff);
-  sad_array[1] = vp9_sad8x8(src_ptr, src_stride,
-                            ref_ptr + 1, ref_stride, 0x7fffffff);
-  sad_array[2] = vp9_sad8x8(src_ptr, src_stride,
-                            ref_ptr + 2, ref_stride, 0x7fffffff);
+  int i;
+  for (i = 0; i < 3; ++i)
+    sad_array[i] = vp9_sad8x8(src_ptr, src_stride, ref_ptr + i, ref_stride,
+                              0x7fffffff);
 }
 
-void vp9_sad8x8x8_c(const uint8_t *src_ptr,
-                    int  src_stride,
-                    const uint8_t *ref_ptr,
-                    int  ref_stride,
+void vp9_sad8x8x8_c(const uint8_t *src_ptr, int src_stride,
+                    const uint8_t *ref_ptr, int ref_stride,
                     uint32_t *sad_array) {
-  sad_array[0] = vp9_sad8x8(src_ptr, src_stride,
-                            ref_ptr, ref_stride,
-                            0x7fffffff);
-  sad_array[1] = vp9_sad8x8(src_ptr, src_stride,
-                            ref_ptr + 1, ref_stride,
-                            0x7fffffff);
-  sad_array[2] = vp9_sad8x8(src_ptr, src_stride,
-                            ref_ptr + 2, ref_stride,
-                            0x7fffffff);
-  sad_array[3] = vp9_sad8x8(src_ptr, src_stride,
-                            ref_ptr + 3, ref_stride,
-                            0x7fffffff);
-  sad_array[4] = vp9_sad8x8(src_ptr, src_stride,
-                            ref_ptr + 4, ref_stride,
-                            0x7fffffff);
-  sad_array[5] = vp9_sad8x8(src_ptr, src_stride,
-                            ref_ptr + 5, ref_stride,
-                            0x7fffffff);
-  sad_array[6] = vp9_sad8x8(src_ptr, src_stride,
-                            ref_ptr + 6, ref_stride,
-                            0x7fffffff);
-  sad_array[7] = vp9_sad8x8(src_ptr, src_stride,
-                            ref_ptr + 7, ref_stride,
-                            0x7fffffff);
+  int i;
+  for (i = 0; i < 8; ++i)
+    sad_array[i] = vp9_sad8x8(src_ptr, src_stride, ref_ptr + i, ref_stride,
+                              0x7fffffff);
 }
 
-void vp9_sad8x16x3_c(const uint8_t *src_ptr,
-                     int  src_stride,
-                     const uint8_t *ref_ptr,
-                     int  ref_stride,
+void vp9_sad8x16x3_c(const uint8_t *src_ptr, int src_stride,
+                     const uint8_t *ref_ptr, int ref_stride,
                      unsigned int *sad_array) {
-  sad_array[0] = vp9_sad8x16(src_ptr, src_stride,
-                             ref_ptr, ref_stride, 0x7fffffff);
-  sad_array[1] = vp9_sad8x16(src_ptr, src_stride,
-                             ref_ptr + 1, ref_stride, 0x7fffffff);
-  sad_array[2] = vp9_sad8x16(src_ptr, src_stride,
-                             ref_ptr + 2, ref_stride, 0x7fffffff);
+  int i;
+  for (i = 0; i < 3; ++i)
+    sad_array[i] = vp9_sad8x16(src_ptr, src_stride, ref_ptr + i, ref_stride,
+                               0x7fffffff);
 }
 
-void vp9_sad8x16x8_c(const uint8_t *src_ptr,
-                     int  src_stride,
-                     const uint8_t *ref_ptr,
-                     int  ref_stride,
+void vp9_sad8x16x8_c(const uint8_t *src_ptr, int src_stride,
+                     const uint8_t *ref_ptr, int ref_stride,
                      uint32_t *sad_array) {
-  sad_array[0] = vp9_sad8x16(src_ptr, src_stride,
-                             ref_ptr, ref_stride,
-                             0x7fffffff);
-  sad_array[1] = vp9_sad8x16(src_ptr, src_stride,
-                             ref_ptr + 1, ref_stride,
-                             0x7fffffff);
-  sad_array[2] = vp9_sad8x16(src_ptr, src_stride,
-                             ref_ptr + 2, ref_stride,
-                             0x7fffffff);
-  sad_array[3] = vp9_sad8x16(src_ptr, src_stride,
-                             ref_ptr + 3, ref_stride,
-                             0x7fffffff);
-  sad_array[4] = vp9_sad8x16(src_ptr, src_stride,
-                             ref_ptr + 4, ref_stride,
-                             0x7fffffff);
-  sad_array[5] = vp9_sad8x16(src_ptr, src_stride,
-                             ref_ptr + 5, ref_stride,
-                             0x7fffffff);
-  sad_array[6] = vp9_sad8x16(src_ptr, src_stride,
-                             ref_ptr + 6, ref_stride,
-                             0x7fffffff);
-  sad_array[7] = vp9_sad8x16(src_ptr, src_stride,
-                             ref_ptr + 7, ref_stride,
-                             0x7fffffff);
+  int i;
+  for (i = 0; i < 8; ++i)
+    sad_array[i] = vp9_sad8x16(src_ptr, src_stride, ref_ptr + i, ref_stride,
+                               0x7fffffff);
 }
 
-void vp9_sad4x4x3_c(const uint8_t *src_ptr,
-                    int  src_stride,
-                    const uint8_t *ref_ptr,
-                    int  ref_stride,
+void vp9_sad4x4x3_c(const uint8_t *src_ptr, int src_stride,
+                    const uint8_t *ref_ptr, int ref_stride,
                     unsigned int *sad_array) {
-  sad_array[0] = vp9_sad4x4(src_ptr, src_stride,
-                            ref_ptr, ref_stride, 0x7fffffff);
-  sad_array[1] = vp9_sad4x4(src_ptr, src_stride,
-                            ref_ptr + 1, ref_stride, 0x7fffffff);
-  sad_array[2] = vp9_sad4x4(src_ptr, src_stride,
-                            ref_ptr + 2, ref_stride, 0x7fffffff);
+  int i;
+  for (i = 0; i < 3; ++i)
+    sad_array[i] = vp9_sad4x4(src_ptr, src_stride, ref_ptr + i, ref_stride,
+                              0x7fffffff);
 }
 
-void vp9_sad4x4x8_c(const uint8_t *src_ptr,
-                    int  src_stride,
-                    const uint8_t *ref_ptr,
-                    int  ref_stride,
+void vp9_sad4x4x8_c(const uint8_t *src_ptr, int src_stride,
+                    const uint8_t *ref_ptr, int ref_stride,
                     uint32_t *sad_array) {
-  sad_array[0] = vp9_sad4x4(src_ptr, src_stride,
-                            ref_ptr, ref_stride,
-                            0x7fffffff);
-  sad_array[1] = vp9_sad4x4(src_ptr, src_stride,
-                            ref_ptr + 1, ref_stride,
-                            0x7fffffff);
-  sad_array[2] = vp9_sad4x4(src_ptr, src_stride,
-                            ref_ptr + 2, ref_stride,
-                            0x7fffffff);
-  sad_array[3] = vp9_sad4x4(src_ptr, src_stride,
-                            ref_ptr + 3, ref_stride,
-                            0x7fffffff);
-  sad_array[4] = vp9_sad4x4(src_ptr, src_stride,
-                            ref_ptr + 4, ref_stride,
-                            0x7fffffff);
-  sad_array[5] = vp9_sad4x4(src_ptr, src_stride,
-                            ref_ptr + 5, ref_stride,
-                            0x7fffffff);
-  sad_array[6] = vp9_sad4x4(src_ptr, src_stride,
-                            ref_ptr + 6, ref_stride,
-                            0x7fffffff);
-  sad_array[7] = vp9_sad4x4(src_ptr, src_stride,
-                            ref_ptr + 7, ref_stride,
-                            0x7fffffff);
+  int i;
+  for (i = 0; i < 8; ++i)
+    sad_array[i] = vp9_sad4x4(src_ptr, src_stride, ref_ptr + i, ref_stride,
+                              0x7fffffff);
 }
 
-void vp9_sad64x64x4d_c(const uint8_t *src_ptr,
-                       int  src_stride,
-                       const uint8_t* const ref_ptr[],
-                       int  ref_stride,
+void vp9_sad64x64x4d_c(const uint8_t *src_ptr, int src_stride,
+                       const uint8_t* const ref_ptr[], int ref_stride,
                        unsigned int *sad_array) {
-  sad_array[0] = vp9_sad64x64(src_ptr, src_stride,
-                              ref_ptr[0], ref_stride, 0x7fffffff);
-  sad_array[1] = vp9_sad64x64(src_ptr, src_stride,
-                              ref_ptr[1], ref_stride, 0x7fffffff);
-  sad_array[2] = vp9_sad64x64(src_ptr, src_stride,
-                              ref_ptr[2], ref_stride, 0x7fffffff);
-  sad_array[3] = vp9_sad64x64(src_ptr, src_stride,
-                              ref_ptr[3], ref_stride, 0x7fffffff);
+  int i;
+  for (i = 0; i < 4; ++i)
+    sad_array[i] = vp9_sad64x64(src_ptr, src_stride, ref_ptr[i], ref_stride,
+                                0x7fffffff);
 }
 
-void vp9_sad32x32x4d_c(const uint8_t *src_ptr,
-                       int  src_stride,
-                       const uint8_t* const ref_ptr[],
-                       int  ref_stride,
+void vp9_sad32x32x4d_c(const uint8_t *src_ptr, int src_stride,
+                       const uint8_t* const ref_ptr[], int ref_stride,
                        unsigned int *sad_array) {
-  sad_array[0] = vp9_sad32x32(src_ptr, src_stride,
-                              ref_ptr[0], ref_stride, 0x7fffffff);
-  sad_array[1] = vp9_sad32x32(src_ptr, src_stride,
-                              ref_ptr[1], ref_stride, 0x7fffffff);
-  sad_array[2] = vp9_sad32x32(src_ptr, src_stride,
-                              ref_ptr[2], ref_stride, 0x7fffffff);
-  sad_array[3] = vp9_sad32x32(src_ptr, src_stride,
-                              ref_ptr[3], ref_stride, 0x7fffffff);
+  int i;
+  for (i = 0; i < 4; ++i)
+    sad_array[i] = vp9_sad32x32(src_ptr, src_stride, ref_ptr[i], ref_stride,
+                                0x7fffffff);
 }
 
-void vp9_sad16x16x4d_c(const uint8_t *src_ptr,
-                       int  src_stride,
-                       const uint8_t* const ref_ptr[],
-                       int  ref_stride,
+void vp9_sad16x16x4d_c(const uint8_t *src_ptr, int src_stride,
+                       const uint8_t* const ref_ptr[], int ref_stride,
                        unsigned int *sad_array) {
-  sad_array[0] = vp9_sad16x16(src_ptr, src_stride,
-                              ref_ptr[0], ref_stride, 0x7fffffff);
-  sad_array[1] = vp9_sad16x16(src_ptr, src_stride,
-                              ref_ptr[1], ref_stride, 0x7fffffff);
-  sad_array[2] = vp9_sad16x16(src_ptr, src_stride,
-                              ref_ptr[2], ref_stride, 0x7fffffff);
-  sad_array[3] = vp9_sad16x16(src_ptr, src_stride,
-                              ref_ptr[3], ref_stride, 0x7fffffff);
+  int i;
+  for (i = 0; i < 4; ++i)
+    sad_array[i] = vp9_sad16x16(src_ptr, src_stride, ref_ptr[i], ref_stride,
+                                0x7fffffff);
 }
 
-void vp9_sad16x8x4d_c(const uint8_t *src_ptr,
-                      int  src_stride,
-                      const uint8_t* const ref_ptr[],
-                      int  ref_stride,
+void vp9_sad16x8x4d_c(const uint8_t *src_ptr, int src_stride,
+                      const uint8_t* const ref_ptr[], int ref_stride,
                       unsigned int *sad_array) {
-  sad_array[0] = vp9_sad16x8(src_ptr, src_stride,
-                             ref_ptr[0], ref_stride, 0x7fffffff);
-  sad_array[1] = vp9_sad16x8(src_ptr, src_stride,
-                             ref_ptr[1], ref_stride, 0x7fffffff);
-  sad_array[2] = vp9_sad16x8(src_ptr, src_stride,
-                             ref_ptr[2], ref_stride, 0x7fffffff);
-  sad_array[3] = vp9_sad16x8(src_ptr, src_stride,
-                             ref_ptr[3], ref_stride, 0x7fffffff);
+  int i;
+  for (i = 0; i < 4; ++i)
+    sad_array[i] = vp9_sad16x8(src_ptr, src_stride, ref_ptr[i], ref_stride,
+                               0x7fffffff);
 }
 
-void vp9_sad8x8x4d_c(const uint8_t *src_ptr,
-                     int  src_stride,
-                     const uint8_t* const ref_ptr[],
-                     int  ref_stride,
+void vp9_sad8x8x4d_c(const uint8_t *src_ptr, int src_stride,
+                     const uint8_t* const ref_ptr[], int ref_stride,
                      unsigned int *sad_array) {
-  sad_array[0] = vp9_sad8x8(src_ptr, src_stride,
-                            ref_ptr[0], ref_stride, 0x7fffffff);
-  sad_array[1] = vp9_sad8x8(src_ptr, src_stride,
-                            ref_ptr[1], ref_stride, 0x7fffffff);
-  sad_array[2] = vp9_sad8x8(src_ptr, src_stride,
-                            ref_ptr[2], ref_stride, 0x7fffffff);
-  sad_array[3] = vp9_sad8x8(src_ptr, src_stride,
-                            ref_ptr[3], ref_stride, 0x7fffffff);
+  int i;
+  for (i = 0; i < 4; ++i)
+    sad_array[i] = vp9_sad8x8(src_ptr, src_stride, ref_ptr[i], ref_stride,
+                              0x7fffffff);
 }
 
-void vp9_sad8x16x4d_c(const uint8_t *src_ptr,
-                      int  src_stride,
-                      const uint8_t* const ref_ptr[],
-                      int  ref_stride,
+void vp9_sad8x16x4d_c(const uint8_t *src_ptr, int src_stride,
+                      const uint8_t* const ref_ptr[], int ref_stride,
                       unsigned int *sad_array) {
-  sad_array[0] = vp9_sad8x16(src_ptr, src_stride,
-                             ref_ptr[0], ref_stride, 0x7fffffff);
-  sad_array[1] = vp9_sad8x16(src_ptr, src_stride,
-                             ref_ptr[1], ref_stride, 0x7fffffff);
-  sad_array[2] = vp9_sad8x16(src_ptr, src_stride,
-                             ref_ptr[2], ref_stride, 0x7fffffff);
-  sad_array[3] = vp9_sad8x16(src_ptr, src_stride,
-                             ref_ptr[3], ref_stride, 0x7fffffff);
+  int i;
+  for (i = 0; i < 4; ++i)
+    sad_array[i] = vp9_sad8x16(src_ptr, src_stride, ref_ptr[i], ref_stride,
+                               0x7fffffff);
 }
 
-void vp9_sad8x4x4d_c(const uint8_t *src_ptr,
-                     int  src_stride,
-                     const uint8_t* const ref_ptr[],
-                     int  ref_stride,
+void vp9_sad8x4x4d_c(const uint8_t *src_ptr, int src_stride,
+                     const uint8_t* const ref_ptr[], int ref_stride,
                      unsigned int *sad_array) {
-  sad_array[0] = vp9_sad8x4(src_ptr, src_stride,
-                            ref_ptr[0], ref_stride, 0x7fffffff);
-  sad_array[1] = vp9_sad8x4(src_ptr, src_stride,
-                            ref_ptr[1], ref_stride, 0x7fffffff);
-  sad_array[2] = vp9_sad8x4(src_ptr, src_stride,
-                            ref_ptr[2], ref_stride, 0x7fffffff);
-  sad_array[3] = vp9_sad8x4(src_ptr, src_stride,
-                            ref_ptr[3], ref_stride, 0x7fffffff);
+  int i;
+  for (i = 0; i < 4; ++i)
+    sad_array[i] = vp9_sad8x4(src_ptr, src_stride, ref_ptr[i], ref_stride,
+                              0x7fffffff);
 }
 
-void vp9_sad8x4x8_c(const uint8_t *src_ptr,
-                     int  src_stride,
-                     const uint8_t *ref_ptr,
-                     int  ref_stride,
-                     uint32_t *sad_array) {
-  sad_array[0] = vp9_sad8x4(src_ptr, src_stride,
-                             ref_ptr, ref_stride,
-                             0x7fffffff);
-  sad_array[1] = vp9_sad8x4(src_ptr, src_stride,
-                             ref_ptr + 1, ref_stride,
-                             0x7fffffff);
-  sad_array[2] = vp9_sad8x4(src_ptr, src_stride,
-                             ref_ptr + 2, ref_stride,
-                             0x7fffffff);
-  sad_array[3] = vp9_sad8x4(src_ptr, src_stride,
-                             ref_ptr + 3, ref_stride,
-                             0x7fffffff);
-  sad_array[4] = vp9_sad8x4(src_ptr, src_stride,
-                             ref_ptr + 4, ref_stride,
-                             0x7fffffff);
-  sad_array[5] = vp9_sad8x4(src_ptr, src_stride,
-                             ref_ptr + 5, ref_stride,
-                             0x7fffffff);
-  sad_array[6] = vp9_sad8x4(src_ptr, src_stride,
-                             ref_ptr + 6, ref_stride,
-                             0x7fffffff);
-  sad_array[7] = vp9_sad8x4(src_ptr, src_stride,
-                             ref_ptr + 7, ref_stride,
-                             0x7fffffff);
+void vp9_sad8x4x8_c(const uint8_t *src_ptr, int src_stride,
+                    const uint8_t *ref_ptr, int ref_stride,
+                    uint32_t *sad_array) {
+  int i;
+  for (i = 0; i < 8; ++i)
+    sad_array[i] = vp9_sad8x4(src_ptr, src_stride, ref_ptr + i, ref_stride,
+                              0x7fffffff);
 }
 
-void vp9_sad4x8x4d_c(const uint8_t *src_ptr,
-                     int  src_stride,
-                     const uint8_t* const ref_ptr[],
-                     int  ref_stride,
+void vp9_sad4x8x4d_c(const uint8_t *src_ptr, int src_stride,
+                     const uint8_t* const ref_ptr[], int ref_stride,
                      unsigned int *sad_array) {
-  sad_array[0] = vp9_sad4x8(src_ptr, src_stride,
-                            ref_ptr[0], ref_stride, 0x7fffffff);
-  sad_array[1] = vp9_sad4x8(src_ptr, src_stride,
-                            ref_ptr[1], ref_stride, 0x7fffffff);
-  sad_array[2] = vp9_sad4x8(src_ptr, src_stride,
-                            ref_ptr[2], ref_stride, 0x7fffffff);
-  sad_array[3] = vp9_sad4x8(src_ptr, src_stride,
-                            ref_ptr[3], ref_stride, 0x7fffffff);
+  int i;
+  for (i = 0; i < 4; ++i)
+    sad_array[i] = vp9_sad4x8(src_ptr, src_stride, ref_ptr[i], ref_stride,
+                              0x7fffffff);
 }
 
-void vp9_sad4x8x8_c(const uint8_t *src_ptr,
-                     int  src_stride,
-                     const uint8_t *ref_ptr,
-                     int  ref_stride,
-                     uint32_t *sad_array) {
-  sad_array[0] = vp9_sad4x8(src_ptr, src_stride,
-                             ref_ptr, ref_stride,
-                             0x7fffffff);
-  sad_array[1] = vp9_sad4x8(src_ptr, src_stride,
-                             ref_ptr + 1, ref_stride,
-                             0x7fffffff);
-  sad_array[2] = vp9_sad4x8(src_ptr, src_stride,
-                             ref_ptr + 2, ref_stride,
-                             0x7fffffff);
-  sad_array[3] = vp9_sad4x8(src_ptr, src_stride,
-                             ref_ptr + 3, ref_stride,
-                             0x7fffffff);
-  sad_array[4] = vp9_sad4x8(src_ptr, src_stride,
-                             ref_ptr + 4, ref_stride,
-                             0x7fffffff);
-  sad_array[5] = vp9_sad4x8(src_ptr, src_stride,
-                             ref_ptr + 5, ref_stride,
-                             0x7fffffff);
-  sad_array[6] = vp9_sad4x8(src_ptr, src_stride,
-                             ref_ptr + 6, ref_stride,
-                             0x7fffffff);
-  sad_array[7] = vp9_sad4x8(src_ptr, src_stride,
-                             ref_ptr + 7, ref_stride,
-                             0x7fffffff);
+void vp9_sad4x8x8_c(const uint8_t *src_ptr, int src_stride,
+                    const uint8_t *ref_ptr, int ref_stride,
+                    uint32_t *sad_array) {
+  int i;
+  for (i = 0; i < 8; ++i)
+    sad_array[i] = vp9_sad4x8(src_ptr, src_stride, ref_ptr + i, ref_stride,
+                              0x7fffffff);
 }
 
-void vp9_sad4x4x4d_c(const uint8_t *src_ptr,
-                     int  src_stride,
-                     const uint8_t* const ref_ptr[],
-                     int  ref_stride,
+void vp9_sad4x4x4d_c(const uint8_t *src_ptr, int src_stride,
+                     const uint8_t* const ref_ptr[], int ref_stride,
                      unsigned int *sad_array) {
-  sad_array[0] = vp9_sad4x4(src_ptr, src_stride,
-                            ref_ptr[0], ref_stride, 0x7fffffff);
-  sad_array[1] = vp9_sad4x4(src_ptr, src_stride,
-                            ref_ptr[1], ref_stride, 0x7fffffff);
-  sad_array[2] = vp9_sad4x4(src_ptr, src_stride,
-                            ref_ptr[2], ref_stride, 0x7fffffff);
-  sad_array[3] = vp9_sad4x4(src_ptr, src_stride,
-                            ref_ptr[3], ref_stride, 0x7fffffff);
+  int i;
+  for (i = 0; i < 4; ++i)
+    sad_array[i] = vp9_sad4x4(src_ptr, src_stride, ref_ptr[i], ref_stride,
+                              0x7fffffff);
 }
diff --git a/vp9/encoder/vp9_sadmxn.h b/vp9/encoder/vp9_sadmxn.h
deleted file mode 100644
index 1bae4dd67..000000000
--- a/vp9/encoder/vp9_sadmxn.h
+++ /dev/null
@@ -1,38 +0,0 @@
-/*
- *  Copyright (c) 2010 The WebM project authors. All Rights Reserved.
- *
- *  Use of this source code is governed by a BSD-style license
- *  that can be found in the LICENSE file in the root of the source
- *  tree. An additional intellectual property rights grant can be found
- *  in the file PATENTS.  All contributing project authors may
- *  be found in the AUTHORS file in the root of the source tree.
- */
-
-#ifndef VP9_ENCODER_VP9_SADMXN_H_
-#define VP9_ENCODER_VP9_SADMXN_H_
-
-#include "./vpx_config.h"
-#include "vpx/vpx_integer.h"
-
-static INLINE unsigned int sad_mx_n_c(const uint8_t *src_ptr,
-                                      int src_stride,
-                                      const uint8_t *ref_ptr,
-                                      int ref_stride,
-                                      int m,
-                                      int n) {
-  int r, c;
-  unsigned int sad = 0;
-
-  for (r = 0; r < n; r++) {
-    for (c = 0; c < m; c++) {
-      sad += abs(src_ptr[c] - ref_ptr[c]);
-    }
-
-    src_ptr += src_stride;
-    ref_ptr += ref_stride;
-  }
-
-  return sad;
-}
-
-#endif  // VP9_ENCODER_VP9_SADMXN_H_
diff --git a/vp9/vp9cx.mk b/vp9/vp9cx.mk
index 9ea0f549f..dd33099df 100644
--- a/vp9/vp9cx.mk
+++ b/vp9/vp9cx.mk
@@ -44,7 +44,6 @@ VP9_CX_SRCS-yes += encoder/vp9_quantize.h
 VP9_CX_SRCS-yes += encoder/vp9_ratectrl.h
 VP9_CX_SRCS-yes += encoder/vp9_rdopt.h
 VP9_CX_SRCS-yes += encoder/vp9_pickmode.h
-VP9_CX_SRCS-yes += encoder/vp9_sadmxn.h
 VP9_CX_SRCS-yes += encoder/vp9_tokenize.h
 VP9_CX_SRCS-yes += encoder/vp9_treewriter.h
 VP9_CX_SRCS-yes += encoder/vp9_variance.h