1 files changed, 99 insertions, 177 deletions
diff --git a/vp9/common/vp9_invtrans.c b/vp9/common/vp9_invtrans.c
index 0573b7df4..88c931db7 100644
--- a/vp9/common/vp9_invtrans.c
+++ b/vp9/common/vp9_invtrans.c
@@ -25,14 +25,15 @@ void vp9_inverse_transform_mby_4x4(MACROBLOCKD *xd) {
 
   for (i = 0; i < 16; i++) {
     TX_TYPE tx_type = get_tx_type_4x4(xd, i);
+    const int x = i & 3, y = i >> 2;
     if (tx_type != DCT_DCT) {
       vp9_short_iht4x4(BLOCK_OFFSET(xd->plane[0].dqcoeff, i, 16),
-                       xd->block[i].diff, 16, tx_type);
+                       xd->diff + 64 * y + 4 * x, 16, tx_type);
     } else {
       vp9_inverse_transform_b_4x4(xd,
                                   xd->plane[0].eobs[i],
                                   BLOCK_OFFSET(xd->plane[0].dqcoeff, i, 16),
-                                  xd->block[i].diff, 32);
+                                  xd->diff + 64 * y + 4 * x, 32);
     }
   }
 }
@@ -40,15 +41,14 @@ void vp9_inverse_transform_mby_4x4(MACROBLOCKD *xd) {
 void vp9_inverse_transform_mbuv_4x4(MACROBLOCKD *xd) {
   int i;
 
-  for (i = 16; i < 20; i++) {
-    vp9_inverse_transform_b_4x4(xd, xd->plane[1].eobs[i - 16],
-                                BLOCK_OFFSET(xd->plane[1].dqcoeff, i - 16, 16),
-                                xd->block[i].diff, 16);
-  }
-  for (i = 20; i < 24; i++) {
-    vp9_inverse_transform_b_4x4(xd, xd->plane[2].eobs[i - 20],
-                                BLOCK_OFFSET(xd->plane[2].dqcoeff, i - 20, 16),
-                                xd->block[i].diff, 16);
+  for (i = 0; i < 4; i++) {
+    const int y = i >> 1, x = i & 1;
+    vp9_inverse_transform_b_4x4(xd, xd->plane[1].eobs[i],
+                                BLOCK_OFFSET(xd->plane[1].dqcoeff, i, 16),
+                                xd->diff + 256 + y * 32 + x * 4, 16);
+    vp9_inverse_transform_b_4x4(xd, xd->plane[2].eobs[i],
+                                BLOCK_OFFSET(xd->plane[2].dqcoeff, i, 16),
+                                xd->diff + 320 + y * 32 + x * 4, 16);
   }
 }
 
@@ -64,42 +64,25 @@ void vp9_inverse_transform_b_8x8(int16_t *input_dqcoeff, int16_t *output_coeff,
 
 void vp9_inverse_transform_mby_8x8(MACROBLOCKD *xd) {
   int i;
-  BLOCKD *blockd = xd->block;
 
-  for (i = 0; i < 9; i += 8) {
-    TX_TYPE tx_type = get_tx_type_8x8(xd, i);
-    if (tx_type != DCT_DCT) {
-      vp9_short_iht8x8(BLOCK_OFFSET(xd->plane[0].dqcoeff, i, 16),
-                       xd->block[i].diff, 16, tx_type);
-    } else {
-      vp9_inverse_transform_b_8x8(BLOCK_OFFSET(xd->plane[0].dqcoeff, i, 16),
-                                  &blockd[i].diff[0], 32);
-    }
-  }
-  for (i = 2; i < 11; i += 8) {
-    TX_TYPE tx_type = get_tx_type_8x8(xd, i);
+  for (i = 0; i < 4; i++) {
+    const int y = i >> 1, x = i & 1;
+    TX_TYPE tx_type = get_tx_type_8x8(xd, x * 2 + y * 8);
     if (tx_type != DCT_DCT) {
-      vp9_short_iht8x8(BLOCK_OFFSET(xd->plane[0].dqcoeff, i + 2, 16),
-                       xd->block[i].diff, 16, tx_type);
+      vp9_short_iht8x8(BLOCK_OFFSET(xd->plane[0].dqcoeff, i * 4, 16),
+                       xd->diff + y * 128 + x * 8, 16, tx_type);
     } else {
-      vp9_inverse_transform_b_8x8(BLOCK_OFFSET(xd->plane[0].dqcoeff, i + 2, 16),
-                                  &blockd[i].diff[0], 32);
+      vp9_inverse_transform_b_8x8(BLOCK_OFFSET(xd->plane[0].dqcoeff, i * 4, 16),
+                                  xd->diff + y * 128 + x * 8, 32);
     }
   }
 }
 
 void vp9_inverse_transform_mbuv_8x8(MACROBLOCKD *xd) {
-  int i;
-  BLOCKD *blockd = xd->block;
-
-  for (i = 16; i < 20; i += 4) {
-    vp9_inverse_transform_b_8x8(BLOCK_OFFSET(xd->plane[1].dqcoeff, i - 16, 16),
-                                &blockd[i].diff[0], 16);
-  }
-  for (i = 20; i < 24; i += 4) {
-    vp9_inverse_transform_b_8x8(BLOCK_OFFSET(xd->plane[2].dqcoeff, i - 20, 16),
-                                &blockd[i].diff[0], 16);
-  }
+  vp9_inverse_transform_b_8x8(BLOCK_OFFSET(xd->plane[1].dqcoeff, 0, 16),
+                              xd->diff + 256, 16);
+  vp9_inverse_transform_b_8x8(BLOCK_OFFSET(xd->plane[2].dqcoeff, 0, 16),
+                              xd->diff + 320, 16);
 }
 
 void vp9_inverse_transform_mb_8x8(MACROBLOCKD *xd) {
@@ -113,14 +96,13 @@ void vp9_inverse_transform_b_16x16(int16_t *input_dqcoeff,
 }
 
 void vp9_inverse_transform_mby_16x16(MACROBLOCKD *xd) {
-  BLOCKD *bd = &xd->block[0];
   TX_TYPE tx_type = get_tx_type_16x16(xd, 0);
   if (tx_type != DCT_DCT) {
     vp9_short_iht16x16(BLOCK_OFFSET(xd->plane[0].dqcoeff, 0, 16),
-                       bd->diff, 16, tx_type);
+                       xd->diff, 16, tx_type);
   } else {
     vp9_inverse_transform_b_16x16(BLOCK_OFFSET(xd->plane[0].dqcoeff, 0, 16),
-                                  &xd->block[0].diff[0], 32);
+                                  xd->diff, 32);
   }
 }
 
@@ -129,210 +111,150 @@ void vp9_inverse_transform_mb_16x16(MACROBLOCKD *xd) {
   vp9_inverse_transform_mbuv_8x8(xd);
 }
 
-void vp9_inverse_transform_sby_32x32(MACROBLOCKD *xd) {
-  vp9_short_idct32x32(BLOCK_OFFSET(xd->plane[0].dqcoeff, 0, 16), xd->diff, 64);
-}
-
-void vp9_inverse_transform_sby_16x16(MACROBLOCKD *xd) {
-  int n;
-
-  for (n = 0; n < 4; n++) {
-    const int x_idx = n & 1, y_idx = n >> 1;
-    const TX_TYPE tx_type = get_tx_type_16x16(xd, (y_idx * 8 + x_idx) * 4);
-
-    if (tx_type == DCT_DCT) {
-      vp9_inverse_transform_b_16x16(BLOCK_OFFSET(xd->plane[0].dqcoeff, n, 256),
-                                    xd->diff + x_idx * 16 + y_idx * 32 * 16,
-                                    64);
-    } else {
-      vp9_short_iht16x16(BLOCK_OFFSET(xd->plane[0].dqcoeff, n, 256),
-                         xd->diff + x_idx * 16 + y_idx * 32 * 16, 32, tx_type);
-    }
-  }
-}
-
-void vp9_inverse_transform_sby_8x8(MACROBLOCKD *xd) {
-  int n;
-
-  for (n = 0; n < 16; n++) {
-    const int x_idx = n & 3, y_idx = n >> 2;
-    const TX_TYPE tx_type = get_tx_type_8x8(xd, (y_idx * 8 + x_idx) * 2);
-
-    if (tx_type == DCT_DCT) {
-      vp9_inverse_transform_b_8x8(BLOCK_OFFSET(xd->plane[0].dqcoeff, n, 64),
-                                  xd->diff + x_idx * 8 + y_idx * 32 * 8, 64);
-    } else {
-      vp9_short_iht8x8(BLOCK_OFFSET(xd->plane[0].dqcoeff, n, 64),
-                       xd->diff + x_idx * 8 + y_idx * 32 * 8, 32, tx_type);
-    }
-  }
-}
-
-void vp9_inverse_transform_sby_4x4(MACROBLOCKD *xd) {
+void vp9_inverse_transform_sby_32x32(MACROBLOCKD *xd, BLOCK_SIZE_TYPE bsize) {
+  const int bwl = mb_width_log2(bsize) - 1, bw = 1 << bwl;
+  const int bh = 1 << (mb_height_log2(bsize) - 1);
+  const int stride = 32 << bwl;
   int n;
 
-  for (n = 0; n < 64; n++) {
-    const int x_idx = n & 7, y_idx = n >> 3;
-    const TX_TYPE tx_type = get_tx_type_4x4(xd, y_idx * 8 + x_idx);
-
-    if (tx_type == DCT_DCT) {
-      vp9_inverse_transform_b_4x4(xd, xd->plane[0].eobs[n],
-                                  BLOCK_OFFSET(xd->plane[0].dqcoeff, n, 16),
-                                  xd->diff + x_idx * 4 + y_idx * 4 * 32, 64);
-    } else {
-      vp9_short_iht4x4(BLOCK_OFFSET(xd->plane[0].dqcoeff, n, 16),
-                       xd->diff + x_idx * 4 + y_idx * 4 * 32, 32, tx_type);
-    }
-  }
-}
-
-void vp9_inverse_transform_sbuv_16x16(MACROBLOCKD *xd) {
-  vp9_inverse_transform_b_16x16(xd->plane[1].dqcoeff,
-                                xd->diff + 1024, 32);
-  vp9_inverse_transform_b_16x16(xd->plane[2].dqcoeff,
-                                xd->diff + 1280, 32);
-}
-
-void vp9_inverse_transform_sbuv_8x8(MACROBLOCKD *xd) {
-  int n;
-
-  for (n = 0; n < 4; n++) {
-    const int x_idx = n & 1, y_idx = n >> 1;
-
-    vp9_inverse_transform_b_8x8(BLOCK_OFFSET(xd->plane[1].dqcoeff, n, 64),
-                                xd->diff + 1024 + x_idx * 8 + y_idx * 16 * 8,
-                                32);
-    vp9_inverse_transform_b_8x8(BLOCK_OFFSET(xd->plane[2].dqcoeff, n, 64),
-                                xd->diff + 1280 + x_idx * 8 + y_idx * 16 * 8,
-                                32);
-  }
-}
-
-void vp9_inverse_transform_sbuv_4x4(MACROBLOCKD *xd) {
-  int n;
-
-  for (n = 0; n < 16; n++) {
-    const int x_idx = n & 3, y_idx = n >> 2;
-
-    vp9_inverse_transform_b_4x4(xd, xd->plane[1].eobs[n],
-                                BLOCK_OFFSET(xd->plane[1].dqcoeff, n, 16),
-                                xd->diff + 1024 + x_idx * 4 + y_idx * 16 * 4,
-                                32);
-    vp9_inverse_transform_b_4x4(xd, xd->plane[2].eobs[n],
-                                BLOCK_OFFSET(xd->plane[2].dqcoeff, n, 16),
-                                xd->diff + 1280 + x_idx * 4 + y_idx * 16 * 4,
-                                32);
-  }
-}
-
-void vp9_inverse_transform_sb64y_32x32(MACROBLOCKD *xd) {
-  int n;
-
-  for (n = 0; n < 4; n++) {
-    const int x_idx = n & 1, y_idx = n >> 1;
+  for (n = 0; n < bw * bh; n++) {
+    const int x_idx = n & (bw - 1), y_idx = n >> bwl;
 
     vp9_short_idct32x32(BLOCK_OFFSET(xd->plane[0].dqcoeff, n, 1024),
-                        xd->diff + x_idx * 32 + y_idx * 32 * 64, 128);
+                        xd->diff + x_idx * 32 + y_idx * 32 * stride,
+                        stride * 2);
   }
 }
 
-void vp9_inverse_transform_sb64y_16x16(MACROBLOCKD *xd) {
+void vp9_inverse_transform_sby_16x16(MACROBLOCKD *xd, BLOCK_SIZE_TYPE bsize) {
+  const int bwl = mb_width_log2(bsize), bw = 1 << bwl;
+  const int bh = 1 << mb_height_log2(bsize);
+  const int stride = 16 << bwl, bstride = 4 << bwl;
   int n;
 
-  for (n = 0; n < 16; n++) {
-    const int x_idx = n & 3, y_idx = n >> 2;
-    const TX_TYPE tx_type = get_tx_type_16x16(xd, (y_idx * 16 + x_idx) * 4);
+  for (n = 0; n < bw * bh; n++) {
+    const int x_idx = n & (bw - 1), y_idx = n >> bwl;
+    const TX_TYPE tx_type = get_tx_type_16x16(xd,
+                                              (y_idx * bstride + x_idx) * 4);
 
     if (tx_type == DCT_DCT) {
       vp9_inverse_transform_b_16x16(BLOCK_OFFSET(xd->plane[0].dqcoeff, n, 256),
-                                    xd->diff + x_idx * 16 + y_idx * 64 * 16,
-                                    128);
+                                    xd->diff + x_idx * 16 + y_idx * stride * 16,
+                                    stride * 2);
     } else {
       vp9_short_iht16x16(BLOCK_OFFSET(xd->plane[0].dqcoeff, n, 256),
-                         xd->diff + x_idx * 16 + y_idx * 64 * 16, 64, tx_type);
+                         xd->diff + x_idx * 16 + y_idx * stride * 16,
+                         stride, tx_type);
     }
   }
 }
 
-void vp9_inverse_transform_sb64y_8x8(MACROBLOCKD *xd) {
+void vp9_inverse_transform_sby_8x8(MACROBLOCKD *xd, BLOCK_SIZE_TYPE bsize) {
+  const int bwl = mb_width_log2(bsize) + 1, bw = 1 << bwl;
+  const int bh = 1 << (mb_height_log2(bsize) + 1);
+  const int stride = 8 << bwl, bstride = 2 << bwl;
   int n;
 
-  for (n = 0; n < 64; n++) {
-    const int x_idx = n & 7, y_idx = n >> 3;
-    const TX_TYPE tx_type = get_tx_type_8x8(xd, (y_idx * 16 + x_idx) * 2);
+  for (n = 0; n < bw * bh; n++) {
+    const int x_idx = n & (bw - 1), y_idx = n >> bwl;
+    const TX_TYPE tx_type = get_tx_type_8x8(xd, (y_idx * bstride + x_idx) * 2);
 
     if (tx_type == DCT_DCT) {
       vp9_inverse_transform_b_8x8(BLOCK_OFFSET(xd->plane[0].dqcoeff, n, 64),
-                                  xd->diff + x_idx * 8 + y_idx * 64 * 8, 128);
+                                  xd->diff + x_idx * 8 + y_idx * stride * 8,
+                                  stride * 2);
     } else {
       vp9_short_iht8x8(BLOCK_OFFSET(xd->plane[0].dqcoeff, n, 64),
-                       xd->diff + x_idx * 8 + y_idx * 64 * 8, 64, tx_type);
+                       xd->diff + x_idx * 8 + y_idx * stride * 8,
+                       stride, tx_type);
     }
   }
 }
 
-void vp9_inverse_transform_sb64y_4x4(MACROBLOCKD *xd) {
+void vp9_inverse_transform_sby_4x4(MACROBLOCKD *xd, BLOCK_SIZE_TYPE bsize) {
+  const int bwl = mb_width_log2(bsize) + 2, bw = 1 << bwl;
+  const int bh = 1 << (mb_height_log2(bsize) + 2);
+  const int stride = 4 << bwl, bstride = 1 << bwl;
   int n;
 
-  for (n = 0; n < 256; n++) {
-    const int x_idx = n & 15, y_idx = n >> 4;
-    const TX_TYPE tx_type = get_tx_type_4x4(xd, y_idx * 16 + x_idx);
+  for (n = 0; n < bw * bh; n++) {
+    const int x_idx = n & (bw - 1), y_idx = n >> bwl;
+    const TX_TYPE tx_type = get_tx_type_4x4(xd, y_idx * bstride + x_idx);
 
     if (tx_type == DCT_DCT) {
       vp9_inverse_transform_b_4x4(xd, xd->plane[0].eobs[n],
                                   BLOCK_OFFSET(xd->plane[0].dqcoeff, n, 16),
-                                  xd->diff + x_idx * 4 + y_idx * 4 * 64, 128);
+                                  xd->diff + x_idx * 4 + y_idx * 4 * stride,
+                                  stride * 2);
     } else {
       vp9_short_iht4x4(BLOCK_OFFSET(xd->plane[0].dqcoeff, n, 16),
-                       xd->diff + x_idx * 4 + y_idx * 4 * 64, 64, tx_type);
+                       xd->diff + x_idx * 4 + y_idx * 4 * stride,
+                       stride, tx_type);
     }
   }
 }
 
-void vp9_inverse_transform_sb64uv_32x32(MACROBLOCKD *xd) {
+void vp9_inverse_transform_sbuv_32x32(MACROBLOCKD *xd, BLOCK_SIZE_TYPE bsize) {
+  assert(bsize == BLOCK_SIZE_SB64X64);
+
   vp9_short_idct32x32(xd->plane[1].dqcoeff,
                       xd->diff + 4096, 64);
   vp9_short_idct32x32(xd->plane[2].dqcoeff,
                       xd->diff + 4096 + 1024, 64);
 }
 
-void vp9_inverse_transform_sb64uv_16x16(MACROBLOCKD *xd) {
+void vp9_inverse_transform_sbuv_16x16(MACROBLOCKD *xd, BLOCK_SIZE_TYPE bsize) {
+  const int bwl = mb_width_log2(bsize), bhl = mb_height_log2(bsize);
+  const int uoff = (16 * 16) << (bwl + bhl), voff = (uoff * 5) >> 2;
+  const int bw = 1 << (bwl - 1), bh = 1 << (bhl - 1);
+  const int stride = 16 << (bwl - 1);
   int n;
 
-  for (n = 0; n < 4; n++) {
-    const int x_idx = n & 1, y_idx = n >> 1, off = x_idx * 16 + y_idx * 32 * 16;
+  for (n = 0; n < bw * bh; n++) {
+    const int x_idx = n & (bw - 1), y_idx = n >> (bwl - 1);
+    const int off = x_idx * 16 + y_idx * stride * 16;
 
     vp9_inverse_transform_b_16x16(BLOCK_OFFSET(xd->plane[1].dqcoeff, n, 256),
-                                  xd->diff + 4096 + off, 64);
+                                  xd->diff + uoff + off, stride * 2);
     vp9_inverse_transform_b_16x16(BLOCK_OFFSET(xd->plane[2].dqcoeff, n, 256),
-                                  xd->diff + 4096 + 1024 + off, 64);
+                                  xd->diff + voff + off, stride * 2);
   }
 }
 
-void vp9_inverse_transform_sb64uv_8x8(MACROBLOCKD *xd) {
+void vp9_inverse_transform_sbuv_8x8(MACROBLOCKD *xd, BLOCK_SIZE_TYPE bsize) {
+  const int bwl = mb_width_log2(bsize) + 1, bhl = mb_height_log2(bsize) + 1;
+  const int uoff = (8 * 8) << (bwl + bhl), voff = (uoff * 5) >> 2;
+  const int bw = 1 << (bwl - 1), bh = 1 << (bhl - 1);
+  const int stride = 8 << (bwl - 1);
   int n;
 
-  for (n = 0; n < 16; n++) {
-    const int x_idx = n & 3, y_idx = n >> 2, off = x_idx * 8 + y_idx * 32 * 8;
+  for (n = 0; n < bw * bh; n++) {
+    const int x_idx = n & (bw - 1), y_idx = n >> (bwl - 1);
+    const int off = x_idx * 8 + y_idx * stride * 8;
 
     vp9_inverse_transform_b_8x8(BLOCK_OFFSET(xd->plane[1].dqcoeff, n, 64),
-                                xd->diff + 4096 + off, 64);
+                                xd->diff + uoff + off, stride * 2);
     vp9_inverse_transform_b_8x8(BLOCK_OFFSET(xd->plane[2].dqcoeff, n, 64),
-                                xd->diff + 4096 + 1024 + off, 64);
+                                xd->diff + voff + off, stride * 2);
   }
 }
 
-void vp9_inverse_transform_sb64uv_4x4(MACROBLOCKD *xd) {
+void vp9_inverse_transform_sbuv_4x4(MACROBLOCKD *xd, BLOCK_SIZE_TYPE bsize) {
+  const int bwl = mb_width_log2(bsize) + 2, bhl = mb_height_log2(bsize) + 2;
+  const int uoff = (4 * 4) << (bwl + bhl), voff = (uoff * 5) >> 2;
+  const int bw = 1 << (bwl - 1), bh = 1 << (bhl - 1);
+  const int stride = 4 << (bwl - 1);
   int n;
 
-  for (n = 0; n < 64; n++) {
-    const int x_idx = n & 7, y_idx = n >> 3, off = x_idx * 4 + y_idx * 32 * 4;
+  for (n = 0; n < bw * bh; n++) {
+    const int x_idx = n & (bw - 1), y_idx = n >> (bwl - 1);
+    const int off = x_idx * 4 + y_idx * stride * 4;
 
     vp9_inverse_transform_b_4x4(xd, xd->plane[1].eobs[n],
                                 BLOCK_OFFSET(xd->plane[1].dqcoeff, n, 16),
-                                xd->diff + 4096 + off, 64);
+                                xd->diff + uoff + off, stride * 2);
     vp9_inverse_transform_b_4x4(xd, xd->plane[2].eobs[n],
                                 BLOCK_OFFSET(xd->plane[2].dqcoeff, n, 16),
-                                xd->diff + 4096 + 1024 + off, 64);
+                                xd->diff + voff + off, stride * 2);
   }
 }