diff --git a/README.chromium b/README.chromium
index 77317170b..4715c7180 100644
--- a/README.chromium
+++ b/README.chromium
@@ -1,6 +1,6 @@
 Name: libyuv
 URL: http://code.google.com/p/libyuv/
-Version: 1742
+Version: 1743
 License: BSD
 License File: LICENSE
 
diff --git a/include/libyuv/convert.h b/include/libyuv/convert.h
index f571142fa..509f034f2 100644
--- a/include/libyuv/convert.h
+++ b/include/libyuv/convert.h
@@ -418,6 +418,15 @@ int RGB24ToJ400(const uint8_t* src_rgb24,
                 int width,
                 int height);
 
+// RGB big endian (rgb in memory) to J400.
+LIBYUV_API
+int RAWToJ400(const uint8_t* src_raw,
+              int src_stride_raw,
+              uint8_t* dst_yj,
+              int dst_stride_yj,
+              int width,
+              int height);
+
 #ifdef HAVE_JPEG
 // src_width/height provided by capture.
 // dst_width/height for clipping determine final size.
diff --git a/include/libyuv/row.h b/include/libyuv/row.h
index 46afb0717..620f4dbc1 100644
--- a/include/libyuv/row.h
+++ b/include/libyuv/row.h
@@ -374,9 +374,11 @@ extern "C" {
 #define HAS_RAWTORGB24ROW_NEON
 #define HAS_RAWTOUVROW_NEON
 #define HAS_RAWTOYROW_NEON
+#define HAS_RAWTOYJROW_NEON
 #define HAS_RGB24TOARGBROW_NEON
 #define HAS_RGB24TOUVROW_NEON
 #define HAS_RGB24TOYROW_NEON
+#define HAS_RGB24TOYJROW_NEON
 #define HAS_RGB565TOARGBROW_NEON
 #define HAS_RGB565TOUVROW_NEON
 #define HAS_RGB565TOYROW_NEON
@@ -1140,7 +1142,9 @@ void BGRAToYRow_NEON(const uint8_t* src_bgra, uint8_t* dst_y, int width);
 void ABGRToYRow_NEON(const uint8_t* src_abgr, uint8_t* dst_y, int width);
 void RGBAToYRow_NEON(const uint8_t* src_rgba, uint8_t* dst_y, int width);
 void RGB24ToYRow_NEON(const uint8_t* src_rgb24, uint8_t* dst_y, int width);
+void RGB24ToYJRow_NEON(const uint8_t* src_rgb24, uint8_t* dst_yj, int width);
 void RAWToYRow_NEON(const uint8_t* src_raw, uint8_t* dst_y, int width);
+void RAWToYJRow_NEON(const uint8_t* src_raw, uint8_t* dst_yj, int width);
 void RGB565ToYRow_NEON(const uint8_t* src_rgb565, uint8_t* dst_y, int width);
 void ARGB1555ToYRow_NEON(const uint8_t* src_argb1555,
                          uint8_t* dst_y,
@@ -1171,7 +1175,9 @@ void BGRAToYRow_C(const uint8_t* src_argb, uint8_t* dst_y, int width);
 void ABGRToYRow_C(const uint8_t* src_argb, uint8_t* dst_y, int width);
 void RGBAToYRow_C(const uint8_t* src_argb, uint8_t* dst_y, int width);
 void RGB24ToYRow_C(const uint8_t* src_argb, uint8_t* dst_y, int width);
+void RGB24ToYJRow_C(const uint8_t* src_argb, uint8_t* dst_yj, int width);
 void RAWToYRow_C(const uint8_t* src_argb, uint8_t* dst_y, int width);
+void RAWToYJRow_C(const uint8_t* src_argb, uint8_t* dst_yj, int width);
 void RGB565ToYRow_C(const uint8_t* src_rgb565, uint8_t* dst_y, int width);
 void ARGB1555ToYRow_C(const uint8_t* src_argb1555, uint8_t* dst_y, int width);
 void ARGB4444ToYRow_C(const uint8_t* src_argb4444, uint8_t* dst_y, int width);
@@ -1190,7 +1196,9 @@ void BGRAToYRow_Any_NEON(const uint8_t* src_ptr, uint8_t* dst_ptr, int width);
 void ABGRToYRow_Any_NEON(const uint8_t* src_ptr, uint8_t* dst_ptr, int width);
 void RGBAToYRow_Any_NEON(const uint8_t* src_ptr, uint8_t* dst_ptr, int width);
 void RGB24ToYRow_Any_NEON(const uint8_t* src_ptr, uint8_t* dst_ptr, int width);
+void RGB24ToYJRow_Any_NEON(const uint8_t* src_ptr, uint8_t* dst_ptr, int width);
 void RAWToYRow_Any_NEON(const uint8_t* src_ptr, uint8_t* dst_ptr, int width);
+void RAWToYJRow_Any_NEON(const uint8_t* src_ptr, uint8_t* dst_ptr, int width);
 void RGB565ToYRow_Any_NEON(const uint8_t* src_ptr, uint8_t* dst_ptr, int width);
 void ARGB1555ToYRow_Any_NEON(const uint8_t* src_ptr,
                              uint8_t* dst_ptr,
diff --git a/include/libyuv/version.h b/include/libyuv/version.h
index 9c3bb5aba..24bf8ebb8 100644
--- a/include/libyuv/version.h
+++ b/include/libyuv/version.h
@@ -11,6 +11,6 @@
 #ifndef INCLUDE_LIBYUV_VERSION_H_
 #define INCLUDE_LIBYUV_VERSION_H_
 
-#define LIBYUV_VERSION 1742
+#define LIBYUV_VERSION 1743
 
 #endif  // INCLUDE_LIBYUV_VERSION_H_
diff --git a/source/convert.cc b/source/convert.cc
index 614fa4824..cf6ebcdc5 100644
--- a/source/convert.cc
+++ b/source/convert.cc
@@ -1598,8 +1598,9 @@ int RGB24ToJ420(const uint8_t* src_rgb24,
                 int width,
                 int height) {
   int y;
-#if (defined(HAS_RGB24TOYJROW_NEON) || defined(HAS_RGB24TOYJROW_MSA) || \
-     defined(HAS_RGB24TOYJROW_MMI))
+#if (defined(HAS_RGB24TOYJROW_NEON) && defined(HAS_RGB24TOUVJROW_NEON)) || \
+     defined(HAS_RGB24TOYJROW_MSA) || \
+     defined(HAS_RGB24TOYJROW_MMI)
   void (*RGB24ToUVJRow)(const uint8_t* src_rgb24, int src_stride_rgb24,
                         uint8_t* dst_u, uint8_t* dst_v, int width) =
       RGB24ToUVJRow_C;
@@ -1625,7 +1626,7 @@ int RGB24ToJ420(const uint8_t* src_rgb24,
   }
 
 // Neon version does direct RGB24 to YUV.
-#if defined(HAS_RGB24TOYJROW_NEON)
+#if defined(HAS_RGB24TOYJROW_NEON) && defined(HAS_RGB24TOUVJROW_NEON)
   if (TestCpuFlag(kCpuHasNEON)) {
     RGB24ToUVJRow = RGB24ToUVJRow_Any_NEON;
     RGB24ToYJRow = RGB24ToYJRow_Any_NEON;
@@ -1689,16 +1690,16 @@ int RGB24ToJ420(const uint8_t* src_rgb24,
 #endif
 
   {
-#if !(defined(HAS_RGB24TOYJROW_NEON) || defined(HAS_RGB24TOYJROW_MSA) || \
-      defined(HAS_RGB24TOYJROW_MMI))
+#if !((defined(HAS_RGB24TOYJROW_NEON) && defined(HAS_RGB24TOUVJROW_NEON)) || \
+      defined(HAS_RGB24TOYJROW_MSA) || defined(HAS_RGB24TOYJROW_MMI))
     // Allocate 2 rows of ARGB.
     const int kRowSize = (width * 4 + 31) & ~31;
     align_buffer_64(row, kRowSize * 2);
 #endif
 
     for (y = 0; y < height - 1; y += 2) {
-#if (defined(HAS_RGB24TOYJROW_NEON) || defined(HAS_RGB24TOYJROW_MSA) || \
-     defined(HAS_RGB24TOYJROW_MMI))
+#if ((defined(HAS_RGB24TOYJROW_NEON) &&  defined(HAS_RGB24TOUVJROW_NEON)) || \
+      defined(HAS_RGB24TOYJROW_MSA) || defined(HAS_RGB24TOYJROW_MMI))
       RGB24ToUVJRow(src_rgb24, src_stride_rgb24, dst_u, dst_v, width);
       RGB24ToYJRow(src_rgb24, dst_y, width);
       RGB24ToYJRow(src_rgb24 + src_stride_rgb24, dst_y + dst_stride_y, width);
@@ -1715,8 +1716,8 @@ int RGB24ToJ420(const uint8_t* src_rgb24,
       dst_v += dst_stride_v;
     }
     if (height & 1) {
-#if (defined(HAS_RGB24TOYJROW_NEON) || defined(HAS_RGB24TOYJROW_MSA) || \
-     defined(HAS_RGB24TOYJROW_MMI))
+#if ((defined(HAS_RGB24TOYJROW_NEON) &&  defined(HAS_RGB24TOUVJROW_NEON)) || \
+      defined(HAS_RGB24TOYJROW_MSA) || defined(HAS_RGB24TOYJROW_MMI))
       RGB24ToUVJRow(src_rgb24, 0, dst_u, dst_v, width);
       RGB24ToYJRow(src_rgb24, dst_y, width);
 #else
@@ -1725,8 +1726,8 @@ int RGB24ToJ420(const uint8_t* src_rgb24,
       ARGBToYJRow(row, dst_y, width);
 #endif
     }
-#if !(defined(HAS_RGB24TOYJROW_NEON) || defined(HAS_RGB24TOYJROW_MSA) || \
-      defined(HAS_RGB24TOYJROW_MMI))
+#if !((defined(HAS_RGB24TOYJROW_NEON) && defined(HAS_RGB24TOUVJROW_NEON)) || \
+      defined(HAS_RGB24TOYJROW_MSA) || defined(HAS_RGB24TOYJROW_MMI))
     free_aligned_buffer_64(row);
 #endif
   }
@@ -1746,8 +1747,9 @@ int RAWToI420(const uint8_t* src_raw,
               int width,
               int height) {
   int y;
-#if (defined(HAS_RAWTOYROW_NEON) || defined(HAS_RAWTOYROW_MSA) || \
-     defined(HAS_RAWTOYROW_MMI))
+#if (defined(HAS_RAWTOYROW_NEON) && defined(HAS_RAWTOUVROW_NEON)) || \
+     defined(HAS_RAWTOYROW_MSA) || \
+     defined(HAS_RAWTOYROW_MMI)
   void (*RAWToUVRow)(const uint8_t* src_raw, int src_stride_raw, uint8_t* dst_u,
                      uint8_t* dst_v, int width) = RAWToUVRow_C;
   void (*RAWToYRow)(const uint8_t* src_raw, uint8_t* dst_y, int width) =
@@ -1772,7 +1774,7 @@ int RAWToI420(const uint8_t* src_raw,
   }
 
 // Neon version does direct RAW to YUV.
-#if defined(HAS_RAWTOYROW_NEON)
+#if defined(HAS_RAWTOYROW_NEON) && defined(HAS_RAWTOUVROW_NEON)
   if (TestCpuFlag(kCpuHasNEON)) {
     RAWToUVRow = RAWToUVRow_Any_NEON;
     RAWToYRow = RAWToYRow_Any_NEON;
@@ -2398,7 +2400,7 @@ int RGB24ToJ400(const uint8_t* src_rgb24,
     src_stride_rgb24 = -src_stride_rgb24;
   }
 
-// Neon version does direct RGB24 to YUV.
+// Neon version does direct RGB24 to YJ.
 #if defined(HAS_RGB24TOYJROW_NEON)
   if (TestCpuFlag(kCpuHasNEON)) {
     RGB24ToYJRow = RGB24ToYJRow_Any_NEON;
@@ -2487,6 +2489,124 @@ int RGB24ToJ400(const uint8_t* src_rgb24,
   return 0;
 }
 
+// Convert RAW to J400.
+LIBYUV_API
+int RAWToJ400(const uint8_t* src_raw,
+                int src_stride_raw,
+                uint8_t* dst_yj,
+                int dst_stride_yj,
+                int width,
+                int height) {
+  int y;
+#if (defined(HAS_RAWTOYJROW_NEON) || defined(HAS_RAWTOYJROW_MSA) || \
+     defined(HAS_RAWTOYJROW_MMI))
+  void (*RAWToYJRow)(const uint8_t* src_raw, uint8_t* dst_yj, int width) =
+      RAWToYJRow_C;
+#else
+  void (*RAWToARGBRow)(const uint8_t* src_rgb, uint8_t* dst_argb, int width) =
+      RAWToARGBRow_C;
+  void (*ARGBToYJRow)(const uint8_t* src_argb, uint8_t* dst_yj, int width) =
+      ARGBToYJRow_C;
+#endif
+  if (!src_raw || !dst_yj || width <= 0 || height == 0) {
+    return -1;
+  }
+  // Negative height means invert the image.
+  if (height < 0) {
+    height = -height;
+    src_raw = src_raw + (height - 1) * src_stride_raw;
+    src_stride_raw = -src_stride_raw;
+  }
+
+// Neon version does direct RAW to YJ.
+#if defined(HAS_RAWTOYJROW_NEON)
+  if (TestCpuFlag(kCpuHasNEON)) {
+    RAWToYJRow = RAWToYJRow_Any_NEON;
+    if (IS_ALIGNED(width, 8)) {
+      RAWToYJRow = RAWToYJRow_NEON;
+    }
+  }
+#elif defined(HAS_RAWTOYJROW_MSA)
+  if (TestCpuFlag(kCpuHasMSA)) {
+    RAWToYJRow = RAWToYJRow_Any_MSA;
+    if (IS_ALIGNED(width, 16)) {
+      RAWToYJRow = RAWToYJRow_MSA;
+    }
+  }
+#elif defined(HAS_RAWTOYJROW_MMI)
+  if (TestCpuFlag(kCpuHasMMI)) {
+    RAWToYJRow = RAWToYJRow_Any_MMI;
+    if (IS_ALIGNED(width, 8)) {
+      RAWToYJRow = RAWToYJRow_MMI;
+    }
+  }
+// Other platforms do intermediate conversion from RAW to ARGB.
+#else
+#if defined(HAS_RAWTOARGBROW_SSSE3)
+  if (TestCpuFlag(kCpuHasSSSE3)) {
+    RAWToARGBRow = RAWToARGBRow_Any_SSSE3;
+    if (IS_ALIGNED(width, 16)) {
+      RAWToARGBRow = RAWToARGBRow_SSSE3;
+    }
+  }
+#endif
+#if defined(HAS_ARGBTOYJROW_SSSE3)
+  if (TestCpuFlag(kCpuHasSSSE3)) {
+    ARGBToYJRow = ARGBToYJRow_Any_SSSE3;
+    if (IS_ALIGNED(width, 16)) {
+      ARGBToYJRow = ARGBToYJRow_SSSE3;
+    }
+  }
+#endif
+#if defined(HAS_ARGBTOYJROW_AVX2)
+  if (TestCpuFlag(kCpuHasAVX2)) {
+    ARGBToYJRow = ARGBToYJRow_Any_AVX2;
+    if (IS_ALIGNED(width, 32)) {
+      ARGBToYJRow = ARGBToYJRow_AVX2;
+    }
+  }
+#endif
+#endif
+
+  {
+#if !(defined(HAS_RAWTOYJROW_NEON) || defined(HAS_RAWTOYJROW_MSA) || \
+      defined(HAS_RAWTOYJROW_MMI))
+    // Allocate 2 rows of ARGB.
+    const int kRowSize = (width * 4 + 31) & ~31;
+    align_buffer_64(row, kRowSize * 2);
+#endif
+
+    for (y = 0; y < height - 1; y += 2) {
+#if (defined(HAS_RAWTOYJROW_NEON) || defined(HAS_RAWTOYJROW_MSA) || \
+     defined(HAS_RAWTOYJROW_MMI))
+      RAWToYJRow(src_raw, dst_yj, width);
+      RAWToYJRow(src_raw + src_stride_raw, dst_yj + dst_stride_yj, width);
+#else
+      RAWToARGBRow(src_raw, row, width);
+      RAWToARGBRow(src_raw + src_stride_raw, row + kRowSize, width);
+      ARGBToYJRow(row, dst_yj, width);
+      ARGBToYJRow(row + kRowSize, dst_yj + dst_stride_yj, width);
+#endif
+      src_raw += src_stride_raw * 2;
+      dst_yj += dst_stride_yj * 2;
+    }
+    if (height & 1) {
+#if (defined(HAS_RAWTOYJROW_NEON) || defined(HAS_RAWTOYJROW_MSA) || \
+     defined(HAS_RAWTOYJROW_MMI))
+      RAWToYJRow(src_raw, dst_yj, width);
+#else
+      RAWToARGBRow(src_raw, row, width);
+      ARGBToYJRow(row, dst_yj, width);
+#endif
+    }
+#if !(defined(HAS_RAWTOYJROW_NEON) || defined(HAS_RAWTOYJROW_MSA) || \
+      defined(HAS_RAWTOYJROW_MMI))
+    free_aligned_buffer_64(row);
+#endif
+  }
+  return 0;
+}
+
 static void SplitPixels(const uint8_t* src_u,
                         int src_pixel_stride_uv,
                         uint8_t* dst_u,
diff --git a/source/row_any.cc b/source/row_any.cc
index 3592ffb6c..8f4b06a30 100644
--- a/source/row_any.cc
+++ b/source/row_any.cc
@@ -695,6 +695,9 @@ ANY11(RGBAToYRow_Any_MMI, RGBAToYRow_MMI, 0, 4, 1, 7)
 #ifdef HAS_RGB24TOYROW_NEON
 ANY11(RGB24ToYRow_Any_NEON, RGB24ToYRow_NEON, 0, 3, 1, 7)
 #endif
+#ifdef HAS_RGB24TOYJROW_NEON
+ANY11(RGB24ToYJRow_Any_NEON, RGB24ToYJRow_NEON, 0, 3, 1, 7)
+#endif
 #ifdef HAS_RGB24TOYROW_MSA
 ANY11(RGB24ToYRow_Any_MSA, RGB24ToYRow_MSA, 0, 3, 1, 15)
 #endif
@@ -704,6 +707,9 @@ ANY11(RGB24ToYRow_Any_MMI, RGB24ToYRow_MMI, 0, 3, 1, 7)
 #ifdef HAS_RAWTOYROW_NEON
 ANY11(RAWToYRow_Any_NEON, RAWToYRow_NEON, 0, 3, 1, 7)
 #endif
+#ifdef HAS_RAWTOYJROW_NEON
+ANY11(RAWToYJRow_Any_NEON, RAWToYJRow_NEON, 0, 3, 1, 7)
+#endif
 #ifdef HAS_RAWTOYROW_MSA
 ANY11(RAWToYRow_Any_MSA, RAWToYRow_MSA, 0, 3, 1, 15)
 #endif
diff --git a/source/row_common.cc b/source/row_common.cc
index 15f00e886..e6a5e80d7 100644
--- a/source/row_common.cc
+++ b/source/row_common.cc
@@ -565,6 +565,8 @@ static __inline int RGBToVJ(uint8_t r, uint8_t g, uint8_t b) {
 
 MAKEROWYJ(ARGB, 2, 1, 0, 4)
 MAKEROWYJ(RGBA, 3, 2, 1, 4)
+MAKEROWYJ(RGB24, 2, 1, 0, 3)
+MAKEROWYJ(RAW, 0, 1, 2, 3)
 #undef MAKEROWYJ
 
 void RGB565ToYRow_C(const uint8_t* src_rgb565, uint8_t* dst_y, int width) {
diff --git a/source/row_mmi.cc b/source/row_mmi.cc
index d7d34e47f..50cfca726 100644
--- a/source/row_mmi.cc
+++ b/source/row_mmi.cc
@@ -6040,93 +6040,90 @@ void I444ToARGBRow_MMI(const uint8_t* src_y,
                        uint8_t* rgb_buf,
                        const struct YuvConstants* yuvconstants,
                        int width) {
-  uint64_t y,u,v;
-  uint64_t b_vec[2],g_vec[2],r_vec[2];
+  uint64_t y, u, v;
+  uint64_t b_vec[2], g_vec[2], r_vec[2];
   uint64_t mask = 0xff00ff00ff00ff00ULL;
-  uint64_t ub,ug,vg,vr,bb,bg,br,yg;
-  __asm__ volatile (
-    "ldc1       %[yg],           0xc0(%[yuvcons_ptr])             \n\t"//yg
-    "ldc1       %[bb],           0x60(%[yuvcons_ptr])             \n\t"//bb
-    "ldc1       %[ub],           0x00(%[yuvcons_ptr])             \n\t"//ub
-    "or         %[ub],           %[ub],             %[mask]       \n\t"//must sign extension
-    "ldc1       %[bg],           0x80(%[yuvcons_ptr])             \n\t"//bg
-    "ldc1       %[ug],           0x20(%[yuvcons_ptr])             \n\t"//ug
-    "punpcklbh  %[ug],           %[ug],             %[zero]       \n\t"
-    "pshufh     %[ug],           %[ug],             %[zero]       \n\t"
-    "ldc1       %[vg],           0x20(%[yuvcons_ptr])             \n\t"//vg
-    "punpcklbh  %[vg],           %[vg],             %[zero]       \n\t"
-    "pshufh     %[vg],           %[vg],             %[five]       \n\t"
-    "ldc1       %[br],           0xa0(%[yuvcons_ptr])             \n\t"//br
-    "ldc1       %[vr],           0x40(%[yuvcons_ptr])             \n\t"//vr
-    "punpcklbh  %[vr],           %[vr],             %[zero]       \n\t"
-    "pshufh     %[vr],           %[vr],             %[five]       \n\t"
-    "or         %[vr],           %[vr],             %[mask]       \n\t"//sign extension
+  uint64_t ub, ug, vg, vr, bb, bg, br, yg;
+  __asm__ volatile(
+      "ldc1       %[yg],           0xc0(%[yuvcons_ptr])             \n\t"  // yg
+      "ldc1       %[bb],           0x60(%[yuvcons_ptr])             \n\t"  // bb
+      "ldc1       %[ub],           0x00(%[yuvcons_ptr])             \n\t"  // ub
+      "or         %[ub],           %[ub],             %[mask]       \n\t"  // must
+                                                                           // sign
+                                                                           // extension
+      "ldc1       %[bg],           0x80(%[yuvcons_ptr])             \n\t"  // bg
+      "ldc1       %[ug],           0x20(%[yuvcons_ptr])             \n\t"  // ug
+      "punpcklbh  %[ug],           %[ug],             %[zero]       \n\t"
+      "pshufh     %[ug],           %[ug],             %[zero]       \n\t"
+      "ldc1       %[vg],           0x20(%[yuvcons_ptr])             \n\t"  // vg
+      "punpcklbh  %[vg],           %[vg],             %[zero]       \n\t"
+      "pshufh     %[vg],           %[vg],             %[five]       \n\t"
+      "ldc1       %[br],           0xa0(%[yuvcons_ptr])             \n\t"  // br
+      "ldc1       %[vr],           0x40(%[yuvcons_ptr])             \n\t"  // vr
+      "punpcklbh  %[vr],           %[vr],             %[zero]       \n\t"
+      "pshufh     %[vr],           %[vr],             %[five]       \n\t"
+      "or         %[vr],           %[vr],             %[mask]       \n\t"  // sign
+                                                                           // extension
 
-    "1:                                                           \n\t"
-    "gslwlc1    %[y],            0x03(%[y_ptr])                   \n\t"
-    "gslwrc1    %[y],            0x00(%[y_ptr])                   \n\t"
-    "gslwlc1    %[u],            0x03(%[u_ptr])                   \n\t"
-    "gslwrc1    %[u],            0x00(%[u_ptr])                   \n\t"
-    "gslwlc1    %[v],            0x03(%[v_ptr])                   \n\t"
-    "gslwrc1    %[v],            0x00(%[v_ptr])                   \n\t"
+      "1:                                                           \n\t"
+      "gslwlc1    %[y],            0x03(%[y_ptr])                   \n\t"
+      "gslwrc1    %[y],            0x00(%[y_ptr])                   \n\t"
+      "gslwlc1    %[u],            0x03(%[u_ptr])                   \n\t"
+      "gslwrc1    %[u],            0x00(%[u_ptr])                   \n\t"
+      "gslwlc1    %[v],            0x03(%[v_ptr])                   \n\t"
+      "gslwrc1    %[v],            0x00(%[v_ptr])                   \n\t"
 
-    "punpcklbh  %[y],            %[y],              %[y]          \n\t"//y*0x0101
-    "pmulhuh    %[y],            %[y],              %[yg]         \n\t"//y1
+      "punpcklbh  %[y],            %[y],              %[y]          \n\t"  // y*0x0101
+      "pmulhuh    %[y],            %[y],              %[yg]         \n\t"  // y1
 
-    "punpcklbh  %[u],            %[u],              %[zero]       \n\t"//u
-    "paddsh     %[b_vec0],       %[y],              %[bb]         \n\t"
-    "pmullh     %[b_vec1],       %[u],              %[ub]         \n\t"
-    "psubsh     %[b_vec0],       %[b_vec0],         %[b_vec1]     \n\t"
-    "psrah      %[b_vec0],       %[b_vec0],         %[six]        \n\t"
+      "punpcklbh  %[u],            %[u],              %[zero]       \n\t"  // u
+      "paddsh     %[b_vec0],       %[y],              %[bb]         \n\t"
+      "pmullh     %[b_vec1],       %[u],              %[ub]         \n\t"
+      "psubsh     %[b_vec0],       %[b_vec0],         %[b_vec1]     \n\t"
+      "psrah      %[b_vec0],       %[b_vec0],         %[six]        \n\t"
 
-    "punpcklbh  %[v],            %[v],              %[zero]       \n\t"//v
-    "paddsh     %[g_vec0],       %[y],              %[bg]         \n\t"
-    "pmullh     %[g_vec1],       %[u],              %[ug]         \n\t"//u*ug
-    "psubsh     %[g_vec0],       %[g_vec0],         %[g_vec1]     \n\t"
-    "pmullh     %[g_vec1],       %[v],              %[vg]         \n\t"//v*vg
-    "psubsh     %[g_vec0],       %[g_vec0],         %[g_vec1]     \n\t"
-    "psrah      %[g_vec0],       %[g_vec0],         %[six]        \n\t"
+      "punpcklbh  %[v],            %[v],              %[zero]       \n\t"  // v
+      "paddsh     %[g_vec0],       %[y],              %[bg]         \n\t"
+      "pmullh     %[g_vec1],       %[u],              %[ug]         \n\t"  // u*ug
+      "psubsh     %[g_vec0],       %[g_vec0],         %[g_vec1]     \n\t"
+      "pmullh     %[g_vec1],       %[v],              %[vg]         \n\t"  // v*vg
+      "psubsh     %[g_vec0],       %[g_vec0],         %[g_vec1]     \n\t"
+      "psrah      %[g_vec0],       %[g_vec0],         %[six]        \n\t"
 
-    "paddsh     %[r_vec0],       %[y],              %[br]         \n\t"
-    "pmullh     %[r_vec1],       %[v],              %[vr]         \n\t"//v*vr
-    "psubsh     %[r_vec0],       %[r_vec0],         %[r_vec1]     \n\t"
-    "psrah      %[r_vec0],       %[r_vec0],         %[six]        \n\t"
+      "paddsh     %[r_vec0],       %[y],              %[br]         \n\t"
+      "pmullh     %[r_vec1],       %[v],              %[vr]         \n\t"  // v*vr
+      "psubsh     %[r_vec0],       %[r_vec0],         %[r_vec1]     \n\t"
+      "psrah      %[r_vec0],       %[r_vec0],         %[six]        \n\t"
 
-    "packushb   %[r_vec0],       %[b_vec0],         %[r_vec0]     \n\t"//rrrrbbbb
-    "packushb   %[g_vec0],       %[g_vec0],         %[alpha]      \n\t"//ffffgggg
-    "punpcklwd  %[g_vec0],       %[g_vec0],         %[alpha]      \n\t"
-    "punpcklbh  %[b_vec0],       %[r_vec0],         %[g_vec0]     \n\t"//gbgbgbgb
-    "punpckhbh  %[r_vec0],       %[r_vec0],         %[g_vec0]     \n\t"//frfrfrfr
-    "punpcklhw  %[g_vec0],       %[b_vec0],         %[r_vec0]     \n\t"//frgbfrgb
-    "punpckhhw  %[g_vec1],       %[b_vec0],         %[r_vec0]     \n\t"//frgbfrgb
-    "gssdlc1    %[g_vec0],       0x07(%[rgbbuf_ptr])              \n\t"
-    "gssdrc1    %[g_vec0],       0x00(%[rgbbuf_ptr])              \n\t"
-    "gssdlc1    %[g_vec1],       0x0f(%[rgbbuf_ptr])              \n\t"
-    "gssdrc1    %[g_vec1],       0x08(%[rgbbuf_ptr])              \n\t"
+      "packushb   %[r_vec0],       %[b_vec0],         %[r_vec0]     \n\t"  // rrrrbbbb
+      "packushb   %[g_vec0],       %[g_vec0],         %[alpha]      \n\t"  // ffffgggg
+      "punpcklwd  %[g_vec0],       %[g_vec0],         %[alpha]      \n\t"
+      "punpcklbh  %[b_vec0],       %[r_vec0],         %[g_vec0]     \n\t"  // gbgbgbgb
+      "punpckhbh  %[r_vec0],       %[r_vec0],         %[g_vec0]     \n\t"  // frfrfrfr
+      "punpcklhw  %[g_vec0],       %[b_vec0],         %[r_vec0]     \n\t"  // frgbfrgb
+      "punpckhhw  %[g_vec1],       %[b_vec0],         %[r_vec0]     \n\t"  // frgbfrgb
+      "gssdlc1    %[g_vec0],       0x07(%[rgbbuf_ptr])              \n\t"
+      "gssdrc1    %[g_vec0],       0x00(%[rgbbuf_ptr])              \n\t"
+      "gssdlc1    %[g_vec1],       0x0f(%[rgbbuf_ptr])              \n\t"
+      "gssdrc1    %[g_vec1],       0x08(%[rgbbuf_ptr])              \n\t"
 
-    "daddiu     %[y_ptr],        %[y_ptr],          0x04          \n\t"
-    "daddiu     %[u_ptr],        %[u_ptr],          0x04          \n\t"
-    "daddiu     %[v_ptr],        %[v_ptr],          0x04          \n\t"
-    "daddiu     %[rgbbuf_ptr],   %[rgbbuf_ptr],     0x10          \n\t"
-    "daddi      %[width],        %[width],          -0x04         \n\t"
-    "bnez       %[width],        1b                               \n\t"
-    : [y]"=&f"(y),
-      [u]"=&f"(u),                         [v]"=&f"(v),
-      [b_vec0]"=&f"(b_vec[0]),             [b_vec1]"=&f"(b_vec[1]),
-      [g_vec0]"=&f"(g_vec[0]),             [g_vec1]"=&f"(g_vec[1]),
-      [r_vec0]"=&f"(r_vec[0]),             [r_vec1]"=&f"(r_vec[1]),
-      [ub]"=&f"(ub),                       [ug]"=&f"(ug),
-      [vg]"=&f"(vg),                       [vr]"=&f"(vr),
-      [bb]"=&f"(bb),                       [bg]"=&f"(bg),
-      [br]"=&f"(br),                       [yg]"=&f"(yg)
-    : [y_ptr]"r"(src_y),                   [u_ptr]"r"(src_u),
-      [v_ptr]"r"(src_v),                   [rgbbuf_ptr]"r"(rgb_buf),
-      [yuvcons_ptr]"r"(yuvconstants),      [width]"r"(width),
-      [zero]"f"(0x00),                     [alpha]"f"(-1),
-      [six]"f"(0x6),                       [five]"f"(0x55),
-      [mask]"f"(mask)
-    : "memory"
-  );
+      "daddiu     %[y_ptr],        %[y_ptr],          0x04          \n\t"
+      "daddiu     %[u_ptr],        %[u_ptr],          0x04          \n\t"
+      "daddiu     %[v_ptr],        %[v_ptr],          0x04          \n\t"
+      "daddiu     %[rgbbuf_ptr],   %[rgbbuf_ptr],     0x10          \n\t"
+      "daddi      %[width],        %[width],          -0x04         \n\t"
+      "bnez       %[width],        1b                               \n\t"
+      : [y] "=&f"(y), [u] "=&f"(u), [v] "=&f"(v), [b_vec0] "=&f"(b_vec[0]),
+        [b_vec1] "=&f"(b_vec[1]), [g_vec0] "=&f"(g_vec[0]),
+        [g_vec1] "=&f"(g_vec[1]), [r_vec0] "=&f"(r_vec[0]),
+        [r_vec1] "=&f"(r_vec[1]), [ub] "=&f"(ub), [ug] "=&f"(ug),
+        [vg] "=&f"(vg), [vr] "=&f"(vr), [bb] "=&f"(bb), [bg] "=&f"(bg),
+        [br] "=&f"(br), [yg] "=&f"(yg)
+      : [y_ptr] "r"(src_y), [u_ptr] "r"(src_u), [v_ptr] "r"(src_v),
+        [rgbbuf_ptr] "r"(rgb_buf), [yuvcons_ptr] "r"(yuvconstants),
+        [width] "r"(width), [zero] "f"(0x00), [alpha] "f"(-1), [six] "f"(0x6),
+        [five] "f"(0x55), [mask] "f"(mask)
+      : "memory");
 }
 
 // Also used for 420
@@ -6136,99 +6133,96 @@ void I422ToARGBRow_MMI(const uint8_t* src_y,
                        uint8_t* rgb_buf,
                        const struct YuvConstants* yuvconstants,
                        int width) {
-  uint64_t y,u,v;
-  uint64_t b_vec[2],g_vec[2],r_vec[2];
+  uint64_t y, u, v;
+  uint64_t b_vec[2], g_vec[2], r_vec[2];
   uint64_t mask = 0xff00ff00ff00ff00ULL;
-  uint64_t ub,ug,vg,vr,bb,bg,br,yg;
+  uint64_t ub, ug, vg, vr, bb, bg, br, yg;
 
   __asm__ volatile(
-    "ldc1       %[yg],           0xc0(%[yuvcons_ptr])             \n\t"//yg
-    "ldc1       %[bb],           0x60(%[yuvcons_ptr])             \n\t"//bb
-    "ldc1       %[ub],           0x00(%[yuvcons_ptr])             \n\t"//ub
-    "or         %[ub],           %[ub],             %[mask]       \n\t"//must sign extension
-    "ldc1       %[bg],           0x80(%[yuvcons_ptr])             \n\t"//bg
-    "ldc1       %[ug],           0x20(%[yuvcons_ptr])             \n\t"//ug
-    "punpcklbh  %[ug],           %[ug],             %[zero]       \n\t"
-    "pshufh     %[ug],           %[ug],             %[zero]       \n\t"
-    "ldc1       %[vg],           0x20(%[yuvcons_ptr])             \n\t"//vg
-    "punpcklbh  %[vg],           %[vg],             %[zero]       \n\t"
-    "pshufh     %[vg],           %[vg],             %[five]       \n\t"
-    "ldc1       %[br],           0xa0(%[yuvcons_ptr])             \n\t"//br
-    "ldc1       %[vr],           0x40(%[yuvcons_ptr])             \n\t"//vr
-    "punpcklbh  %[vr],           %[vr],             %[zero]       \n\t"
-    "pshufh     %[vr],           %[vr],             %[five]       \n\t"
-    "or         %[vr],           %[vr],             %[mask]       \n\t"//sign extension
+      "ldc1       %[yg],           0xc0(%[yuvcons_ptr])             \n\t"  // yg
+      "ldc1       %[bb],           0x60(%[yuvcons_ptr])             \n\t"  // bb
+      "ldc1       %[ub],           0x00(%[yuvcons_ptr])             \n\t"  // ub
+      "or         %[ub],           %[ub],             %[mask]       \n\t"  // must
+                                                                           // sign
+                                                                           // extension
+      "ldc1       %[bg],           0x80(%[yuvcons_ptr])             \n\t"  // bg
+      "ldc1       %[ug],           0x20(%[yuvcons_ptr])             \n\t"  // ug
+      "punpcklbh  %[ug],           %[ug],             %[zero]       \n\t"
+      "pshufh     %[ug],           %[ug],             %[zero]       \n\t"
+      "ldc1       %[vg],           0x20(%[yuvcons_ptr])             \n\t"  // vg
+      "punpcklbh  %[vg],           %[vg],             %[zero]       \n\t"
+      "pshufh     %[vg],           %[vg],             %[five]       \n\t"
+      "ldc1       %[br],           0xa0(%[yuvcons_ptr])             \n\t"  // br
+      "ldc1       %[vr],           0x40(%[yuvcons_ptr])             \n\t"  // vr
+      "punpcklbh  %[vr],           %[vr],             %[zero]       \n\t"
+      "pshufh     %[vr],           %[vr],             %[five]       \n\t"
+      "or         %[vr],           %[vr],             %[mask]       \n\t"  // sign
+                                                                           // extension
 
-    "1:                                                           \n\t"
-    "gslwlc1    %[y],            0x03(%[y_ptr])                   \n\t"
-    "gslwrc1    %[y],            0x00(%[y_ptr])                   \n\t"
-    "gslwlc1    %[u],            0x03(%[u_ptr])                   \n\t"
-    "gslwrc1    %[u],            0x00(%[u_ptr])                   \n\t"
-    "gslwlc1    %[v],            0x03(%[v_ptr])                   \n\t"
-    "gslwrc1    %[v],            0x00(%[v_ptr])                   \n\t"
+      "1:                                                           \n\t"
+      "gslwlc1    %[y],            0x03(%[y_ptr])                   \n\t"
+      "gslwrc1    %[y],            0x00(%[y_ptr])                   \n\t"
+      "gslwlc1    %[u],            0x03(%[u_ptr])                   \n\t"
+      "gslwrc1    %[u],            0x00(%[u_ptr])                   \n\t"
+      "gslwlc1    %[v],            0x03(%[v_ptr])                   \n\t"
+      "gslwrc1    %[v],            0x00(%[v_ptr])                   \n\t"
 
-    "punpcklbh  %[y],            %[y],              %[y]          \n\t"//y*0x0101
-    "pmulhuh    %[y],            %[y],              %[yg]         \n\t"//y1
+      "punpcklbh  %[y],            %[y],              %[y]          \n\t"  // y*0x0101
+      "pmulhuh    %[y],            %[y],              %[yg]         \n\t"  // y1
 
-    //u3|u2|u1|u0 --> u1|u1|u0|u0
-    "punpcklbh  %[u],            %[u],              %[u]          \n\t"//u
-    "punpcklbh  %[u],            %[u],              %[zero]       \n\t"
-    "paddsh     %[b_vec0],       %[y],              %[bb]         \n\t"
-    "pmullh     %[b_vec1],       %[u],              %[ub]         \n\t"
-    "psubsh     %[b_vec0],       %[b_vec0],         %[b_vec1]     \n\t"
-    "psrah      %[b_vec0],       %[b_vec0],         %[six]        \n\t"
+      // u3|u2|u1|u0 --> u1|u1|u0|u0
+      "punpcklbh  %[u],            %[u],              %[u]          \n\t"  // u
+      "punpcklbh  %[u],            %[u],              %[zero]       \n\t"
+      "paddsh     %[b_vec0],       %[y],              %[bb]         \n\t"
+      "pmullh     %[b_vec1],       %[u],              %[ub]         \n\t"
+      "psubsh     %[b_vec0],       %[b_vec0],         %[b_vec1]     \n\t"
+      "psrah      %[b_vec0],       %[b_vec0],         %[six]        \n\t"
 
-    //v3|v2|v1|v0 --> v1|v1|v0|v0
-    "punpcklbh  %[v],            %[v],              %[v]          \n\t"//v
-    "punpcklbh  %[v],            %[v],              %[zero]       \n\t"
-    "paddsh     %[g_vec0],       %[y],              %[bg]         \n\t"
-    "pmullh     %[g_vec1],       %[u],              %[ug]         \n\t"//u*ug
-    "psubsh     %[g_vec0],       %[g_vec0],         %[g_vec1]     \n\t"
-    "pmullh     %[g_vec1],       %[v],              %[vg]         \n\t"//v*vg
-    "psubsh     %[g_vec0],       %[g_vec0],         %[g_vec1]     \n\t"
-    "psrah      %[g_vec0],       %[g_vec0],         %[six]        \n\t"
+      // v3|v2|v1|v0 --> v1|v1|v0|v0
+      "punpcklbh  %[v],            %[v],              %[v]          \n\t"  // v
+      "punpcklbh  %[v],            %[v],              %[zero]       \n\t"
+      "paddsh     %[g_vec0],       %[y],              %[bg]         \n\t"
+      "pmullh     %[g_vec1],       %[u],              %[ug]         \n\t"  // u*ug
+      "psubsh     %[g_vec0],       %[g_vec0],         %[g_vec1]     \n\t"
+      "pmullh     %[g_vec1],       %[v],              %[vg]         \n\t"  // v*vg
+      "psubsh     %[g_vec0],       %[g_vec0],         %[g_vec1]     \n\t"
+      "psrah      %[g_vec0],       %[g_vec0],         %[six]        \n\t"
 
-    "paddsh     %[r_vec0],       %[y],              %[br]         \n\t"
-    "pmullh     %[r_vec1],       %[v],              %[vr]         \n\t"//v*vr
-    "psubsh     %[r_vec0],       %[r_vec0],         %[r_vec1]     \n\t"
-    "psrah      %[r_vec0],       %[r_vec0],         %[six]        \n\t"
+      "paddsh     %[r_vec0],       %[y],              %[br]         \n\t"
+      "pmullh     %[r_vec1],       %[v],              %[vr]         \n\t"  // v*vr
+      "psubsh     %[r_vec0],       %[r_vec0],         %[r_vec1]     \n\t"
+      "psrah      %[r_vec0],       %[r_vec0],         %[six]        \n\t"
 
-    "packushb   %[r_vec0],       %[b_vec0],         %[r_vec0]     \n\t"//rrrrbbbb
-    "packushb   %[g_vec0],       %[g_vec0],         %[alpha]      \n\t"//ffffgggg
-    "punpcklwd  %[g_vec0],       %[g_vec0],         %[alpha]      \n\t"
-    "punpcklbh  %[b_vec0],       %[r_vec0],         %[g_vec0]     \n\t"//gbgbgbgb
-    "punpckhbh  %[r_vec0],       %[r_vec0],         %[g_vec0]     \n\t"//frfrfrfr
-    "punpcklhw  %[g_vec0],       %[b_vec0],         %[r_vec0]     \n\t"//frgbfrgb
-    "punpckhhw  %[g_vec1],       %[b_vec0],         %[r_vec0]     \n\t"//frgbfrgb
-    "gssdlc1    %[g_vec0],       0x07(%[rgbbuf_ptr])              \n\t"
-    "gssdrc1    %[g_vec0],       0x00(%[rgbbuf_ptr])              \n\t"
-    "gssdlc1    %[g_vec1],       0x0f(%[rgbbuf_ptr])              \n\t"
-    "gssdrc1    %[g_vec1],       0x08(%[rgbbuf_ptr])              \n\t"
+      "packushb   %[r_vec0],       %[b_vec0],         %[r_vec0]     \n\t"  // rrrrbbbb
+      "packushb   %[g_vec0],       %[g_vec0],         %[alpha]      \n\t"  // ffffgggg
+      "punpcklwd  %[g_vec0],       %[g_vec0],         %[alpha]      \n\t"
+      "punpcklbh  %[b_vec0],       %[r_vec0],         %[g_vec0]     \n\t"  // gbgbgbgb
+      "punpckhbh  %[r_vec0],       %[r_vec0],         %[g_vec0]     \n\t"  // frfrfrfr
+      "punpcklhw  %[g_vec0],       %[b_vec0],         %[r_vec0]     \n\t"  // frgbfrgb
+      "punpckhhw  %[g_vec1],       %[b_vec0],         %[r_vec0]     \n\t"  // frgbfrgb
+      "gssdlc1    %[g_vec0],       0x07(%[rgbbuf_ptr])              \n\t"
+      "gssdrc1    %[g_vec0],       0x00(%[rgbbuf_ptr])              \n\t"
+      "gssdlc1    %[g_vec1],       0x0f(%[rgbbuf_ptr])              \n\t"
+      "gssdrc1    %[g_vec1],       0x08(%[rgbbuf_ptr])              \n\t"
 
-    "daddiu     %[y_ptr],        %[y_ptr],          0x04          \n\t"
-    "daddiu     %[u_ptr],        %[u_ptr],          0x02          \n\t"
-    "daddiu     %[v_ptr],        %[v_ptr],          0x02          \n\t"
-    "daddiu     %[rgbbuf_ptr],   %[rgbbuf_ptr],     0x10          \n\t"
-    "daddi      %[width],        %[width],          -0x04         \n\t"
-    "bnez       %[width],        1b                               \n\t"
+      "daddiu     %[y_ptr],        %[y_ptr],          0x04          \n\t"
+      "daddiu     %[u_ptr],        %[u_ptr],          0x02          \n\t"
+      "daddiu     %[v_ptr],        %[v_ptr],          0x02          \n\t"
+      "daddiu     %[rgbbuf_ptr],   %[rgbbuf_ptr],     0x10          \n\t"
+      "daddi      %[width],        %[width],          -0x04         \n\t"
+      "bnez       %[width],        1b                               \n\t"
 
-    : [y]"=&f"(y),
-      [u]"=&f"(u),                         [v]"=&f"(v),
-      [b_vec0]"=&f"(b_vec[0]),             [b_vec1]"=&f"(b_vec[1]),
-      [g_vec0]"=&f"(g_vec[0]),             [g_vec1]"=&f"(g_vec[1]),
-      [r_vec0]"=&f"(r_vec[0]),             [r_vec1]"=&f"(r_vec[1]),
-      [ub]"=&f"(ub),                       [ug]"=&f"(ug),
-      [vg]"=&f"(vg),                       [vr]"=&f"(vr),
-      [bb]"=&f"(bb),                       [bg]"=&f"(bg),
-      [br]"=&f"(br),                       [yg]"=&f"(yg)
-    : [y_ptr]"r"(src_y),                   [u_ptr]"r"(src_u),
-      [v_ptr]"r"(src_v),                   [rgbbuf_ptr]"r"(rgb_buf),
-      [yuvcons_ptr]"r"(yuvconstants),      [width]"r"(width),
-      [zero]"f"(0x00),                     [alpha]"f"(-1),
-      [six]"f"(0x6),                       [five]"f"(0x55),
-      [mask]"f"(mask)
-    : "memory"
-  );
+      : [y] "=&f"(y), [u] "=&f"(u), [v] "=&f"(v), [b_vec0] "=&f"(b_vec[0]),
+        [b_vec1] "=&f"(b_vec[1]), [g_vec0] "=&f"(g_vec[0]),
+        [g_vec1] "=&f"(g_vec[1]), [r_vec0] "=&f"(r_vec[0]),
+        [r_vec1] "=&f"(r_vec[1]), [ub] "=&f"(ub), [ug] "=&f"(ug),
+        [vg] "=&f"(vg), [vr] "=&f"(vr), [bb] "=&f"(bb), [bg] "=&f"(bg),
+        [br] "=&f"(br), [yg] "=&f"(yg)
+      : [y_ptr] "r"(src_y), [u_ptr] "r"(src_u), [v_ptr] "r"(src_v),
+        [rgbbuf_ptr] "r"(rgb_buf), [yuvcons_ptr] "r"(yuvconstants),
+        [width] "r"(width), [zero] "f"(0x00), [alpha] "f"(-1), [six] "f"(0x6),
+        [five] "f"(0x55), [mask] "f"(mask)
+      : "memory");
 }
 
 // 10 bit YUV to ARGB
@@ -6238,102 +6232,96 @@ void I210ToARGBRow_MMI(const uint16_t* src_y,
                        uint8_t* rgb_buf,
                        const struct YuvConstants* yuvconstants,
                        int width) {
-  uint64_t y,u,v;
-  uint64_t b_vec[2],g_vec[2],r_vec[2];
+  uint64_t y, u, v;
+  uint64_t b_vec[2], g_vec[2], r_vec[2];
   uint64_t mask = 0xff00ff00ff00ff00ULL;
-  uint64_t ub,ug,vg,vr,bb,bg,br,yg;
+  uint64_t ub, ug, vg, vr, bb, bg, br, yg;
 
   __asm__ volatile(
-    "ldc1       %[yg],           0xc0(%[yuvcons_ptr])             \n\t"
-    "ldc1       %[bb],           0x60(%[yuvcons_ptr])             \n\t"
-    "ldc1       %[ub],           0x00(%[yuvcons_ptr])             \n\t"
-    "or         %[ub],           %[ub],             %[mask]       \n\t"
-    "ldc1       %[bg],           0x80(%[yuvcons_ptr])             \n\t"
-    "ldc1       %[ug],           0x20(%[yuvcons_ptr])             \n\t"
-    "punpcklbh  %[ug],           %[ug],             %[zero]       \n\t"
-    "pshufh     %[ug],           %[ug],             %[zero]       \n\t"
-    "ldc1       %[vg],           0x20(%[yuvcons_ptr])             \n\t"
-    "punpcklbh  %[vg],           %[vg],             %[zero]       \n\t"
-    "pshufh     %[vg],           %[vg],             %[five]       \n\t"
-    "ldc1       %[br],           0xa0(%[yuvcons_ptr])             \n\t"
-    "ldc1       %[vr],           0x40(%[yuvcons_ptr])             \n\t"
-    "punpcklbh  %[vr],           %[vr],             %[zero]       \n\t"
-    "pshufh     %[vr],           %[vr],             %[five]       \n\t"
-    "or         %[vr],           %[vr],             %[mask]       \n\t"
+      "ldc1       %[yg],           0xc0(%[yuvcons_ptr])             \n\t"
+      "ldc1       %[bb],           0x60(%[yuvcons_ptr])             \n\t"
+      "ldc1       %[ub],           0x00(%[yuvcons_ptr])             \n\t"
+      "or         %[ub],           %[ub],             %[mask]       \n\t"
+      "ldc1       %[bg],           0x80(%[yuvcons_ptr])             \n\t"
+      "ldc1       %[ug],           0x20(%[yuvcons_ptr])             \n\t"
+      "punpcklbh  %[ug],           %[ug],             %[zero]       \n\t"
+      "pshufh     %[ug],           %[ug],             %[zero]       \n\t"
+      "ldc1       %[vg],           0x20(%[yuvcons_ptr])             \n\t"
+      "punpcklbh  %[vg],           %[vg],             %[zero]       \n\t"
+      "pshufh     %[vg],           %[vg],             %[five]       \n\t"
+      "ldc1       %[br],           0xa0(%[yuvcons_ptr])             \n\t"
+      "ldc1       %[vr],           0x40(%[yuvcons_ptr])             \n\t"
+      "punpcklbh  %[vr],           %[vr],             %[zero]       \n\t"
+      "pshufh     %[vr],           %[vr],             %[five]       \n\t"
+      "or         %[vr],           %[vr],             %[mask]       \n\t"
 
-    "1:                                                           \n\t"
-    "gsldlc1    %[y],            0x07(%[y_ptr])                   \n\t"
-    "gsldrc1    %[y],            0x00(%[y_ptr])                   \n\t"
-    "gslwlc1    %[u],            0x03(%[u_ptr])                   \n\t"
-    "gslwrc1    %[u],            0x00(%[u_ptr])                   \n\t"
-    "gslwlc1    %[v],            0x03(%[v_ptr])                   \n\t"
-    "gslwrc1    %[v],            0x00(%[v_ptr])                   \n\t"
+      "1:                                                           \n\t"
+      "gsldlc1    %[y],            0x07(%[y_ptr])                   \n\t"
+      "gsldrc1    %[y],            0x00(%[y_ptr])                   \n\t"
+      "gslwlc1    %[u],            0x03(%[u_ptr])                   \n\t"
+      "gslwrc1    %[u],            0x00(%[u_ptr])                   \n\t"
+      "gslwlc1    %[v],            0x03(%[v_ptr])                   \n\t"
+      "gslwrc1    %[v],            0x00(%[v_ptr])                   \n\t"
 
-    "psllh      %[y],            %[y],              %[six]        \n\t"
-    "pmulhuh    %[y],            %[y],              %[yg]         \n\t"
+      "psllh      %[y],            %[y],              %[six]        \n\t"
+      "pmulhuh    %[y],            %[y],              %[yg]         \n\t"
 
-    "punpcklhw  %[u],            %[u],              %[u]          \n\t"
-    "psrah      %[u],            %[u],              %[two]        \n\t"
-    "punpcklhw  %[v],            %[v],              %[v]          \n\t"
-    "psrah      %[v],            %[v],              %[two]        \n\t"
-    "pminsh     %[u],            %[u],              %[mask1]      \n\t"
-    "pminsh     %[v],            %[v],              %[mask1]      \n\t"
+      "punpcklhw  %[u],            %[u],              %[u]          \n\t"
+      "psrah      %[u],            %[u],              %[two]        \n\t"
+      "punpcklhw  %[v],            %[v],              %[v]          \n\t"
+      "psrah      %[v],            %[v],              %[two]        \n\t"
+      "pminsh     %[u],            %[u],              %[mask1]      \n\t"
+      "pminsh     %[v],            %[v],              %[mask1]      \n\t"
 
-    "paddsh     %[b_vec0],       %[y],              %[bb]         \n\t"
-    "pmullh     %[b_vec1],       %[u],              %[ub]         \n\t"
-    "psubsh     %[b_vec0],       %[b_vec0],         %[b_vec1]     \n\t"
+      "paddsh     %[b_vec0],       %[y],              %[bb]         \n\t"
+      "pmullh     %[b_vec1],       %[u],              %[ub]         \n\t"
+      "psubsh     %[b_vec0],       %[b_vec0],         %[b_vec1]     \n\t"
 
-    "paddsh     %[g_vec0],       %[y],              %[bg]         \n\t"
-    "pmullh     %[g_vec1],       %[u],              %[ug]         \n\t"
-    "psubsh     %[g_vec0],       %[g_vec0],         %[g_vec1]     \n\t"
-    "pmullh     %[g_vec1],       %[v],              %[vg]         \n\t"
-    "psubsh     %[g_vec0],       %[g_vec0],         %[g_vec1]     \n\t"
+      "paddsh     %[g_vec0],       %[y],              %[bg]         \n\t"
+      "pmullh     %[g_vec1],       %[u],              %[ug]         \n\t"
+      "psubsh     %[g_vec0],       %[g_vec0],         %[g_vec1]     \n\t"
+      "pmullh     %[g_vec1],       %[v],              %[vg]         \n\t"
+      "psubsh     %[g_vec0],       %[g_vec0],         %[g_vec1]     \n\t"
 
-    "paddsh     %[r_vec0],       %[y],              %[br]         \n\t"
-    "pmullh     %[r_vec1],       %[v],              %[vr]         \n\t"
-    "psubsh     %[r_vec0],       %[r_vec0],         %[r_vec1]     \n\t"
+      "paddsh     %[r_vec0],       %[y],              %[br]         \n\t"
+      "pmullh     %[r_vec1],       %[v],              %[vr]         \n\t"
+      "psubsh     %[r_vec0],       %[r_vec0],         %[r_vec1]     \n\t"
 
-    "psrah      %[b_vec0],       %[b_vec0],         %[six]        \n\t"
-    "psrah      %[g_vec0],       %[g_vec0],         %[six]        \n\t"
-    "psrah      %[r_vec0],       %[r_vec0],         %[six]        \n\t"
+      "psrah      %[b_vec0],       %[b_vec0],         %[six]        \n\t"
+      "psrah      %[g_vec0],       %[g_vec0],         %[six]        \n\t"
+      "psrah      %[r_vec0],       %[r_vec0],         %[six]        \n\t"
 
-    "packushb   %[r_vec0],       %[b_vec0],         %[r_vec0]     \n\t"
-    "packushb   %[g_vec0],       %[g_vec0],         %[alpha]      \n\t"
-    "punpcklwd  %[g_vec0],       %[g_vec0],         %[alpha]      \n\t"
-    "punpcklbh  %[b_vec0],       %[r_vec0],         %[g_vec0]     \n\t"
-    "punpckhbh  %[r_vec0],       %[r_vec0],         %[g_vec0]     \n\t"
-    "punpcklhw  %[g_vec0],       %[b_vec0],         %[r_vec0]     \n\t"
-    "punpckhhw  %[g_vec1],       %[b_vec0],         %[r_vec0]     \n\t"
-    "gssdlc1    %[g_vec0],       0x07(%[rgbbuf_ptr])              \n\t"
-    "gssdrc1    %[g_vec0],       0x00(%[rgbbuf_ptr])              \n\t"
-    "gssdlc1    %[g_vec1],       0x0f(%[rgbbuf_ptr])              \n\t"
-    "gssdrc1    %[g_vec1],       0x08(%[rgbbuf_ptr])              \n\t"
+      "packushb   %[r_vec0],       %[b_vec0],         %[r_vec0]     \n\t"
+      "packushb   %[g_vec0],       %[g_vec0],         %[alpha]      \n\t"
+      "punpcklwd  %[g_vec0],       %[g_vec0],         %[alpha]      \n\t"
+      "punpcklbh  %[b_vec0],       %[r_vec0],         %[g_vec0]     \n\t"
+      "punpckhbh  %[r_vec0],       %[r_vec0],         %[g_vec0]     \n\t"
+      "punpcklhw  %[g_vec0],       %[b_vec0],         %[r_vec0]     \n\t"
+      "punpckhhw  %[g_vec1],       %[b_vec0],         %[r_vec0]     \n\t"
+      "gssdlc1    %[g_vec0],       0x07(%[rgbbuf_ptr])              \n\t"
+      "gssdrc1    %[g_vec0],       0x00(%[rgbbuf_ptr])              \n\t"
+      "gssdlc1    %[g_vec1],       0x0f(%[rgbbuf_ptr])              \n\t"
+      "gssdrc1    %[g_vec1],       0x08(%[rgbbuf_ptr])              \n\t"
 
-    "daddiu     %[y_ptr],        %[y_ptr],          0x08          \n\t"
-    "daddiu     %[u_ptr],        %[u_ptr],          0x04          \n\t"
-    "daddiu     %[v_ptr],        %[v_ptr],          0x04          \n\t"
-    "daddiu     %[rgbbuf_ptr],   %[rgbbuf_ptr],     0x10          \n\t"
-    "daddi      %[width],        %[width],          -0x04         \n\t"
-    "bnez       %[width],        1b                               \n\t"
+      "daddiu     %[y_ptr],        %[y_ptr],          0x08          \n\t"
+      "daddiu     %[u_ptr],        %[u_ptr],          0x04          \n\t"
+      "daddiu     %[v_ptr],        %[v_ptr],          0x04          \n\t"
+      "daddiu     %[rgbbuf_ptr],   %[rgbbuf_ptr],     0x10          \n\t"
+      "daddi      %[width],        %[width],          -0x04         \n\t"
+      "bnez       %[width],        1b                               \n\t"
 
-    : [y]"=&f"(y),
-      [u]"=&f"(u),                         [v]"=&f"(v),
-      [b_vec0]"=&f"(b_vec[0]),             [b_vec1]"=&f"(b_vec[1]),
-      [g_vec0]"=&f"(g_vec[0]),             [g_vec1]"=&f"(g_vec[1]),
-      [r_vec0]"=&f"(r_vec[0]),             [r_vec1]"=&f"(r_vec[1]),
-      [ub]"=&f"(ub),                       [ug]"=&f"(ug),
-      [vg]"=&f"(vg),                       [vr]"=&f"(vr),
-      [bb]"=&f"(bb),                       [bg]"=&f"(bg),
-      [br]"=&f"(br),                       [yg]"=&f"(yg)
-    : [y_ptr]"r"(src_y),                   [u_ptr]"r"(src_u),
-      [v_ptr]"r"(src_v),                   [rgbbuf_ptr]"r"(rgb_buf),
-      [yuvcons_ptr]"r"(yuvconstants),      [width]"r"(width),
-      [zero]"f"(0x00),                     [alpha]"f"(-1),
-      [six]"f"(0x6),                       [five]"f"(0x55),
-      [mask]"f"(mask),                     [two]"f"(0x02),
-      [mask1]"f"(0x00ff00ff00ff00ff)
-    : "memory"
-  );
+      : [y] "=&f"(y), [u] "=&f"(u), [v] "=&f"(v), [b_vec0] "=&f"(b_vec[0]),
+        [b_vec1] "=&f"(b_vec[1]), [g_vec0] "=&f"(g_vec[0]),
+        [g_vec1] "=&f"(g_vec[1]), [r_vec0] "=&f"(r_vec[0]),
+        [r_vec1] "=&f"(r_vec[1]), [ub] "=&f"(ub), [ug] "=&f"(ug),
+        [vg] "=&f"(vg), [vr] "=&f"(vr), [bb] "=&f"(bb), [bg] "=&f"(bg),
+        [br] "=&f"(br), [yg] "=&f"(yg)
+      : [y_ptr] "r"(src_y), [u_ptr] "r"(src_u), [v_ptr] "r"(src_v),
+        [rgbbuf_ptr] "r"(rgb_buf), [yuvcons_ptr] "r"(yuvconstants),
+        [width] "r"(width), [zero] "f"(0x00), [alpha] "f"(-1), [six] "f"(0x6),
+        [five] "f"(0x55), [mask] "f"(mask), [two] "f"(0x02),
+        [mask1] "f"(0x00ff00ff00ff00ff)
+      : "memory");
 }
 
 void I422AlphaToARGBRow_MMI(const uint8_t* src_y,
@@ -6343,102 +6331,96 @@ void I422AlphaToARGBRow_MMI(const uint8_t* src_y,
                             uint8_t* rgb_buf,
                             const struct YuvConstants* yuvconstants,
                             int width) {
-  uint64_t y,u,v,a;
-  uint64_t b_vec[2],g_vec[2],r_vec[2];
+  uint64_t y, u, v, a;
+  uint64_t b_vec[2], g_vec[2], r_vec[2];
   uint64_t mask = 0xff00ff00ff00ff00ULL;
-  uint64_t ub,ug,vg,vr,bb,bg,br,yg;
+  uint64_t ub, ug, vg, vr, bb, bg, br, yg;
 
   __asm__ volatile(
-    "ldc1       %[yg],           0xc0(%[yuvcons_ptr])             \n\t"
-    "ldc1       %[bb],           0x60(%[yuvcons_ptr])             \n\t"
-    "ldc1       %[ub],           0x00(%[yuvcons_ptr])             \n\t"
-    "or         %[ub],           %[ub],             %[mask]       \n\t"
-    "ldc1       %[bg],           0x80(%[yuvcons_ptr])             \n\t"
-    "ldc1       %[ug],           0x20(%[yuvcons_ptr])             \n\t"
-    "punpcklbh  %[ug],           %[ug],             %[zero]       \n\t"
-    "pshufh     %[ug],           %[ug],             %[zero]       \n\t"
-    "ldc1       %[vg],           0x20(%[yuvcons_ptr])             \n\t"
-    "punpcklbh  %[vg],           %[vg],             %[zero]       \n\t"
-    "pshufh     %[vg],           %[vg],             %[five]       \n\t"
-    "ldc1       %[br],           0xa0(%[yuvcons_ptr])             \n\t"
-    "ldc1       %[vr],           0x40(%[yuvcons_ptr])             \n\t"
-    "punpcklbh  %[vr],           %[vr],             %[zero]       \n\t"
-    "pshufh     %[vr],           %[vr],             %[five]       \n\t"
-    "or         %[vr],           %[vr],             %[mask]       \n\t"
+      "ldc1       %[yg],           0xc0(%[yuvcons_ptr])             \n\t"
+      "ldc1       %[bb],           0x60(%[yuvcons_ptr])             \n\t"
+      "ldc1       %[ub],           0x00(%[yuvcons_ptr])             \n\t"
+      "or         %[ub],           %[ub],             %[mask]       \n\t"
+      "ldc1       %[bg],           0x80(%[yuvcons_ptr])             \n\t"
+      "ldc1       %[ug],           0x20(%[yuvcons_ptr])             \n\t"
+      "punpcklbh  %[ug],           %[ug],             %[zero]       \n\t"
+      "pshufh     %[ug],           %[ug],             %[zero]       \n\t"
+      "ldc1       %[vg],           0x20(%[yuvcons_ptr])             \n\t"
+      "punpcklbh  %[vg],           %[vg],             %[zero]       \n\t"
+      "pshufh     %[vg],           %[vg],             %[five]       \n\t"
+      "ldc1       %[br],           0xa0(%[yuvcons_ptr])             \n\t"
+      "ldc1       %[vr],           0x40(%[yuvcons_ptr])             \n\t"
+      "punpcklbh  %[vr],           %[vr],             %[zero]       \n\t"
+      "pshufh     %[vr],           %[vr],             %[five]       \n\t"
+      "or         %[vr],           %[vr],             %[mask]       \n\t"
 
-    "1:                                                           \n\t"
-    "gslwlc1    %[y],            0x03(%[y_ptr])                   \n\t"
-    "gslwrc1    %[y],            0x00(%[y_ptr])                   \n\t"
-    "gslwlc1    %[u],            0x03(%[u_ptr])                   \n\t"
-    "gslwrc1    %[u],            0x00(%[u_ptr])                   \n\t"
-    "gslwlc1    %[v],            0x03(%[v_ptr])                   \n\t"
-    "gslwrc1    %[v],            0x00(%[v_ptr])                   \n\t"
-    "gslwlc1    %[a],            0x03(%[a_ptr])                   \n\t"
-    "gslwrc1    %[a],            0x00(%[a_ptr])                   \n\t"
+      "1:                                                           \n\t"
+      "gslwlc1    %[y],            0x03(%[y_ptr])                   \n\t"
+      "gslwrc1    %[y],            0x00(%[y_ptr])                   \n\t"
+      "gslwlc1    %[u],            0x03(%[u_ptr])                   \n\t"
+      "gslwrc1    %[u],            0x00(%[u_ptr])                   \n\t"
+      "gslwlc1    %[v],            0x03(%[v_ptr])                   \n\t"
+      "gslwrc1    %[v],            0x00(%[v_ptr])                   \n\t"
+      "gslwlc1    %[a],            0x03(%[a_ptr])                   \n\t"
+      "gslwrc1    %[a],            0x00(%[a_ptr])                   \n\t"
 
-    "punpcklbh  %[y],            %[y],              %[y]          \n\t"//y*0x0101
-    "pmulhuh    %[y],            %[y],              %[yg]         \n\t"//y1
+      "punpcklbh  %[y],            %[y],              %[y]          \n\t"  // y*0x0101
+      "pmulhuh    %[y],            %[y],              %[yg]         \n\t"  // y1
 
-    //u3|u2|u1|u0 --> u1|u1|u0|u0
-    "punpcklbh  %[u],            %[u],              %[u]          \n\t"//u
-    "punpcklbh  %[u],            %[u],              %[zero]       \n\t"
-    "paddsh     %[b_vec0],       %[y],              %[bb]         \n\t"
-    "pmullh     %[b_vec1],       %[u],              %[ub]         \n\t"
-    "psubsh     %[b_vec0],       %[b_vec0],         %[b_vec1]     \n\t"
-    "psrah      %[b_vec0],       %[b_vec0],         %[six]        \n\t"
+      // u3|u2|u1|u0 --> u1|u1|u0|u0
+      "punpcklbh  %[u],            %[u],              %[u]          \n\t"  // u
+      "punpcklbh  %[u],            %[u],              %[zero]       \n\t"
+      "paddsh     %[b_vec0],       %[y],              %[bb]         \n\t"
+      "pmullh     %[b_vec1],       %[u],              %[ub]         \n\t"
+      "psubsh     %[b_vec0],       %[b_vec0],         %[b_vec1]     \n\t"
+      "psrah      %[b_vec0],       %[b_vec0],         %[six]        \n\t"
 
-    //v3|v2|v1|v0 --> v1|v1|v0|v0
-    "punpcklbh  %[v],            %[v],              %[v]          \n\t"
-    "punpcklbh  %[v],            %[v],              %[zero]       \n\t"
-    "paddsh     %[g_vec0],       %[y],              %[bg]         \n\t"
-    "pmullh     %[g_vec1],       %[u],              %[ug]         \n\t"
-    "psubsh     %[g_vec0],       %[g_vec0],         %[g_vec1]     \n\t"
-    "pmullh     %[g_vec1],       %[v],              %[vg]         \n\t"
-    "psubsh     %[g_vec0],       %[g_vec0],         %[g_vec1]     \n\t"
-    "psrah      %[g_vec0],       %[g_vec0],         %[six]        \n\t"
+      // v3|v2|v1|v0 --> v1|v1|v0|v0
+      "punpcklbh  %[v],            %[v],              %[v]          \n\t"
+      "punpcklbh  %[v],            %[v],              %[zero]       \n\t"
+      "paddsh     %[g_vec0],       %[y],              %[bg]         \n\t"
+      "pmullh     %[g_vec1],       %[u],              %[ug]         \n\t"
+      "psubsh     %[g_vec0],       %[g_vec0],         %[g_vec1]     \n\t"
+      "pmullh     %[g_vec1],       %[v],              %[vg]         \n\t"
+      "psubsh     %[g_vec0],       %[g_vec0],         %[g_vec1]     \n\t"
+      "psrah      %[g_vec0],       %[g_vec0],         %[six]        \n\t"
 
-    "paddsh     %[r_vec0],       %[y],              %[br]         \n\t"
-    "pmullh     %[r_vec1],       %[v],              %[vr]         \n\t"
-    "psubsh     %[r_vec0],       %[r_vec0],         %[r_vec1]     \n\t"
-    "psrah      %[r_vec0],       %[r_vec0],         %[six]        \n\t"
+      "paddsh     %[r_vec0],       %[y],              %[br]         \n\t"
+      "pmullh     %[r_vec1],       %[v],              %[vr]         \n\t"
+      "psubsh     %[r_vec0],       %[r_vec0],         %[r_vec1]     \n\t"
+      "psrah      %[r_vec0],       %[r_vec0],         %[six]        \n\t"
 
-    "packushb   %[r_vec0],       %[b_vec0],         %[r_vec0]     \n\t"//rrrrbbbb
-    "packushb   %[g_vec0],       %[g_vec0],         %[a]          \n\t"
-    "punpcklwd  %[g_vec0],       %[g_vec0],         %[a]          \n\t"//aaaagggg
-    "punpcklbh  %[b_vec0],       %[r_vec0],         %[g_vec0]     \n\t"
-    "punpckhbh  %[r_vec0],       %[r_vec0],         %[g_vec0]     \n\t"
-    "punpcklhw  %[g_vec0],       %[b_vec0],         %[r_vec0]     \n\t"
-    "punpckhhw  %[g_vec1],       %[b_vec0],         %[r_vec0]     \n\t"
-    "gssdlc1    %[g_vec0],       0x07(%[rgbbuf_ptr])              \n\t"
-    "gssdrc1    %[g_vec0],       0x00(%[rgbbuf_ptr])              \n\t"
-    "gssdlc1    %[g_vec1],       0x0f(%[rgbbuf_ptr])              \n\t"
-    "gssdrc1    %[g_vec1],       0x08(%[rgbbuf_ptr])              \n\t"
+      "packushb   %[r_vec0],       %[b_vec0],         %[r_vec0]     \n\t"  // rrrrbbbb
+      "packushb   %[g_vec0],       %[g_vec0],         %[a]          \n\t"
+      "punpcklwd  %[g_vec0],       %[g_vec0],         %[a]          \n\t"  // aaaagggg
+      "punpcklbh  %[b_vec0],       %[r_vec0],         %[g_vec0]     \n\t"
+      "punpckhbh  %[r_vec0],       %[r_vec0],         %[g_vec0]     \n\t"
+      "punpcklhw  %[g_vec0],       %[b_vec0],         %[r_vec0]     \n\t"
+      "punpckhhw  %[g_vec1],       %[b_vec0],         %[r_vec0]     \n\t"
+      "gssdlc1    %[g_vec0],       0x07(%[rgbbuf_ptr])              \n\t"
+      "gssdrc1    %[g_vec0],       0x00(%[rgbbuf_ptr])              \n\t"
+      "gssdlc1    %[g_vec1],       0x0f(%[rgbbuf_ptr])              \n\t"
+      "gssdrc1    %[g_vec1],       0x08(%[rgbbuf_ptr])              \n\t"
 
-    "daddiu     %[y_ptr],        %[y_ptr],          0x04          \n\t"
-    "daddiu     %[a_ptr],        %[a_ptr],          0x04          \n\t"
-    "daddiu     %[u_ptr],        %[u_ptr],          0x02          \n\t"
-    "daddiu     %[v_ptr],        %[v_ptr],          0x02          \n\t"
-    "daddiu     %[rgbbuf_ptr],   %[rgbbuf_ptr],     0x10          \n\t"
-    "daddi      %[width],        %[width],          -0x04         \n\t"
-    "bnez       %[width],        1b                               \n\t"
+      "daddiu     %[y_ptr],        %[y_ptr],          0x04          \n\t"
+      "daddiu     %[a_ptr],        %[a_ptr],          0x04          \n\t"
+      "daddiu     %[u_ptr],        %[u_ptr],          0x02          \n\t"
+      "daddiu     %[v_ptr],        %[v_ptr],          0x02          \n\t"
+      "daddiu     %[rgbbuf_ptr],   %[rgbbuf_ptr],     0x10          \n\t"
+      "daddi      %[width],        %[width],          -0x04         \n\t"
+      "bnez       %[width],        1b                               \n\t"
 
-    : [y]"=&f"(y),                         [u]"=&f"(u),
-      [v]"=&f"(v),                         [a]"=&f"(a),
-      [b_vec0]"=&f"(b_vec[0]),             [b_vec1]"=&f"(b_vec[1]),
-      [g_vec0]"=&f"(g_vec[0]),             [g_vec1]"=&f"(g_vec[1]),
-      [r_vec0]"=&f"(r_vec[0]),             [r_vec1]"=&f"(r_vec[1]),
-      [ub]"=&f"(ub),                       [ug]"=&f"(ug),
-      [vg]"=&f"(vg),                       [vr]"=&f"(vr),
-      [bb]"=&f"(bb),                       [bg]"=&f"(bg),
-      [br]"=&f"(br),                       [yg]"=&f"(yg)
-    : [y_ptr]"r"(src_y),                   [u_ptr]"r"(src_u),
-      [v_ptr]"r"(src_v),                   [rgbbuf_ptr]"r"(rgb_buf),
-      [yuvcons_ptr]"r"(yuvconstants),      [width]"r"(width),
-      [a_ptr]"r"(src_a),                   [zero]"f"(0x00),
-      [six]"f"(0x6),                       [five]"f"(0x55),
-      [mask]"f"(mask)
-    : "memory"
-  );
+      : [y] "=&f"(y), [u] "=&f"(u), [v] "=&f"(v), [a] "=&f"(a),
+        [b_vec0] "=&f"(b_vec[0]), [b_vec1] "=&f"(b_vec[1]),
+        [g_vec0] "=&f"(g_vec[0]), [g_vec1] "=&f"(g_vec[1]),
+        [r_vec0] "=&f"(r_vec[0]), [r_vec1] "=&f"(r_vec[1]), [ub] "=&f"(ub),
+        [ug] "=&f"(ug), [vg] "=&f"(vg), [vr] "=&f"(vr), [bb] "=&f"(bb),
+        [bg] "=&f"(bg), [br] "=&f"(br), [yg] "=&f"(yg)
+      : [y_ptr] "r"(src_y), [u_ptr] "r"(src_u), [v_ptr] "r"(src_v),
+        [rgbbuf_ptr] "r"(rgb_buf), [yuvcons_ptr] "r"(yuvconstants),
+        [width] "r"(width), [a_ptr] "r"(src_a), [zero] "f"(0x00),
+        [six] "f"(0x6), [five] "f"(0x55), [mask] "f"(mask)
+      : "memory");
 }
 
 void I422ToRGB24Row_MMI(const uint8_t* src_y,
@@ -6447,113 +6429,105 @@ void I422ToRGB24Row_MMI(const uint8_t* src_y,
                         uint8_t* rgb_buf,
                         const struct YuvConstants* yuvconstants,
                         int width) {
-  uint64_t y,u,v;
-  uint64_t b_vec[2],g_vec[2],r_vec[2];
+  uint64_t y, u, v;
+  uint64_t b_vec[2], g_vec[2], r_vec[2];
   uint64_t mask = 0xff00ff00ff00ff00ULL;
-  uint64_t ub,ug,vg,vr,bb,bg,br,yg;
+  uint64_t ub, ug, vg, vr, bb, bg, br, yg;
 
   __asm__ volatile(
-    "ldc1       %[yg],           0xc0(%[yuvcons_ptr])             \n\t"
-    "ldc1       %[bb],           0x60(%[yuvcons_ptr])             \n\t"
-    "ldc1       %[ub],           0x00(%[yuvcons_ptr])             \n\t"
-    "or         %[ub],           %[ub],             %[mask]       \n\t"
-    "ldc1       %[bg],           0x80(%[yuvcons_ptr])             \n\t"
-    "ldc1       %[ug],           0x20(%[yuvcons_ptr])             \n\t"
-    "punpcklbh  %[ug],           %[ug],             %[zero]       \n\t"
-    "pshufh     %[ug],           %[ug],             %[zero]       \n\t"
-    "ldc1       %[vg],           0x20(%[yuvcons_ptr])             \n\t"
-    "punpcklbh  %[vg],           %[vg],             %[zero]       \n\t"
-    "pshufh     %[vg],           %[vg],             %[five]       \n\t"
-    "ldc1       %[br],           0xa0(%[yuvcons_ptr])             \n\t"
-    "ldc1       %[vr],           0x40(%[yuvcons_ptr])             \n\t"
-    "punpcklbh  %[vr],           %[vr],             %[zero]       \n\t"
-    "pshufh     %[vr],           %[vr],             %[five]       \n\t"
-    "or         %[vr],           %[vr],             %[mask]       \n\t"
+      "ldc1       %[yg],           0xc0(%[yuvcons_ptr])             \n\t"
+      "ldc1       %[bb],           0x60(%[yuvcons_ptr])             \n\t"
+      "ldc1       %[ub],           0x00(%[yuvcons_ptr])             \n\t"
+      "or         %[ub],           %[ub],             %[mask]       \n\t"
+      "ldc1       %[bg],           0x80(%[yuvcons_ptr])             \n\t"
+      "ldc1       %[ug],           0x20(%[yuvcons_ptr])             \n\t"
+      "punpcklbh  %[ug],           %[ug],             %[zero]       \n\t"
+      "pshufh     %[ug],           %[ug],             %[zero]       \n\t"
+      "ldc1       %[vg],           0x20(%[yuvcons_ptr])             \n\t"
+      "punpcklbh  %[vg],           %[vg],             %[zero]       \n\t"
+      "pshufh     %[vg],           %[vg],             %[five]       \n\t"
+      "ldc1       %[br],           0xa0(%[yuvcons_ptr])             \n\t"
+      "ldc1       %[vr],           0x40(%[yuvcons_ptr])             \n\t"
+      "punpcklbh  %[vr],           %[vr],             %[zero]       \n\t"
+      "pshufh     %[vr],           %[vr],             %[five]       \n\t"
+      "or         %[vr],           %[vr],             %[mask]       \n\t"
 
-    "1:                                                           \n\t"
-    "gslwlc1    %[y],            0x03(%[y_ptr])                   \n\t"
-    "gslwrc1    %[y],            0x00(%[y_ptr])                   \n\t"
-    "gslwlc1    %[u],            0x03(%[u_ptr])                   \n\t"
-    "gslwrc1    %[u],            0x00(%[u_ptr])                   \n\t"
-    "gslwlc1    %[v],            0x03(%[v_ptr])                   \n\t"
-    "gslwrc1    %[v],            0x00(%[v_ptr])                   \n\t"
+      "1:                                                           \n\t"
+      "gslwlc1    %[y],            0x03(%[y_ptr])                   \n\t"
+      "gslwrc1    %[y],            0x00(%[y_ptr])                   \n\t"
+      "gslwlc1    %[u],            0x03(%[u_ptr])                   \n\t"
+      "gslwrc1    %[u],            0x00(%[u_ptr])                   \n\t"
+      "gslwlc1    %[v],            0x03(%[v_ptr])                   \n\t"
+      "gslwrc1    %[v],            0x00(%[v_ptr])                   \n\t"
 
-    "punpcklbh  %[y],            %[y],              %[y]          \n\t"//y*0x0101
-    "pmulhuh    %[y],            %[y],              %[yg]         \n\t"//y1
+      "punpcklbh  %[y],            %[y],              %[y]          \n\t"  // y*0x0101
+      "pmulhuh    %[y],            %[y],              %[yg]         \n\t"  // y1
 
-    //u3|u2|u1|u0 --> u1|u1|u0|u0
-    "punpcklbh  %[u],            %[u],              %[u]          \n\t"//u
-    "punpcklbh  %[u],            %[u],              %[zero]       \n\t"
-    "paddsh     %[b_vec0],       %[y],              %[bb]         \n\t"
-    "pmullh     %[b_vec1],       %[u],              %[ub]         \n\t"
-    "psubsh     %[b_vec0],       %[b_vec0],         %[b_vec1]     \n\t"
-    "psrah      %[b_vec0],       %[b_vec0],         %[six]        \n\t"
+      // u3|u2|u1|u0 --> u1|u1|u0|u0
+      "punpcklbh  %[u],            %[u],              %[u]          \n\t"  // u
+      "punpcklbh  %[u],            %[u],              %[zero]       \n\t"
+      "paddsh     %[b_vec0],       %[y],              %[bb]         \n\t"
+      "pmullh     %[b_vec1],       %[u],              %[ub]         \n\t"
+      "psubsh     %[b_vec0],       %[b_vec0],         %[b_vec1]     \n\t"
+      "psrah      %[b_vec0],       %[b_vec0],         %[six]        \n\t"
 
-    //v3|v2|v1|v0 --> v1|v1|v0|v0
-    "punpcklbh  %[v],            %[v],              %[v]          \n\t"
-    "punpcklbh  %[v],            %[v],              %[zero]       \n\t"
-    "paddsh     %[g_vec0],       %[y],              %[bg]         \n\t"
-    "pmullh     %[g_vec1],       %[u],              %[ug]         \n\t"
-    "psubsh     %[g_vec0],       %[g_vec0],         %[g_vec1]     \n\t"
-    "pmullh     %[g_vec1],       %[v],              %[vg]         \n\t"
-    "psubsh     %[g_vec0],       %[g_vec0],         %[g_vec1]     \n\t"
-    "psrah      %[g_vec0],       %[g_vec0],         %[six]        \n\t"
+      // v3|v2|v1|v0 --> v1|v1|v0|v0
+      "punpcklbh  %[v],            %[v],              %[v]          \n\t"
+      "punpcklbh  %[v],            %[v],              %[zero]       \n\t"
+      "paddsh     %[g_vec0],       %[y],              %[bg]         \n\t"
+      "pmullh     %[g_vec1],       %[u],              %[ug]         \n\t"
+      "psubsh     %[g_vec0],       %[g_vec0],         %[g_vec1]     \n\t"
+      "pmullh     %[g_vec1],       %[v],              %[vg]         \n\t"
+      "psubsh     %[g_vec0],       %[g_vec0],         %[g_vec1]     \n\t"
+      "psrah      %[g_vec0],       %[g_vec0],         %[six]        \n\t"
 
-    "paddsh     %[r_vec0],       %[y],              %[br]         \n\t"
-    "pmullh     %[r_vec1],       %[v],              %[vr]         \n\t"
-    "psubsh     %[r_vec0],       %[r_vec0],         %[r_vec1]     \n\t"
-    "psrah      %[r_vec0],       %[r_vec0],         %[six]        \n\t"
+      "paddsh     %[r_vec0],       %[y],              %[br]         \n\t"
+      "pmullh     %[r_vec1],       %[v],              %[vr]         \n\t"
+      "psubsh     %[r_vec0],       %[r_vec0],         %[r_vec1]     \n\t"
+      "psrah      %[r_vec0],       %[r_vec0],         %[six]        \n\t"
 
-    "packushb   %[r_vec0],       %[b_vec0],         %[r_vec0]     \n\t"
-    "packushb   %[g_vec0],       %[g_vec0],         %[zero]       \n\t"
-    "punpcklbh  %[b_vec0],       %[r_vec0],         %[g_vec0]     \n\t"
-    "punpckhbh  %[r_vec0],       %[r_vec0],         %[g_vec0]     \n\t"
-    "punpcklhw  %[g_vec0],       %[b_vec0],         %[r_vec0]     \n\t"
-    "punpckhhw  %[g_vec1],       %[b_vec0],         %[r_vec0]     \n\t"
+      "packushb   %[r_vec0],       %[b_vec0],         %[r_vec0]     \n\t"
+      "packushb   %[g_vec0],       %[g_vec0],         %[zero]       \n\t"
+      "punpcklbh  %[b_vec0],       %[r_vec0],         %[g_vec0]     \n\t"
+      "punpckhbh  %[r_vec0],       %[r_vec0],         %[g_vec0]     \n\t"
+      "punpcklhw  %[g_vec0],       %[b_vec0],         %[r_vec0]     \n\t"
+      "punpckhhw  %[g_vec1],       %[b_vec0],         %[r_vec0]     \n\t"
 
-    "punpckhwd  %[r_vec0],       %[g_vec0],         %[g_vec0]     \n\t"
-    "psllw      %[r_vec1],       %[r_vec0],         %[lmove1]     \n\t"
-    "or         %[g_vec0],       %[g_vec0],         %[r_vec1]     \n\t"
-    "psrlw      %[r_vec1],       %[r_vec0],         %[rmove1]     \n\t"
-    "pextrh     %[r_vec1],       %[r_vec1],         %[zero]       \n\t"
-    "pinsrh_2   %[g_vec0],       %[g_vec0],         %[r_vec1]     \n\t"
-    "pextrh     %[r_vec1],       %[g_vec1],         %[zero]       \n\t"
-    "pinsrh_3   %[g_vec0],       %[g_vec0],         %[r_vec1]     \n\t"
-    "pextrh     %[r_vec1],       %[g_vec1],         %[one]        \n\t"
-    "punpckhwd  %[g_vec1],       %[g_vec1],         %[g_vec1]     \n\t"
-    "psllw      %[g_vec1],       %[g_vec1],         %[rmove1]     \n\t"
-    "or         %[g_vec1],       %[g_vec1],         %[r_vec1]     \n\t"
-    "gssdlc1    %[g_vec0],       0x07(%[rgbbuf_ptr])              \n\t"
-    "gssdrc1    %[g_vec0],       0x00(%[rgbbuf_ptr])              \n\t"
-    "gsswlc1    %[g_vec1],       0x0b(%[rgbbuf_ptr])              \n\t"
-    "gsswrc1    %[g_vec1],       0x08(%[rgbbuf_ptr])              \n\t"
+      "punpckhwd  %[r_vec0],       %[g_vec0],         %[g_vec0]     \n\t"
+      "psllw      %[r_vec1],       %[r_vec0],         %[lmove1]     \n\t"
+      "or         %[g_vec0],       %[g_vec0],         %[r_vec1]     \n\t"
+      "psrlw      %[r_vec1],       %[r_vec0],         %[rmove1]     \n\t"
+      "pextrh     %[r_vec1],       %[r_vec1],         %[zero]       \n\t"
+      "pinsrh_2   %[g_vec0],       %[g_vec0],         %[r_vec1]     \n\t"
+      "pextrh     %[r_vec1],       %[g_vec1],         %[zero]       \n\t"
+      "pinsrh_3   %[g_vec0],       %[g_vec0],         %[r_vec1]     \n\t"
+      "pextrh     %[r_vec1],       %[g_vec1],         %[one]        \n\t"
+      "punpckhwd  %[g_vec1],       %[g_vec1],         %[g_vec1]     \n\t"
+      "psllw      %[g_vec1],       %[g_vec1],         %[rmove1]     \n\t"
+      "or         %[g_vec1],       %[g_vec1],         %[r_vec1]     \n\t"
+      "gssdlc1    %[g_vec0],       0x07(%[rgbbuf_ptr])              \n\t"
+      "gssdrc1    %[g_vec0],       0x00(%[rgbbuf_ptr])              \n\t"
+      "gsswlc1    %[g_vec1],       0x0b(%[rgbbuf_ptr])              \n\t"
+      "gsswrc1    %[g_vec1],       0x08(%[rgbbuf_ptr])              \n\t"
 
+      "daddiu     %[y_ptr],        %[y_ptr],          0x04          \n\t"
+      "daddiu     %[u_ptr],        %[u_ptr],          0x02          \n\t"
+      "daddiu     %[v_ptr],        %[v_ptr],          0x02          \n\t"
+      "daddiu     %[rgbbuf_ptr],   %[rgbbuf_ptr],     0x0c          \n\t"
+      "daddi      %[width],        %[width],          -0x04         \n\t"
+      "bnez       %[width],        1b                               \n\t"
 
-    "daddiu     %[y_ptr],        %[y_ptr],          0x04          \n\t"
-    "daddiu     %[u_ptr],        %[u_ptr],          0x02          \n\t"
-    "daddiu     %[v_ptr],        %[v_ptr],          0x02          \n\t"
-    "daddiu     %[rgbbuf_ptr],   %[rgbbuf_ptr],     0x0c          \n\t"
-    "daddi      %[width],        %[width],          -0x04         \n\t"
-    "bnez       %[width],        1b                               \n\t"
-
-    : [y]"=&f"(y),                         [u]"=&f"(u),
-      [v]"=&f"(v),
-      [b_vec0]"=&f"(b_vec[0]),             [b_vec1]"=&f"(b_vec[1]),
-      [g_vec0]"=&f"(g_vec[0]),             [g_vec1]"=&f"(g_vec[1]),
-      [r_vec0]"=&f"(r_vec[0]),             [r_vec1]"=&f"(r_vec[1]),
-      [ub]"=&f"(ub),                       [ug]"=&f"(ug),
-      [vg]"=&f"(vg),                       [vr]"=&f"(vr),
-      [bb]"=&f"(bb),                       [bg]"=&f"(bg),
-      [br]"=&f"(br),                       [yg]"=&f"(yg)
-    : [y_ptr]"r"(src_y),                   [u_ptr]"r"(src_u),
-      [v_ptr]"r"(src_v),                   [rgbbuf_ptr]"r"(rgb_buf),
-      [yuvcons_ptr]"r"(yuvconstants),      [width]"r"(width),
-      [zero]"f"(0x00),                     [five]"f"(0x55),
-      [six]"f"(0x6),                       [mask]"f"(mask),
-      [lmove1]"f"(0x18),                   [rmove1]"f"(0x8),
-      [one]"f"(0x1)
-    : "memory"
-  );
+      : [y] "=&f"(y), [u] "=&f"(u), [v] "=&f"(v), [b_vec0] "=&f"(b_vec[0]),
+        [b_vec1] "=&f"(b_vec[1]), [g_vec0] "=&f"(g_vec[0]),
+        [g_vec1] "=&f"(g_vec[1]), [r_vec0] "=&f"(r_vec[0]),
+        [r_vec1] "=&f"(r_vec[1]), [ub] "=&f"(ub), [ug] "=&f"(ug),
+        [vg] "=&f"(vg), [vr] "=&f"(vr), [bb] "=&f"(bb), [bg] "=&f"(bg),
+        [br] "=&f"(br), [yg] "=&f"(yg)
+      : [y_ptr] "r"(src_y), [u_ptr] "r"(src_u), [v_ptr] "r"(src_v),
+        [rgbbuf_ptr] "r"(rgb_buf), [yuvcons_ptr] "r"(yuvconstants),
+        [width] "r"(width), [zero] "f"(0x00), [five] "f"(0x55), [six] "f"(0x6),
+        [mask] "f"(mask), [lmove1] "f"(0x18), [rmove1] "f"(0x8), [one] "f"(0x1)
+      : "memory");
 }
 
 void I422ToARGB4444Row_MMI(const uint8_t* src_y,
@@ -6564,110 +6538,103 @@ void I422ToARGB4444Row_MMI(const uint8_t* src_y,
                            int width) {
   uint64_t y, u, v;
   uint64_t b_vec, g_vec, r_vec, temp;
-  uint64_t ub,ug,vg,vr,bb,bg,br,yg;
+  uint64_t ub, ug, vg, vr, bb, bg, br, yg;
 
   __asm__ volatile(
-    "ldc1       %[yg],           0xc0(%[yuvcons_ptr])             \n\t"
-    "ldc1       %[bb],           0x60(%[yuvcons_ptr])             \n\t"
-    "ldc1       %[ub],           0x00(%[yuvcons_ptr])             \n\t"
-    "or         %[ub],           %[ub],             %[mask]       \n\t"
-    "ldc1       %[bg],           0x80(%[yuvcons_ptr])             \n\t"
-    "ldc1       %[ug],           0x20(%[yuvcons_ptr])             \n\t"
-    "punpcklbh  %[ug],           %[ug],             %[zero]       \n\t"
-    "pshufh     %[ug],           %[ug],             %[zero]       \n\t"
-    "ldc1       %[vg],           0x20(%[yuvcons_ptr])             \n\t"
-    "punpcklbh  %[vg],           %[vg],             %[zero]       \n\t"
-    "pshufh     %[vg],           %[vg],             %[five]       \n\t"
-    "ldc1       %[br],           0xa0(%[yuvcons_ptr])             \n\t"
-    "ldc1       %[vr],           0x40(%[yuvcons_ptr])             \n\t"
-    "punpcklbh  %[vr],           %[vr],             %[zero]       \n\t"
-    "pshufh     %[vr],           %[vr],             %[five]       \n\t"
-    "or         %[vr],           %[vr],             %[mask]       \n\t"
+      "ldc1       %[yg],           0xc0(%[yuvcons_ptr])             \n\t"
+      "ldc1       %[bb],           0x60(%[yuvcons_ptr])             \n\t"
+      "ldc1       %[ub],           0x00(%[yuvcons_ptr])             \n\t"
+      "or         %[ub],           %[ub],             %[mask]       \n\t"
+      "ldc1       %[bg],           0x80(%[yuvcons_ptr])             \n\t"
+      "ldc1       %[ug],           0x20(%[yuvcons_ptr])             \n\t"
+      "punpcklbh  %[ug],           %[ug],             %[zero]       \n\t"
+      "pshufh     %[ug],           %[ug],             %[zero]       \n\t"
+      "ldc1       %[vg],           0x20(%[yuvcons_ptr])             \n\t"
+      "punpcklbh  %[vg],           %[vg],             %[zero]       \n\t"
+      "pshufh     %[vg],           %[vg],             %[five]       \n\t"
+      "ldc1       %[br],           0xa0(%[yuvcons_ptr])             \n\t"
+      "ldc1       %[vr],           0x40(%[yuvcons_ptr])             \n\t"
+      "punpcklbh  %[vr],           %[vr],             %[zero]       \n\t"
+      "pshufh     %[vr],           %[vr],             %[five]       \n\t"
+      "or         %[vr],           %[vr],             %[mask]       \n\t"
 
-    "1:                                                           \n\t"
-    "gslwlc1    %[y],            0x03(%[y_ptr])                   \n\t"
-    "gslwrc1    %[y],            0x00(%[y_ptr])                   \n\t"
-    "gslwlc1    %[u],            0x03(%[u_ptr])                   \n\t"
-    "gslwrc1    %[u],            0x00(%[u_ptr])                   \n\t"
-    "gslwlc1    %[v],            0x03(%[v_ptr])                   \n\t"
-    "gslwrc1    %[v],            0x00(%[v_ptr])                   \n\t"
+      "1:                                                           \n\t"
+      "gslwlc1    %[y],            0x03(%[y_ptr])                   \n\t"
+      "gslwrc1    %[y],            0x00(%[y_ptr])                   \n\t"
+      "gslwlc1    %[u],            0x03(%[u_ptr])                   \n\t"
+      "gslwrc1    %[u],            0x00(%[u_ptr])                   \n\t"
+      "gslwlc1    %[v],            0x03(%[v_ptr])                   \n\t"
+      "gslwrc1    %[v],            0x00(%[v_ptr])                   \n\t"
 
-    "punpcklbh  %[y],            %[y],              %[y]          \n\t"//y*0x0101
-    "pmulhuh    %[y],            %[y],              %[yg]         \n\t"//y1
+      "punpcklbh  %[y],            %[y],              %[y]          \n\t"  // y*0x0101
+      "pmulhuh    %[y],            %[y],              %[yg]         \n\t"  // y1
 
-    //u3|u2|u1|u0 --> u1|u1|u0|u0
-    "punpcklbh  %[u],            %[u],              %[u]          \n\t"//u
-    "punpcklbh  %[u],            %[u],              %[zero]       \n\t"
-    "paddsh     %[b_vec],        %[y],              %[bb]         \n\t"
-    "pmullh     %[temp],         %[u],              %[ub]         \n\t"
-    "psubsh     %[b_vec],        %[b_vec],          %[temp]       \n\t"
-    "psrah      %[b_vec],        %[b_vec],          %[six]        \n\t"
+      // u3|u2|u1|u0 --> u1|u1|u0|u0
+      "punpcklbh  %[u],            %[u],              %[u]          \n\t"  // u
+      "punpcklbh  %[u],            %[u],              %[zero]       \n\t"
+      "paddsh     %[b_vec],        %[y],              %[bb]         \n\t"
+      "pmullh     %[temp],         %[u],              %[ub]         \n\t"
+      "psubsh     %[b_vec],        %[b_vec],          %[temp]       \n\t"
+      "psrah      %[b_vec],        %[b_vec],          %[six]        \n\t"
 
-    //v3|v2|v1|v0 --> v1|v1|v0|v0
-    "punpcklbh  %[v],            %[v],              %[v]          \n\t"
-    "punpcklbh  %[v],            %[v],              %[zero]       \n\t"
-    "paddsh     %[g_vec],        %[y],              %[bg]         \n\t"
-    "pmullh     %[temp],         %[u],              %[ug]         \n\t"
-    "psubsh     %[g_vec],        %[g_vec],          %[temp]       \n\t"
-    "pmullh     %[temp],         %[v],              %[vg]         \n\t"
-    "psubsh     %[g_vec],        %[g_vec],          %[temp]       \n\t"
-    "psrah      %[g_vec],        %[g_vec],          %[six]        \n\t"
+      // v3|v2|v1|v0 --> v1|v1|v0|v0
+      "punpcklbh  %[v],            %[v],              %[v]          \n\t"
+      "punpcklbh  %[v],            %[v],              %[zero]       \n\t"
+      "paddsh     %[g_vec],        %[y],              %[bg]         \n\t"
+      "pmullh     %[temp],         %[u],              %[ug]         \n\t"
+      "psubsh     %[g_vec],        %[g_vec],          %[temp]       \n\t"
+      "pmullh     %[temp],         %[v],              %[vg]         \n\t"
+      "psubsh     %[g_vec],        %[g_vec],          %[temp]       \n\t"
+      "psrah      %[g_vec],        %[g_vec],          %[six]        \n\t"
 
-    "paddsh     %[r_vec],        %[y],              %[br]         \n\t"
-    "pmullh     %[temp],         %[v],              %[vr]         \n\t"
-    "psubsh     %[r_vec],        %[r_vec],          %[temp]       \n\t"
-    "psrah      %[r_vec],        %[r_vec],          %[six]        \n\t"
+      "paddsh     %[r_vec],        %[y],              %[br]         \n\t"
+      "pmullh     %[temp],         %[v],              %[vr]         \n\t"
+      "psubsh     %[r_vec],        %[r_vec],          %[temp]       \n\t"
+      "psrah      %[r_vec],        %[r_vec],          %[six]        \n\t"
 
-    "packushb   %[r_vec],        %[b_vec],          %[r_vec]      \n\t"
-    "packushb   %[g_vec],        %[g_vec],          %[zero]       \n\t"
-    "punpcklwd  %[g_vec],        %[g_vec],          %[alpha]      \n\t"
-    "punpcklbh  %[b_vec],        %[r_vec],          %[g_vec]      \n\t"
-    "punpckhbh  %[r_vec],        %[r_vec],          %[g_vec]      \n\t"
-    "punpcklhw  %[g_vec],        %[b_vec],          %[r_vec]      \n\t"
-    "punpckhhw  %[b_vec],        %[b_vec],          %[r_vec]      \n\t"
+      "packushb   %[r_vec],        %[b_vec],          %[r_vec]      \n\t"
+      "packushb   %[g_vec],        %[g_vec],          %[zero]       \n\t"
+      "punpcklwd  %[g_vec],        %[g_vec],          %[alpha]      \n\t"
+      "punpcklbh  %[b_vec],        %[r_vec],          %[g_vec]      \n\t"
+      "punpckhbh  %[r_vec],        %[r_vec],          %[g_vec]      \n\t"
+      "punpcklhw  %[g_vec],        %[b_vec],          %[r_vec]      \n\t"
+      "punpckhhw  %[b_vec],        %[b_vec],          %[r_vec]      \n\t"
 
-    "and        %[g_vec],        %[g_vec],          %[mask1]      \n\t"
-    "psrlw      %[g_vec],        %[g_vec],          %[four]       \n\t"
-    "psrlw      %[r_vec],        %[g_vec],          %[four]       \n\t"
-    "or         %[g_vec],        %[g_vec],          %[r_vec]      \n\t"
-    "punpcklbh  %[r_vec],        %[alpha],          %[zero]       \n\t"
-    "and        %[g_vec],        %[g_vec],          %[r_vec]      \n\t"
+      "and        %[g_vec],        %[g_vec],          %[mask1]      \n\t"
+      "psrlw      %[g_vec],        %[g_vec],          %[four]       \n\t"
+      "psrlw      %[r_vec],        %[g_vec],          %[four]       \n\t"
+      "or         %[g_vec],        %[g_vec],          %[r_vec]      \n\t"
+      "punpcklbh  %[r_vec],        %[alpha],          %[zero]       \n\t"
+      "and        %[g_vec],        %[g_vec],          %[r_vec]      \n\t"
 
-    "and        %[b_vec],        %[b_vec],          %[mask1]      \n\t"
-    "psrlw      %[b_vec],        %[b_vec],          %[four]       \n\t"
-    "psrlw      %[r_vec],        %[b_vec],          %[four]       \n\t"
-    "or         %[b_vec],        %[b_vec],          %[r_vec]      \n\t"
-    "punpcklbh  %[r_vec],        %[alpha],          %[zero]       \n\t"
-    "and        %[b_vec],        %[b_vec],          %[r_vec]      \n\t"
-    "packushb   %[g_vec],        %[g_vec],          %[b_vec]      \n\t"
+      "and        %[b_vec],        %[b_vec],          %[mask1]      \n\t"
+      "psrlw      %[b_vec],        %[b_vec],          %[four]       \n\t"
+      "psrlw      %[r_vec],        %[b_vec],          %[four]       \n\t"
+      "or         %[b_vec],        %[b_vec],          %[r_vec]      \n\t"
+      "punpcklbh  %[r_vec],        %[alpha],          %[zero]       \n\t"
+      "and        %[b_vec],        %[b_vec],          %[r_vec]      \n\t"
+      "packushb   %[g_vec],        %[g_vec],          %[b_vec]      \n\t"
 
-    "gssdlc1    %[g_vec],        0x07(%[dst_argb4444])            \n\t"
-    "gssdrc1    %[g_vec],        0x00(%[dst_argb4444])            \n\t"
+      "gssdlc1    %[g_vec],        0x07(%[dst_argb4444])            \n\t"
+      "gssdrc1    %[g_vec],        0x00(%[dst_argb4444])            \n\t"
 
-    "daddiu     %[y_ptr],        %[y_ptr],          0x04          \n\t"
-    "daddiu     %[u_ptr],        %[u_ptr],          0x02          \n\t"
-    "daddiu     %[v_ptr],        %[v_ptr],          0x02          \n\t"
-    "daddiu     %[dst_argb4444], %[dst_argb4444],   0x08          \n\t"
-    "daddi      %[width],        %[width],          -0x04         \n\t"
-    "bnez       %[width],        1b                               \n\t"
+      "daddiu     %[y_ptr],        %[y_ptr],          0x04          \n\t"
+      "daddiu     %[u_ptr],        %[u_ptr],          0x02          \n\t"
+      "daddiu     %[v_ptr],        %[v_ptr],          0x02          \n\t"
+      "daddiu     %[dst_argb4444], %[dst_argb4444],   0x08          \n\t"
+      "daddi      %[width],        %[width],          -0x04         \n\t"
+      "bnez       %[width],        1b                               \n\t"
 
-    : [y]"=&f"(y),                         [u]"=&f"(u),
-      [v]"=&f"(v),
-      [b_vec]"=&f"(b_vec),                 [g_vec]"=&f"(g_vec),
-      [r_vec]"=&f"(r_vec),                 [temp]"=&f"(temp),
-      [ub]"=&f"(ub),                       [ug]"=&f"(ug),
-      [vg]"=&f"(vg),                       [vr]"=&f"(vr),
-      [bb]"=&f"(bb),                       [bg]"=&f"(bg),
-      [br]"=&f"(br),                       [yg]"=&f"(yg)
-    : [y_ptr]"r"(src_y),                   [u_ptr]"r"(src_u),
-      [v_ptr]"r"(src_v),                   [dst_argb4444]"r"(dst_argb4444),
-      [yuvcons_ptr]"r"(yuvconstants),      [width]"r"(width),
-      [zero]"f"(0x00),                     [five]"f"(0x55),
-      [six]"f"(0x6),                       [mask]"f"(0xff00ff00ff00ff00),
-      [four]"f"(0x4),                      [mask1]"f"(0xf0f0f0f0f0f0f0f0),
-      [alpha]"f"(-1)
-    : "memory"
-  );
+      : [y] "=&f"(y), [u] "=&f"(u), [v] "=&f"(v), [b_vec] "=&f"(b_vec),
+        [g_vec] "=&f"(g_vec), [r_vec] "=&f"(r_vec), [temp] "=&f"(temp),
+        [ub] "=&f"(ub), [ug] "=&f"(ug), [vg] "=&f"(vg), [vr] "=&f"(vr),
+        [bb] "=&f"(bb), [bg] "=&f"(bg), [br] "=&f"(br), [yg] "=&f"(yg)
+      : [y_ptr] "r"(src_y), [u_ptr] "r"(src_u), [v_ptr] "r"(src_v),
+        [dst_argb4444] "r"(dst_argb4444), [yuvcons_ptr] "r"(yuvconstants),
+        [width] "r"(width), [zero] "f"(0x00), [five] "f"(0x55), [six] "f"(0x6),
+        [mask] "f"(0xff00ff00ff00ff00), [four] "f"(0x4),
+        [mask1] "f"(0xf0f0f0f0f0f0f0f0), [alpha] "f"(-1)
+      : "memory");
 }
 
 void I422ToARGB1555Row_MMI(const uint8_t* src_y,
@@ -6678,125 +6645,118 @@ void I422ToARGB1555Row_MMI(const uint8_t* src_y,
                            int width) {
   uint64_t y, u, v;
   uint64_t b_vec, g_vec, r_vec, temp;
-  uint64_t ub,ug,vg,vr,bb,bg,br,yg;
+  uint64_t ub, ug, vg, vr, bb, bg, br, yg;
 
   __asm__ volatile(
-    "ldc1       %[yg],           0xc0(%[yuvcons_ptr])             \n\t"
-    "ldc1       %[bb],           0x60(%[yuvcons_ptr])             \n\t"
-    "ldc1       %[ub],           0x00(%[yuvcons_ptr])             \n\t"
-    "or         %[ub],           %[ub],             %[mask1]      \n\t"
-    "ldc1       %[bg],           0x80(%[yuvcons_ptr])             \n\t"
-    "ldc1       %[ug],           0x20(%[yuvcons_ptr])             \n\t"
-    "punpcklbh  %[ug],           %[ug],             %[zero]       \n\t"
-    "pshufh     %[ug],           %[ug],             %[zero]       \n\t"
-    "ldc1       %[vg],           0x20(%[yuvcons_ptr])             \n\t"
-    "punpcklbh  %[vg],           %[vg],             %[zero]       \n\t"
-    "pshufh     %[vg],           %[vg],             %[five]       \n\t"
-    "ldc1       %[br],           0xa0(%[yuvcons_ptr])             \n\t"
-    "ldc1       %[vr],           0x40(%[yuvcons_ptr])             \n\t"
-    "punpcklbh  %[vr],           %[vr],             %[zero]       \n\t"
-    "pshufh     %[vr],           %[vr],             %[five]       \n\t"
-    "or         %[vr],           %[vr],             %[mask1]      \n\t"
+      "ldc1       %[yg],           0xc0(%[yuvcons_ptr])             \n\t"
+      "ldc1       %[bb],           0x60(%[yuvcons_ptr])             \n\t"
+      "ldc1       %[ub],           0x00(%[yuvcons_ptr])             \n\t"
+      "or         %[ub],           %[ub],             %[mask1]      \n\t"
+      "ldc1       %[bg],           0x80(%[yuvcons_ptr])             \n\t"
+      "ldc1       %[ug],           0x20(%[yuvcons_ptr])             \n\t"
+      "punpcklbh  %[ug],           %[ug],             %[zero]       \n\t"
+      "pshufh     %[ug],           %[ug],             %[zero]       \n\t"
+      "ldc1       %[vg],           0x20(%[yuvcons_ptr])             \n\t"
+      "punpcklbh  %[vg],           %[vg],             %[zero]       \n\t"
+      "pshufh     %[vg],           %[vg],             %[five]       \n\t"
+      "ldc1       %[br],           0xa0(%[yuvcons_ptr])             \n\t"
+      "ldc1       %[vr],           0x40(%[yuvcons_ptr])             \n\t"
+      "punpcklbh  %[vr],           %[vr],             %[zero]       \n\t"
+      "pshufh     %[vr],           %[vr],             %[five]       \n\t"
+      "or         %[vr],           %[vr],             %[mask1]      \n\t"
 
-    "1:                                                           \n\t"
-    "gslwlc1    %[y],            0x03(%[y_ptr])                   \n\t"
-    "gslwrc1    %[y],            0x00(%[y_ptr])                   \n\t"
-    "gslwlc1    %[u],            0x03(%[u_ptr])                   \n\t"
-    "gslwrc1    %[u],            0x00(%[u_ptr])                   \n\t"
-    "gslwlc1    %[v],            0x03(%[v_ptr])                   \n\t"
-    "gslwrc1    %[v],            0x00(%[v_ptr])                   \n\t"
+      "1:                                                           \n\t"
+      "gslwlc1    %[y],            0x03(%[y_ptr])                   \n\t"
+      "gslwrc1    %[y],            0x00(%[y_ptr])                   \n\t"
+      "gslwlc1    %[u],            0x03(%[u_ptr])                   \n\t"
+      "gslwrc1    %[u],            0x00(%[u_ptr])                   \n\t"
+      "gslwlc1    %[v],            0x03(%[v_ptr])                   \n\t"
+      "gslwrc1    %[v],            0x00(%[v_ptr])                   \n\t"
 
-    "punpcklbh  %[y],            %[y],              %[y]          \n\t"
-    "pmulhuh    %[y],            %[y],              %[yg]         \n\t"
+      "punpcklbh  %[y],            %[y],              %[y]          \n\t"
+      "pmulhuh    %[y],            %[y],              %[yg]         \n\t"
 
-    //u3|u2|u1|u0 --> u1|u1|u0|u0
-    "punpcklbh  %[u],            %[u],              %[u]          \n\t"
-    "punpcklbh  %[u],            %[u],              %[zero]       \n\t"
-    "paddsh     %[b_vec],        %[y],              %[bb]         \n\t"
-    "pmullh     %[temp],         %[u],              %[ub]         \n\t"
-    "psubsh     %[b_vec],        %[b_vec],          %[temp]       \n\t"
-    "psrah      %[b_vec],        %[b_vec],          %[six]        \n\t"
+      // u3|u2|u1|u0 --> u1|u1|u0|u0
+      "punpcklbh  %[u],            %[u],              %[u]          \n\t"
+      "punpcklbh  %[u],            %[u],              %[zero]       \n\t"
+      "paddsh     %[b_vec],        %[y],              %[bb]         \n\t"
+      "pmullh     %[temp],         %[u],              %[ub]         \n\t"
+      "psubsh     %[b_vec],        %[b_vec],          %[temp]       \n\t"
+      "psrah      %[b_vec],        %[b_vec],          %[six]        \n\t"
 
-    //v3|v2|v1|v0 --> v1|v1|v0|v0
-    "punpcklbh  %[v],            %[v],              %[v]          \n\t"
-    "punpcklbh  %[v],            %[v],              %[zero]       \n\t"
-    "paddsh     %[g_vec],        %[y],              %[bg]         \n\t"
-    "pmullh     %[temp],         %[u],              %[ug]         \n\t"
-    "psubsh     %[g_vec],        %[g_vec],          %[temp]       \n\t"
-    "pmullh     %[temp],         %[v],              %[vg]         \n\t"
-    "psubsh     %[g_vec],        %[g_vec],          %[temp]       \n\t"
-    "psrah      %[g_vec],        %[g_vec],          %[six]        \n\t"
+      // v3|v2|v1|v0 --> v1|v1|v0|v0
+      "punpcklbh  %[v],            %[v],              %[v]          \n\t"
+      "punpcklbh  %[v],            %[v],              %[zero]       \n\t"
+      "paddsh     %[g_vec],        %[y],              %[bg]         \n\t"
+      "pmullh     %[temp],         %[u],              %[ug]         \n\t"
+      "psubsh     %[g_vec],        %[g_vec],          %[temp]       \n\t"
+      "pmullh     %[temp],         %[v],              %[vg]         \n\t"
+      "psubsh     %[g_vec],        %[g_vec],          %[temp]       \n\t"
+      "psrah      %[g_vec],        %[g_vec],          %[six]        \n\t"
 
-    "paddsh     %[r_vec],        %[y],              %[br]         \n\t"
-    "pmullh     %[temp],         %[v],              %[vr]         \n\t"
-    "psubsh     %[r_vec],        %[r_vec],          %[temp]       \n\t"
-    "psrah      %[r_vec],        %[r_vec],          %[six]        \n\t"
+      "paddsh     %[r_vec],        %[y],              %[br]         \n\t"
+      "pmullh     %[temp],         %[v],              %[vr]         \n\t"
+      "psubsh     %[r_vec],        %[r_vec],          %[temp]       \n\t"
+      "psrah      %[r_vec],        %[r_vec],          %[six]        \n\t"
 
-    "packushb   %[r_vec],        %[b_vec],          %[r_vec]      \n\t"
-    "packushb   %[g_vec],        %[g_vec],          %[zero]       \n\t"
-    "punpcklbh  %[b_vec],        %[r_vec],          %[g_vec]      \n\t"
-    "punpckhbh  %[r_vec],        %[r_vec],          %[g_vec]      \n\t"
-    "punpcklhw  %[g_vec],        %[b_vec],          %[r_vec]      \n\t"
-    "punpckhhw  %[b_vec],        %[b_vec],          %[r_vec]      \n\t"
+      "packushb   %[r_vec],        %[b_vec],          %[r_vec]      \n\t"
+      "packushb   %[g_vec],        %[g_vec],          %[zero]       \n\t"
+      "punpcklbh  %[b_vec],        %[r_vec],          %[g_vec]      \n\t"
+      "punpckhbh  %[r_vec],        %[r_vec],          %[g_vec]      \n\t"
+      "punpcklhw  %[g_vec],        %[b_vec],          %[r_vec]      \n\t"
+      "punpckhhw  %[b_vec],        %[b_vec],          %[r_vec]      \n\t"
 
-    "psrlw      %[temp],         %[g_vec],          %[three]      \n\t"
-    "and        %[g_vec],        %[temp],           %[mask2]      \n\t"
-    "psrlw      %[temp],         %[temp],           %[eight]      \n\t"
-    "and        %[r_vec],        %[temp],           %[mask2]      \n\t"
-    "psllw      %[r_vec],        %[r_vec],          %[lmove5]     \n\t"
-    "or         %[g_vec],        %[g_vec],          %[r_vec]      \n\t"
-    "psrlw      %[temp],         %[temp],           %[eight]      \n\t"
-    "and        %[r_vec],        %[temp],           %[mask2]      \n\t"
-    "psllw      %[r_vec],        %[r_vec],          %[lmove5]     \n\t"
-    "psllw      %[r_vec],        %[r_vec],          %[lmove5]     \n\t"
-    "or         %[g_vec],        %[g_vec],          %[r_vec]      \n\t"
-    "or         %[g_vec],        %[g_vec],          %[mask3]      \n\t"
+      "psrlw      %[temp],         %[g_vec],          %[three]      \n\t"
+      "and        %[g_vec],        %[temp],           %[mask2]      \n\t"
+      "psrlw      %[temp],         %[temp],           %[eight]      \n\t"
+      "and        %[r_vec],        %[temp],           %[mask2]      \n\t"
+      "psllw      %[r_vec],        %[r_vec],          %[lmove5]     \n\t"
+      "or         %[g_vec],        %[g_vec],          %[r_vec]      \n\t"
+      "psrlw      %[temp],         %[temp],           %[eight]      \n\t"
+      "and        %[r_vec],        %[temp],           %[mask2]      \n\t"
+      "psllw      %[r_vec],        %[r_vec],          %[lmove5]     \n\t"
+      "psllw      %[r_vec],        %[r_vec],          %[lmove5]     \n\t"
+      "or         %[g_vec],        %[g_vec],          %[r_vec]      \n\t"
+      "or         %[g_vec],        %[g_vec],          %[mask3]      \n\t"
 
-    "psrlw      %[temp],         %[b_vec],          %[three]      \n\t"
-    "and        %[b_vec],        %[temp],           %[mask2]      \n\t"
-    "psrlw      %[temp],         %[temp],           %[eight]      \n\t"
-    "and        %[r_vec],        %[temp],           %[mask2]      \n\t"
-    "psllw      %[r_vec],        %[r_vec],          %[lmove5]     \n\t"
-    "or         %[b_vec],        %[b_vec],          %[r_vec]      \n\t"
-    "psrlw      %[temp],         %[temp],           %[eight]      \n\t"
-    "and        %[r_vec],        %[temp],           %[mask2]      \n\t"
-    "psllw      %[r_vec],        %[r_vec],          %[lmove5]     \n\t"
-    "psllw      %[r_vec],        %[r_vec],          %[lmove5]     \n\t"
-    "or         %[b_vec],        %[b_vec],          %[r_vec]      \n\t"
-    "or         %[b_vec],        %[b_vec],          %[mask3]      \n\t"
+      "psrlw      %[temp],         %[b_vec],          %[three]      \n\t"
+      "and        %[b_vec],        %[temp],           %[mask2]      \n\t"
+      "psrlw      %[temp],         %[temp],           %[eight]      \n\t"
+      "and        %[r_vec],        %[temp],           %[mask2]      \n\t"
+      "psllw      %[r_vec],        %[r_vec],          %[lmove5]     \n\t"
+      "or         %[b_vec],        %[b_vec],          %[r_vec]      \n\t"
+      "psrlw      %[temp],         %[temp],           %[eight]      \n\t"
+      "and        %[r_vec],        %[temp],           %[mask2]      \n\t"
+      "psllw      %[r_vec],        %[r_vec],          %[lmove5]     \n\t"
+      "psllw      %[r_vec],        %[r_vec],          %[lmove5]     \n\t"
+      "or         %[b_vec],        %[b_vec],          %[r_vec]      \n\t"
+      "or         %[b_vec],        %[b_vec],          %[mask3]      \n\t"
 
-    "punpcklhw  %[r_vec],        %[g_vec],          %[b_vec]      \n\t"
-    "punpckhhw  %[b_vec],        %[g_vec],          %[b_vec]      \n\t"
-    "punpcklhw  %[g_vec],        %[r_vec],          %[b_vec]      \n\t"
+      "punpcklhw  %[r_vec],        %[g_vec],          %[b_vec]      \n\t"
+      "punpckhhw  %[b_vec],        %[g_vec],          %[b_vec]      \n\t"
+      "punpcklhw  %[g_vec],        %[r_vec],          %[b_vec]      \n\t"
 
-    "gssdlc1    %[g_vec],        0x07(%[dst_argb1555])            \n\t"
-    "gssdrc1    %[g_vec],        0x00(%[dst_argb1555])            \n\t"
+      "gssdlc1    %[g_vec],        0x07(%[dst_argb1555])            \n\t"
+      "gssdrc1    %[g_vec],        0x00(%[dst_argb1555])            \n\t"
 
-    "daddiu     %[y_ptr],        %[y_ptr],          0x04          \n\t"
-    "daddiu     %[u_ptr],        %[u_ptr],          0x02          \n\t"
-    "daddiu     %[v_ptr],        %[v_ptr],          0x02          \n\t"
-    "daddiu     %[dst_argb1555], %[dst_argb1555],   0x08          \n\t"
-    "daddi      %[width],        %[width],          -0x04         \n\t"
-    "bnez       %[width],        1b                               \n\t"
+      "daddiu     %[y_ptr],        %[y_ptr],          0x04          \n\t"
+      "daddiu     %[u_ptr],        %[u_ptr],          0x02          \n\t"
+      "daddiu     %[v_ptr],        %[v_ptr],          0x02          \n\t"
+      "daddiu     %[dst_argb1555], %[dst_argb1555],   0x08          \n\t"
+      "daddi      %[width],        %[width],          -0x04         \n\t"
+      "bnez       %[width],        1b                               \n\t"
 
-    : [y]"=&f"(y),                         [u]"=&f"(u),
-      [v]"=&f"(v),
-      [b_vec]"=&f"(b_vec),                 [g_vec]"=&f"(g_vec),
-      [r_vec]"=&f"(r_vec),                 [temp]"=&f"(temp),
-      [ub]"=&f"(ub),                       [ug]"=&f"(ug),
-      [vg]"=&f"(vg),                       [vr]"=&f"(vr),
-      [bb]"=&f"(bb),                       [bg]"=&f"(bg),
-      [br]"=&f"(br),                       [yg]"=&f"(yg)
-    : [y_ptr]"r"(src_y),                   [u_ptr]"r"(src_u),
-      [v_ptr]"r"(src_v),                   [dst_argb1555]"r"(dst_argb1555),
-      [yuvcons_ptr]"r"(yuvconstants),      [width]"r"(width),
-      [zero]"f"(0x00),                     [five]"f"(0x55),
-      [six]"f"(0x6),                       [mask1]"f"(0xff00ff00ff00ff00),
-      [three]"f"(0x3),                     [mask2]"f"(0x1f0000001f),
-      [eight]"f"(0x8),                     [mask3]"f"(0x800000008000),
-      [lmove5]"f"(0x5)
-    : "memory"
-  );
+      : [y] "=&f"(y), [u] "=&f"(u), [v] "=&f"(v), [b_vec] "=&f"(b_vec),
+        [g_vec] "=&f"(g_vec), [r_vec] "=&f"(r_vec), [temp] "=&f"(temp),
+        [ub] "=&f"(ub), [ug] "=&f"(ug), [vg] "=&f"(vg), [vr] "=&f"(vr),
+        [bb] "=&f"(bb), [bg] "=&f"(bg), [br] "=&f"(br), [yg] "=&f"(yg)
+      : [y_ptr] "r"(src_y), [u_ptr] "r"(src_u), [v_ptr] "r"(src_v),
+        [dst_argb1555] "r"(dst_argb1555), [yuvcons_ptr] "r"(yuvconstants),
+        [width] "r"(width), [zero] "f"(0x00), [five] "f"(0x55), [six] "f"(0x6),
+        [mask1] "f"(0xff00ff00ff00ff00), [three] "f"(0x3),
+        [mask2] "f"(0x1f0000001f), [eight] "f"(0x8),
+        [mask3] "f"(0x800000008000), [lmove5] "f"(0x5)
+      : "memory");
 }
 
 void I422ToRGB565Row_MMI(const uint8_t* src_y,
@@ -6807,127 +6767,120 @@ void I422ToRGB565Row_MMI(const uint8_t* src_y,
                          int width) {
   uint64_t y, u, v;
   uint64_t b_vec, g_vec, r_vec, temp;
-  uint64_t ub,ug,vg,vr,bb,bg,br,yg;
+  uint64_t ub, ug, vg, vr, bb, bg, br, yg;
 
   __asm__ volatile(
-    "ldc1       %[yg],           0xc0(%[yuvcons_ptr])             \n\t"
-    "ldc1       %[bb],           0x60(%[yuvcons_ptr])             \n\t"
-    "ldc1       %[ub],           0x00(%[yuvcons_ptr])             \n\t"
-    "or         %[ub],           %[ub],             %[mask1]      \n\t"
-    "ldc1       %[bg],           0x80(%[yuvcons_ptr])             \n\t"
-    "ldc1       %[ug],           0x20(%[yuvcons_ptr])             \n\t"
-    "punpcklbh  %[ug],           %[ug],             %[zero]       \n\t"
-    "pshufh     %[ug],           %[ug],             %[zero]       \n\t"
-    "ldc1       %[vg],           0x20(%[yuvcons_ptr])             \n\t"
-    "punpcklbh  %[vg],           %[vg],             %[zero]       \n\t"
-    "pshufh     %[vg],           %[vg],             %[five]       \n\t"
-    "ldc1       %[br],           0xa0(%[yuvcons_ptr])             \n\t"
-    "ldc1       %[vr],           0x40(%[yuvcons_ptr])             \n\t"
-    "punpcklbh  %[vr],           %[vr],             %[zero]       \n\t"
-    "pshufh     %[vr],           %[vr],             %[five]       \n\t"
-    "or         %[vr],           %[vr],             %[mask1]      \n\t"
+      "ldc1       %[yg],           0xc0(%[yuvcons_ptr])             \n\t"
+      "ldc1       %[bb],           0x60(%[yuvcons_ptr])             \n\t"
+      "ldc1       %[ub],           0x00(%[yuvcons_ptr])             \n\t"
+      "or         %[ub],           %[ub],             %[mask1]      \n\t"
+      "ldc1       %[bg],           0x80(%[yuvcons_ptr])             \n\t"
+      "ldc1       %[ug],           0x20(%[yuvcons_ptr])             \n\t"
+      "punpcklbh  %[ug],           %[ug],             %[zero]       \n\t"
+      "pshufh     %[ug],           %[ug],             %[zero]       \n\t"
+      "ldc1       %[vg],           0x20(%[yuvcons_ptr])             \n\t"
+      "punpcklbh  %[vg],           %[vg],             %[zero]       \n\t"
+      "pshufh     %[vg],           %[vg],             %[five]       \n\t"
+      "ldc1       %[br],           0xa0(%[yuvcons_ptr])             \n\t"
+      "ldc1       %[vr],           0x40(%[yuvcons_ptr])             \n\t"
+      "punpcklbh  %[vr],           %[vr],             %[zero]       \n\t"
+      "pshufh     %[vr],           %[vr],             %[five]       \n\t"
+      "or         %[vr],           %[vr],             %[mask1]      \n\t"
 
-    "1:                                                           \n\t"
-    "gslwlc1    %[y],            0x03(%[y_ptr])                   \n\t"
-    "gslwrc1    %[y],            0x00(%[y_ptr])                   \n\t"
-    "gslwlc1    %[u],            0x03(%[u_ptr])                   \n\t"
-    "gslwrc1    %[u],            0x00(%[u_ptr])                   \n\t"
-    "gslwlc1    %[v],            0x03(%[v_ptr])                   \n\t"
-    "gslwrc1    %[v],            0x00(%[v_ptr])                   \n\t"
+      "1:                                                           \n\t"
+      "gslwlc1    %[y],            0x03(%[y_ptr])                   \n\t"
+      "gslwrc1    %[y],            0x00(%[y_ptr])                   \n\t"
+      "gslwlc1    %[u],            0x03(%[u_ptr])                   \n\t"
+      "gslwrc1    %[u],            0x00(%[u_ptr])                   \n\t"
+      "gslwlc1    %[v],            0x03(%[v_ptr])                   \n\t"
+      "gslwrc1    %[v],            0x00(%[v_ptr])                   \n\t"
 
-    "punpcklbh  %[y],            %[y],              %[y]          \n\t"
-    "pmulhuh    %[y],            %[y],              %[yg]         \n\t"
+      "punpcklbh  %[y],            %[y],              %[y]          \n\t"
+      "pmulhuh    %[y],            %[y],              %[yg]         \n\t"
 
-    //u3|u2|u1|u0 --> u1|u1|u0|u0
-    "punpcklbh  %[u],            %[u],              %[u]          \n\t"
-    "punpcklbh  %[u],            %[u],              %[zero]       \n\t"
-    "paddsh     %[b_vec],        %[y],              %[bb]         \n\t"
-    "pmullh     %[temp],         %[u],              %[ub]         \n\t"
-    "psubsh     %[b_vec],        %[b_vec],          %[temp]       \n\t"
-    "psrah      %[b_vec],        %[b_vec],          %[six]        \n\t"
+      // u3|u2|u1|u0 --> u1|u1|u0|u0
+      "punpcklbh  %[u],            %[u],              %[u]          \n\t"
+      "punpcklbh  %[u],            %[u],              %[zero]       \n\t"
+      "paddsh     %[b_vec],        %[y],              %[bb]         \n\t"
+      "pmullh     %[temp],         %[u],              %[ub]         \n\t"
+      "psubsh     %[b_vec],        %[b_vec],          %[temp]       \n\t"
+      "psrah      %[b_vec],        %[b_vec],          %[six]        \n\t"
 
-    //v3|v2|v1|v0 --> v1|v1|v0|v0
-    "punpcklbh  %[v],            %[v],              %[v]          \n\t"
-    "punpcklbh  %[v],            %[v],              %[zero]       \n\t"
-    "paddsh     %[g_vec],        %[y],              %[bg]         \n\t"
-    "pmullh     %[temp],         %[u],              %[ug]         \n\t"
-    "psubsh     %[g_vec],        %[g_vec],          %[temp]       \n\t"
-    "pmullh     %[temp],         %[v],              %[vg]         \n\t"
-    "psubsh     %[g_vec],        %[g_vec],          %[temp]       \n\t"
-    "psrah      %[g_vec],        %[g_vec],          %[six]        \n\t"
+      // v3|v2|v1|v0 --> v1|v1|v0|v0
+      "punpcklbh  %[v],            %[v],              %[v]          \n\t"
+      "punpcklbh  %[v],            %[v],              %[zero]       \n\t"
+      "paddsh     %[g_vec],        %[y],              %[bg]         \n\t"
+      "pmullh     %[temp],         %[u],              %[ug]         \n\t"
+      "psubsh     %[g_vec],        %[g_vec],          %[temp]       \n\t"
+      "pmullh     %[temp],         %[v],              %[vg]         \n\t"
+      "psubsh     %[g_vec],        %[g_vec],          %[temp]       \n\t"
+      "psrah      %[g_vec],        %[g_vec],          %[six]        \n\t"
 
-    "paddsh     %[r_vec],        %[y],              %[br]         \n\t"
-    "pmullh     %[temp],         %[v],              %[vr]         \n\t"
-    "psubsh     %[r_vec],        %[r_vec],          %[temp]       \n\t"
-    "psrah      %[r_vec],        %[r_vec],          %[six]        \n\t"
+      "paddsh     %[r_vec],        %[y],              %[br]         \n\t"
+      "pmullh     %[temp],         %[v],              %[vr]         \n\t"
+      "psubsh     %[r_vec],        %[r_vec],          %[temp]       \n\t"
+      "psrah      %[r_vec],        %[r_vec],          %[six]        \n\t"
 
-    "packushb   %[r_vec],        %[b_vec],          %[r_vec]      \n\t"
-    "packushb   %[g_vec],        %[g_vec],          %[zero]       \n\t"
-    "punpcklbh  %[b_vec],        %[r_vec],          %[g_vec]      \n\t"
-    "punpckhbh  %[r_vec],        %[r_vec],          %[g_vec]      \n\t"
-    "punpcklhw  %[g_vec],        %[b_vec],          %[r_vec]      \n\t"
-    "punpckhhw  %[b_vec],        %[b_vec],          %[r_vec]      \n\t"
+      "packushb   %[r_vec],        %[b_vec],          %[r_vec]      \n\t"
+      "packushb   %[g_vec],        %[g_vec],          %[zero]       \n\t"
+      "punpcklbh  %[b_vec],        %[r_vec],          %[g_vec]      \n\t"
+      "punpckhbh  %[r_vec],        %[r_vec],          %[g_vec]      \n\t"
+      "punpcklhw  %[g_vec],        %[b_vec],          %[r_vec]      \n\t"
+      "punpckhhw  %[b_vec],        %[b_vec],          %[r_vec]      \n\t"
 
-    "psrlh      %[temp],         %[g_vec],          %[three]      \n\t"
-    "and        %[g_vec],        %[temp],           %[mask2]      \n\t"
-    "psrlw      %[temp],         %[temp],           %[seven]      \n\t"
-    "psrlw      %[r_vec],        %[mask1],          %[eight]      \n\t"
-    "and        %[r_vec],        %[temp],           %[r_vec]      \n\t"
-    "psllw      %[r_vec],        %[r_vec],          %[lmove5]     \n\t"
-    "or         %[g_vec],        %[g_vec],          %[r_vec]      \n\t"
-    "paddb      %[r_vec],        %[three],          %[six]        \n\t"
-    "psrlw      %[temp],         %[temp],           %[r_vec]      \n\t"
-    "and        %[r_vec],        %[temp],           %[mask2]      \n\t"
-    "paddb      %[temp],         %[three],          %[eight]      \n\t"
-    "psllw      %[r_vec],        %[r_vec],          %[temp]       \n\t"
-    "or         %[g_vec],        %[g_vec],          %[r_vec]      \n\t"
+      "psrlh      %[temp],         %[g_vec],          %[three]      \n\t"
+      "and        %[g_vec],        %[temp],           %[mask2]      \n\t"
+      "psrlw      %[temp],         %[temp],           %[seven]      \n\t"
+      "psrlw      %[r_vec],        %[mask1],          %[eight]      \n\t"
+      "and        %[r_vec],        %[temp],           %[r_vec]      \n\t"
+      "psllw      %[r_vec],        %[r_vec],          %[lmove5]     \n\t"
+      "or         %[g_vec],        %[g_vec],          %[r_vec]      \n\t"
+      "paddb      %[r_vec],        %[three],          %[six]        \n\t"
+      "psrlw      %[temp],         %[temp],           %[r_vec]      \n\t"
+      "and        %[r_vec],        %[temp],           %[mask2]      \n\t"
+      "paddb      %[temp],         %[three],          %[eight]      \n\t"
+      "psllw      %[r_vec],        %[r_vec],          %[temp]       \n\t"
+      "or         %[g_vec],        %[g_vec],          %[r_vec]      \n\t"
 
-    "psrlh      %[temp],         %[b_vec],          %[three]      \n\t"
-    "and        %[b_vec],        %[temp],           %[mask2]      \n\t"
-    "psrlw      %[temp],         %[temp],           %[seven]      \n\t"
-    "psrlw      %[r_vec],        %[mask1],          %[eight]      \n\t"
-    "and        %[r_vec],        %[temp],           %[r_vec]      \n\t"
-    "psllw      %[r_vec],        %[r_vec],          %[lmove5]     \n\t"
-    "or         %[b_vec],        %[b_vec],          %[r_vec]      \n\t"
-    "paddb      %[r_vec],        %[three],          %[six]        \n\t"
-    "psrlw      %[temp],         %[temp],           %[r_vec]      \n\t"
-    "and        %[r_vec],        %[temp],           %[mask2]      \n\t"
-    "paddb      %[temp],         %[three],          %[eight]      \n\t"
-    "psllw      %[r_vec],        %[r_vec],          %[temp]       \n\t"
-    "or         %[b_vec],        %[b_vec],          %[r_vec]      \n\t"
+      "psrlh      %[temp],         %[b_vec],          %[three]      \n\t"
+      "and        %[b_vec],        %[temp],           %[mask2]      \n\t"
+      "psrlw      %[temp],         %[temp],           %[seven]      \n\t"
+      "psrlw      %[r_vec],        %[mask1],          %[eight]      \n\t"
+      "and        %[r_vec],        %[temp],           %[r_vec]      \n\t"
+      "psllw      %[r_vec],        %[r_vec],          %[lmove5]     \n\t"
+      "or         %[b_vec],        %[b_vec],          %[r_vec]      \n\t"
+      "paddb      %[r_vec],        %[three],          %[six]        \n\t"
+      "psrlw      %[temp],         %[temp],           %[r_vec]      \n\t"
+      "and        %[r_vec],        %[temp],           %[mask2]      \n\t"
+      "paddb      %[temp],         %[three],          %[eight]      \n\t"
+      "psllw      %[r_vec],        %[r_vec],          %[temp]       \n\t"
+      "or         %[b_vec],        %[b_vec],          %[r_vec]      \n\t"
 
-    "punpcklhw  %[r_vec],        %[g_vec],          %[b_vec]      \n\t"
-    "punpckhhw  %[b_vec],        %[g_vec],          %[b_vec]      \n\t"
-    "punpcklhw  %[g_vec],        %[r_vec],          %[b_vec]      \n\t"
+      "punpcklhw  %[r_vec],        %[g_vec],          %[b_vec]      \n\t"
+      "punpckhhw  %[b_vec],        %[g_vec],          %[b_vec]      \n\t"
+      "punpcklhw  %[g_vec],        %[r_vec],          %[b_vec]      \n\t"
 
-    "gssdlc1    %[g_vec],        0x07(%[dst_rgb565])             \n\t"
-    "gssdrc1    %[g_vec],        0x00(%[dst_rgb565])             \n\t"
+      "gssdlc1    %[g_vec],        0x07(%[dst_rgb565])             \n\t"
+      "gssdrc1    %[g_vec],        0x00(%[dst_rgb565])             \n\t"
 
-    "daddiu     %[y_ptr],        %[y_ptr],          0x04          \n\t"
-    "daddiu     %[u_ptr],        %[u_ptr],          0x02          \n\t"
-    "daddiu     %[v_ptr],        %[v_ptr],          0x02          \n\t"
-    "daddiu     %[dst_rgb565],   %[dst_rgb565],     0x08          \n\t"
-    "daddi      %[width],        %[width],          -0x04         \n\t"
-    "bnez       %[width],        1b                               \n\t"
+      "daddiu     %[y_ptr],        %[y_ptr],          0x04          \n\t"
+      "daddiu     %[u_ptr],        %[u_ptr],          0x02          \n\t"
+      "daddiu     %[v_ptr],        %[v_ptr],          0x02          \n\t"
+      "daddiu     %[dst_rgb565],   %[dst_rgb565],     0x08          \n\t"
+      "daddi      %[width],        %[width],          -0x04         \n\t"
+      "bnez       %[width],        1b                               \n\t"
 
-    : [y]"=&f"(y),                         [u]"=&f"(u),
-      [v]"=&f"(v),
-      [b_vec]"=&f"(b_vec),                 [g_vec]"=&f"(g_vec),
-      [r_vec]"=&f"(r_vec),                 [temp]"=&f"(temp),
-      [ub]"=&f"(ub),                       [ug]"=&f"(ug),
-      [vg]"=&f"(vg),                       [vr]"=&f"(vr),
-      [bb]"=&f"(bb),                       [bg]"=&f"(bg),
-      [br]"=&f"(br),                       [yg]"=&f"(yg)
-    : [y_ptr]"r"(src_y),                   [u_ptr]"r"(src_u),
-      [v_ptr]"r"(src_v),                   [dst_rgb565]"r"(dst_rgb565),
-      [yuvcons_ptr]"r"(yuvconstants),      [width]"r"(width),
-      [zero]"f"(0x00),                     [five]"f"(0x55),
-      [six]"f"(0x6),                       [mask1]"f"(0xff00ff00ff00ff00),
-      [three]"f"(0x3),                     [mask2]"f"(0x1f0000001f),
-      [eight]"f"(0x8),                     [seven]"f"(0x7),
-      [lmove5]"f"(0x5)
-    : "memory"
-  );
+      : [y] "=&f"(y), [u] "=&f"(u), [v] "=&f"(v), [b_vec] "=&f"(b_vec),
+        [g_vec] "=&f"(g_vec), [r_vec] "=&f"(r_vec), [temp] "=&f"(temp),
+        [ub] "=&f"(ub), [ug] "=&f"(ug), [vg] "=&f"(vg), [vr] "=&f"(vr),
+        [bb] "=&f"(bb), [bg] "=&f"(bg), [br] "=&f"(br), [yg] "=&f"(yg)
+      : [y_ptr] "r"(src_y), [u_ptr] "r"(src_u), [v_ptr] "r"(src_v),
+        [dst_rgb565] "r"(dst_rgb565), [yuvcons_ptr] "r"(yuvconstants),
+        [width] "r"(width), [zero] "f"(0x00), [five] "f"(0x55), [six] "f"(0x6),
+        [mask1] "f"(0xff00ff00ff00ff00), [three] "f"(0x3),
+        [mask2] "f"(0x1f0000001f), [eight] "f"(0x8), [seven] "f"(0x7),
+        [lmove5] "f"(0x5)
+      : "memory");
 }
 
 void NV12ToARGBRow_MMI(const uint8_t* src_y,
@@ -6937,91 +6890,83 @@ void NV12ToARGBRow_MMI(const uint8_t* src_y,
                        int width) {
   uint64_t y, u, v;
   uint64_t b_vec, g_vec, r_vec, temp;
-  uint64_t ub,ug,vg,vr,bb,bg,br,yg;
+  uint64_t ub, ug, vg, vr, bb, bg, br, yg;
 
   __asm__ volatile(
-    "ldc1       %[yg],           0xc0(%[yuvcons_ptr])             \n\t"
-    "ldc1       %[bb],           0x60(%[yuvcons_ptr])             \n\t"
-    "ldc1       %[ub],           0x00(%[yuvcons_ptr])             \n\t"
-    "or         %[ub],           %[ub],             %[mask1]      \n\t"
-    "ldc1       %[bg],           0x80(%[yuvcons_ptr])             \n\t"
-    "ldc1       %[ug],           0x20(%[yuvcons_ptr])             \n\t"
-    "punpcklbh  %[ug],           %[ug],             %[zero]       \n\t"
-    "pshufh     %[ug],           %[ug],             %[zero]       \n\t"
-    "ldc1       %[vg],           0x20(%[yuvcons_ptr])             \n\t"
-    "punpcklbh  %[vg],           %[vg],             %[zero]       \n\t"
-    "pshufh     %[vg],           %[vg],             %[five]       \n\t"
-    "ldc1       %[br],           0xa0(%[yuvcons_ptr])             \n\t"
-    "ldc1       %[vr],           0x40(%[yuvcons_ptr])             \n\t"
-    "punpcklbh  %[vr],           %[vr],             %[zero]       \n\t"
-    "pshufh     %[vr],           %[vr],             %[five]       \n\t"
-    "or         %[vr],           %[vr],             %[mask1]      \n\t"
+      "ldc1       %[yg],           0xc0(%[yuvcons_ptr])             \n\t"
+      "ldc1       %[bb],           0x60(%[yuvcons_ptr])             \n\t"
+      "ldc1       %[ub],           0x00(%[yuvcons_ptr])             \n\t"
+      "or         %[ub],           %[ub],             %[mask1]      \n\t"
+      "ldc1       %[bg],           0x80(%[yuvcons_ptr])             \n\t"
+      "ldc1       %[ug],           0x20(%[yuvcons_ptr])             \n\t"
+      "punpcklbh  %[ug],           %[ug],             %[zero]       \n\t"
+      "pshufh     %[ug],           %[ug],             %[zero]       \n\t"
+      "ldc1       %[vg],           0x20(%[yuvcons_ptr])             \n\t"
+      "punpcklbh  %[vg],           %[vg],             %[zero]       \n\t"
+      "pshufh     %[vg],           %[vg],             %[five]       \n\t"
+      "ldc1       %[br],           0xa0(%[yuvcons_ptr])             \n\t"
+      "ldc1       %[vr],           0x40(%[yuvcons_ptr])             \n\t"
+      "punpcklbh  %[vr],           %[vr],             %[zero]       \n\t"
+      "pshufh     %[vr],           %[vr],             %[five]       \n\t"
+      "or         %[vr],           %[vr],             %[mask1]      \n\t"
 
-    "1:                                                           \n\t"
-    "gslwlc1    %[y],            0x03(%[y_ptr])                   \n\t"
-    "gslwrc1    %[y],            0x00(%[y_ptr])                   \n\t"
-    "gslwlc1    %[u],            0x03(%[uv_ptr])                  \n\t"
-    "gslwrc1    %[u],            0x00(%[uv_ptr])                  \n\t"
-    "punpcklbh  %[u],            %[u],              %[zero]       \n\t"
-    "pshufh     %[v],            %[u],              %[vshu]       \n\t"
-    "pshufh     %[u],            %[u],              %[ushu]       \n\t"
+      "1:                                                           \n\t"
+      "gslwlc1    %[y],            0x03(%[y_ptr])                   \n\t"
+      "gslwrc1    %[y],            0x00(%[y_ptr])                   \n\t"
+      "gslwlc1    %[u],            0x03(%[uv_ptr])                  \n\t"
+      "gslwrc1    %[u],            0x00(%[uv_ptr])                  \n\t"
+      "punpcklbh  %[u],            %[u],              %[zero]       \n\t"
+      "pshufh     %[v],            %[u],              %[vshu]       \n\t"
+      "pshufh     %[u],            %[u],              %[ushu]       \n\t"
 
-    "punpcklbh  %[y],            %[y],              %[y]          \n\t"
-    "pmulhuh    %[y],            %[y],              %[yg]         \n\t"
+      "punpcklbh  %[y],            %[y],              %[y]          \n\t"
+      "pmulhuh    %[y],            %[y],              %[yg]         \n\t"
 
-    "paddsh     %[b_vec],        %[y],              %[bb]         \n\t"
-    "pmullh     %[temp],         %[u],              %[ub]         \n\t"
-    "psubsh     %[b_vec],        %[b_vec],          %[temp]       \n\t"
-    "psrah      %[b_vec],        %[b_vec],          %[six]        \n\t"
+      "paddsh     %[b_vec],        %[y],              %[bb]         \n\t"
+      "pmullh     %[temp],         %[u],              %[ub]         \n\t"
+      "psubsh     %[b_vec],        %[b_vec],          %[temp]       \n\t"
+      "psrah      %[b_vec],        %[b_vec],          %[six]        \n\t"
 
-    "paddsh     %[g_vec],        %[y],              %[bg]         \n\t"
-    "pmullh     %[temp],         %[u],              %[ug]         \n\t"
-    "psubsh     %[g_vec],        %[g_vec],          %[temp]       \n\t"
-    "pmullh     %[temp],         %[v],              %[vg]         \n\t"
-    "psubsh     %[g_vec],        %[g_vec],          %[temp]       \n\t"
-    "psrah      %[g_vec],        %[g_vec],          %[six]        \n\t"
+      "paddsh     %[g_vec],        %[y],              %[bg]         \n\t"
+      "pmullh     %[temp],         %[u],              %[ug]         \n\t"
+      "psubsh     %[g_vec],        %[g_vec],          %[temp]       \n\t"
+      "pmullh     %[temp],         %[v],              %[vg]         \n\t"
+      "psubsh     %[g_vec],        %[g_vec],          %[temp]       \n\t"
+      "psrah      %[g_vec],        %[g_vec],          %[six]        \n\t"
 
-    "paddsh     %[r_vec],        %[y],              %[br]         \n\t"
-    "pmullh     %[temp],         %[v],              %[vr]         \n\t"
-    "psubsh     %[r_vec],        %[r_vec],          %[temp]       \n\t"
-    "psrah      %[r_vec],        %[r_vec],          %[six]        \n\t"
+      "paddsh     %[r_vec],        %[y],              %[br]         \n\t"
+      "pmullh     %[temp],         %[v],              %[vr]         \n\t"
+      "psubsh     %[r_vec],        %[r_vec],          %[temp]       \n\t"
+      "psrah      %[r_vec],        %[r_vec],          %[six]        \n\t"
 
-    "packushb   %[r_vec],        %[b_vec],          %[r_vec]      \n\t"
-    "packushb   %[g_vec],        %[g_vec],          %[zero]       \n\t"
-    "punpcklwd  %[g_vec],        %[g_vec],          %[alpha]      \n\t"
-    "punpcklbh  %[b_vec],        %[r_vec],          %[g_vec]      \n\t"
-    "punpckhbh  %[r_vec],        %[r_vec],          %[g_vec]      \n\t"
-    "punpcklhw  %[g_vec],        %[b_vec],          %[r_vec]      \n\t"
-    "punpckhhw  %[b_vec],        %[b_vec],          %[r_vec]      \n\t"
+      "packushb   %[r_vec],        %[b_vec],          %[r_vec]      \n\t"
+      "packushb   %[g_vec],        %[g_vec],          %[zero]       \n\t"
+      "punpcklwd  %[g_vec],        %[g_vec],          %[alpha]      \n\t"
+      "punpcklbh  %[b_vec],        %[r_vec],          %[g_vec]      \n\t"
+      "punpckhbh  %[r_vec],        %[r_vec],          %[g_vec]      \n\t"
+      "punpcklhw  %[g_vec],        %[b_vec],          %[r_vec]      \n\t"
+      "punpckhhw  %[b_vec],        %[b_vec],          %[r_vec]      \n\t"
 
-    "gssdlc1    %[g_vec],       0x07(%[rgbbuf_ptr])               \n\t"
-    "gssdrc1    %[g_vec],       0x00(%[rgbbuf_ptr])               \n\t"
-    "gssdlc1    %[b_vec],       0x0f(%[rgbbuf_ptr])               \n\t"
-    "gssdrc1    %[b_vec],       0x08(%[rgbbuf_ptr])               \n\t"
+      "gssdlc1    %[g_vec],       0x07(%[rgbbuf_ptr])               \n\t"
+      "gssdrc1    %[g_vec],       0x00(%[rgbbuf_ptr])               \n\t"
+      "gssdlc1    %[b_vec],       0x0f(%[rgbbuf_ptr])               \n\t"
+      "gssdrc1    %[b_vec],       0x08(%[rgbbuf_ptr])               \n\t"
 
-    "daddiu     %[y_ptr],        %[y_ptr],          0x04          \n\t"
-    "daddiu     %[uv_ptr],       %[uv_ptr],         0x04          \n\t"
-    "daddiu     %[rgbbuf_ptr],   %[rgbbuf_ptr],     0x10          \n\t"
-    "daddi      %[width],        %[width],          -0x04         \n\t"
-    "bnez       %[width],        1b                               \n\t"
+      "daddiu     %[y_ptr],        %[y_ptr],          0x04          \n\t"
+      "daddiu     %[uv_ptr],       %[uv_ptr],         0x04          \n\t"
+      "daddiu     %[rgbbuf_ptr],   %[rgbbuf_ptr],     0x10          \n\t"
+      "daddi      %[width],        %[width],          -0x04         \n\t"
+      "bnez       %[width],        1b                               \n\t"
 
-    : [y]"=&f"(y),                         [u]"=&f"(u),
-      [v]"=&f"(v),
-      [b_vec]"=&f"(b_vec),                 [g_vec]"=&f"(g_vec),
-      [r_vec]"=&f"(r_vec),                 [temp]"=&f"(temp),
-      [ub]"=&f"(ub),                       [ug]"=&f"(ug),
-      [vg]"=&f"(vg),                       [vr]"=&f"(vr),
-      [bb]"=&f"(bb),                       [bg]"=&f"(bg),
-      [br]"=&f"(br),                       [yg]"=&f"(yg)
-    : [y_ptr]"r"(src_y),                   [uv_ptr]"r"(src_uv),
-      [rgbbuf_ptr]"r"(rgb_buf),
-      [yuvcons_ptr]"r"(yuvconstants),      [width]"r"(width),
-      [zero]"f"(0x00),                     [five]"f"(0x55),
-      [six]"f"(0x6),                       [mask1]"f"(0xff00ff00ff00ff00),
-      [ushu]"f"(0xA0),                     [vshu]"f"(0xf5),
-      [alpha]"f"(-1)
-    : "memory"
-  );
+      : [y] "=&f"(y), [u] "=&f"(u), [v] "=&f"(v), [b_vec] "=&f"(b_vec),
+        [g_vec] "=&f"(g_vec), [r_vec] "=&f"(r_vec), [temp] "=&f"(temp),
+        [ub] "=&f"(ub), [ug] "=&f"(ug), [vg] "=&f"(vg), [vr] "=&f"(vr),
+        [bb] "=&f"(bb), [bg] "=&f"(bg), [br] "=&f"(br), [yg] "=&f"(yg)
+      : [y_ptr] "r"(src_y), [uv_ptr] "r"(src_uv), [rgbbuf_ptr] "r"(rgb_buf),
+        [yuvcons_ptr] "r"(yuvconstants), [width] "r"(width), [zero] "f"(0x00),
+        [five] "f"(0x55), [six] "f"(0x6), [mask1] "f"(0xff00ff00ff00ff00),
+        [ushu] "f"(0xA0), [vshu] "f"(0xf5), [alpha] "f"(-1)
+      : "memory");
 }
 
 void NV21ToARGBRow_MMI(const uint8_t* src_y,
@@ -7031,91 +6976,83 @@ void NV21ToARGBRow_MMI(const uint8_t* src_y,
                        int width) {
   uint64_t y, u, v;
   uint64_t b_vec, g_vec, r_vec, temp;
-  uint64_t ub,ug,vg,vr,bb,bg,br,yg;
+  uint64_t ub, ug, vg, vr, bb, bg, br, yg;
 
   __asm__ volatile(
-    "ldc1       %[yg],           0xc0(%[yuvcons_ptr])             \n\t"
-    "ldc1       %[bb],           0x60(%[yuvcons_ptr])             \n\t"
-    "ldc1       %[ub],           0x00(%[yuvcons_ptr])             \n\t"
-    "or         %[ub],           %[ub],             %[mask1]      \n\t"
-    "ldc1       %[bg],           0x80(%[yuvcons_ptr])             \n\t"
-    "ldc1       %[ug],           0x20(%[yuvcons_ptr])             \n\t"
-    "punpcklbh  %[ug],           %[ug],             %[zero]       \n\t"
-    "pshufh     %[ug],           %[ug],             %[zero]       \n\t"
-    "ldc1       %[vg],           0x20(%[yuvcons_ptr])             \n\t"
-    "punpcklbh  %[vg],           %[vg],             %[zero]       \n\t"
-    "pshufh     %[vg],           %[vg],             %[five]       \n\t"
-    "ldc1       %[br],           0xa0(%[yuvcons_ptr])             \n\t"
-    "ldc1       %[vr],           0x40(%[yuvcons_ptr])             \n\t"
-    "punpcklbh  %[vr],           %[vr],             %[zero]       \n\t"
-    "pshufh     %[vr],           %[vr],             %[five]       \n\t"
-    "or         %[vr],           %[vr],             %[mask1]      \n\t"
+      "ldc1       %[yg],           0xc0(%[yuvcons_ptr])             \n\t"
+      "ldc1       %[bb],           0x60(%[yuvcons_ptr])             \n\t"
+      "ldc1       %[ub],           0x00(%[yuvcons_ptr])             \n\t"
+      "or         %[ub],           %[ub],             %[mask1]      \n\t"
+      "ldc1       %[bg],           0x80(%[yuvcons_ptr])             \n\t"
+      "ldc1       %[ug],           0x20(%[yuvcons_ptr])             \n\t"
+      "punpcklbh  %[ug],           %[ug],             %[zero]       \n\t"
+      "pshufh     %[ug],           %[ug],             %[zero]       \n\t"
+      "ldc1       %[vg],           0x20(%[yuvcons_ptr])             \n\t"
+      "punpcklbh  %[vg],           %[vg],             %[zero]       \n\t"
+      "pshufh     %[vg],           %[vg],             %[five]       \n\t"
+      "ldc1       %[br],           0xa0(%[yuvcons_ptr])             \n\t"
+      "ldc1       %[vr],           0x40(%[yuvcons_ptr])             \n\t"
+      "punpcklbh  %[vr],           %[vr],             %[zero]       \n\t"
+      "pshufh     %[vr],           %[vr],             %[five]       \n\t"
+      "or         %[vr],           %[vr],             %[mask1]      \n\t"
 
-    "1:                                                           \n\t"
-    "gslwlc1    %[y],            0x03(%[y_ptr])                   \n\t"
-    "gslwrc1    %[y],            0x00(%[y_ptr])                   \n\t"
-    "gslwlc1    %[u],            0x03(%[vu_ptr])                  \n\t"
-    "gslwrc1    %[u],            0x00(%[vu_ptr])                  \n\t"
-    "punpcklbh  %[u],            %[u],              %[zero]       \n\t"
-    "pshufh     %[v],            %[u],              %[ushu]       \n\t"
-    "pshufh     %[u],            %[u],              %[vshu]       \n\t"
+      "1:                                                           \n\t"
+      "gslwlc1    %[y],            0x03(%[y_ptr])                   \n\t"
+      "gslwrc1    %[y],            0x00(%[y_ptr])                   \n\t"
+      "gslwlc1    %[u],            0x03(%[vu_ptr])                  \n\t"
+      "gslwrc1    %[u],            0x00(%[vu_ptr])                  \n\t"
+      "punpcklbh  %[u],            %[u],              %[zero]       \n\t"
+      "pshufh     %[v],            %[u],              %[ushu]       \n\t"
+      "pshufh     %[u],            %[u],              %[vshu]       \n\t"
 
-    "punpcklbh  %[y],            %[y],              %[y]          \n\t"
-    "pmulhuh    %[y],            %[y],              %[yg]         \n\t"
+      "punpcklbh  %[y],            %[y],              %[y]          \n\t"
+      "pmulhuh    %[y],            %[y],              %[yg]         \n\t"
 
-    "paddsh     %[b_vec],        %[y],              %[bb]         \n\t"
-    "pmullh     %[temp],         %[u],              %[ub]         \n\t"
-    "psubsh     %[b_vec],        %[b_vec],          %[temp]       \n\t"
-    "psrah      %[b_vec],        %[b_vec],          %[six]        \n\t"
+      "paddsh     %[b_vec],        %[y],              %[bb]         \n\t"
+      "pmullh     %[temp],         %[u],              %[ub]         \n\t"
+      "psubsh     %[b_vec],        %[b_vec],          %[temp]       \n\t"
+      "psrah      %[b_vec],        %[b_vec],          %[six]        \n\t"
 
-    "paddsh     %[g_vec],        %[y],              %[bg]         \n\t"
-    "pmullh     %[temp],         %[u],              %[ug]         \n\t"
-    "psubsh     %[g_vec],        %[g_vec],          %[temp]       \n\t"
-    "pmullh     %[temp],         %[v],              %[vg]         \n\t"
-    "psubsh     %[g_vec],        %[g_vec],          %[temp]       \n\t"
-    "psrah      %[g_vec],        %[g_vec],          %[six]        \n\t"
+      "paddsh     %[g_vec],        %[y],              %[bg]         \n\t"
+      "pmullh     %[temp],         %[u],              %[ug]         \n\t"
+      "psubsh     %[g_vec],        %[g_vec],          %[temp]       \n\t"
+      "pmullh     %[temp],         %[v],              %[vg]         \n\t"
+      "psubsh     %[g_vec],        %[g_vec],          %[temp]       \n\t"
+      "psrah      %[g_vec],        %[g_vec],          %[six]        \n\t"
 
-    "paddsh     %[r_vec],        %[y],              %[br]         \n\t"
-    "pmullh     %[temp],         %[v],              %[vr]         \n\t"
-    "psubsh     %[r_vec],        %[r_vec],          %[temp]       \n\t"
-    "psrah      %[r_vec],        %[r_vec],          %[six]        \n\t"
+      "paddsh     %[r_vec],        %[y],              %[br]         \n\t"
+      "pmullh     %[temp],         %[v],              %[vr]         \n\t"
+      "psubsh     %[r_vec],        %[r_vec],          %[temp]       \n\t"
+      "psrah      %[r_vec],        %[r_vec],          %[six]        \n\t"
 
-    "packushb   %[r_vec],        %[b_vec],          %[r_vec]      \n\t"
-    "packushb   %[g_vec],        %[g_vec],          %[zero]       \n\t"
-    "punpcklwd  %[g_vec],        %[g_vec],          %[alpha]      \n\t"
-    "punpcklbh  %[b_vec],        %[r_vec],          %[g_vec]      \n\t"
-    "punpckhbh  %[r_vec],        %[r_vec],          %[g_vec]      \n\t"
-    "punpcklhw  %[g_vec],        %[b_vec],          %[r_vec]      \n\t"
-    "punpckhhw  %[b_vec],        %[b_vec],          %[r_vec]      \n\t"
+      "packushb   %[r_vec],        %[b_vec],          %[r_vec]      \n\t"
+      "packushb   %[g_vec],        %[g_vec],          %[zero]       \n\t"
+      "punpcklwd  %[g_vec],        %[g_vec],          %[alpha]      \n\t"
+      "punpcklbh  %[b_vec],        %[r_vec],          %[g_vec]      \n\t"
+      "punpckhbh  %[r_vec],        %[r_vec],          %[g_vec]      \n\t"
+      "punpcklhw  %[g_vec],        %[b_vec],          %[r_vec]      \n\t"
+      "punpckhhw  %[b_vec],        %[b_vec],          %[r_vec]      \n\t"
 
-    "gssdlc1    %[g_vec],       0x07(%[rgbbuf_ptr])               \n\t"
-    "gssdrc1    %[g_vec],       0x00(%[rgbbuf_ptr])               \n\t"
-    "gssdlc1    %[b_vec],       0x0f(%[rgbbuf_ptr])               \n\t"
-    "gssdrc1    %[b_vec],       0x08(%[rgbbuf_ptr])               \n\t"
+      "gssdlc1    %[g_vec],       0x07(%[rgbbuf_ptr])               \n\t"
+      "gssdrc1    %[g_vec],       0x00(%[rgbbuf_ptr])               \n\t"
+      "gssdlc1    %[b_vec],       0x0f(%[rgbbuf_ptr])               \n\t"
+      "gssdrc1    %[b_vec],       0x08(%[rgbbuf_ptr])               \n\t"
 
-    "daddiu     %[y_ptr],        %[y_ptr],          0x04          \n\t"
-    "daddiu     %[vu_ptr],       %[vu_ptr],         0x04          \n\t"
-    "daddiu     %[rgbbuf_ptr],   %[rgbbuf_ptr],     0x10          \n\t"
-    "daddi      %[width],        %[width],          -0x04         \n\t"
-    "bnez       %[width],        1b                               \n\t"
+      "daddiu     %[y_ptr],        %[y_ptr],          0x04          \n\t"
+      "daddiu     %[vu_ptr],       %[vu_ptr],         0x04          \n\t"
+      "daddiu     %[rgbbuf_ptr],   %[rgbbuf_ptr],     0x10          \n\t"
+      "daddi      %[width],        %[width],          -0x04         \n\t"
+      "bnez       %[width],        1b                               \n\t"
 
-    : [y]"=&f"(y),                         [u]"=&f"(u),
-      [v]"=&f"(v),
-      [b_vec]"=&f"(b_vec),                 [g_vec]"=&f"(g_vec),
-      [r_vec]"=&f"(r_vec),                 [temp]"=&f"(temp),
-      [ub]"=&f"(ub),                       [ug]"=&f"(ug),
-      [vg]"=&f"(vg),                       [vr]"=&f"(vr),
-      [bb]"=&f"(bb),                       [bg]"=&f"(bg),
-      [br]"=&f"(br),                       [yg]"=&f"(yg)
-    : [y_ptr]"r"(src_y),                   [vu_ptr]"r"(src_vu),
-      [rgbbuf_ptr]"r"(rgb_buf),
-      [yuvcons_ptr]"r"(yuvconstants),      [width]"r"(width),
-      [zero]"f"(0x00),                     [five]"f"(0x55),
-      [six]"f"(0x6),                       [mask1]"f"(0xff00ff00ff00ff00),
-      [ushu]"f"(0xA0),                     [vshu]"f"(0xf5),
-      [alpha]"f"(-1)
-    : "memory"
-  );
+      : [y] "=&f"(y), [u] "=&f"(u), [v] "=&f"(v), [b_vec] "=&f"(b_vec),
+        [g_vec] "=&f"(g_vec), [r_vec] "=&f"(r_vec), [temp] "=&f"(temp),
+        [ub] "=&f"(ub), [ug] "=&f"(ug), [vg] "=&f"(vg), [vr] "=&f"(vr),
+        [bb] "=&f"(bb), [bg] "=&f"(bg), [br] "=&f"(br), [yg] "=&f"(yg)
+      : [y_ptr] "r"(src_y), [vu_ptr] "r"(src_vu), [rgbbuf_ptr] "r"(rgb_buf),
+        [yuvcons_ptr] "r"(yuvconstants), [width] "r"(width), [zero] "f"(0x00),
+        [five] "f"(0x55), [six] "f"(0x6), [mask1] "f"(0xff00ff00ff00ff00),
+        [ushu] "f"(0xA0), [vshu] "f"(0xf5), [alpha] "f"(-1)
+      : "memory");
 }
 
 void NV12ToRGB24Row_MMI(const uint8_t* src_y,
@@ -7125,103 +7062,95 @@ void NV12ToRGB24Row_MMI(const uint8_t* src_y,
                         int width) {
   uint64_t y, u, v;
   uint64_t b_vec, g_vec, r_vec, temp;
-  uint64_t ub,ug,vg,vr,bb,bg,br,yg;
+  uint64_t ub, ug, vg, vr, bb, bg, br, yg;
 
   __asm__ volatile(
-    "ldc1       %[yg],           0xc0(%[yuvcons_ptr])             \n\t"
-    "ldc1       %[bb],           0x60(%[yuvcons_ptr])             \n\t"
-    "ldc1       %[ub],           0x00(%[yuvcons_ptr])             \n\t"
-    "or         %[ub],           %[ub],             %[mask1]      \n\t"
-    "ldc1       %[bg],           0x80(%[yuvcons_ptr])             \n\t"
-    "ldc1       %[ug],           0x20(%[yuvcons_ptr])             \n\t"
-    "punpcklbh  %[ug],           %[ug],             %[zero]       \n\t"
-    "pshufh     %[ug],           %[ug],             %[zero]       \n\t"
-    "ldc1       %[vg],           0x20(%[yuvcons_ptr])             \n\t"
-    "punpcklbh  %[vg],           %[vg],             %[zero]       \n\t"
-    "pshufh     %[vg],           %[vg],             %[five]       \n\t"
-    "ldc1       %[br],           0xa0(%[yuvcons_ptr])             \n\t"
-    "ldc1       %[vr],           0x40(%[yuvcons_ptr])             \n\t"
-    "punpcklbh  %[vr],           %[vr],             %[zero]       \n\t"
-    "pshufh     %[vr],           %[vr],             %[five]       \n\t"
-    "or         %[vr],           %[vr],             %[mask1]      \n\t"
+      "ldc1       %[yg],           0xc0(%[yuvcons_ptr])             \n\t"
+      "ldc1       %[bb],           0x60(%[yuvcons_ptr])             \n\t"
+      "ldc1       %[ub],           0x00(%[yuvcons_ptr])             \n\t"
+      "or         %[ub],           %[ub],             %[mask1]      \n\t"
+      "ldc1       %[bg],           0x80(%[yuvcons_ptr])             \n\t"
+      "ldc1       %[ug],           0x20(%[yuvcons_ptr])             \n\t"
+      "punpcklbh  %[ug],           %[ug],             %[zero]       \n\t"
+      "pshufh     %[ug],           %[ug],             %[zero]       \n\t"
+      "ldc1       %[vg],           0x20(%[yuvcons_ptr])             \n\t"
+      "punpcklbh  %[vg],           %[vg],             %[zero]       \n\t"
+      "pshufh     %[vg],           %[vg],             %[five]       \n\t"
+      "ldc1       %[br],           0xa0(%[yuvcons_ptr])             \n\t"
+      "ldc1       %[vr],           0x40(%[yuvcons_ptr])             \n\t"
+      "punpcklbh  %[vr],           %[vr],             %[zero]       \n\t"
+      "pshufh     %[vr],           %[vr],             %[five]       \n\t"
+      "or         %[vr],           %[vr],             %[mask1]      \n\t"
 
-    "1:                                                           \n\t"
-    "gslwlc1    %[y],            0x03(%[y_ptr])                   \n\t"
-    "gslwrc1    %[y],            0x00(%[y_ptr])                   \n\t"
-    "gslwlc1    %[u],            0x03(%[uv_ptr])                  \n\t"
-    "gslwrc1    %[u],            0x00(%[uv_ptr])                  \n\t"
-    "punpcklbh  %[u],            %[u],              %[zero]       \n\t"
-    "pshufh     %[v],            %[u],              %[vshu]       \n\t"
-    "pshufh     %[u],            %[u],              %[ushu]       \n\t"
+      "1:                                                           \n\t"
+      "gslwlc1    %[y],            0x03(%[y_ptr])                   \n\t"
+      "gslwrc1    %[y],            0x00(%[y_ptr])                   \n\t"
+      "gslwlc1    %[u],            0x03(%[uv_ptr])                  \n\t"
+      "gslwrc1    %[u],            0x00(%[uv_ptr])                  \n\t"
+      "punpcklbh  %[u],            %[u],              %[zero]       \n\t"
+      "pshufh     %[v],            %[u],              %[vshu]       \n\t"
+      "pshufh     %[u],            %[u],              %[ushu]       \n\t"
 
-    "punpcklbh  %[y],            %[y],              %[y]          \n\t"
-    "pmulhuh    %[y],            %[y],              %[yg]         \n\t"
+      "punpcklbh  %[y],            %[y],              %[y]          \n\t"
+      "pmulhuh    %[y],            %[y],              %[yg]         \n\t"
 
-    "paddsh     %[b_vec],        %[y],              %[bb]         \n\t"
-    "pmullh     %[temp],         %[u],              %[ub]         \n\t"
-    "psubsh     %[b_vec],        %[b_vec],          %[temp]       \n\t"
-    "psrah      %[b_vec],        %[b_vec],          %[six]        \n\t"
+      "paddsh     %[b_vec],        %[y],              %[bb]         \n\t"
+      "pmullh     %[temp],         %[u],              %[ub]         \n\t"
+      "psubsh     %[b_vec],        %[b_vec],          %[temp]       \n\t"
+      "psrah      %[b_vec],        %[b_vec],          %[six]        \n\t"
 
-    "paddsh     %[g_vec],        %[y],              %[bg]         \n\t"
-    "pmullh     %[temp],         %[u],              %[ug]         \n\t"
-    "psubsh     %[g_vec],        %[g_vec],          %[temp]       \n\t"
-    "pmullh     %[temp],         %[v],              %[vg]         \n\t"
-    "psubsh     %[g_vec],        %[g_vec],          %[temp]       \n\t"
-    "psrah      %[g_vec],        %[g_vec],          %[six]        \n\t"
+      "paddsh     %[g_vec],        %[y],              %[bg]         \n\t"
+      "pmullh     %[temp],         %[u],              %[ug]         \n\t"
+      "psubsh     %[g_vec],        %[g_vec],          %[temp]       \n\t"
+      "pmullh     %[temp],         %[v],              %[vg]         \n\t"
+      "psubsh     %[g_vec],        %[g_vec],          %[temp]       \n\t"
+      "psrah      %[g_vec],        %[g_vec],          %[six]        \n\t"
 
-    "paddsh     %[r_vec],        %[y],              %[br]         \n\t"
-    "pmullh     %[temp],         %[v],              %[vr]         \n\t"
-    "psubsh     %[r_vec],        %[r_vec],          %[temp]       \n\t"
-    "psrah      %[r_vec],        %[r_vec],          %[six]        \n\t"
+      "paddsh     %[r_vec],        %[y],              %[br]         \n\t"
+      "pmullh     %[temp],         %[v],              %[vr]         \n\t"
+      "psubsh     %[r_vec],        %[r_vec],          %[temp]       \n\t"
+      "psrah      %[r_vec],        %[r_vec],          %[six]        \n\t"
 
-    "packushb   %[r_vec],        %[b_vec],          %[r_vec]      \n\t"
-    "packushb   %[g_vec],        %[g_vec],          %[zero]       \n\t"
-    "punpcklbh  %[b_vec],        %[r_vec],          %[g_vec]      \n\t"
-    "punpckhbh  %[r_vec],        %[r_vec],          %[g_vec]      \n\t"
-    "punpcklhw  %[g_vec],        %[b_vec],          %[r_vec]      \n\t"
-    "punpckhhw  %[b_vec],        %[b_vec],          %[r_vec]      \n\t"
+      "packushb   %[r_vec],        %[b_vec],          %[r_vec]      \n\t"
+      "packushb   %[g_vec],        %[g_vec],          %[zero]       \n\t"
+      "punpcklbh  %[b_vec],        %[r_vec],          %[g_vec]      \n\t"
+      "punpckhbh  %[r_vec],        %[r_vec],          %[g_vec]      \n\t"
+      "punpcklhw  %[g_vec],        %[b_vec],          %[r_vec]      \n\t"
+      "punpckhhw  %[b_vec],        %[b_vec],          %[r_vec]      \n\t"
 
-    "punpckhwd  %[r_vec],        %[g_vec],          %[g_vec]      \n\t"
-    "psllw      %[temp],         %[r_vec],          %[lmove1]     \n\t"
-    "or         %[g_vec],        %[g_vec],          %[temp]       \n\t"
-    "psrlw      %[temp],         %[r_vec],          %[rmove1]     \n\t"
-    "pextrh     %[temp],         %[temp],           %[zero]       \n\t"
-    "pinsrh_2   %[g_vec],        %[g_vec],          %[temp]       \n\t"
-    "pextrh     %[temp],         %[b_vec],          %[zero]       \n\t"
-    "pinsrh_3   %[g_vec],        %[g_vec],          %[temp]       \n\t"
-    "pextrh     %[temp],         %[b_vec],          %[one]        \n\t"
-    "punpckhwd  %[b_vec],        %[b_vec],          %[b_vec]      \n\t"
-    "psllw      %[b_vec],        %[b_vec],          %[rmove1]     \n\t"
-    "or         %[b_vec],        %[b_vec],          %[temp]       \n\t"
-    "gssdlc1    %[g_vec],        0x07(%[rgbbuf_ptr])              \n\t"
-    "gssdrc1    %[g_vec],        0x00(%[rgbbuf_ptr])              \n\t"
-    "gsswlc1    %[b_vec],        0x0b(%[rgbbuf_ptr])              \n\t"
-    "gsswrc1    %[b_vec],        0x08(%[rgbbuf_ptr])              \n\t"
+      "punpckhwd  %[r_vec],        %[g_vec],          %[g_vec]      \n\t"
+      "psllw      %[temp],         %[r_vec],          %[lmove1]     \n\t"
+      "or         %[g_vec],        %[g_vec],          %[temp]       \n\t"
+      "psrlw      %[temp],         %[r_vec],          %[rmove1]     \n\t"
+      "pextrh     %[temp],         %[temp],           %[zero]       \n\t"
+      "pinsrh_2   %[g_vec],        %[g_vec],          %[temp]       \n\t"
+      "pextrh     %[temp],         %[b_vec],          %[zero]       \n\t"
+      "pinsrh_3   %[g_vec],        %[g_vec],          %[temp]       \n\t"
+      "pextrh     %[temp],         %[b_vec],          %[one]        \n\t"
+      "punpckhwd  %[b_vec],        %[b_vec],          %[b_vec]      \n\t"
+      "psllw      %[b_vec],        %[b_vec],          %[rmove1]     \n\t"
+      "or         %[b_vec],        %[b_vec],          %[temp]       \n\t"
+      "gssdlc1    %[g_vec],        0x07(%[rgbbuf_ptr])              \n\t"
+      "gssdrc1    %[g_vec],        0x00(%[rgbbuf_ptr])              \n\t"
+      "gsswlc1    %[b_vec],        0x0b(%[rgbbuf_ptr])              \n\t"
+      "gsswrc1    %[b_vec],        0x08(%[rgbbuf_ptr])              \n\t"
 
-    "daddiu     %[y_ptr],        %[y_ptr],          0x04          \n\t"
-    "daddiu     %[uv_ptr],       %[uv_ptr],         0x04          \n\t"
-    "daddiu     %[rgbbuf_ptr],   %[rgbbuf_ptr],     0x0C          \n\t"
-    "daddi      %[width],        %[width],          -0x04         \n\t"
-    "bnez       %[width],        1b                               \n\t"
+      "daddiu     %[y_ptr],        %[y_ptr],          0x04          \n\t"
+      "daddiu     %[uv_ptr],       %[uv_ptr],         0x04          \n\t"
+      "daddiu     %[rgbbuf_ptr],   %[rgbbuf_ptr],     0x0C          \n\t"
+      "daddi      %[width],        %[width],          -0x04         \n\t"
+      "bnez       %[width],        1b                               \n\t"
 
-    : [y]"=&f"(y),                         [u]"=&f"(u),
-      [v]"=&f"(v),
-      [b_vec]"=&f"(b_vec),                 [g_vec]"=&f"(g_vec),
-      [r_vec]"=&f"(r_vec),                 [temp]"=&f"(temp),
-      [ub]"=&f"(ub),                       [ug]"=&f"(ug),
-      [vg]"=&f"(vg),                       [vr]"=&f"(vr),
-      [bb]"=&f"(bb),                       [bg]"=&f"(bg),
-      [br]"=&f"(br),                       [yg]"=&f"(yg)
-    : [y_ptr]"r"(src_y),                   [uv_ptr]"r"(src_uv),
-      [rgbbuf_ptr]"r"(rgb_buf),
-      [yuvcons_ptr]"r"(yuvconstants),      [width]"r"(width),
-      [zero]"f"(0x00),                     [five]"f"(0x55),
-      [six]"f"(0x6),                       [mask1]"f"(0xff00ff00ff00ff00),
-      [ushu]"f"(0xA0),                     [vshu]"f"(0xf5),
-      [alpha]"f"(-1),                      [lmove1]"f"(0x18),
-      [one]"f"(0x1),                       [rmove1]"f"(0x8)
-    : "memory"
-  );
+      : [y] "=&f"(y), [u] "=&f"(u), [v] "=&f"(v), [b_vec] "=&f"(b_vec),
+        [g_vec] "=&f"(g_vec), [r_vec] "=&f"(r_vec), [temp] "=&f"(temp),
+        [ub] "=&f"(ub), [ug] "=&f"(ug), [vg] "=&f"(vg), [vr] "=&f"(vr),
+        [bb] "=&f"(bb), [bg] "=&f"(bg), [br] "=&f"(br), [yg] "=&f"(yg)
+      : [y_ptr] "r"(src_y), [uv_ptr] "r"(src_uv), [rgbbuf_ptr] "r"(rgb_buf),
+        [yuvcons_ptr] "r"(yuvconstants), [width] "r"(width), [zero] "f"(0x00),
+        [five] "f"(0x55), [six] "f"(0x6), [mask1] "f"(0xff00ff00ff00ff00),
+        [ushu] "f"(0xA0), [vshu] "f"(0xf5), [alpha] "f"(-1), [lmove1] "f"(0x18),
+        [one] "f"(0x1), [rmove1] "f"(0x8)
+      : "memory");
 }
 
 void NV21ToRGB24Row_MMI(const uint8_t* src_y,
@@ -7231,103 +7160,95 @@ void NV21ToRGB24Row_MMI(const uint8_t* src_y,
                         int width) {
   uint64_t y, u, v;
   uint64_t b_vec, g_vec, r_vec, temp;
-  uint64_t ub,ug,vg,vr,bb,bg,br,yg;
+  uint64_t ub, ug, vg, vr, bb, bg, br, yg;
 
   __asm__ volatile(
-    "ldc1       %[yg],           0xc0(%[yuvcons_ptr])             \n\t"
-    "ldc1       %[bb],           0x60(%[yuvcons_ptr])             \n\t"
-    "ldc1       %[ub],           0x00(%[yuvcons_ptr])             \n\t"
-    "or         %[ub],           %[ub],             %[mask1]      \n\t"
-    "ldc1       %[bg],           0x80(%[yuvcons_ptr])             \n\t"
-    "ldc1       %[ug],           0x20(%[yuvcons_ptr])             \n\t"
-    "punpcklbh  %[ug],           %[ug],             %[zero]       \n\t"
-    "pshufh     %[ug],           %[ug],             %[zero]       \n\t"
-    "ldc1       %[vg],           0x20(%[yuvcons_ptr])             \n\t"
-    "punpcklbh  %[vg],           %[vg],             %[zero]       \n\t"
-    "pshufh     %[vg],           %[vg],             %[five]       \n\t"
-    "ldc1       %[br],           0xa0(%[yuvcons_ptr])             \n\t"
-    "ldc1       %[vr],           0x40(%[yuvcons_ptr])             \n\t"
-    "punpcklbh  %[vr],           %[vr],             %[zero]       \n\t"
-    "pshufh     %[vr],           %[vr],             %[five]       \n\t"
-    "or         %[vr],           %[vr],             %[mask1]      \n\t"
+      "ldc1       %[yg],           0xc0(%[yuvcons_ptr])             \n\t"
+      "ldc1       %[bb],           0x60(%[yuvcons_ptr])             \n\t"
+      "ldc1       %[ub],           0x00(%[yuvcons_ptr])             \n\t"
+      "or         %[ub],           %[ub],             %[mask1]      \n\t"
+      "ldc1       %[bg],           0x80(%[yuvcons_ptr])             \n\t"
+      "ldc1       %[ug],           0x20(%[yuvcons_ptr])             \n\t"
+      "punpcklbh  %[ug],           %[ug],             %[zero]       \n\t"
+      "pshufh     %[ug],           %[ug],             %[zero]       \n\t"
+      "ldc1       %[vg],           0x20(%[yuvcons_ptr])             \n\t"
+      "punpcklbh  %[vg],           %[vg],             %[zero]       \n\t"
+      "pshufh     %[vg],           %[vg],             %[five]       \n\t"
+      "ldc1       %[br],           0xa0(%[yuvcons_ptr])             \n\t"
+      "ldc1       %[vr],           0x40(%[yuvcons_ptr])             \n\t"
+      "punpcklbh  %[vr],           %[vr],             %[zero]       \n\t"
+      "pshufh     %[vr],           %[vr],             %[five]       \n\t"
+      "or         %[vr],           %[vr],             %[mask1]      \n\t"
 
-    "1:                                                           \n\t"
-    "gslwlc1    %[y],            0x03(%[y_ptr])                   \n\t"
-    "gslwrc1    %[y],            0x00(%[y_ptr])                   \n\t"
-    "gslwlc1    %[u],            0x03(%[vu_ptr])                  \n\t"
-    "gslwrc1    %[u],            0x00(%[vu_ptr])                  \n\t"
-    "punpcklbh  %[u],            %[u],              %[zero]       \n\t"
-    "pshufh     %[v],            %[u],              %[ushu]       \n\t"
-    "pshufh     %[u],            %[u],              %[vshu]       \n\t"
+      "1:                                                           \n\t"
+      "gslwlc1    %[y],            0x03(%[y_ptr])                   \n\t"
+      "gslwrc1    %[y],            0x00(%[y_ptr])                   \n\t"
+      "gslwlc1    %[u],            0x03(%[vu_ptr])                  \n\t"
+      "gslwrc1    %[u],            0x00(%[vu_ptr])                  \n\t"
+      "punpcklbh  %[u],            %[u],              %[zero]       \n\t"
+      "pshufh     %[v],            %[u],              %[ushu]       \n\t"
+      "pshufh     %[u],            %[u],              %[vshu]       \n\t"
 
-    "punpcklbh  %[y],            %[y],              %[y]          \n\t"
-    "pmulhuh    %[y],            %[y],              %[yg]         \n\t"
+      "punpcklbh  %[y],            %[y],              %[y]          \n\t"
+      "pmulhuh    %[y],            %[y],              %[yg]         \n\t"
 
-    "paddsh     %[b_vec],        %[y],              %[bb]         \n\t"
-    "pmullh     %[temp],         %[u],              %[ub]         \n\t"
-    "psubsh     %[b_vec],        %[b_vec],          %[temp]       \n\t"
-    "psrah      %[b_vec],        %[b_vec],          %[six]        \n\t"
+      "paddsh     %[b_vec],        %[y],              %[bb]         \n\t"
+      "pmullh     %[temp],         %[u],              %[ub]         \n\t"
+      "psubsh     %[b_vec],        %[b_vec],          %[temp]       \n\t"
+      "psrah      %[b_vec],        %[b_vec],          %[six]        \n\t"
 
-    "paddsh     %[g_vec],        %[y],              %[bg]         \n\t"
-    "pmullh     %[temp],         %[u],              %[ug]         \n\t"
-    "psubsh     %[g_vec],        %[g_vec],          %[temp]       \n\t"
-    "pmullh     %[temp],         %[v],              %[vg]         \n\t"
-    "psubsh     %[g_vec],        %[g_vec],          %[temp]       \n\t"
-    "psrah      %[g_vec],        %[g_vec],          %[six]        \n\t"
+      "paddsh     %[g_vec],        %[y],              %[bg]         \n\t"
+      "pmullh     %[temp],         %[u],              %[ug]         \n\t"
+      "psubsh     %[g_vec],        %[g_vec],          %[temp]       \n\t"
+      "pmullh     %[temp],         %[v],              %[vg]         \n\t"
+      "psubsh     %[g_vec],        %[g_vec],          %[temp]       \n\t"
+      "psrah      %[g_vec],        %[g_vec],          %[six]        \n\t"
 
-    "paddsh     %[r_vec],        %[y],              %[br]         \n\t"
-    "pmullh     %[temp],         %[v],              %[vr]         \n\t"
-    "psubsh     %[r_vec],        %[r_vec],          %[temp]       \n\t"
-    "psrah      %[r_vec],        %[r_vec],          %[six]        \n\t"
+      "paddsh     %[r_vec],        %[y],              %[br]         \n\t"
+      "pmullh     %[temp],         %[v],              %[vr]         \n\t"
+      "psubsh     %[r_vec],        %[r_vec],          %[temp]       \n\t"
+      "psrah      %[r_vec],        %[r_vec],          %[six]        \n\t"
 
-    "packushb   %[r_vec],        %[b_vec],          %[r_vec]      \n\t"
-    "packushb   %[g_vec],        %[g_vec],          %[zero]       \n\t"
-    "punpcklbh  %[b_vec],        %[r_vec],          %[g_vec]      \n\t"
-    "punpckhbh  %[r_vec],        %[r_vec],          %[g_vec]      \n\t"
-    "punpcklhw  %[g_vec],        %[b_vec],          %[r_vec]      \n\t"
-    "punpckhhw  %[b_vec],        %[b_vec],          %[r_vec]      \n\t"
+      "packushb   %[r_vec],        %[b_vec],          %[r_vec]      \n\t"
+      "packushb   %[g_vec],        %[g_vec],          %[zero]       \n\t"
+      "punpcklbh  %[b_vec],        %[r_vec],          %[g_vec]      \n\t"
+      "punpckhbh  %[r_vec],        %[r_vec],          %[g_vec]      \n\t"
+      "punpcklhw  %[g_vec],        %[b_vec],          %[r_vec]      \n\t"
+      "punpckhhw  %[b_vec],        %[b_vec],          %[r_vec]      \n\t"
 
-    "punpckhwd  %[r_vec],        %[g_vec],          %[g_vec]      \n\t"
-    "psllw      %[temp],         %[r_vec],          %[lmove1]     \n\t"
-    "or         %[g_vec],        %[g_vec],          %[temp]       \n\t"
-    "psrlw      %[temp],         %[r_vec],          %[rmove1]     \n\t"
-    "pextrh     %[temp],         %[temp],           %[zero]       \n\t"
-    "pinsrh_2   %[g_vec],        %[g_vec],          %[temp]       \n\t"
-    "pextrh     %[temp],         %[b_vec],          %[zero]       \n\t"
-    "pinsrh_3   %[g_vec],        %[g_vec],          %[temp]       \n\t"
-    "pextrh     %[temp],         %[b_vec],          %[one]        \n\t"
-    "punpckhwd  %[b_vec],        %[b_vec],          %[b_vec]      \n\t"
-    "psllw      %[b_vec],        %[b_vec],          %[rmove1]     \n\t"
-    "or         %[b_vec],        %[b_vec],          %[temp]       \n\t"
-    "gssdlc1    %[g_vec],        0x07(%[rgbbuf_ptr])              \n\t"
-    "gssdrc1    %[g_vec],        0x00(%[rgbbuf_ptr])              \n\t"
-    "gsswlc1    %[b_vec],        0x0b(%[rgbbuf_ptr])              \n\t"
-    "gsswrc1    %[b_vec],        0x08(%[rgbbuf_ptr])              \n\t"
+      "punpckhwd  %[r_vec],        %[g_vec],          %[g_vec]      \n\t"
+      "psllw      %[temp],         %[r_vec],          %[lmove1]     \n\t"
+      "or         %[g_vec],        %[g_vec],          %[temp]       \n\t"
+      "psrlw      %[temp],         %[r_vec],          %[rmove1]     \n\t"
+      "pextrh     %[temp],         %[temp],           %[zero]       \n\t"
+      "pinsrh_2   %[g_vec],        %[g_vec],          %[temp]       \n\t"
+      "pextrh     %[temp],         %[b_vec],          %[zero]       \n\t"
+      "pinsrh_3   %[g_vec],        %[g_vec],          %[temp]       \n\t"
+      "pextrh     %[temp],         %[b_vec],          %[one]        \n\t"
+      "punpckhwd  %[b_vec],        %[b_vec],          %[b_vec]      \n\t"
+      "psllw      %[b_vec],        %[b_vec],          %[rmove1]     \n\t"
+      "or         %[b_vec],        %[b_vec],          %[temp]       \n\t"
+      "gssdlc1    %[g_vec],        0x07(%[rgbbuf_ptr])              \n\t"
+      "gssdrc1    %[g_vec],        0x00(%[rgbbuf_ptr])              \n\t"
+      "gsswlc1    %[b_vec],        0x0b(%[rgbbuf_ptr])              \n\t"
+      "gsswrc1    %[b_vec],        0x08(%[rgbbuf_ptr])              \n\t"
 
-    "daddiu     %[y_ptr],        %[y_ptr],          0x04          \n\t"
-    "daddiu     %[vu_ptr],       %[vu_ptr],         0x04          \n\t"
-    "daddiu     %[rgbbuf_ptr],   %[rgbbuf_ptr],     0x0C          \n\t"
-    "daddi      %[width],        %[width],          -0x04         \n\t"
-    "bnez       %[width],        1b                               \n\t"
+      "daddiu     %[y_ptr],        %[y_ptr],          0x04          \n\t"
+      "daddiu     %[vu_ptr],       %[vu_ptr],         0x04          \n\t"
+      "daddiu     %[rgbbuf_ptr],   %[rgbbuf_ptr],     0x0C          \n\t"
+      "daddi      %[width],        %[width],          -0x04         \n\t"
+      "bnez       %[width],        1b                               \n\t"
 
-    : [y]"=&f"(y),                         [u]"=&f"(u),
-      [v]"=&f"(v),
-      [b_vec]"=&f"(b_vec),                 [g_vec]"=&f"(g_vec),
-      [r_vec]"=&f"(r_vec),                 [temp]"=&f"(temp),
-      [ub]"=&f"(ub),                       [ug]"=&f"(ug),
-      [vg]"=&f"(vg),                       [vr]"=&f"(vr),
-      [bb]"=&f"(bb),                       [bg]"=&f"(bg),
-      [br]"=&f"(br),                       [yg]"=&f"(yg)
-    : [y_ptr]"r"(src_y),                   [vu_ptr]"r"(src_vu),
-      [rgbbuf_ptr]"r"(rgb_buf),
-      [yuvcons_ptr]"r"(yuvconstants),      [width]"r"(width),
-      [zero]"f"(0x00),                     [five]"f"(0x55),
-      [six]"f"(0x6),                       [mask1]"f"(0xff00ff00ff00ff00),
-      [ushu]"f"(0xA0),                     [vshu]"f"(0xf5),
-      [lmove1]"f"(0x18),                   [rmove1]"f"(0x8),
-      [one]"f"(0x1)
-    : "memory"
-  );
+      : [y] "=&f"(y), [u] "=&f"(u), [v] "=&f"(v), [b_vec] "=&f"(b_vec),
+        [g_vec] "=&f"(g_vec), [r_vec] "=&f"(r_vec), [temp] "=&f"(temp),
+        [ub] "=&f"(ub), [ug] "=&f"(ug), [vg] "=&f"(vg), [vr] "=&f"(vr),
+        [bb] "=&f"(bb), [bg] "=&f"(bg), [br] "=&f"(br), [yg] "=&f"(yg)
+      : [y_ptr] "r"(src_y), [vu_ptr] "r"(src_vu), [rgbbuf_ptr] "r"(rgb_buf),
+        [yuvcons_ptr] "r"(yuvconstants), [width] "r"(width), [zero] "f"(0x00),
+        [five] "f"(0x55), [six] "f"(0x6), [mask1] "f"(0xff00ff00ff00ff00),
+        [ushu] "f"(0xA0), [vshu] "f"(0xf5), [lmove1] "f"(0x18),
+        [rmove1] "f"(0x8), [one] "f"(0x1)
+      : "memory");
 }
 
 void NV12ToRGB565Row_MMI(const uint8_t* src_y,
@@ -7337,123 +7258,115 @@ void NV12ToRGB565Row_MMI(const uint8_t* src_y,
                          int width) {
   uint64_t y, u, v;
   uint64_t b_vec, g_vec, r_vec, temp;
-  uint64_t ub,ug,vg,vr,bb,bg,br,yg;
+  uint64_t ub, ug, vg, vr, bb, bg, br, yg;
 
   __asm__ volatile(
-    "ldc1       %[yg],           0xc0(%[yuvcons_ptr])             \n\t"
-    "ldc1       %[bb],           0x60(%[yuvcons_ptr])             \n\t"
-    "ldc1       %[ub],           0x00(%[yuvcons_ptr])             \n\t"
-    "or         %[ub],           %[ub],             %[mask1]      \n\t"
-    "ldc1       %[bg],           0x80(%[yuvcons_ptr])             \n\t"
-    "ldc1       %[ug],           0x20(%[yuvcons_ptr])             \n\t"
-    "punpcklbh  %[ug],           %[ug],             %[zero]       \n\t"
-    "pshufh     %[ug],           %[ug],             %[zero]       \n\t"
-    "ldc1       %[vg],           0x20(%[yuvcons_ptr])             \n\t"
-    "punpcklbh  %[vg],           %[vg],             %[zero]       \n\t"
-    "pshufh     %[vg],           %[vg],             %[five]       \n\t"
-    "ldc1       %[br],           0xa0(%[yuvcons_ptr])             \n\t"
-    "ldc1       %[vr],           0x40(%[yuvcons_ptr])             \n\t"
-    "punpcklbh  %[vr],           %[vr],             %[zero]       \n\t"
-    "pshufh     %[vr],           %[vr],             %[five]       \n\t"
-    "or         %[vr],           %[vr],             %[mask1]      \n\t"
+      "ldc1       %[yg],           0xc0(%[yuvcons_ptr])             \n\t"
+      "ldc1       %[bb],           0x60(%[yuvcons_ptr])             \n\t"
+      "ldc1       %[ub],           0x00(%[yuvcons_ptr])             \n\t"
+      "or         %[ub],           %[ub],             %[mask1]      \n\t"
+      "ldc1       %[bg],           0x80(%[yuvcons_ptr])             \n\t"
+      "ldc1       %[ug],           0x20(%[yuvcons_ptr])             \n\t"
+      "punpcklbh  %[ug],           %[ug],             %[zero]       \n\t"
+      "pshufh     %[ug],           %[ug],             %[zero]       \n\t"
+      "ldc1       %[vg],           0x20(%[yuvcons_ptr])             \n\t"
+      "punpcklbh  %[vg],           %[vg],             %[zero]       \n\t"
+      "pshufh     %[vg],           %[vg],             %[five]       \n\t"
+      "ldc1       %[br],           0xa0(%[yuvcons_ptr])             \n\t"
+      "ldc1       %[vr],           0x40(%[yuvcons_ptr])             \n\t"
+      "punpcklbh  %[vr],           %[vr],             %[zero]       \n\t"
+      "pshufh     %[vr],           %[vr],             %[five]       \n\t"
+      "or         %[vr],           %[vr],             %[mask1]      \n\t"
 
-    "1:                                                           \n\t"
-    "gslwlc1    %[y],            0x03(%[y_ptr])                   \n\t"
-    "gslwrc1    %[y],            0x00(%[y_ptr])                   \n\t"
-    "gslwlc1    %[u],            0x03(%[uv_ptr])                  \n\t"
-    "gslwrc1    %[u],            0x00(%[uv_ptr])                  \n\t"
-    "punpcklbh  %[u],            %[u],              %[zero]       \n\t"
-    "pshufh     %[v],            %[u],              %[vshu]       \n\t"
-    "pshufh     %[u],            %[u],              %[ushu]       \n\t"
+      "1:                                                           \n\t"
+      "gslwlc1    %[y],            0x03(%[y_ptr])                   \n\t"
+      "gslwrc1    %[y],            0x00(%[y_ptr])                   \n\t"
+      "gslwlc1    %[u],            0x03(%[uv_ptr])                  \n\t"
+      "gslwrc1    %[u],            0x00(%[uv_ptr])                  \n\t"
+      "punpcklbh  %[u],            %[u],              %[zero]       \n\t"
+      "pshufh     %[v],            %[u],              %[vshu]       \n\t"
+      "pshufh     %[u],            %[u],              %[ushu]       \n\t"
 
-    "punpcklbh  %[y],            %[y],              %[y]          \n\t"
-    "pmulhuh    %[y],            %[y],              %[yg]         \n\t"
+      "punpcklbh  %[y],            %[y],              %[y]          \n\t"
+      "pmulhuh    %[y],            %[y],              %[yg]         \n\t"
 
-    "paddsh     %[b_vec],        %[y],              %[bb]         \n\t"
-    "pmullh     %[temp],         %[u],              %[ub]         \n\t"
-    "psubsh     %[b_vec],        %[b_vec],          %[temp]       \n\t"
-    "psrah      %[b_vec],        %[b_vec],          %[six]        \n\t"
+      "paddsh     %[b_vec],        %[y],              %[bb]         \n\t"
+      "pmullh     %[temp],         %[u],              %[ub]         \n\t"
+      "psubsh     %[b_vec],        %[b_vec],          %[temp]       \n\t"
+      "psrah      %[b_vec],        %[b_vec],          %[six]        \n\t"
 
-    "paddsh     %[g_vec],        %[y],              %[bg]         \n\t"
-    "pmullh     %[temp],         %[u],              %[ug]         \n\t"
-    "psubsh     %[g_vec],        %[g_vec],          %[temp]       \n\t"
-    "pmullh     %[temp],         %[v],              %[vg]         \n\t"
-    "psubsh     %[g_vec],        %[g_vec],          %[temp]       \n\t"
-    "psrah      %[g_vec],        %[g_vec],          %[six]        \n\t"
+      "paddsh     %[g_vec],        %[y],              %[bg]         \n\t"
+      "pmullh     %[temp],         %[u],              %[ug]         \n\t"
+      "psubsh     %[g_vec],        %[g_vec],          %[temp]       \n\t"
+      "pmullh     %[temp],         %[v],              %[vg]         \n\t"
+      "psubsh     %[g_vec],        %[g_vec],          %[temp]       \n\t"
+      "psrah      %[g_vec],        %[g_vec],          %[six]        \n\t"
 
-    "paddsh     %[r_vec],        %[y],              %[br]         \n\t"
-    "pmullh     %[temp],         %[v],              %[vr]         \n\t"
-    "psubsh     %[r_vec],        %[r_vec],          %[temp]       \n\t"
-    "psrah      %[r_vec],        %[r_vec],          %[six]        \n\t"
+      "paddsh     %[r_vec],        %[y],              %[br]         \n\t"
+      "pmullh     %[temp],         %[v],              %[vr]         \n\t"
+      "psubsh     %[r_vec],        %[r_vec],          %[temp]       \n\t"
+      "psrah      %[r_vec],        %[r_vec],          %[six]        \n\t"
 
-    "packushb   %[r_vec],        %[b_vec],          %[r_vec]      \n\t"
-    "packushb   %[g_vec],        %[g_vec],          %[zero]       \n\t"
-    "punpcklbh  %[b_vec],        %[r_vec],          %[g_vec]      \n\t"
-    "punpckhbh  %[r_vec],        %[r_vec],          %[g_vec]      \n\t"
-    "punpcklhw  %[g_vec],        %[b_vec],          %[r_vec]      \n\t"
-    "punpckhhw  %[b_vec],        %[b_vec],          %[r_vec]      \n\t"
+      "packushb   %[r_vec],        %[b_vec],          %[r_vec]      \n\t"
+      "packushb   %[g_vec],        %[g_vec],          %[zero]       \n\t"
+      "punpcklbh  %[b_vec],        %[r_vec],          %[g_vec]      \n\t"
+      "punpckhbh  %[r_vec],        %[r_vec],          %[g_vec]      \n\t"
+      "punpcklhw  %[g_vec],        %[b_vec],          %[r_vec]      \n\t"
+      "punpckhhw  %[b_vec],        %[b_vec],          %[r_vec]      \n\t"
 
-    "psrlh      %[temp],         %[g_vec],          %[three]      \n\t"
-    "and        %[g_vec],        %[temp],           %[mask2]      \n\t"
-    "psrlw      %[temp],         %[temp],           %[seven]      \n\t"
-    "psrlw      %[r_vec],        %[mask1],          %[eight]      \n\t"
-    "and        %[r_vec],        %[temp],           %[r_vec]      \n\t"
-    "psubb      %[y],            %[eight],          %[three]      \n\t"//5
-    "psllw      %[r_vec],        %[r_vec],          %[y]          \n\t"
-    "or         %[g_vec],        %[g_vec],          %[r_vec]      \n\t"
-    "paddb      %[r_vec],        %[three],          %[six]        \n\t"
-    "psrlw      %[temp],         %[temp],           %[r_vec]      \n\t"
-    "and        %[r_vec],        %[temp],           %[mask2]      \n\t"
-    "paddb      %[temp],         %[three],          %[eight]      \n\t"
-    "psllw      %[r_vec],        %[r_vec],          %[temp]       \n\t"
-    "or         %[g_vec],        %[g_vec],          %[r_vec]      \n\t"
+      "psrlh      %[temp],         %[g_vec],          %[three]      \n\t"
+      "and        %[g_vec],        %[temp],           %[mask2]      \n\t"
+      "psrlw      %[temp],         %[temp],           %[seven]      \n\t"
+      "psrlw      %[r_vec],        %[mask1],          %[eight]      \n\t"
+      "and        %[r_vec],        %[temp],           %[r_vec]      \n\t"
+      "psubb      %[y],            %[eight],          %[three]      \n\t"  // 5
+      "psllw      %[r_vec],        %[r_vec],          %[y]          \n\t"
+      "or         %[g_vec],        %[g_vec],          %[r_vec]      \n\t"
+      "paddb      %[r_vec],        %[three],          %[six]        \n\t"
+      "psrlw      %[temp],         %[temp],           %[r_vec]      \n\t"
+      "and        %[r_vec],        %[temp],           %[mask2]      \n\t"
+      "paddb      %[temp],         %[three],          %[eight]      \n\t"
+      "psllw      %[r_vec],        %[r_vec],          %[temp]       \n\t"
+      "or         %[g_vec],        %[g_vec],          %[r_vec]      \n\t"
 
-    "psrlh      %[temp],         %[b_vec],          %[three]      \n\t"
-    "and        %[b_vec],        %[temp],           %[mask2]      \n\t"
-    "psrlw      %[temp],         %[temp],           %[seven]      \n\t"
-    "psrlw      %[r_vec],        %[mask1],          %[eight]      \n\t"
-    "and        %[r_vec],        %[temp],           %[r_vec]      \n\t"
-    "psubb      %[y],            %[eight],          %[three]      \n\t"//5
-    "psllw      %[r_vec],        %[r_vec],          %[y]          \n\t"
-    "or         %[b_vec],        %[b_vec],          %[r_vec]      \n\t"
-    "paddb      %[r_vec],        %[three],          %[six]        \n\t"
-    "psrlw      %[temp],         %[temp],           %[r_vec]      \n\t"
-    "and        %[r_vec],        %[temp],           %[mask2]      \n\t"
-    "paddb      %[temp],         %[three],          %[eight]      \n\t"
-    "psllw      %[r_vec],        %[r_vec],          %[temp]       \n\t"
-    "or         %[b_vec],        %[b_vec],          %[r_vec]      \n\t"
+      "psrlh      %[temp],         %[b_vec],          %[three]      \n\t"
+      "and        %[b_vec],        %[temp],           %[mask2]      \n\t"
+      "psrlw      %[temp],         %[temp],           %[seven]      \n\t"
+      "psrlw      %[r_vec],        %[mask1],          %[eight]      \n\t"
+      "and        %[r_vec],        %[temp],           %[r_vec]      \n\t"
+      "psubb      %[y],            %[eight],          %[three]      \n\t"  // 5
+      "psllw      %[r_vec],        %[r_vec],          %[y]          \n\t"
+      "or         %[b_vec],        %[b_vec],          %[r_vec]      \n\t"
+      "paddb      %[r_vec],        %[three],          %[six]        \n\t"
+      "psrlw      %[temp],         %[temp],           %[r_vec]      \n\t"
+      "and        %[r_vec],        %[temp],           %[mask2]      \n\t"
+      "paddb      %[temp],         %[three],          %[eight]      \n\t"
+      "psllw      %[r_vec],        %[r_vec],          %[temp]       \n\t"
+      "or         %[b_vec],        %[b_vec],          %[r_vec]      \n\t"
 
-    "punpcklhw  %[r_vec],        %[g_vec],          %[b_vec]      \n\t"
-    "punpckhhw  %[b_vec],        %[g_vec],          %[b_vec]      \n\t"
-    "punpcklhw  %[g_vec],        %[r_vec],          %[b_vec]      \n\t"
+      "punpcklhw  %[r_vec],        %[g_vec],          %[b_vec]      \n\t"
+      "punpckhhw  %[b_vec],        %[g_vec],          %[b_vec]      \n\t"
+      "punpcklhw  %[g_vec],        %[r_vec],          %[b_vec]      \n\t"
 
-    "gssdlc1    %[g_vec],        0x07(%[dst_rgb565])             \n\t"
-    "gssdrc1    %[g_vec],        0x00(%[dst_rgb565])             \n\t"
+      "gssdlc1    %[g_vec],        0x07(%[dst_rgb565])             \n\t"
+      "gssdrc1    %[g_vec],        0x00(%[dst_rgb565])             \n\t"
 
-    "daddiu     %[y_ptr],        %[y_ptr],          0x04          \n\t"
-	"daddiu     %[uv_ptr],       %[uv_ptr],         0x04          \n\t"
-    "daddiu     %[dst_rgb565],   %[dst_rgb565],     0x08          \n\t"
-    "daddi      %[width],        %[width],          -0x04         \n\t"
-    "bnez       %[width],        1b                               \n\t"
+      "daddiu     %[y_ptr],        %[y_ptr],          0x04          \n\t"
+      "daddiu     %[uv_ptr],       %[uv_ptr],         0x04          \n\t"
+      "daddiu     %[dst_rgb565],   %[dst_rgb565],     0x08          \n\t"
+      "daddi      %[width],        %[width],          -0x04         \n\t"
+      "bnez       %[width],        1b                               \n\t"
 
-    : [y]"=&f"(y),                         [u]"=&f"(u),
-      [v]"=&f"(v),
-      [b_vec]"=&f"(b_vec),                 [g_vec]"=&f"(g_vec),
-      [r_vec]"=&f"(r_vec),                 [temp]"=&f"(temp),
-      [ub]"=&f"(ub),                       [ug]"=&f"(ug),
-      [vg]"=&f"(vg),                       [vr]"=&f"(vr),
-      [bb]"=&f"(bb),                       [bg]"=&f"(bg),
-      [br]"=&f"(br),                       [yg]"=&f"(yg)
-    : [y_ptr]"r"(src_y),                   [uv_ptr]"r"(src_uv),
-      [dst_rgb565]"r"(dst_rgb565),
-      [yuvcons_ptr]"r"(yuvconstants),      [width]"r"(width),
-      [zero]"f"(0x00),                     [five]"f"(0x55),
-      [six]"f"(0x6),                       [mask1]"f"(0xff00ff00ff00ff00),
-      [ushu]"f"(0xA0),                     [vshu]"f"(0xf5),
-      [three]"f"(0x3),                     [mask2]"f"(0x1f0000001f),
-      [eight]"f"(0x8),                     [seven]"f"(0x7)
-    : "memory"
-  );
+      : [y] "=&f"(y), [u] "=&f"(u), [v] "=&f"(v), [b_vec] "=&f"(b_vec),
+        [g_vec] "=&f"(g_vec), [r_vec] "=&f"(r_vec), [temp] "=&f"(temp),
+        [ub] "=&f"(ub), [ug] "=&f"(ug), [vg] "=&f"(vg), [vr] "=&f"(vr),
+        [bb] "=&f"(bb), [bg] "=&f"(bg), [br] "=&f"(br), [yg] "=&f"(yg)
+      : [y_ptr] "r"(src_y), [uv_ptr] "r"(src_uv), [dst_rgb565] "r"(dst_rgb565),
+        [yuvcons_ptr] "r"(yuvconstants), [width] "r"(width), [zero] "f"(0x00),
+        [five] "f"(0x55), [six] "f"(0x6), [mask1] "f"(0xff00ff00ff00ff00),
+        [ushu] "f"(0xA0), [vshu] "f"(0xf5), [three] "f"(0x3),
+        [mask2] "f"(0x1f0000001f), [eight] "f"(0x8), [seven] "f"(0x7)
+      : "memory");
 }
 
 void YUY2ToARGBRow_MMI(const uint8_t* src_yuy2,
@@ -7462,90 +7375,83 @@ void YUY2ToARGBRow_MMI(const uint8_t* src_yuy2,
                        int width) {
   uint64_t y, u, v;
   uint64_t b_vec, g_vec, r_vec, temp;
-  uint64_t ub,ug,vg,vr,bb,bg,br,yg;
+  uint64_t ub, ug, vg, vr, bb, bg, br, yg;
 
   __asm__ volatile(
-    "ldc1       %[yg],           0xc0(%[yuvcons_ptr])             \n\t"
-    "ldc1       %[bb],           0x60(%[yuvcons_ptr])             \n\t"
-    "ldc1       %[ub],           0x00(%[yuvcons_ptr])             \n\t"
-    "or         %[ub],           %[ub],             %[mask1]      \n\t"
-    "ldc1       %[bg],           0x80(%[yuvcons_ptr])             \n\t"
-    "ldc1       %[ug],           0x20(%[yuvcons_ptr])             \n\t"
-    "punpcklbh  %[ug],           %[ug],             %[zero]       \n\t"
-    "pshufh     %[ug],           %[ug],             %[zero]       \n\t"
-    "ldc1       %[vg],           0x20(%[yuvcons_ptr])             \n\t"
-    "punpcklbh  %[vg],           %[vg],             %[zero]       \n\t"
-    "pshufh     %[vg],           %[vg],             %[five]       \n\t"
-    "ldc1       %[br],           0xa0(%[yuvcons_ptr])             \n\t"
-    "ldc1       %[vr],           0x40(%[yuvcons_ptr])             \n\t"
-    "punpcklbh  %[vr],           %[vr],             %[zero]       \n\t"
-    "pshufh     %[vr],           %[vr],             %[five]       \n\t"
-    "or         %[vr],           %[vr],             %[mask1]      \n\t"
+      "ldc1       %[yg],           0xc0(%[yuvcons_ptr])             \n\t"
+      "ldc1       %[bb],           0x60(%[yuvcons_ptr])             \n\t"
+      "ldc1       %[ub],           0x00(%[yuvcons_ptr])             \n\t"
+      "or         %[ub],           %[ub],             %[mask1]      \n\t"
+      "ldc1       %[bg],           0x80(%[yuvcons_ptr])             \n\t"
+      "ldc1       %[ug],           0x20(%[yuvcons_ptr])             \n\t"
+      "punpcklbh  %[ug],           %[ug],             %[zero]       \n\t"
+      "pshufh     %[ug],           %[ug],             %[zero]       \n\t"
+      "ldc1       %[vg],           0x20(%[yuvcons_ptr])             \n\t"
+      "punpcklbh  %[vg],           %[vg],             %[zero]       \n\t"
+      "pshufh     %[vg],           %[vg],             %[five]       \n\t"
+      "ldc1       %[br],           0xa0(%[yuvcons_ptr])             \n\t"
+      "ldc1       %[vr],           0x40(%[yuvcons_ptr])             \n\t"
+      "punpcklbh  %[vr],           %[vr],             %[zero]       \n\t"
+      "pshufh     %[vr],           %[vr],             %[five]       \n\t"
+      "or         %[vr],           %[vr],             %[mask1]      \n\t"
 
-    "1:                                                           \n\t"
-    "gsldlc1    %[y],            0x07(%[yuy2_ptr])                \n\t"
-    "gsldrc1    %[y],            0x00(%[yuy2_ptr])                \n\t"
-    "psrlh      %[temp],         %[y],              %[eight]      \n\t"
-    "pshufh     %[u],            %[temp],           %[ushu]       \n\t"
-    "pshufh     %[v],            %[temp],           %[vshu]       \n\t"
+      "1:                                                           \n\t"
+      "gsldlc1    %[y],            0x07(%[yuy2_ptr])                \n\t"
+      "gsldrc1    %[y],            0x00(%[yuy2_ptr])                \n\t"
+      "psrlh      %[temp],         %[y],              %[eight]      \n\t"
+      "pshufh     %[u],            %[temp],           %[ushu]       \n\t"
+      "pshufh     %[v],            %[temp],           %[vshu]       \n\t"
 
-    "psrlh      %[temp],         %[mask1],          %[eight]      \n\t"
-    "and        %[y],            %[y],              %[temp]       \n\t"
-    "psllh      %[temp],         %[y],              %[eight]      \n\t"
-    "or         %[y],            %[y],              %[temp]       \n\t"
-    "pmulhuh    %[y],            %[y],              %[yg]         \n\t"
+      "psrlh      %[temp],         %[mask1],          %[eight]      \n\t"
+      "and        %[y],            %[y],              %[temp]       \n\t"
+      "psllh      %[temp],         %[y],              %[eight]      \n\t"
+      "or         %[y],            %[y],              %[temp]       \n\t"
+      "pmulhuh    %[y],            %[y],              %[yg]         \n\t"
 
-    "paddsh     %[b_vec],        %[y],              %[bb]         \n\t"
-    "pmullh     %[temp],         %[u],              %[ub]         \n\t"
-    "psubsh     %[b_vec],        %[b_vec],          %[temp]       \n\t"
-    "psrah      %[b_vec],        %[b_vec],          %[six]        \n\t"
+      "paddsh     %[b_vec],        %[y],              %[bb]         \n\t"
+      "pmullh     %[temp],         %[u],              %[ub]         \n\t"
+      "psubsh     %[b_vec],        %[b_vec],          %[temp]       \n\t"
+      "psrah      %[b_vec],        %[b_vec],          %[six]        \n\t"
 
-    "paddsh     %[g_vec],        %[y],              %[bg]         \n\t"
-    "pmullh     %[temp],         %[u],              %[ug]         \n\t"
-    "psubsh     %[g_vec],        %[g_vec],          %[temp]       \n\t"
-    "pmullh     %[temp],         %[v],              %[vg]         \n\t"
-    "psubsh     %[g_vec],        %[g_vec],          %[temp]       \n\t"
-    "psrah      %[g_vec],        %[g_vec],          %[six]        \n\t"
+      "paddsh     %[g_vec],        %[y],              %[bg]         \n\t"
+      "pmullh     %[temp],         %[u],              %[ug]         \n\t"
+      "psubsh     %[g_vec],        %[g_vec],          %[temp]       \n\t"
+      "pmullh     %[temp],         %[v],              %[vg]         \n\t"
+      "psubsh     %[g_vec],        %[g_vec],          %[temp]       \n\t"
+      "psrah      %[g_vec],        %[g_vec],          %[six]        \n\t"
 
-    "paddsh     %[r_vec],        %[y],              %[br]         \n\t"
-    "pmullh     %[temp],         %[v],              %[vr]         \n\t"
-    "psubsh     %[r_vec],        %[r_vec],          %[temp]       \n\t"
-    "psrah      %[r_vec],        %[r_vec],          %[six]        \n\t"
+      "paddsh     %[r_vec],        %[y],              %[br]         \n\t"
+      "pmullh     %[temp],         %[v],              %[vr]         \n\t"
+      "psubsh     %[r_vec],        %[r_vec],          %[temp]       \n\t"
+      "psrah      %[r_vec],        %[r_vec],          %[six]        \n\t"
 
-    "packushb   %[r_vec],        %[b_vec],          %[r_vec]      \n\t"
-    "packushb   %[g_vec],        %[g_vec],          %[zero]       \n\t"
-    "punpcklwd  %[g_vec],        %[g_vec],          %[alpha]      \n\t"
-    "punpcklbh  %[b_vec],        %[r_vec],          %[g_vec]      \n\t"
-    "punpckhbh  %[r_vec],        %[r_vec],          %[g_vec]      \n\t"
-    "punpcklhw  %[g_vec],        %[b_vec],          %[r_vec]      \n\t"
-    "punpckhhw  %[b_vec],        %[b_vec],          %[r_vec]      \n\t"
+      "packushb   %[r_vec],        %[b_vec],          %[r_vec]      \n\t"
+      "packushb   %[g_vec],        %[g_vec],          %[zero]       \n\t"
+      "punpcklwd  %[g_vec],        %[g_vec],          %[alpha]      \n\t"
+      "punpcklbh  %[b_vec],        %[r_vec],          %[g_vec]      \n\t"
+      "punpckhbh  %[r_vec],        %[r_vec],          %[g_vec]      \n\t"
+      "punpcklhw  %[g_vec],        %[b_vec],          %[r_vec]      \n\t"
+      "punpckhhw  %[b_vec],        %[b_vec],          %[r_vec]      \n\t"
 
-    "gssdlc1    %[g_vec],        0x07(%[rgbbuf_ptr])              \n\t"
-    "gssdrc1    %[g_vec],        0x00(%[rgbbuf_ptr])              \n\t"
-    "gssdlc1    %[b_vec],        0x0f(%[rgbbuf_ptr])              \n\t"
-    "gssdrc1    %[b_vec],        0x08(%[rgbbuf_ptr])              \n\t"
+      "gssdlc1    %[g_vec],        0x07(%[rgbbuf_ptr])              \n\t"
+      "gssdrc1    %[g_vec],        0x00(%[rgbbuf_ptr])              \n\t"
+      "gssdlc1    %[b_vec],        0x0f(%[rgbbuf_ptr])              \n\t"
+      "gssdrc1    %[b_vec],        0x08(%[rgbbuf_ptr])              \n\t"
 
-    "daddiu     %[yuy2_ptr],     %[yuy2_ptr],       0x08          \n\t"
-    "daddiu     %[rgbbuf_ptr],   %[rgbbuf_ptr],     0x10          \n\t"
-    "daddi      %[width],        %[width],          -0x04         \n\t"
-    "bnez       %[width],        1b                               \n\t"
+      "daddiu     %[yuy2_ptr],     %[yuy2_ptr],       0x08          \n\t"
+      "daddiu     %[rgbbuf_ptr],   %[rgbbuf_ptr],     0x10          \n\t"
+      "daddi      %[width],        %[width],          -0x04         \n\t"
+      "bnez       %[width],        1b                               \n\t"
 
-    : [y]"=&f"(y),                         [u]"=&f"(u),
-      [v]"=&f"(v),
-      [b_vec]"=&f"(b_vec),                 [g_vec]"=&f"(g_vec),
-      [r_vec]"=&f"(r_vec),                 [temp]"=&f"(temp),
-      [ub]"=&f"(ub),                       [ug]"=&f"(ug),
-      [vg]"=&f"(vg),                       [vr]"=&f"(vr),
-      [bb]"=&f"(bb),                       [bg]"=&f"(bg),
-      [br]"=&f"(br),                       [yg]"=&f"(yg)
-    : [yuy2_ptr]"r"(src_yuy2),             [rgbbuf_ptr]"r"(rgb_buf),
-      [yuvcons_ptr]"r"(yuvconstants),      [width]"r"(width),
-      [zero]"f"(0x00),                     [five]"f"(0x55),
-      [six]"f"(0x6),                       [mask1]"f"(0xff00ff00ff00ff00),
-      [ushu]"f"(0xA0),                     [vshu]"f"(0xf5),
-      [alpha]"f"(-1),                      [eight]"f"(0x8)
-    : "memory"
-  );
+      : [y] "=&f"(y), [u] "=&f"(u), [v] "=&f"(v), [b_vec] "=&f"(b_vec),
+        [g_vec] "=&f"(g_vec), [r_vec] "=&f"(r_vec), [temp] "=&f"(temp),
+        [ub] "=&f"(ub), [ug] "=&f"(ug), [vg] "=&f"(vg), [vr] "=&f"(vr),
+        [bb] "=&f"(bb), [bg] "=&f"(bg), [br] "=&f"(br), [yg] "=&f"(yg)
+      : [yuy2_ptr] "r"(src_yuy2), [rgbbuf_ptr] "r"(rgb_buf),
+        [yuvcons_ptr] "r"(yuvconstants), [width] "r"(width), [zero] "f"(0x00),
+        [five] "f"(0x55), [six] "f"(0x6), [mask1] "f"(0xff00ff00ff00ff00),
+        [ushu] "f"(0xA0), [vshu] "f"(0xf5), [alpha] "f"(-1), [eight] "f"(0x8)
+      : "memory");
 }
 
 void UYVYToARGBRow_MMI(const uint8_t* src_uyvy,
@@ -7554,90 +7460,83 @@ void UYVYToARGBRow_MMI(const uint8_t* src_uyvy,
                        int width) {
   uint64_t y, u, v;
   uint64_t b_vec, g_vec, r_vec, temp;
-  uint64_t ub,ug,vg,vr,bb,bg,br,yg;
+  uint64_t ub, ug, vg, vr, bb, bg, br, yg;
 
   __asm__ volatile(
-    "ldc1       %[yg],           0xc0(%[yuvcons_ptr])             \n\t"
-    "ldc1       %[bb],           0x60(%[yuvcons_ptr])             \n\t"
-    "ldc1       %[ub],           0x00(%[yuvcons_ptr])             \n\t"
-    "or         %[ub],           %[ub],             %[mask1]      \n\t"
-    "ldc1       %[bg],           0x80(%[yuvcons_ptr])             \n\t"
-    "ldc1       %[ug],           0x20(%[yuvcons_ptr])             \n\t"
-    "punpcklbh  %[ug],           %[ug],             %[zero]       \n\t"
-    "pshufh     %[ug],           %[ug],             %[zero]       \n\t"
-    "ldc1       %[vg],           0x20(%[yuvcons_ptr])             \n\t"
-    "punpcklbh  %[vg],           %[vg],             %[zero]       \n\t"
-    "pshufh     %[vg],           %[vg],             %[five]       \n\t"
-    "ldc1       %[br],           0xa0(%[yuvcons_ptr])             \n\t"
-    "ldc1       %[vr],           0x40(%[yuvcons_ptr])             \n\t"
-    "punpcklbh  %[vr],           %[vr],             %[zero]       \n\t"
-    "pshufh     %[vr],           %[vr],             %[five]       \n\t"
-    "or         %[vr],           %[vr],             %[mask1]      \n\t"
+      "ldc1       %[yg],           0xc0(%[yuvcons_ptr])             \n\t"
+      "ldc1       %[bb],           0x60(%[yuvcons_ptr])             \n\t"
+      "ldc1       %[ub],           0x00(%[yuvcons_ptr])             \n\t"
+      "or         %[ub],           %[ub],             %[mask1]      \n\t"
+      "ldc1       %[bg],           0x80(%[yuvcons_ptr])             \n\t"
+      "ldc1       %[ug],           0x20(%[yuvcons_ptr])             \n\t"
+      "punpcklbh  %[ug],           %[ug],             %[zero]       \n\t"
+      "pshufh     %[ug],           %[ug],             %[zero]       \n\t"
+      "ldc1       %[vg],           0x20(%[yuvcons_ptr])             \n\t"
+      "punpcklbh  %[vg],           %[vg],             %[zero]       \n\t"
+      "pshufh     %[vg],           %[vg],             %[five]       \n\t"
+      "ldc1       %[br],           0xa0(%[yuvcons_ptr])             \n\t"
+      "ldc1       %[vr],           0x40(%[yuvcons_ptr])             \n\t"
+      "punpcklbh  %[vr],           %[vr],             %[zero]       \n\t"
+      "pshufh     %[vr],           %[vr],             %[five]       \n\t"
+      "or         %[vr],           %[vr],             %[mask1]      \n\t"
 
-    "1:                                                           \n\t"
-    "gsldlc1    %[y],            0x07(%[uyvy_ptr])                \n\t"
-    "gsldrc1    %[y],            0x00(%[uyvy_ptr])                \n\t"
-    "psrlh      %[temp],         %[mask1],          %[eight]      \n\t"
-    "and        %[temp],         %[y],              %[temp]       \n\t"
-    "pshufh     %[u],            %[temp],           %[ushu]       \n\t"
-    "pshufh     %[v],            %[temp],           %[vshu]       \n\t"
+      "1:                                                           \n\t"
+      "gsldlc1    %[y],            0x07(%[uyvy_ptr])                \n\t"
+      "gsldrc1    %[y],            0x00(%[uyvy_ptr])                \n\t"
+      "psrlh      %[temp],         %[mask1],          %[eight]      \n\t"
+      "and        %[temp],         %[y],              %[temp]       \n\t"
+      "pshufh     %[u],            %[temp],           %[ushu]       \n\t"
+      "pshufh     %[v],            %[temp],           %[vshu]       \n\t"
 
-    "psrlh      %[y],            %[y],              %[eight]      \n\t"
-    "psllh      %[temp],         %[y],              %[eight]      \n\t"
-    "or         %[y],            %[y],              %[temp]       \n\t"
-    "pmulhuh    %[y],            %[y],              %[yg]         \n\t"
+      "psrlh      %[y],            %[y],              %[eight]      \n\t"
+      "psllh      %[temp],         %[y],              %[eight]      \n\t"
+      "or         %[y],            %[y],              %[temp]       \n\t"
+      "pmulhuh    %[y],            %[y],              %[yg]         \n\t"
 
-    "paddsh     %[b_vec],        %[y],              %[bb]         \n\t"
-    "pmullh     %[temp],         %[u],              %[ub]         \n\t"
-    "psubsh     %[b_vec],        %[b_vec],          %[temp]       \n\t"
-    "psrah      %[b_vec],        %[b_vec],          %[six]        \n\t"
+      "paddsh     %[b_vec],        %[y],              %[bb]         \n\t"
+      "pmullh     %[temp],         %[u],              %[ub]         \n\t"
+      "psubsh     %[b_vec],        %[b_vec],          %[temp]       \n\t"
+      "psrah      %[b_vec],        %[b_vec],          %[six]        \n\t"
 
-    "paddsh     %[g_vec],        %[y],              %[bg]         \n\t"
-    "pmullh     %[temp],         %[u],              %[ug]         \n\t"
-    "psubsh     %[g_vec],        %[g_vec],          %[temp]       \n\t"
-    "pmullh     %[temp],         %[v],              %[vg]         \n\t"
-    "psubsh     %[g_vec],        %[g_vec],          %[temp]       \n\t"
-    "psrah      %[g_vec],        %[g_vec],          %[six]        \n\t"
+      "paddsh     %[g_vec],        %[y],              %[bg]         \n\t"
+      "pmullh     %[temp],         %[u],              %[ug]         \n\t"
+      "psubsh     %[g_vec],        %[g_vec],          %[temp]       \n\t"
+      "pmullh     %[temp],         %[v],              %[vg]         \n\t"
+      "psubsh     %[g_vec],        %[g_vec],          %[temp]       \n\t"
+      "psrah      %[g_vec],        %[g_vec],          %[six]        \n\t"
 
-    "paddsh     %[r_vec],        %[y],              %[br]         \n\t"
-    "pmullh     %[temp],         %[v],              %[vr]         \n\t"
-    "psubsh     %[r_vec],        %[r_vec],          %[temp]       \n\t"
-    "psrah      %[r_vec],        %[r_vec],          %[six]        \n\t"
+      "paddsh     %[r_vec],        %[y],              %[br]         \n\t"
+      "pmullh     %[temp],         %[v],              %[vr]         \n\t"
+      "psubsh     %[r_vec],        %[r_vec],          %[temp]       \n\t"
+      "psrah      %[r_vec],        %[r_vec],          %[six]        \n\t"
 
-    "packushb   %[r_vec],        %[b_vec],          %[r_vec]      \n\t"
-    "packushb   %[g_vec],        %[g_vec],          %[zero]       \n\t"
-    "punpcklwd  %[g_vec],        %[g_vec],          %[alpha]      \n\t"
-    "punpcklbh  %[b_vec],        %[r_vec],          %[g_vec]      \n\t"
-    "punpckhbh  %[r_vec],        %[r_vec],          %[g_vec]      \n\t"
-    "punpcklhw  %[g_vec],        %[b_vec],          %[r_vec]      \n\t"
-    "punpckhhw  %[b_vec],        %[b_vec],          %[r_vec]      \n\t"
+      "packushb   %[r_vec],        %[b_vec],          %[r_vec]      \n\t"
+      "packushb   %[g_vec],        %[g_vec],          %[zero]       \n\t"
+      "punpcklwd  %[g_vec],        %[g_vec],          %[alpha]      \n\t"
+      "punpcklbh  %[b_vec],        %[r_vec],          %[g_vec]      \n\t"
+      "punpckhbh  %[r_vec],        %[r_vec],          %[g_vec]      \n\t"
+      "punpcklhw  %[g_vec],        %[b_vec],          %[r_vec]      \n\t"
+      "punpckhhw  %[b_vec],        %[b_vec],          %[r_vec]      \n\t"
 
-    "gssdlc1    %[g_vec],        0x07(%[rgbbuf_ptr])              \n\t"
-    "gssdrc1    %[g_vec],        0x00(%[rgbbuf_ptr])              \n\t"
-    "gssdlc1    %[b_vec],        0x0f(%[rgbbuf_ptr])              \n\t"
-    "gssdrc1    %[b_vec],        0x08(%[rgbbuf_ptr])              \n\t"
+      "gssdlc1    %[g_vec],        0x07(%[rgbbuf_ptr])              \n\t"
+      "gssdrc1    %[g_vec],        0x00(%[rgbbuf_ptr])              \n\t"
+      "gssdlc1    %[b_vec],        0x0f(%[rgbbuf_ptr])              \n\t"
+      "gssdrc1    %[b_vec],        0x08(%[rgbbuf_ptr])              \n\t"
 
-    "daddiu     %[uyvy_ptr],     %[uyvy_ptr],       0x08          \n\t"
-    "daddiu     %[rgbbuf_ptr],   %[rgbbuf_ptr],     0x10          \n\t"
-    "daddi      %[width],        %[width],          -0x04         \n\t"
-    "bnez       %[width],        1b                               \n\t"
+      "daddiu     %[uyvy_ptr],     %[uyvy_ptr],       0x08          \n\t"
+      "daddiu     %[rgbbuf_ptr],   %[rgbbuf_ptr],     0x10          \n\t"
+      "daddi      %[width],        %[width],          -0x04         \n\t"
+      "bnez       %[width],        1b                               \n\t"
 
-    : [y]"=&f"(y),                         [u]"=&f"(u),
-      [v]"=&f"(v),
-      [b_vec]"=&f"(b_vec),                 [g_vec]"=&f"(g_vec),
-      [r_vec]"=&f"(r_vec),                 [temp]"=&f"(temp),
-      [ub]"=&f"(ub),                       [ug]"=&f"(ug),
-      [vg]"=&f"(vg),                       [vr]"=&f"(vr),
-      [bb]"=&f"(bb),                       [bg]"=&f"(bg),
-      [br]"=&f"(br),                       [yg]"=&f"(yg)
-    : [uyvy_ptr]"r"(src_uyvy),             [rgbbuf_ptr]"r"(rgb_buf),
-      [yuvcons_ptr]"r"(yuvconstants),      [width]"r"(width),
-      [zero]"f"(0x00),                     [five]"f"(0x55),
-      [six]"f"(0x6),                       [mask1]"f"(0xff00ff00ff00ff00),
-      [ushu]"f"(0xA0),                     [vshu]"f"(0xf5),
-      [alpha]"f"(-1),                      [eight]"f"(0x8)
-    : "memory"
-  );
+      : [y] "=&f"(y), [u] "=&f"(u), [v] "=&f"(v), [b_vec] "=&f"(b_vec),
+        [g_vec] "=&f"(g_vec), [r_vec] "=&f"(r_vec), [temp] "=&f"(temp),
+        [ub] "=&f"(ub), [ug] "=&f"(ug), [vg] "=&f"(vg), [vr] "=&f"(vr),
+        [bb] "=&f"(bb), [bg] "=&f"(bg), [br] "=&f"(br), [yg] "=&f"(yg)
+      : [uyvy_ptr] "r"(src_uyvy), [rgbbuf_ptr] "r"(rgb_buf),
+        [yuvcons_ptr] "r"(yuvconstants), [width] "r"(width), [zero] "f"(0x00),
+        [five] "f"(0x55), [six] "f"(0x6), [mask1] "f"(0xff00ff00ff00ff00),
+        [ushu] "f"(0xA0), [vshu] "f"(0xf5), [alpha] "f"(-1), [eight] "f"(0x8)
+      : "memory");
 }
 
 void I422ToRGBARow_MMI(const uint8_t* src_y,
@@ -7648,112 +7547,104 @@ void I422ToRGBARow_MMI(const uint8_t* src_y,
                        int width) {
   uint64_t y, u, v;
   uint64_t b_vec, g_vec, r_vec, temp;
-  uint64_t ub,ug,vg,vr,bb,bg,br,yg;
+  uint64_t ub, ug, vg, vr, bb, bg, br, yg;
 
   __asm__ volatile(
-    "ldc1       %[yg],           0xc0(%[yuvcons_ptr])             \n\t"
-    "ldc1       %[bb],           0x60(%[yuvcons_ptr])             \n\t"
-    "ldc1       %[ub],           0x00(%[yuvcons_ptr])             \n\t"
-    "or         %[ub],           %[ub],             %[mask1]      \n\t"
-    "ldc1       %[bg],           0x80(%[yuvcons_ptr])             \n\t"
-    "ldc1       %[ug],           0x20(%[yuvcons_ptr])             \n\t"
-    "punpcklbh  %[ug],           %[ug],             %[zero]       \n\t"
-    "pshufh     %[ug],           %[ug],             %[zero]       \n\t"
-    "ldc1       %[vg],           0x20(%[yuvcons_ptr])             \n\t"
-    "punpcklbh  %[vg],           %[vg],             %[zero]       \n\t"
-    "pshufh     %[vg],           %[vg],             %[five]       \n\t"
-    "ldc1       %[br],           0xa0(%[yuvcons_ptr])             \n\t"
-    "ldc1       %[vr],           0x40(%[yuvcons_ptr])             \n\t"
-    "punpcklbh  %[vr],           %[vr],             %[zero]       \n\t"
-    "pshufh     %[vr],           %[vr],             %[five]       \n\t"
-    "or         %[vr],           %[vr],             %[mask1]      \n\t"
+      "ldc1       %[yg],           0xc0(%[yuvcons_ptr])             \n\t"
+      "ldc1       %[bb],           0x60(%[yuvcons_ptr])             \n\t"
+      "ldc1       %[ub],           0x00(%[yuvcons_ptr])             \n\t"
+      "or         %[ub],           %[ub],             %[mask1]      \n\t"
+      "ldc1       %[bg],           0x80(%[yuvcons_ptr])             \n\t"
+      "ldc1       %[ug],           0x20(%[yuvcons_ptr])             \n\t"
+      "punpcklbh  %[ug],           %[ug],             %[zero]       \n\t"
+      "pshufh     %[ug],           %[ug],             %[zero]       \n\t"
+      "ldc1       %[vg],           0x20(%[yuvcons_ptr])             \n\t"
+      "punpcklbh  %[vg],           %[vg],             %[zero]       \n\t"
+      "pshufh     %[vg],           %[vg],             %[five]       \n\t"
+      "ldc1       %[br],           0xa0(%[yuvcons_ptr])             \n\t"
+      "ldc1       %[vr],           0x40(%[yuvcons_ptr])             \n\t"
+      "punpcklbh  %[vr],           %[vr],             %[zero]       \n\t"
+      "pshufh     %[vr],           %[vr],             %[five]       \n\t"
+      "or         %[vr],           %[vr],             %[mask1]      \n\t"
 
-    "1:                                                           \n\t"
-    "gslwlc1    %[y],            0x03(%[y_ptr])                   \n\t"
-    "gslwrc1    %[y],            0x00(%[y_ptr])                   \n\t"
-    "gslwlc1    %[u],            0x03(%[u_ptr])                   \n\t"
-    "gslwrc1    %[u],            0x00(%[u_ptr])                   \n\t"
-    "gslwlc1    %[v],            0x03(%[v_ptr])                   \n\t"
-    "gslwrc1    %[v],            0x00(%[v_ptr])                   \n\t"
+      "1:                                                           \n\t"
+      "gslwlc1    %[y],            0x03(%[y_ptr])                   \n\t"
+      "gslwrc1    %[y],            0x00(%[y_ptr])                   \n\t"
+      "gslwlc1    %[u],            0x03(%[u_ptr])                   \n\t"
+      "gslwrc1    %[u],            0x00(%[u_ptr])                   \n\t"
+      "gslwlc1    %[v],            0x03(%[v_ptr])                   \n\t"
+      "gslwrc1    %[v],            0x00(%[v_ptr])                   \n\t"
 
-    "punpcklbh  %[y],            %[y],              %[y]          \n\t"
-    "pmulhuh    %[y],            %[y],              %[yg]         \n\t"
+      "punpcklbh  %[y],            %[y],              %[y]          \n\t"
+      "pmulhuh    %[y],            %[y],              %[yg]         \n\t"
 
-    "punpcklbh  %[u],            %[u],              %[u]          \n\t"
-    "punpcklbh  %[u],            %[u],              %[zero]       \n\t"
-    "paddsh     %[b_vec],        %[y],              %[bb]         \n\t"
-    "pmullh     %[temp],         %[u],              %[ub]         \n\t"
-    "psubsh     %[b_vec],        %[b_vec],          %[temp]       \n\t"
-    "psrah      %[b_vec],        %[b_vec],          %[six]        \n\t"
+      "punpcklbh  %[u],            %[u],              %[u]          \n\t"
+      "punpcklbh  %[u],            %[u],              %[zero]       \n\t"
+      "paddsh     %[b_vec],        %[y],              %[bb]         \n\t"
+      "pmullh     %[temp],         %[u],              %[ub]         \n\t"
+      "psubsh     %[b_vec],        %[b_vec],          %[temp]       \n\t"
+      "psrah      %[b_vec],        %[b_vec],          %[six]        \n\t"
 
-    "punpcklbh  %[v],            %[v],              %[v]          \n\t"
-    "punpcklbh  %[v],            %[v],              %[zero]       \n\t"
-    "paddsh     %[g_vec],        %[y],              %[bg]         \n\t"
-    "pmullh     %[temp],         %[u],              %[ug]         \n\t"
-    "psubsh     %[g_vec],        %[g_vec],          %[temp]       \n\t"
-    "pmullh     %[temp],         %[v],              %[vg]         \n\t"
-    "psubsh     %[g_vec],        %[g_vec],          %[temp]       \n\t"
-    "psrah      %[g_vec],        %[g_vec],          %[six]        \n\t"
+      "punpcklbh  %[v],            %[v],              %[v]          \n\t"
+      "punpcklbh  %[v],            %[v],              %[zero]       \n\t"
+      "paddsh     %[g_vec],        %[y],              %[bg]         \n\t"
+      "pmullh     %[temp],         %[u],              %[ug]         \n\t"
+      "psubsh     %[g_vec],        %[g_vec],          %[temp]       \n\t"
+      "pmullh     %[temp],         %[v],              %[vg]         \n\t"
+      "psubsh     %[g_vec],        %[g_vec],          %[temp]       \n\t"
+      "psrah      %[g_vec],        %[g_vec],          %[six]        \n\t"
 
-    "paddsh     %[r_vec],        %[y],              %[br]         \n\t"
-    "pmullh     %[temp],         %[v],              %[vr]         \n\t"
-    "psubsh     %[r_vec],        %[r_vec],          %[temp]       \n\t"
-    "psrah      %[r_vec],        %[r_vec],          %[six]        \n\t"
+      "paddsh     %[r_vec],        %[y],              %[br]         \n\t"
+      "pmullh     %[temp],         %[v],              %[vr]         \n\t"
+      "psubsh     %[r_vec],        %[r_vec],          %[temp]       \n\t"
+      "psrah      %[r_vec],        %[r_vec],          %[six]        \n\t"
 
-    "packushb   %[r_vec],        %[b_vec],          %[r_vec]      \n\t"
-    "packushb   %[g_vec],        %[g_vec],          %[zero]       \n\t"
-    "punpcklwd  %[g_vec],        %[alpha],          %[g_vec]      \n\t"
-    "punpcklbh  %[b_vec],        %[g_vec],          %[r_vec]      \n\t"
-    "punpckhbh  %[r_vec],        %[g_vec],          %[r_vec]      \n\t"
-    "punpcklhw  %[g_vec],        %[b_vec],          %[r_vec]      \n\t"
-    "punpckhhw  %[b_vec],        %[b_vec],          %[r_vec]      \n\t"
+      "packushb   %[r_vec],        %[b_vec],          %[r_vec]      \n\t"
+      "packushb   %[g_vec],        %[g_vec],          %[zero]       \n\t"
+      "punpcklwd  %[g_vec],        %[alpha],          %[g_vec]      \n\t"
+      "punpcklbh  %[b_vec],        %[g_vec],          %[r_vec]      \n\t"
+      "punpckhbh  %[r_vec],        %[g_vec],          %[r_vec]      \n\t"
+      "punpcklhw  %[g_vec],        %[b_vec],          %[r_vec]      \n\t"
+      "punpckhhw  %[b_vec],        %[b_vec],          %[r_vec]      \n\t"
 
-    "gssdlc1    %[g_vec],       0x07(%[rgbbuf_ptr])               \n\t"
-    "gssdrc1    %[g_vec],       0x00(%[rgbbuf_ptr])               \n\t"
-    "gssdlc1    %[b_vec],       0x0f(%[rgbbuf_ptr])               \n\t"
-    "gssdrc1    %[b_vec],       0x08(%[rgbbuf_ptr])               \n\t"
+      "gssdlc1    %[g_vec],       0x07(%[rgbbuf_ptr])               \n\t"
+      "gssdrc1    %[g_vec],       0x00(%[rgbbuf_ptr])               \n\t"
+      "gssdlc1    %[b_vec],       0x0f(%[rgbbuf_ptr])               \n\t"
+      "gssdrc1    %[b_vec],       0x08(%[rgbbuf_ptr])               \n\t"
 
-    "daddiu     %[y_ptr],        %[y_ptr],          0x04          \n\t"
-    "daddiu     %[u_ptr],        %[u_ptr],          0x02          \n\t"
-    "daddiu     %[v_ptr],        %[v_ptr],          0x02          \n\t"
-    "daddiu     %[rgbbuf_ptr],   %[rgbbuf_ptr],     0x10          \n\t"
-    "daddi      %[width],        %[width],          -0x04         \n\t"
-    "bnez       %[width],        1b                               \n\t"
+      "daddiu     %[y_ptr],        %[y_ptr],          0x04          \n\t"
+      "daddiu     %[u_ptr],        %[u_ptr],          0x02          \n\t"
+      "daddiu     %[v_ptr],        %[v_ptr],          0x02          \n\t"
+      "daddiu     %[rgbbuf_ptr],   %[rgbbuf_ptr],     0x10          \n\t"
+      "daddi      %[width],        %[width],          -0x04         \n\t"
+      "bnez       %[width],        1b                               \n\t"
 
-    : [y]"=&f"(y),                         [u]"=&f"(u),
-      [v]"=&f"(v),
-      [b_vec]"=&f"(b_vec),                 [g_vec]"=&f"(g_vec),
-      [r_vec]"=&f"(r_vec),                 [temp]"=&f"(temp),
-      [ub]"=&f"(ub),                       [ug]"=&f"(ug),
-      [vg]"=&f"(vg),                       [vr]"=&f"(vr),
-      [bb]"=&f"(bb),                       [bg]"=&f"(bg),
-      [br]"=&f"(br),                       [yg]"=&f"(yg)
-    : [y_ptr]"r"(src_y),                   [u_ptr]"r"(src_u),
-      [v_ptr]"r"(src_v),                   [rgbbuf_ptr]"r"(rgb_buf),
-      [yuvcons_ptr]"r"(yuvconstants),      [width]"r"(width),
-      [zero]"f"(0x00),                     [five]"f"(0x55),
-      [six]"f"(0x6),                       [mask1]"f"(0xff00ff00ff00ff00),
-      [alpha]"f"(-1)
-    : "memory"
-  );
+      : [y] "=&f"(y), [u] "=&f"(u), [v] "=&f"(v), [b_vec] "=&f"(b_vec),
+        [g_vec] "=&f"(g_vec), [r_vec] "=&f"(r_vec), [temp] "=&f"(temp),
+        [ub] "=&f"(ub), [ug] "=&f"(ug), [vg] "=&f"(vg), [vr] "=&f"(vr),
+        [bb] "=&f"(bb), [bg] "=&f"(bg), [br] "=&f"(br), [yg] "=&f"(yg)
+      : [y_ptr] "r"(src_y), [u_ptr] "r"(src_u), [v_ptr] "r"(src_v),
+        [rgbbuf_ptr] "r"(rgb_buf), [yuvcons_ptr] "r"(yuvconstants),
+        [width] "r"(width), [zero] "f"(0x00), [five] "f"(0x55), [six] "f"(0x6),
+        [mask1] "f"(0xff00ff00ff00ff00), [alpha] "f"(-1)
+      : "memory");
 }
 
 void ARGBSetRow_MMI(uint8_t* dst_argb, uint32_t v32, int width) {
-  __asm__ volatile (
-    "punpcklwd  %[v32],          %[v32],            %[v32]        \n\t"
-    "1:                                                           \n\t"
-    "gssdlc1    %[v32],          0x07(%[dst_ptr])                 \n\t"
-    "gssdrc1    %[v32],          0x00(%[dst_ptr])                 \n\t"
-    "gssdlc1    %[v32],          0x0f(%[dst_ptr])                 \n\t"
-    "gssdrc1    %[v32],          0x08(%[dst_ptr])                 \n\t"
+  __asm__ volatile(
+      "punpcklwd  %[v32],          %[v32],            %[v32]        \n\t"
+      "1:                                                           \n\t"
+      "gssdlc1    %[v32],          0x07(%[dst_ptr])                 \n\t"
+      "gssdrc1    %[v32],          0x00(%[dst_ptr])                 \n\t"
+      "gssdlc1    %[v32],          0x0f(%[dst_ptr])                 \n\t"
+      "gssdrc1    %[v32],          0x08(%[dst_ptr])                 \n\t"
 
-    "daddi      %[width],        %[width],         -0x04          \n\t"
-    "daddiu     %[dst_ptr],      %[dst_ptr],        0x10          \n\t"
-    "bnez       %[width],        1b                               \n\t"
-    : [v32]"+&f"(v32)
-    : [dst_ptr]"r"(dst_argb),           [width]"r"(width)
-    : "memory"
-  );
+      "daddi      %[width],        %[width],         -0x04          \n\t"
+      "daddiu     %[dst_ptr],      %[dst_ptr],        0x10          \n\t"
+      "bnez       %[width],        1b                               \n\t"
+      : [v32] "+&f"(v32)
+      : [dst_ptr] "r"(dst_argb), [width] "r"(width)
+      : "memory");
 }
 
 // 10 bit YUV to ARGB
diff --git a/source/row_neon.cc b/source/row_neon.cc
index 99e7db97f..b379bbf61 100644
--- a/source/row_neon.cc
+++ b/source/row_neon.cc
@@ -2065,6 +2065,49 @@ void RAWToYRow_NEON(const uint8_t* src_raw, uint8_t* dst_y, int width) {
       : "cc", "memory", "d0", "d1", "d2", "d3", "d4", "d5", "d6", "d7", "q8");
 }
 
+
+void RGB24ToYJRow_NEON(const uint8_t* src_rgb24, uint8_t* dst_yj, int width) {
+  asm volatile(
+      "vmov.u8    d4, #29                        \n"  // B * 0.1140 coefficient
+      "vmov.u8    d5, #150                       \n"  // G * 0.5870 coefficient
+      "vmov.u8    d6, #77                        \n"  // R * 0.2990 coefficient
+      "1:                                        \n"
+      "vld3.8     {d0, d1, d2}, [%0]!            \n"  // load 8 pixels of RGB24.
+      "subs       %2, %2, #8                     \n"  // 8 processed per loop.
+      "vmull.u8   q4, d0, d4                     \n"  // B
+      "vmlal.u8   q4, d1, d5                     \n"  // G
+      "vmlal.u8   q4, d2, d6                     \n"  // R
+      "vqrshrn.u16 d0, q4, #8                    \n"  // 16 bit to 8 bit Y
+      "vst1.8     {d0}, [%1]!                    \n"  // store 8 pixels Y.
+      "bgt        1b                             \n"
+      : "+r"(src_rgb24),  // %0
+        "+r"(dst_yj),     // %1
+        "+r"(width)       // %2
+      :
+      : "cc", "memory", "d0", "d1", "d2", "d3", "d4", "d5", "d6", "q4");
+}
+
+void RAWToYJRow_NEON(const uint8_t* src_raw, uint8_t* dst_yj, int width) {
+  asm volatile(
+      "vmov.u8    d6, #29                        \n"  // B * 0.1140 coefficient
+      "vmov.u8    d5, #150                       \n"  // G * 0.5870 coefficient
+      "vmov.u8    d4, #77                        \n"  // R * 0.2990 coefficient
+      "1:                                        \n"
+      "vld3.8     {d0, d1, d2}, [%0]!            \n"  // load 8 pixels of RAW.
+      "subs       %2, %2, #8                     \n"  // 8 processed per loop.
+      "vmull.u8   q4, d0, d4                     \n"  // B
+      "vmlal.u8   q4, d1, d5                     \n"  // G
+      "vmlal.u8   q4, d2, d6                     \n"  // R
+      "vqrshrn.u16 d0, q4, #8                    \n"  // 16 bit to 8 bit Y
+      "vst1.8     {d0}, [%1]!                    \n"  // store 8 pixels Y.
+      "bgt        1b                             \n"
+      : "+r"(src_raw),  // %0
+        "+r"(dst_yj),   // %1
+        "+r"(width)     // %2
+      :
+      : "cc", "memory", "d0", "d1", "d2", "d3", "d4", "d5", "d6", "q4");
+}
+
 // Bilinear filter 16x2 -> 16x1
 void InterpolateRow_NEON(uint8_t* dst_ptr,
                          const uint8_t* src_ptr,
diff --git a/source/row_neon64.cc b/source/row_neon64.cc
index 8223b4737..197efb2a3 100644
--- a/source/row_neon64.cc
+++ b/source/row_neon64.cc
@@ -2103,6 +2103,48 @@ void RAWToYRow_NEON(const uint8_t* src_raw, uint8_t* dst_y, int width) {
       : "cc", "memory", "v0", "v1", "v2", "v3", "v4", "v5", "v6", "v7", "v16");
 }
 
+void RGB24ToYJRow_NEON(const uint8_t* src_rgb24, uint8_t* dst_yj, int width) {
+  asm volatile(
+      "movi       v4.8b, #29                     \n"  // B * 0.1140 coefficient
+      "movi       v5.8b, #150                    \n"  // G * 0.5870 coefficient
+      "movi       v6.8b, #77                     \n"  // R * 0.2990 coefficient
+      "1:                                        \n"
+      "ld3        {v0.8b,v1.8b,v2.8b}, [%0], #24 \n"  // load 8 pixels.
+      "subs       %w2, %w2, #8                   \n"  // 8 processed per loop.
+      "umull      v0.8h, v0.8b, v4.8b            \n"  // B
+      "umlal      v0.8h, v1.8b, v5.8b            \n"  // G
+      "umlal      v0.8h, v2.8b, v6.8b            \n"  // R
+      "uqrshrn    v0.8b, v0.8h, #8               \n"  // 16 bit to 8 bit Y
+      "st1        {v0.8b}, [%1], #8              \n"  // store 8 pixels Y.
+      "b.gt       1b                             \n"
+      : "+r"(src_rgb24),  // %0
+        "+r"(dst_yj),     // %1
+        "+r"(width)       // %2
+      :
+      : "cc", "memory", "v0", "v1", "v2", "v3", "v4", "v5", "v6");
+}
+
+void RAWToYJRow_NEON(const uint8_t* src_raw, uint8_t* dst_yj, int width) {
+  asm volatile(
+      "movi       v6.8b, #29                     \n"  // B * 0.1140 coefficient
+      "movi       v5.8b, #150                    \n"  // G * 0.5870 coefficient
+      "movi       v4.8b, #77                     \n"  // R * 0.2990 coefficient
+      "1:                                        \n"
+      "ld3        {v0.8b,v1.8b,v2.8b}, [%0], #24 \n"  // load 8 pixels.
+      "subs       %w2, %w2, #8                   \n"  // 8 processed per loop.
+      "umull      v0.8h, v0.8b, v4.8b            \n"  // B
+      "umlal      v0.8h, v1.8b, v5.8b            \n"  // G
+      "umlal      v0.8h, v2.8b, v6.8b            \n"  // R
+      "uqrshrn    v0.8b, v0.8h, #8               \n"  // 16 bit to 8 bit Y
+      "st1        {v0.8b}, [%1], #8              \n"  // store 8 pixels Y.
+      "b.gt       1b                             \n"
+      : "+r"(src_raw),  // %0
+        "+r"(dst_yj),   // %1
+        "+r"(width)     // %2
+      :
+      : "cc", "memory", "v0", "v1", "v2", "v3", "v4", "v5", "v6");
+}
+
 // Bilinear filter 16x2 -> 16x1
 void InterpolateRow_NEON(uint8_t* dst_ptr,
                          const uint8_t* src_ptr,
diff --git a/unit_test/convert_test.cc b/unit_test/convert_test.cc
index 698cd9562..af1c94ad6 100644
--- a/unit_test/convert_test.cc
+++ b/unit_test/convert_test.cc
@@ -1245,6 +1245,7 @@ TESTATOB(RAW, 3, 3, 1, RGBA, 4, 4, 1, 0)
 TESTATOB(RAW, 3, 3, 1, RGB24, 3, 3, 1, 0)
 TESTATOB(RGB24, 3, 3, 1, ARGB, 4, 4, 1, 0)
 TESTATOB(RGB24, 3, 3, 1, J400, 1, 1, 1, 0)
+TESTATOB(RAW, 3, 3, 1, J400, 1, 1, 1, 0)
 #ifdef INTEL_TEST
 TESTATOB(RGB565, 2, 2, 1, ARGB, 4, 4, 1, 0)
 #endif