libyuv

mirror of https://chromium.googlesource.com/libyuv/libyuv synced 2025-12-07 09:16:48 +08:00

Author	SHA1	Message	Date
Frank Barchard	753a91cbcb	fix fmov build error on gcc 4.7 for neon64 TBR=kjellander@chromium.org BUG=libyuv:732 TEST=LibYUVPlanarTest.TestScaleSumSamples_Opt Change-Id: If80e9510ad5668b080b9384e656c0bd73cf5b4a6 Reviewed-on: https://chromium-review.googlesource.com/663764 Commit-Queue: Frank Barchard <fbarchard@google.com> Reviewed-by: Frank Barchard <fbarchard@google.com> Reviewed-by: Cheng Wang <wangcheng@google.com>	2017-09-12 22:46:33 +00:00
Frank Barchard	1e16cb5c38	SplitRGBPlane and MergeRGBPlane functions added Converts packed RGB to planar and back. TBR=kjellander@chromium.org BUG=libyuv:728 TEST=MergeRGBPlane_Opt and SplitRGBPlane_Opt unittests added Change-Id: Ida59af940afcb1fc4a48bbf62c714f592665c3cc Reviewed-on: https://chromium-review.googlesource.com/658069 Reviewed-by: Frank Barchard <fbarchard@google.com> Reviewed-by: Cheng Wang <wangcheng@google.com>	2017-09-11 21:02:04 +00:00
Frank Barchard	8f5e9cd9eb	ScaleRowUp2_16_C port of NEON to C Single pass upsample with bilinear filter. NEON version optimized - Pixel Sailfish QC821 Was TestScaleRowUp2_16 (5741 ms) Now TestScaleRowUp2_16 (4484 ms) C TestScaleRowUp2_16 (6555 ms) TBR=kjellander@chromium.org BUG=libyuv:718 TEST=LibYUVScaleTest.TestScaleRowUp2_16 (709 ms) Change-Id: Ib04ceb53e0ab644a392c39c3396e313530161d92 Reviewed-on: https://chromium-review.googlesource.com/646701 Reviewed-by: Frank Barchard <fbarchard@google.com> Reviewed-by: Cheng Wang <wangcheng@google.com>	2017-09-05 21:40:39 +00:00
Manojkumar Bhosale	2621c91bf1	Add MSA optimized HammingDistance and SumSquareError functions TBR=kjellander@chromium.org R=fbarchard@google.com Bug:libyuv:634 Change-Id: Id0126ba5aff38817525b1efa6044f1dc2cfa1a36 Reviewed-on: https://chromium-review.googlesource.com/625739 Reviewed-by: Frank Barchard <fbarchard@google.com>	2017-09-05 21:32:33 +00:00
Frank Barchard	0acc67712f	clang format / lint cleanup for arm scale functions TBR=kjellander@chromium.org BUG=libyuv:725 TEST=lint Change-Id: I76f777427f9b1458faba12796fb0011d8e3228d5 Reviewed-on: https://chromium-review.googlesource.com/646586 Reviewed-by: Cheng Wang <wangcheng@google.com>	2017-08-31 22:41:08 +00:00
Frank Barchard	a826dd7112	ARGBScaleDown by 2 with nearest neighbor optimized TBR=kjellander@chromium.org BUG=libyuv:723 TEST=ScaleDownBy2_None Change-Id: I6861e62d3a67dde916b87fdc46eb02f2b4ee9f17 Reviewed-on: https://chromium-review.googlesource.com/644149 Reviewed-by: Frank Barchard <fbarchard@google.com> Reviewed-by: Cheng Wang <wangcheng@google.com>	2017-08-30 23:22:14 +00:00
Frank Barchard	1c85f98846	Scale down by 2 linear use 'half add' to average pixels. Use ld2 to load even and odd pixels into different registers and hadd to half add them to each other. Previously used paired and shift. TBR=kjellander@chromium.org BUG=libyuv:723 TEST=ScaleDownBy2_Linear Change-Id: I3ec72bcf7d4c746837217496c301eb4e4ad963cf Reviewed-on: https://chromium-review.googlesource.com/644113 Reviewed-by: Cheng Wang <wangcheng@google.com>	2017-08-30 22:10:32 +00:00
Frank Barchard	e200738d82	Scale Down by 2 use ld2 and urhadd urhadd is a rounded average. Linear filter wants to average horizontally, so use ld2 to separate even and odd pixels. TBR=jkellander@chromium.org BUG=None TEST=LibYUVScaleTest.ScaleDownBy2 Change-Id: Id667288a030e72ce8e1c1d6719b69c555c0db063 Reviewed-on: https://chromium-review.googlesource.com/642448 Commit-Queue: Frank Barchard <fbarchard@google.com> Reviewed-by: Cheng Wang <wangcheng@google.com>	2017-08-30 01:18:11 +00:00
Manojkumar Bhosale	b6e8e9aa97	Add MSA optimized HalfFloatRow function TBR=kjellander@chromium.org R=fbarchard@google.com Bug:libyuv:634 Change-Id: I54a2c57d66093b887c8ba31fd7a21a102165393a Reviewed-on: https://chromium-review.googlesource.com/628557 Reviewed-by: Frank Barchard <fbarchard@google.com>	2017-08-29 18:40:08 +00:00
Frank Barchard	f0a9d6d206	Gaussian reorder for benefit of A73 Roughly. instead of 4 loads and 8 multiples, use 1 load and 2 multiples 4 times over. The original code, as with the C code from clang and gcc, did all the loads, then all the math, then the store. The new code does a load, then the math, then the next load, etc. This schedules better on current arm 64 cpus. Number of registers also reduced, reusing the same registers. HiSilicon ARM A73: Now TestGaussRow_Opt (890 ms) TestGaussCol_Opt (571 ms) Was TestGaussRow_Opt (1061 ms) TestGaussCol_Opt (595 ms) Qualcomm 821 (Pixel): Now TestGaussRow_Opt (571 ms) TestGaussCol_Opt (474 ms) Was TestGaussRow_Opt (751 ms) TestGaussCol_Opt (520 ms) TBR=kjellander@chromium.org BUG=libyuv:719 TEST=LibYUVPlanarTest.TestGaussRow_Opt Reviewed-on: https://chromium-review.googlesource.com/627478 Reviewed-by: Cheng Wang <wangcheng@google.com> Reviewed-by: Frank Barchard <fbarchard@google.com> Change-Id: I5ec81191d460801f0d4a89f0384f89925ff036de Reviewed-on: https://chromium-review.googlesource.com/634448 Commit-Queue: Frank Barchard <fbarchard@google.com>	2017-08-25 19:00:05 +00:00
Frank Barchard	ad2409443c	GaussRow_NEON from int to short [ RUN ] LibYUVPlanarTest.TestGaussRow_Opt [ OK ] LibYUVPlanarTest.TestGaussRow_Opt (601 ms) [ RUN ] LibYUVPlanarTest.TestGaussCol_Opt [ OK ] LibYUVPlanarTest.TestGaussCol_Opt (522 ms) TBR=kjellander@chromium.org BUG=libyuv:719 TEST=LibYUVPlanarTest.TestGaussRow_Opt Change-Id: I1242b98672538e889f3ab48f215d6dabc7144ea7 Reviewed-on: https://chromium-review.googlesource.com/627478 Reviewed-by: Cheng Wang <wangcheng@google.com> Reviewed-by: Frank Barchard <fbarchard@google.com>	2017-08-24 01:09:23 +00:00
Frank Barchard	1cc539f7d6	GaussCol_NEON resample from short to int Old NEON LibYUVPlanarTest.TestGaussCol_Opt (916 ms) New NEON LibYUVPlanarTest.TestGaussCol_Opt (520 ms) C vectorized LibYUVPlanarTest.TestGaussCol_Opt (739 ms) TBR=kjellander@chromium.org BUG=libyuv:719 TEST=LibYUVPlanarTest.TestGaussCol_Opt Change-Id: I863b66f700f7a71fcb08a2eabb03240fdaf8a238 Reviewed-on: https://chromium-review.googlesource.com/626938 Reviewed-by: Cheng Wang <wangcheng@google.com>	2017-08-22 23:07:17 +00:00
Frank Barchard	c5bad809b1	Gauss unittest, Scale comments for neon64 half size updated [ RUN ] LibYUVPlanarTest.TestGaussRow_Opt [ OK ] LibYUVPlanarTest.TestGaussRow_Opt (1274 ms) [ RUN ] LibYUVPlanarTest.TestGaussCol_Opt [ OK ] LibYUVPlanarTest.TestGaussCol_Opt (916 ms) TBR=kjellander@chromium.org BUG=libyuv:719 TEST=LibYUVPlanarTest.TestGaussRow_Opt Change-Id: Id480f3870c40c2b40dfb9f072cb7118ebad41afc Reviewed-on: https://chromium-review.googlesource.com/624701 Reviewed-by: Cheng Wang <wangcheng@google.com>	2017-08-21 23:41:46 +00:00
Frank Barchard	0c957d183e	Gaussian blur NEON optimized TBR=kjellander@chromium.org BUG=libyuv:719 TEST=TestGaussCol_NEON Change-Id: I52cb6dbfd0cab4a30205c93b6a528ef49e9ab529 Reviewed-on: https://chromium-review.googlesource.com/621708 Reviewed-by: Cheng Wang <wangcheng@google.com>	2017-08-21 21:18:32 +00:00
Frank Barchard	8cd3e4f3f2	Add MSA optimized ScaleFilterCols, ScaleARGBCols, ScaleARGBFilterCols and ScaleRowDown34 functions TBR=kjellander@chromium.org R=fbarchard@google.com Bug:libyuv:634 Change-Id: Ib139b9701fc67e24d27a6886377c0cb8b2773fda Reviewed-on: https://chromium-review.googlesource.com/620791 Reviewed-by: Frank Barchard <fbarchard@google.com>	2017-08-18 17:23:27 +00:00
Frank Barchard	78e44628c6	Add MSA optimized SplitUV, Set, MirrorUV, SobelX and SobelY row functions. TBR=kjellander@chromium.org R=fbarchard@google.com Bug:libyuv:634 Change-Id: Ie2342f841f1bb8469fc4631b784eddd804f5d53e Reviewed-on: https://chromium-review.googlesource.com/616765 Reviewed-by: Frank Barchard <fbarchard@google.com>	2017-08-17 18:39:22 +00:00
Frank Barchard	bb17da97cf	Test C vs NEON for ScaleDown2Box_16 TBR=kjellander@chromium.org BUG=libyuv:718 TEST=LibYUVScaleTest.TestScaleRowDown2Box_16 Change-Id: Ic74d29d6f14983ff26e8af541ef702a0f8bf3f17 Reviewed-on: https://chromium-review.googlesource.com/616189 Reviewed-by: Cheng Wang <wangcheng@google.com>	2017-08-16 22:18:48 +00:00
Frank Barchard	7e59ee4c75	Upsample 8x2 pixels to 16x1 with bilinear filtering Downsample 16x2 to 8x1 with box filtering [ RUN ] LibYUVScaleTest.TestScaleRowUp2_16 [ OK ] LibYUVScaleTest.TestScaleRowUp2_16 (579 ms) [ RUN ] LibYUVScaleTest.TestScaleRowDown2Box_16 [ OK ] LibYUVScaleTest.TestScaleRowDown2Box_16 (329 ms) [----------] 2 tests from LibYUVScaleTest (909 ms total) TBR=kjellander@chromium.org BUG=libyuv:718 TEST=LibYUVScaleTest.TestScaleRowUp2_16 and LibYUVScaleTest.TestScaleRowDown2Box_16 Change-Id: I457d44123f2751e5f71bf3935401fff74b8e9db2 Reviewed-on: https://chromium-review.googlesource.com/608876 Reviewed-by: Cheng Wang <wangcheng@google.com>	2017-08-15 22:28:15 +00:00
Frank Barchard	56bbcdf422	Reintroduce the max version of scale add ScaleMaxSamples_NEON function with max done on original values. TBR=kjellander@chromium.org BUG=libyuv:717 TEST=LibYUVPlanarTest.TestScaleMaxSamples_Opt Change-Id: Id99338860782b10ffd24f66242eb42014c2e229e Reviewed-on: https://chromium-review.googlesource.com/614685 Reviewed-by: Frank Barchard <fbarchard@google.com> Reviewed-by: Cheng Wang <wangcheng@google.com>	2017-08-14 23:33:56 +00:00
Manojkumar Bhosale	dbd7c1a9c5	Add MSA optimized ARGBExtractAlpha, ARGBBlend, ARGBQuantize and ARGBColorMatrix row functions TBR=kjellander@chromium.org R=fbarchard@google.com Bug:libyuv:634 Change-Id: I17bd3f87336f613ad363af7d7b9d7af49d725e56 Reviewed-on: https://chromium-review.googlesource.com/613100 Reviewed-by: Frank Barchard <fbarchard@google.com>	2017-08-14 17:38:31 +00:00
Frank Barchard	83ca1abe09	Change ScaleSumSamples to return Sum of Squares TBR=kjellander@chromium.org BUG=libyuv:717 TEST=LibYUVPlanarTest.TestScaleSumSamples_Opt Change-Id: I5208666f3968c5c4b0f1b0c951f24216d78ee3fe Reviewed-on: https://chromium-review.googlesource.com/607184 Reviewed-by: Cheng Wang <wangcheng@google.com>	2017-08-09 22:19:45 +00:00
Frank Barchard	8676ad7004	scale float samples and return max value BUG=libyuv:717 TEST=ScaleSum unittest to compare C vs Arm implementation TBR=kjellander@chromium.org Change-Id: Iaa7af5547d979aad4722f868d31b405340115748 Reviewed-on: https://chromium-review.googlesource.com/600534 Reviewed-by: Cheng Wang <wangcheng@google.com>	2017-08-04 23:34:30 +00:00
Frank Barchard	27036e33e8	Revert "include <new> header for benefit of new clang builds" This reverts commit 1dda4cb0b7bd564e646d6ec2efee497fcd7146ca. Reason for revert: build error on jpeg FILE Original change's description: > include <new> header for benefit of new clang builds > > TBR=kjellander@chromium.org > BUG=libyuv:712 > TEST=local builds still work > > Change-Id: I040e8edc40aafd820d2a29629fe7aec5c049bc6b > Reviewed-on: https://chromium-review.googlesource.com/576971 > Reviewed-by: Frank Barchard <fbarchard@google.com> > Commit-Queue: Frank Barchard <fbarchard@google.com> TBR=kjellander@chromium.org,fbarchard@google.com # Not skipping CQ checks because original CL landed > 1 day ago. Bug: libyuv:712 Change-Id: I4cf4e26eadb476017dc95e6c9578092204f088a3 Reviewed-on: https://chromium-review.googlesource.com/601211 Commit-Queue: Frank Barchard <fbarchard@google.com> Reviewed-by: Frank Barchard <fbarchard@google.com>	2017-08-03 22:03:47 +00:00
Frank Barchard	6d083e2d12	clang 6 build disable some msa functions R=kjellander@chromium.org Bug: libyuv:715 Test: gn gen out/Release "--args=is_debug=false target_os=\"android\" target_cpu=\"mips64el\" mips_arch_variant=\"r6\" mips_use_msa=true is_component_build=true is_clang=true" Change-Id: Ia3943b0afc02e05a8bc32350719b296b0b9d5479 Reviewed-on: https://chromium-review.googlesource.com/592720 Reviewed-by: Cheng Wang <wangcheng@google.com>	2017-08-03 17:44:35 +00:00
Frank Barchard	1dda4cb0b7	include <new> header for benefit of new clang builds TBR=kjellander@chromium.org BUG=libyuv:712 TEST=local builds still work Change-Id: I040e8edc40aafd820d2a29629fe7aec5c049bc6b Reviewed-on: https://chromium-review.googlesource.com/576971 Reviewed-by: Frank Barchard <fbarchard@google.com> Commit-Queue: Frank Barchard <fbarchard@google.com>	2017-07-19 17:47:31 +00:00
Frank Barchard	6c94ad13b5	Remove ARM NaCL macros from source NaCL has been disabled for awhile, so the code will still build, but only with C versions. This change removes the MEMACCESS() macros from Neon and Neon64 source. BUG=libyuv:702 TEST=try bots build for arm. R=kjellander@chromium.org Change-Id: Id581a5c8ff71e18cc69595e7fee9337f97c44a19 Reviewed-on: https://chromium-review.googlesource.com/528332 Reviewed-by: Cheng Wang <wangcheng@google.com> Commit-Queue: Frank Barchard <fbarchard@google.com>	2017-06-09 22:22:07 +00:00
Frank Barchard	5f94a33e0c	Lint fix for C casting for rotation code on arm instead of casting int to int64, pass the int and use %w modifier to use the word version of the register. TBR=kjellander@chromium.org BUG=libyuv:706 TEST=git cl lint R=wangcheng@google.com Change-Id: Iee5a70f04d928903ca8efac00066b8821a465e36 Reviewed-on: https://chromium-review.googlesource.com/528381 Reviewed-by: Cheng Wang <wangcheng@google.com> Reviewed-by: Frank Barchard <fbarchard@google.com>	2017-06-09 00:51:00 +00:00
Frank Barchard	d981495b42	Hamming Distance using 16 bit accumulators Summing 16 bit hamming codes restricts the maximum length, but saves an inner loop instruction. The outer loop can sum the values. 32 bit Neon Now BenchmarkHammingDistance_Opt (78 ms) Was BenchmarkHammingDistance_Opt (92 ms) 64 bit Neon Now BenchmarkHammingDistance_Opt (85 ms) Was BenchmarkHammingDistance_Opt (92 ms) R=wangcheng@google.com TBR=kjellander@chromium.org BUG=libyuv:701 TEST=BenchmarkHammingDistance Change-Id: Ie40f0eac2f3339c33b833b42af5d394b122066ae Reviewed-on: https://chromium-review.googlesource.com/526932 Reviewed-by: Frank Barchard <fbarchard@google.com> Reviewed-by: Cheng Wang <wangcheng@google.com> Commit-Queue: Frank Barchard <fbarchard@google.com>	2017-06-07 23:23:24 +00:00
Frank Barchard	790e0634a8	Port HammingDistance_NEON 32 bit code to 64 bit The 32 bit version of HammingDistance_NEON accumulates using vertical add and paired adds, which takes 3 instructions instead of 4. The instructions are also portable between 32 and 64 bit. Was BenchmarkHammingDistance_Opt (105 ms) Now BenchmarkHammingDistance_Opt (90 ms) TBR=kjellander@chromium.org BUG=libyuv:701 TEST=BenchmarkHammingDistance BenchmarkHammingDistance_Opt (90 ms) Change-Id: If9e621e0bd2fe2492a1532056f8a1b451ba53d7e Reviewed-on: https://chromium-review.googlesource.com/526365 Reviewed-by: Frank Barchard <fbarchard@google.com> Commit-Queue: Frank Barchard <fbarchard@google.com>	2017-06-07 01:04:35 +00:00
Frank Barchard	47d6eaa377	HammingDistance_NEON optimized looping BenchmarkHammingDistance_Opt (93 ms) BenchmarkHammingDistance_C (389 ms) TBR=kjellander@chromium.org BUG=libyuv:701 TEST=BenchmarkHammingDistance Change-Id: I4ba920751eb130cac6a276e441a7c309c495554a Reviewed-on: https://chromium-review.googlesource.com/526401 Reviewed-by: Frank Barchard <fbarchard@google.com> Reviewed-by: Cheng Wang <wangcheng@google.com> Commit-Queue: Frank Barchard <fbarchard@google.com>	2017-06-07 00:09:59 +00:00
Frank Barchard	baf5248242	HammingDistance_NEON ported to 32 bit TBR=kjellander@chromium.org BUG=libyuv:701 TEST=BenchmarkHammingDistance Change-Id: I252efd8a27aa11a0fe7d8030d7c8b57f20f04760 Reviewed-on: https://chromium-review.googlesource.com/525232 Reviewed-by: Frank Barchard <fbarchard@google.com> Commit-Queue: Frank Barchard <fbarchard@google.com>	2017-06-06 17:58:29 +00:00
Frank Barchard	44abf70187	ScaleDown odd functions adjust math so last pixel is half width source. existing test passes out/Release/libyuv_unittest --gtest_filter=Blend --libyuv_width=33 --libyuv_height=16 new test added BUG=libyuv:705 TEST=LibYUVScaleTest.TestScaleOdd Change-Id: Ica91812aee2e4ed9bcc18df4962b089c2e4ae704 Reviewed-on: https://chromium-review.googlesource.com/524932 Reviewed-by: Cheng Wang <wangcheng@google.com> Commit-Queue: Frank Barchard <fbarchard@google.com>	2017-06-06 01:37:26 +00:00
Frank Barchard	7bffe5e1c5	lint warning fixes for CpuID The CpuId function is a wrapper for the intrinsic, or implemented with inline if unavailable. It had been using uint32, but the intrinsics use int, so it was causing casting and lint warnings. This change makes the internal implementation use int. Casting was also done for xgetbv, and the cast is simply removed, and is not causing a build error. MipCpuCaps was doing strlen to check for white space after the instruction set. Arm also does this but with a hard coded offset. This was causing a cast from size_t to int, which produced a lint warning. The change removes the white space detect. In theory the code could be used to detect SSE vs SSE2, and it would need to check SSE is followed by a space or end of line. But this code is only used on Arm and Mips, where there there is one form of SIMD detected. e.g. MSA for mips. If a new instruction set is added with a similar name, the write space check could be reintroduced. But its more likely the code can be rewritten to use a better form of detection by then. Or remove detection and require the instructions BUG=libyuv:641 TEST=try bots build on all platforms without error and lint is clean Change-Id: I9f55f8e57bba0f78571bdddbe63b945dea3e8809 Reviewed-on: https://chromium-review.googlesource.com/514524 Commit-Queue: Frank Barchard <fbarchard@google.com> Reviewed-by: Cheng Wang <wangcheng@google.com> Reviewed-by: Wan-Teh Chang <wtc@chromium.org>	2017-05-25 22:00:17 +00:00
Frank Barchard	8edd2286fd	MaskCpuFlags return cpuinfo so InitCpuFlags can call it Reduce number of atomic references to cpu_info by making InitCpuFlags call MaskCpuFlags and return the same value. BUG=libyuv:641 TEST=libyuv_unittests pass Change-Id: I5dfff8f7a10671bc8ef3ec0ed6f302791e752faa Reviewed-on: https://chromium-review.googlesource.com/514145 Commit-Queue: Frank Barchard <fbarchard@google.com> Reviewed-by: Cheng Wang <wangcheng@google.com>	2017-05-24 22:27:03 +00:00
Frank Barchard	651ccc0c3a	Fix data races in libyuv::TestCpuFlag(). Detect the compiler's support of C11 atomics, and use C11 atomics when available. Note that libyuv::MaskCpuFlags() is still not thread-safe. BUG=libyuv:641 TEST= cpu_thread_test.cc adds a pthread based test R=wangcheng@google.com Change-Id: If05b1e16da833105a0159ed67ef20f4e61bc7abd Reviewed-on: https://chromium-review.googlesource.com/510079 Commit-Queue: Frank Barchard <fbarchard@google.com> Reviewed-by: Cheng Wang <wangcheng@google.com>	2017-05-24 02:09:03 +00:00
Frank Barchard	77f6916da2	use __popcnt for visual c HammingDistance_X86 BUG=libyuv:701 TEST=HammingDistance unittest performance is comparable to x64 R=wangcheng@google.com Change-Id: I8abe861e086e0162ba4c7ba6f1ef7d1c006cd9d4 Reviewed-on: https://chromium-review.googlesource.com/505454 Reviewed-by: Frank Barchard <fbarchard@google.com> Commit-Queue: Frank Barchard <fbarchard@google.com>	2017-05-12 22:59:00 +00:00
Frank Barchard	e0615c0e69	Optimize Hamming Distance C code to do 64 bits at a time. BUG=libyuv:701 TEST=LibYUVBaseTest.BenchmarkHammingDistance_C R=wangcheng@google.com Change-Id: I243003b098bea8ef3809298bbec349ed52a43d8c Reviewed-on: https://chromium-review.googlesource.com/499487 Reviewed-by: Cheng Wang <wangcheng@google.com>	2017-05-12 17:53:52 +00:00
Frank Barchard	bbbf30eecd	Remove volatile from variables to improve performance BUG=libyuv:703 TEST=compile and disassemble. see registers used not stack. R=wangcheng@google.com Change-Id: Iaa07ee5d0c35252994491bb2868276e161149efd Reviewed-on: https://chromium-review.googlesource.com/500427 Commit-Queue: Frank Barchard <fbarchard@google.com> Reviewed-by: Cheng Wang <wangcheng@google.com>	2017-05-09 18:14:21 +00:00
Frank Barchard	2136e349da	Hamming code difference of 2 memory blocks BUG=libyuv:701 TEST=built and disassembled for aarch64 R=kjellander@chromium.org Change-Id: I7712b1c7934e5dfb55fda1fa7c8405c32d6964ce Reviewed-on: https://chromium-review.googlesource.com/495327 Reviewed-by: Henrik Kjellander <kjellander@chromium.org> Reviewed-by: Cheng Wang <wangcheng@google.com>	2017-05-08 21:37:51 +00:00
Frank Barchard	945ea1b746	mips switch sgtu to sltu for clang in ndk r14 The verion of clang in ndk r14 (3.9) has a built in llvm assembler that does not have the sgtu pseudo instruction. sltu is the actual instruction, so switch the 2 operands and use the instruction instead of the pseudo op. BUG=libyuv:700 TEST=try bots build mips without error. Change-Id: I2d5f94f81acbd56cdedea011e7d9308979e19079 Reviewed-on: https://chromium-review.googlesource.com/494026 Reviewed-by: Henrik Kjellander <kjellander@chromium.org>	2017-05-02 21:34:13 +00:00
Vignesh Venkatasubramanian	54289f1bb0	Fix mips build on android ndk r14+ Revert the workaround and fix it properly by passing the additional necessary flag to the compiler. BUG=libyuv:700 Change-Id: I1c893a8acb5079decbee6963b689424bf2f99f4f Reviewed-on: https://chromium-review.googlesource.com/487881 Reviewed-by: Frank Barchard <fbarchard@google.com>	2017-04-26 08:39:55 +00:00
Frank Barchard	3b583396bf	Disable CopyRow_MIPS CopyRow_MIPS produces a compile error on some compilers. TBR=kjellander@chromium.org BUG=libyuv:700 TEST=try bots Change-Id: Ie88f2006ef5cf14bffaf80fd4c0dd1caa409c569 Reviewed-on: https://chromium-review.googlesource.com/486127 Reviewed-by: Frank Barchard <fbarchard@google.com>	2017-04-25 01:31:13 +00:00
Frank Barchard	fc02cc3806	Add I422ToRGB565 BUG=libyuv:699 TESTED=LibYUVConvertTest.I420ToARGB_RGB565_Opt Change-Id: I87943bcad056fbbe051301f45c7dc0ae0620c837 Reviewed-on: https://chromium-review.googlesource.com/478578 Reviewed-by: Frank Barchard <fbarchard@google.com> Commit-Queue: Frank Barchard <fbarchard@google.com>	2017-04-17 17:51:17 +00:00
Frank Barchard	8cab2e31d7	I422ToRGB565 fix for odd widths I422ToRGB565Row_Any_AVX2 uses 2 step row conversion that calls I422ToARGBRow_AVX2 and then ARGBToRGB565. I422ToARGBRow_AVX2 expects multiple of 16 pixels. Adjust the I422ToRGB565Row_Any_AVX2 to do multiple of 16 with AVX2 and then remainder in a buffer. Bug: libyuv: 657 Test: out/Release/libyuv_unittest --gtest_filter=ConvertITo --libyuv_width=1280 --libyuv_height=720 Change-Id: Ice1cb6c7ff6b2295513e8b4a9f77522e1c659810 Reviewed-on: https://chromium-review.googlesource.com/474232 Commit-Queue: Frank Barchard <fbarchard@google.com> Reviewed-by: Henrik Kjellander <kjellander@chromium.org>	2017-04-11 17:24:05 +00:00
Frank Barchard	2adb84e39e	make gflags command line parser optional BUG=libyuv:691 TEST=gn gen out/Release "--args=is_debug=false target_cpu=\"x64\" libyuv_include_tests=true" Change-Id: Ib481189be884c34d9bbc30bfcf71c7969c6f4dae Reviewed-on: https://chromium-review.googlesource.com/452736 Reviewed-by: Frank Barchard <fbarchard@google.com> Commit-Queue: Frank Barchard <fbarchard@google.com>	2017-03-14 01:52:52 +00:00
Frank Barchard	d59d3fcd18	Change parameter for '_Any' functions to param to avoid misnomer BUG=None TEST=None Change-Id: I6940fc4753783afd25f83868635381bf801c65f5 Reviewed-on: https://chromium-review.googlesource.com/452962 Reviewed-by: Frank Barchard <fbarchard@google.com> Commit-Queue: Frank Barchard <fbarchard@google.com>	2017-03-10 23:32:39 +00:00
Frank Barchard	e6fec061cf	lint cleanup for convert RGB24ToI420 RGB24, RAW, RGB565, ARGB1555 and ARGB4444 have conditional 2 pass versus direct path. 2 pass method requires a buffer that is conditionally allocated. ifdef's were confusing lint. simplifed ifdefs to clean up lint warning BUG=libyuv:692 TEST=lint source/convert.cc Change-Id: If868718af30b48824a5e3d28f0d7d01d4609ad55 Reviewed-on: https://chromium-review.googlesource.com/451552 Reviewed-by: Henrik Kjellander <kjellander@chromium.org> Commit-Queue: Frank Barchard <fbarchard@google.com>	2017-03-09 10:32:23 +00:00
Frank Barchard	73a603e120	clang-format 5.0 applied to libyuv BUG=None TEST=try bots and lint test Change-Id: I1ab462adf2d309117862c5eb4b244a61ae202951 Reviewed-on: https://chromium-review.googlesource.com/450658 Commit-Queue: Frank Barchard <fbarchard@google.com> Reviewed-by: Henrik Kjellander <kjellander@chromium.org>	2017-03-08 18:50:12 +00:00
Frank Barchard	136aa9d37c	any11p fix for buffer overrun BUG=libyuv:686 TESTED=untested Change-Id: Idfae93349dd78b1b633a596631e5397e11b77d0b Reviewed-on: https://chromium-review.googlesource.com/448320 Reviewed-by: Frank Barchard <fbarchard@google.com> Reviewed-by: Henrik Kjellander <kjellander@chromium.org> Commit-Queue: Frank Barchard <fbarchard@google.com>	2017-03-03 19:57:35 +00:00
Frank Barchard	91ee9b729e	Fix missing return in MipsCpuCaps. Previously if MipsCpuCaps were called with something other than dspr2 or msa, the file was closed but still used. This change assumed the function is only called internally twice: once for msa and once for dspr2. If msa is not being detected, the function assumed dspr2 was being tested and returns dspr2 was true. BUG=libyuv:687 TEST=try bots Change-Id: I80b328eb5ffc7baf5f1ee5a79c16d75c45ff26cc Reviewed-on: https://chromium-review.googlesource.com/447831 Reviewed-by: Frank Barchard <fbarchard@google.com> Commit-Queue: Frank Barchard <fbarchard@google.com>	2017-03-01 23:07:03 +00:00
Manojkumar Bhosale	45b176d153	Add MSA optimized Interpolate/MergeUV/Misc functions BUG=libyuv:634 Change-Id: If8d60bd57f01fe95bc2fd26196466574195cc126 Performance Gain (vs C auto-vectorized) InterpolateRow_MSA - ~3.3x InterpolateRow_Any_MSA - ~2.5x ARGBSetRow_MSA - ~1.0x ARGBSetRow_Any_MSA - ~1.0x ARGBToRGB24Row_MSA - ~1.9x ARGBToRGB24Row_Any_MSA - ~1.6x MergeUVRow_MSA - ~1.6x MergeUVRow_Any_MSA - ~1.2x Performance Gain (vs C non-vectorized) InterpolateRow_MSA - ~11.3x InterpolateRow_Any_MSA - ~ 7.9x ARGBSetRow_MSA - ~ 6.2x ARGBSetRow_Any_MSA - ~ 4.0x ARGBToRGB24Row_MSA - ~ 9.9x ARGBToRGB24Row_Any_MSA - ~ 8.4x MergeUVRow_MSA - ~12.7x MergeUVRow_Any_MSA - ~ 8.0x Change-Id: If8d60bd57f01fe95bc2fd26196466574195cc126 Reviewed-on: https://chromium-review.googlesource.com/445817 Reviewed-by: Frank Barchard <fbarchard@google.com> Commit-Queue: Frank Barchard <fbarchard@google.com>	2017-02-23 01:42:22 +00:00
Manojkumar Bhosale	eed66b2028	Add MSA optimized I444/I400/J400/YUY2/UYVY to ARGB row functions BUG=libyuv:634 Change-Id: Ida80027c36a938a3bcf6f4480626f8eb9495e1be Performance Gain (vs C auto-vectorized) I444ToARGBRow_MSA - ~1.6x I444ToARGBRow_Any_MSA - ~1.6x I400ToARGBRow_MSA - ~5.5x I400ToARGBRow_Any_MSA - ~5.3x J400ToARGBRow_MSA - ~1.0x J400ToARGBRow_Any_MSA - ~1.0x YUY2ToARGBRow_MSA - ~1.6x YUY2ToARGBRow_Any_MSA - ~1.6x UYVYToARGBRow_MSA - ~1.6x UYVYToARGBRow_Any_MSA - ~1.6x Performance Gain (vs C non-vectorized) I444ToARGBRow_MSA - ~7.3x I444ToARGBRow_Any_MSA - ~7.1x I400ToARGBRow_MSA - ~5.5x I400ToARGBRow_Any_MSA - ~5.2x J400ToARGBRow_MSA - ~6.8x J400ToARGBRow_Any_MSA - ~5.7x YUY2ToARGBRow_MSA - ~7.2x YUY2ToARGBRow_Any_MSA - ~7.0x UYVYToARGBRow_MSA - ~7.1x UYVYToARGBRow_Any_MSA - ~6.9x Change-Id: Ida80027c36a938a3bcf6f4480626f8eb9495e1be Reviewed-on: https://chromium-review.googlesource.com/439246 Reviewed-by: Frank Barchard <fbarchard@google.com> Commit-Queue: Frank Barchard <fbarchard@google.com>	2017-02-21 23:22:07 +00:00
Frank Barchard	bbe8c233f2	scale warning fixes for unused parameters BUG=libyuv:680 TEST=builds and runs with no warnings Change-Id: I7d60ef44292fa6ad4f7c4e2e2657359b864d2dab Reviewed-on: https://chromium-review.googlesource.com/442670 Commit-Queue: Frank Barchard <fbarchard@google.com> Reviewed-by: Henrik Kjellander <kjellander@chromium.org>	2017-02-15 21:38:59 +00:00
Frank Barchard	20ecb366ea	I420ToI400 fix for unused u and v arguments TBR=kjellander@chromium.org BUG=libyuv:679 TEST=None Change-Id: I830f31e0de58c967cb02c71f422df4c19c94c367 Reviewed-on: https://chromium-review.googlesource.com/441949 Reviewed-by: Frank Barchard <fbarchard@google.com> Commit-Queue: Frank Barchard <fbarchard@google.com>	2017-02-14 02:54:58 +00:00
Frank Barchard	1d5630ba2b	mjpeg_decoder - fix for unused parameter. TBR=kjellander@chromium.org BUG=libyuv:678 TEST=None Change-Id: I5206de2026b56f155531a76f94aeb6cb1b0cd6c9 Reviewed-on: https://chromium-review.googlesource.com/442090 Reviewed-by: Frank Barchard <fbarchard@google.com> Commit-Queue: Frank Barchard <fbarchard@google.com>	2017-02-14 02:22:57 +00:00
Frank Barchard	177d344ed7	enable unused parameter warning android.mk builds have unused parameter warning on by default. This change for GN makes libyuv build the same way. BUG=libyuv:681 TEST=build on linux with clang and ninja. Change-Id: I76c627d446b96653f147725bca915d94a42ce9a6 Reviewed-on: https://chromium-review.googlesource.com/441194 Reviewed-by: Frank Barchard <fbarchard@google.com> Commit-Queue: Frank Barchard <fbarchard@google.com>	2017-02-14 01:33:57 +00:00
Frank Barchard	6825b161d7	HalfFloat SSE2/AVX2 optimized port scheduling. Uses 1 add instead of 2 leas to reduce port pressure on ports 1 and 5 used for SIMD instructions. BUG=libyuv:670 TEST=~/iaca-lin64/bin/iaca.sh -arch HSW out/Release/obj/libyuv/row_gcc.o Change-Id: I3965ee5dcb49941a535efa611b5988d977f5b65c Reviewed-on: https://chromium-review.googlesource.com/433391 Reviewed-by: Frank Barchard <fbarchard@google.com> Commit-Queue: Frank Barchard <fbarchard@google.com>	2017-02-11 01:02:06 +00:00
Frank Barchard	7a54d0a302	row_msa fix clang build warnings. BUG=libyuv:634 TEST=untested Change-Id: Ib7f0c99e669ddba0a1efbd15895880281ad6303e Reviewed-on: https://chromium-review.googlesource.com/435303 Reviewed-by: Frank Barchard <fbarchard@google.com>	2017-02-07 09:36:28 +00:00
Frank Barchard	76e7f104ae	documentation updates BUG=None TEST=Untested Change-Id: I8ab95654255d1aa9cf05a664ecf59ee6c0757e66 Reviewed-on: https://chromium-review.googlesource.com/434941 Reviewed-by: Henrik Kjellander <kjellander@chromium.org> Commit-Queue: Frank Barchard <fbarchard@google.com>	2017-02-02 18:31:32 +00:00
Frank Barchard	0fb5675902	Fix dspr2 rename changes. Fix unused variables TBR=kjellander@chromium.org BUG=libyuv:634 TEST=try bots Review-Url: https://codereview.chromium.org/2675583002 .	2017-02-01 18:51:06 -08:00
Manojkumar Bhosale	54ce8f23d6	Add MSA optimized ARGB/ABGR/BGRA/RGBA To Y/UV row functions R=fbarchard@google.com BUG=libyuv:634 Performance Gain (vs C auto-vectorized) ARGBToYJRow_MSA - ~3.2x ARGBToYJRow_Any_MSA - ~2.7x BGRAToYRow_MSA - ~3.2x BGRAToYRow_Any_MSA - ~2.7x ABGRToYRow_MSA - ~3.2x ABGRToYRow_Any_MSA - ~2.6x RGBAToYRow_MSA - ~3.1x RGBAToYRow_Any_MSA - ~2.7x ARGBToUVJRow_MSA - ~5.5x ARGBToUVJRow_Any_MSA - ~4.5x BGRAToUVRow_MSA - ~2.1x BGRAToUVRow_Any_MSA - ~2.0x ABGRToUVRow_MSA - ~2.1x ABGRToUVRow_Any_MSA - ~1.9x RGBAToUVRow_MSA - ~2.2x RGBAToUVRow_Any_MSA - ~1.9x Performance Gain (vs C non-vectorized) ARGBToYJRow_MSA - ~10.9x ARGBToYJRow_Any_MSA - ~9.2x BGRAToYRow_MSA - ~10.9x BGRAToYRow_Any_MSA - ~9.3x ABGRToYRow_MSA - ~11.0x ABGRToYRow_Any_MSA - ~9.3x RGBAToYRow_MSA - ~10.9x RGBAToYRow_Any_MSA - ~9.1x ARGBToUVJRow_MSA - ~12.4x ARGBToUVJRow_Any_MSA - ~10.5x BGRAToUVRow_MSA - ~4.7x BGRAToUVRow_Any_MSA - ~4.4x ABGRToUVRow_MSA - ~4.7x ABGRToUVRow_Any_MSA - ~4.5x RGBAToUVRow_MSA - ~4.8x RGBAToUVRow_Any_MSA - ~4.4x Review-Url: https://codereview.chromium.org/2641153003 .	2017-02-01 10:31:28 +05:30
Frank Barchard	b89bcda273	Add comments for ARGBToUV_C and ARGBToUVJ_C ARGBToUV_C and ARGBToUVJ_C are generated functions with subtle difference in rounding. Adding comment to make them easier to find. TBR=kjellander@chromium.org BUG=libyuv:634 TEST=untested Change-Id: I9912d256a1e04c58475d33bdb472c37484f6cab9 Reviewed-on: https://chromium-review.googlesource.com/434980 Reviewed-by: Frank Barchard <fbarchard@google.com> Commit-Queue: Frank Barchard <fbarchard@google.com>	2017-01-30 23:44:05 +00:00
Frank Barchard	54f2094a5e	Rename mips source files to dspr2. Add MSA detect to unittest. Change macro to disable DSPR2 code to LIBYUV_DISABLE_DSPR2 BUG=libyuv:634 TEST=try bots Change-Id: I9e0aa2452204fc529bb6f9e6fd93c4e1c379bba6 Reviewed-on: https://chromium-review.googlesource.com/433463 Reviewed-by: Henrik Kjellander <kjellander@chromium.org> Commit-Queue: Frank Barchard <fbarchard@google.com>	2017-01-27 23:11:43 +00:00
Frank Barchard	749e316ed8	Remove commented out code TEST=None BUG=libyuv:672 Change-Id: Ia5949fb20913e4397e62d6a302c89a27dbd7e169 Change-Id: Ia5949fb20913e4397e62d6a302c89a27dbd7e169 Reviewed-on: https://chromium-review.googlesource.com/430321 Reviewed-by: Aaron Gable <agable@chromium.org>	2017-01-20 02:03:12 +00:00
Manojkumar Bhosale	09b8c971b3	Add MSA optimized NV12/21 To RGB row functions R=fbarchard@google.com BUG=libyuv:634 Performance Gain (vs C auto-vectorized) NV12ToARGBRow_MSA - ~1.5x NV12ToARGBRow_Any_MSA - ~1.4x NV12ToRGB565Row_MSA - ~1.4x NV12ToRGB565Row_Any_MSA - ~1.4x NV21ToARGBRow_MSA - ~1.5x NV21ToARGBRow_Any_MSA - ~1.5x SobelRow_MSA - ~4.3x SobelRow_Any_MSA - ~3.4x SobelToPlaneRow_MSA - ~8.0x SobelToPlaneRow_Any_MSA - ~4.7x SobelXYRow_MSA - ~3.0x SobelXYRow_Any_MSA - ~2.5x Performance Gain (vs C non-vectorized) NV12ToARGBRow_MSA - ~6.5x NV12ToARGBRow_Any_MSA - ~6.5x NV12ToRGB565Row_MSA - ~6.2x NV12ToRGB565Row_Any_MSA - ~6.1x NV21ToARGBRow_MSA - ~6.5x NV21ToARGBRow_Any_MSA - ~6.5x SobelRow_MSA - ~14.5x SobelRow_Any_MSA - ~11.3x SobelToPlaneRow_MSA - ~34.2x SobelToPlaneRow_Any_MSA - ~19.4x SobelXYRow_MSA - ~11.1x SobelXYRow_Any_MSA - ~9.1x Review-Url: https://codereview.chromium.org/2636483002 .	2017-01-18 09:24:39 +05:30
Frank Barchard	a7c87e19f0	add Intel Code Analyst markers add macros to enable/disable code analyst around blocks of code. Normally these macros should not be used, but if performance details are wanted for intel code, enable them around the code and then run via the iaca tool, available on the intel website. BUG=libyuv:670 TEST=~/iaca-lin64/bin/iaca.sh -64 out/Release/libyuv_unittest R=wangcheng@google.com Review-Url: https://codereview.chromium.org/2626193002 .	2017-01-13 15:50:24 -08:00
Manojkumar Bhosale	73a6f100a9	Add MSA optimized rotate functions (used 16x16 transpose) R=fbarchard@google.com BUG=libyuv:634 Performance Gain (vs C vectorized) TransposeWx16_MSA - ~6.0x TransposeWx16_Any_MSA - ~4.7x TransposeUVWx16_MSA - ~6.3x TransposeUVWx16_Any_MSA - ~5.4x Performance Gain (vs C non-vectorized) TransposeWx16_MSA - ~6.0x TransposeWx16_Any_MSA - ~4.8x TransposeUVWx16_MSA - ~6.3x TransposeUVWx16_Any_MSA - ~5.4x Review-Url: https://codereview.chromium.org/2617703002 .	2017-01-13 15:50:02 +05:30
Manojkumar Bhosale	7c64163ff4	Add MSA optimized RAW/RGB/ARGB to ARGB/Y/UV row functions R=fbarchard@google.com BUG=libyuv:634 Performance Gain (vs C vectorized) ARGB1555ToARGBRow_MSA - 1.85 ARGB1555ToARGBRow_Any_MSA - 1.82 RGB565ToARGBRow_MSA - 2.14 RGB565ToARGBRow_Any_MSA - 2.08 RGB24ToARGBRow_MSA - 8.57 RGB24ToARGBRow_Any_MSA - 7.42 RAWToARGBRow_MSA - 8.57 RAWToARGBRow_Any_MSA - 7.42 ARGB1555ToYRow_MSA - 2.60 ARGB1555ToYRow_Any_MSA - 2.47 RGB565ToYRow_MSA - 2.45 RGB565ToYRow_Any_MSA - 2.33 RGB24ToYRow_MSA - 2.23 RGB24ToYRow_Any_MSA - 2.01 RAWToYRow_MSA - 2.25 RAWToYRow_Any_MSA - 2.02 ARGB1555ToUVRow_MSA - 1.40 ARGB1555ToUVRow_Any_MSA - 1.37 RGB565ToUVRow_MSA - 1.68 RGB565ToUVRow_Any_MSA - 1.63 RGB24ToUVRow_MSA - 3.02 RGB24ToUVRow_Any_MSA - 2.87 RAWToUVRow_MSA - 3.04 RAWToUVRow_Any_MSA - 2.85 Performance Gain (vs C non-vectorized) ARGB1555ToARGBRow_MSA - 4.66 ARGB1555ToARGBRow_Any_MSA - 4.45 RGB565ToARGBRow_MSA - 5.58 RGB565ToARGBRow_Any_MSA - 5.34 RGB24ToARGBRow_MSA - 8.57 RGB24ToARGBRow_Any_MSA - 7.42 RAWToARGBRow_MSA - 8.57 RAWToARGBRow_Any_MSA - 7.42 ARGB1555ToYRow_MSA - 6.38 ARGB1555ToYRow_Any_MSA - 5.98 RGB565ToYRow_MSA - 6.42 RGB565ToYRow_Any_MSA - 6.05 RGB24ToYRow_MSA - 7.87 RGB24ToYRow_Any_MSA - 7.01 RAWToYRow_MSA - 7.98 RAWToYRow_Any_MSA - 7.01 ARGB1555ToUVRow_MSA - 5.39 ARGB1555ToUVRow_Any_MSA - 5.06 RGB565ToUVRow_MSA - 6.39 RGB565ToUVRow_Any_MSA - 5.90 RGB24ToUVRow_MSA - 3.04 RGB24ToUVRow_Any_MSA - 2.87 RAWToUVRow_MSA - 3.04 RAWToUVRow_Any_MSA - 2.88 Review-Url: https://codereview.chromium.org/2600713002 .	2017-01-13 15:43:37 +05:30
Frank Barchard	cb11559408	ConvertToARGB: Allows rotation on ARGB input BUG=libyuv:668 TEST=run unit tests R=fbarchard@google.com Review-Url: https://codereview.chromium.org/2620183002 .	2017-01-11 14:38:25 -08:00
Frank Barchard	000d2fa91a	Libyuv MIPS DSPR2 optimizations. Optimized functions: I444ToARGBRow_DSPR2 I422ToARGB4444Row_DSPR2 I422ToARGB1555Row_DSPR2 NV12ToARGBRow_DSPR2 BGRAToUVRow_DSPR2 BGRAToYRow_DSPR2 ABGRToUVRow_DSPR2 ARGBToYRow_DSPR2 ABGRToYRow_DSPR2 RGBAToUVRow_DSPR2 RGBAToYRow_DSPR2 ARGBToUVRow_DSPR2 RGB24ToARGBRow_DSPR2 RAWToARGBRow_DSPR2 RGB565ToARGBRow_DSPR2 ARGB1555ToARGBRow_DSPR2 ARGB4444ToARGBRow_DSPR2 ScaleAddRow_DSPR2 Bug-fixes in functions: ScaleRowDown2_DSPR2 ScaleRowDown4_DSPR2 BUG= Review-Url: https://codereview.chromium.org/2626123003 .	2017-01-11 12:19:13 -08:00
Manojkumar Bhosale	288bfbefb5	Add MSA optimized remaining scale row functions R=fbarchard@google.com BUG=libyuv:634 Performance Gain (vs C vectorized) ScaleRowDown2_MSA - ~22.3x ScaleRowDown2_Any_MSA - ~19.9x ScaleRowDown2Linear_MSA - ~31.2x ScaleRowDown2Linear_Any_MSA - ~29.4x ScaleRowDown2Box_MSA - ~20.1x ScaleRowDown2Box_Any_MSA - ~19.6x ScaleRowDown4_MSA - ~11.7x ScaleRowDown4_Any_MSA - ~11.2x ScaleRowDown4Box_MSA - ~15.1x ScaleRowDown4Box_Any_MSA - ~15.1x ScaleRowDown38_MSA - ~1x ScaleRowDown38_Any_MSA - ~1x ScaleRowDown38_2_Box_MSA - ~1.7x ScaleRowDown38_2_Box_Any_MSA - ~1.7x ScaleRowDown38_3_Box_MSA - ~1.7x ScaleRowDown38_3_Box_Any_MSA - ~1.7x ScaleAddRow_MSA - ~1.2x ScaleAddRow_Any_MSA - ~1.15x Performance Gain (vs C non-vectorized) ScaleRowDown2_MSA - ~22.4x ScaleRowDown2_Any_MSA - ~19.8x ScaleRowDown2Linear_MSA - ~31.6x ScaleRowDown2Linear_Any_MSA - ~29.4x ScaleRowDown2Box_MSA - ~20.1x ScaleRowDown2Box_Any_MSA - ~19.6x ScaleRowDown4_MSA - ~11.7x ScaleRowDown4_Any_MSA - ~11.2x ScaleRowDown4Box_MSA - ~15.1x ScaleRowDown4Box_Any_MSA - ~15.1x ScaleRowDown38_MSA - ~3.2x ScaleRowDown38_Any_MSA - ~3.2x ScaleRowDown38_2_Box_MSA - ~2.4x ScaleRowDown38_2_Box_Any_MSA - ~2.3x ScaleRowDown38_3_Box_MSA - ~2.9x ScaleRowDown38_3_Box_Any_MSA - ~2.8x ScaleAddRow_MSA - ~8x ScaleAddRow_Any_MSA - ~7.46x Review-Url: https://codereview.chromium.org/2559683002 .	2016-12-21 13:39:44 +05:30
Manojkumar Bhosale	a899dea251	Add MSA optimized ARGB Attenuate/RGB565/Shuffle/Shader/Gray/Sepia row functions R=fbarchard@google.com BUG=libyuv:634 Performance Gain (vs C vectorized) ARGBAttenuateRow_MSA - ~1.1x ARGBAttenuateRow_Any_MSA - ~1.1x ARGBToRGB565DitherRow_MSA - ~6.4x ARGBToRGB565DitherRow_Any_MSA - ~6.2x ARGBShuffleRow_MSA - ~5.1x ARGBShuffleRow_Any_MSA - ~1.9x ARGBShadeRow_MSA - ~1.1x ARGBGrayRow_MSA - ~2.6x ARGBSepiaRow_MSA - ~11.6x Performance Gain (vs C non-vectorized) ARGBAttenuateRow_MSA - ~2.46x ARGBAttenuateRow_Any_MSA - ~2.45x ARGBToRGB565DitherRow_MSA - ~9.4x ARGBToRGB565DitherRow_Any_MSA - ~12.5x ARGBShuffleRow_MSA - ~5.2x ARGBShuffleRow_Any_MSA - ~1.9x ARGBShadeRow_MSA - ~4.3x ARGBGrayRow_MSA - ~10.5x ARGBSepiaRow_MSA - ~12.2x Review-Url: https://codereview.chromium.org/2559693002 .	2016-12-15 12:06:02 +05:30
Manojkumar Bhosale	6fa5e4eb78	Add MSA optimized TransposeWx8_MSA and TransposeUVWx8_MSA functions R=fbarchard@google.com BUG=libyuv:634 Performance Gain (vs C vectorized) TransposeWx8_MSA - ~2.7x TransposeWx8_Any_MSA - ~2.1x TransposeUVWx8_MSA - ~2.5x TransposeUVWx8_Any_MSA - ~2.7x Performance Gain (vs C non-vectorized) TransposeWx8_MSA - ~4.6x TransposeWx8_Any_MSA - ~2.9x TransposeUVWx8_MSA - ~4.4x TransposeUVWx8_Any_MSA - ~3.7x Review URL: https://codereview.chromium.org/2553403002 .	2016-12-15 10:06:01 +05:30
Frank Barchard	b18fd21d3c	Android420ToI420 - use ptrdiff_t for difference of u and v pointers The difference was assigned to an int, causing a warning on Visual C. BUG=662 TEST=tested with try bots. R=devangelakos@google.com Review-Url: https://codereview.chromium.org/2574373002 .	2016-12-14 11:53:55 -08:00
Frank Barchard	dde8ba7009	ConvertFromI420: use halfstride instead of halfwidth BUG=libyuv:660 TEST=try bots R=kjellander@chromium.org Review URL: https://codereview.chromium.org/2554213003 .	2016-12-07 10:16:16 -08:00
Manojkumar Bhosale	56b5bbb0be	Add MSA optimized ARGB scaling functions R=fbarchard@google.com BUG=libyuv:634 Performance Gain (vs C vectorized) ScaleARGBRowDown2_MSA - ~2.6x ScaleARGBRowDown2Linear_MSA - ~7.9x ScaleARGBRowDown2Box_MSA - ~3.7x ScaleARGBRowDownEven_MSA - ~1.2x ScaleARGBRowDownEvenBox_MSA - ~3.5x ScaleARGBRowDown2_Any_MSA - ~2.6x ScaleARGBRowDown2Linear_Any_MSA - ~7.9x ScaleARGBRowDown2Box_Any_MSA - ~3.6x ScaleARGBRowDownEven_Any_MSA - ~1.2x ScaleARGBRowDownEvenBox_Any_MSA - ~3.5x Performance Gain (vs C non-vectorized) ScaleARGBRowDown2_MSA - 2.6x ScaleARGBRowDown2Linear_MSA - 13.5x ScaleARGBRowDown2Box_MSA - 5.8x ScaleARGBRowDownEven_MSA - 1.2x ScaleARGBRowDownEvenBox_MSA - 3.7x ScaleARGBRowDown2_Any_MSA - 2.6x ScaleARGBRowDown2Linear_Any_MSA - 13.5x ScaleARGBRowDown2Box_Any_MSA - 5.3x ScaleARGBRowDownEven_Any_MSA - 1.2x ScaleARGBRowDownEvenBox_Any_MSA - 3.7x Review URL: https://codereview.chromium.org/2527983002 .	2016-12-07 11:47:15 +05:30
Manojkumar Bhosale	83f460be33	Add MSA optimized ARGB Multiply/Add/Subtract row functions R=fbarchard@google.com BUG=libyuv:634 Performance Gain (vs C vectorized) ARGBMultiplyRow_MSA - 1.4x ARGBAddRow_MSA - 8.6x ARGBSubtractRow_MSA - 8.6x ARGBMultiplyRow_Any_MSA - 1.35x ARGBAddRow_Any_MSA - 7.3x ARGBSubtractRow_Any_MSA - 7.2x Performance Gain (vs C non-vectorized) ARGBMultiplyRow_MSA - 4.4x ARGBAddRow_MSA - 27x ARGBSubtractRow_MSA - 22x ARGBMultiplyRow_Any_MSA - 3.5x ARGBAddRow_Any_MSA - 23x ARGBSubtractRow_Any_MSA - 18x Review URL: https://codereview.chromium.org/2529983002 .	2016-12-02 15:21:10 +05:30
Frank Barchard	da0c29dada	Add MSA optimized ARGBToRGB565Row_MSA, ARGBToARGB1555Row_MSA, ARGBToARGB4444Row_MSA, ARGBToUV444Row_MSA functions R=fbarchard@google.com BUG=libyuv:634 Performance Gain (vs C vectorized) ARGBToRGB565Row_MSA - ~1.6x ARGBToRGB565Row_Any_MSA - ~1.6x ARGBToARGB1555Row_MSA - ~1.3x ARGBToARGB1555Row_Any_MSA - ~1.3x ARGBToARGB4444Row_MSA - ~3.8x ARGBToARGB4444Row_Any_MSA - ~3.8x ARGBToUV444Row_MSA - ~2.4x ARGBToUV444Row_Any_MSA - ~2.4x Performance Gain (vs C non-vectorized) ARGBToRGB565Row_MSA - ~2.8x ARGBToRGB565Row_Any_MSA - ~2.8x ARGBToARGB1555Row_MSA - ~2.2x ARGBToARGB1555Row_Any_MSA - ~2.2x ARGBToARGB4444Row_MSA - ~6.8x ARGBToARGB4444Row_Any_MSA - ~6.6x ARGBToUV444Row_MSA - ~6.7x ARGBToUV444Row_Any_MSA - ~6.7x Review URL: https://codereview.chromium.org/2520003004 .	2016-11-22 10:47:55 -08:00
Frank Barchard	b1504a8e48	Add MSA optimized ARGBToRGB24Row_MSA and ARGBToRAWRow_MSA functions R=fbarchard@google.com BUG=libyuv:634 Review URL: https://codereview.chromium.org/2487913004 .	2016-11-18 15:05:10 -08:00
Frank Barchard	3028e1bd97	clang-format row_gcc.cc with some functions disabled BUG=libyuv:654 TEST=try bots build R=kjellander@chromium.org Review URL: https://codereview.chromium.org/2484083003 .	2016-11-07 18:37:29 -08:00
Frank Barchard	e62309f259	clang-format libyuv BUG=libyuv:654 R=kjellander@chromium.org Review URL: https://codereview.chromium.org/2469353005 .	2016-11-07 17:37:23 -08:00
Frank Barchard	f2c27dafa2	HalfFloat neon armv7 fix for destination pointer. Improved unittests detect different in arm64 rounding. TEST=util/android/test_runner.py gtest -s libyuv_unittest -t 7200 --verbose --release --gtest_filter=Half -a "--libyuv_width=640 --libyuv_height=360" BUG=libyuv:560 R=wangcheng@google.com Review URL: https://codereview.chromium.org/2478313004 .	2016-11-07 12:13:04 -08:00
Frank Barchard	eca08525cb	HalfFloat Neon for ARMv7. 64 bit version made similar to 32 bit with registers 1 for load and store results, and 2 and 3 as expanded float temporary values. TEST=out/Release/libyuv_unittest --gtest_filter=Half BUG=libyuv:560 R=wangcheng@google.com Review URL: https://codereview.chromium.org/2467723002 .	2016-11-01 11:36:51 -07:00
Frank Barchard	10ce829bad	Add MSA optimized I422ToRGB565Row_MSA, I422ToARGB4444Row_MSA and I422ToARGB1555Row_MSA functions R=fbarchard@google.com BUG=libyuv:634 Performance Gain (vs C vectorized) I422ToRGB565Row_MSA : ~1.5x I422ToRGB565Row_Any_MSA : ~1.5x I422ToARGB4444Row_MSA : ~1.4x I422ToARGB4444Row_Any_MSA : ~1.4x I422ToARGB1555Row_MSA : ~1.4x I422ToARGB1555Row_Any_MSA : ~1.4x Performance Gain (vs C non-vectorized) I422ToRGB565Row_MSA : ~6.8x I422ToRGB565Row_Any_MSA : ~6.8x I422ToARGB4444Row_MSA : ~6.6x I422ToARGB4444Row_Any_MSA : ~6.6x I422ToARGB1555Row_MSA : ~6.6x I422ToARGB1555Row_Any_MSA : ~6.6x Review URL: https://codereview.chromium.org/2445343007 .	2016-10-27 10:47:35 -07:00
Frank Barchard	532f5708a9	Add MSA optimized I422AlphaToARGBRow_MSA and I422ToRGB24Row_MSA functions R=fbarchard@google.com BUG=libyuv:634 Performance Gain (vs C vectorized) I422AlphaToARGBRow_MSA : ~1.4x I422AlphaToARGBRow_Any_MSA : ~1.4x I422ToRGB24Row_MSA : ~4.8x I422ToRGB24Row_Any_MSA : ~4.8x Performance Gain (vs C non-vectorized) I422AlphaToARGBRow_MSA : ~7.0x I422AlphaToARGBRow_Any_MSA : ~7.0x I422ToRGB24Row_MSA : ~7.9x I422ToRGB24Row_Any_MSA : ~7.7x Review URL: https://codereview.chromium.org/2454433003 .	2016-10-26 11:12:17 -07:00
Frank Barchard	2488b3105b	White spaces, comments and lint fixes for msa. no functional changes. TBR=kjellander@chromium.org BUG=libyuv:634 Review URL: https://codereview.chromium.org/2446313002 .	2016-10-25 11:36:54 -07:00
Frank Barchard	c2073823b4	use __OPTIMIZE__ macro to determine debug vs release. Debug builds of x86 gcc/clang can run out of register. Previously NDEBUG or _DEBUG was used to detect a debug build. But those macros are not set by gentoo builds. This CL switches to the compiler predefine __OPTIMIZE__ which is built into clang and gcc. BUG=libyuv:602 TEST=untested R=wangcheng@google.com Review URL: https://codereview.chromium.org/2451503002 .	2016-10-24 18:02:48 -07:00
Frank Barchard	f5d5bd88d6	Add MSA optimized I422ToARGBRow_MSA and I422ToRGBARow_MSA functions R=fbarchard@google.com BUG=libyuv:634 Performance Gains :- (vs C vectorized) I422ToARGBRow_MSA : ~1.6x I422ToRGBARow_MSA : ~1.6x I422ToARGBRow_Any_MSA : ~1.58x I422ToRGBARow_Any_MSA : ~1.6x Performance Gains :- (vs C non-vectorized) I422ToARGBRow_MSA : ~7x I422ToRGBARow_MSA : ~7x I422ToARGBRow_Any_MSA : ~6.9x I422ToRGBARow_Any_MSA : ~6.8x Regarding performance measurement, We have created standalone tests which pass in row's data from a 1920x1080 filled buffer to both the C and MSA functions. And such N iterations are executed to get more accurate timings of C vs MSA. Review URL: https://codereview.chromium.org/2430313005 .	2016-10-24 15:37:08 -07:00
Frank Barchard	451af5e922	scale by 1 for neon implemented void HalfFloat1Row_NEON(const uint16* src, uint16* dst, float, int width) { asm volatile ( "1: \n" MEMACCESS(0) "ld1 {v1.16b}, [%0], #16 \n" // load 8 shorts "subs %w2, %w2, #8 \n" // 8 pixels per loop "uxtl v2.4s, v1.4h \n" // 8 int's "uxtl2 v1.4s, v1.8h \n" "scvtf v2.4s, v2.4s \n" // 8 floats "scvtf v1.4s, v1.4s \n" "fcvtn v4.4h, v2.4s \n" // 8 floatsgit "fcvtn2 v4.8h, v1.4s \n" MEMACCESS(1) "st1 {v4.16b}, [%1], #16 \n" // store 8 shorts "b.gt 1b \n" : "+r"(src), // %0 "+r"(dst), // %1 "+r"(width) // %2 : : "cc", "memory", "v1", "v2", "v4" ); } void HalfFloatRow_NEON(const uint16* src, uint16* dst, float scale, int width) { asm volatile ( "1: \n" MEMACCESS(0) "ld1 {v1.16b}, [%0], #16 \n" // load 8 shorts "subs %w2, %w2, #8 \n" // 8 pixels per loop "uxtl v2.4s, v1.4h \n" // 8 int's "uxtl2 v1.4s, v1.8h \n" "scvtf v2.4s, v2.4s \n" // 8 floats "scvtf v1.4s, v1.4s \n" "fmul v2.4s, v2.4s, %3.s[0] \n" // adjust exponent "fmul v1.4s, v1.4s, %3.s[0] \n" "uqshrn v4.4h, v2.4s, #13 \n" // isolate halffloat "uqshrn2 v4.8h, v1.4s, #13 \n" MEMACCESS(1) "st1 {v4.16b}, [%1], #16 \n" // store 8 shorts "b.gt 1b \n" : "+r"(src), // %0 "+r"(dst), // %1 "+r"(width) // %2 : "w"(scale * 1.9259299444e-34f) // %3 : "cc", "memory", "v1", "v2", "v4" ); } TEST=LibYUVPlanarTest.TestHalfFloatPlane_One BUG=libyuv:560 R=hubbe@chromium.org Review URL: https://codereview.chromium.org/2430313008 .	2016-10-21 14:30:03 -07:00
Frank Barchard	550cf829fb	HalfFloat avx2 unpack bug fix. AVX unpack parameters were reverse ordered causing incorrect results on AVX2 hardware. TEST=/usr/local/google/home/fbarchard/intelsde/sde -skx -- out/Release/libyuv_unittest --gtest_filter=Half BUG=libyuv:560 R=wangcheng@google.com Review URL: https://codereview.chromium.org/2438893002 .	2016-10-20 15:49:00 -07:00
Frank Barchard	f553db2d30	HalfFloatPlane unittest for denormal half floats Halffloats have a limited range. It shouldnt normally come up, but if the scale value passed in produces a small value, the half floats will be denormals, which are slow and/or flust to zero. This test ensures they behave the same in C and SIMD and tests the performance of denormals. TEST=TestHalfFloatPlane_denormal BUG=libyuv:560 R=hubbe@chromium.org Review URL: https://codereview.chromium.org/2424233004 .	2016-10-19 18:13:01 -07:00
Frank Barchard	78c58ab8aa	Add MSA optimized ARGB4444ToI420 and ARGB4444ToARGB functions R=fbarchard@google.com BUG=libyuv:634 Performance gains : (Auto-vectorized C vs MSA SIMD) ARGB4444ToYRow_MSA : ~3.0x ARGB4444ToUVRow_MSA : ~1.8x ARGB4444ToARGBRow_MSA : ~3.4x ARGB4444ToYRow_Any_MSA : ~2.8x ARGB4444ToUVRow_Any_MSA : ~1.7x ARGB4444ToARGBRow_Any_MSA : ~3.2x Review URL: https://codereview.chromium.org/2421843002 .	2016-10-19 11:10:51 -07:00
Frank Barchard	e16e3a629f	cpu_id cleanup. no functional change. remove old comment about initialize to zero. remove ifdef and replace with macro defined to zero. BUG=None TEST=try bots R=kjellander@chromium.org Review URL: https://codereview.chromium.org/2425623004 .	2016-10-18 12:26:02 -07:00
Frank Barchard	2d80fc3133	Port HalfFloatRow_SSE2 to AVX2 but not using F16C. R=wangcheng@google.com, hubbe@chromium.org BUG=libyuv:560 Review URL: https://codereview.chromium.org/2421993002 .	2016-10-14 19:01:41 -07:00
Frank Barchard	fdcf524aac	Add f16c (halffloat) cpuid R=wangcheng@google.com, hubbe@chromium.org BUG=libyuv:560 Review URL: https://codereview.chromium.org/2418763006 .	2016-10-14 16:34:08 -07:00
Frank Barchard	5333e94e70	Port ARGBExtractAlpha_AVX2 function to windows. BUG=libyuv:572 TEST=try bots R=wangcheng@google.com, magjed@chromium.org Review URL: https://codereview.chromium.org/2416783004 .	2016-10-13 23:20:57 -07:00
Frank Barchard	a5e93766a2	Add ARGBExtractAlpha_AVX2 function Port SSE2 version to AVX2. BUG=libyuv:572 TEST=/usr/local/google/home/fbarchard/intelsde/sde -skx -- out/Release/libyuv_unittest --gtest_filter=Extract R=wangcheng@google.com, magjed@chromium.org Review URL: https://codereview.chromium.org/2420553002 .	2016-10-13 16:03:43 -07:00
Frank Barchard	d363ea6527	Remove I411 support. YUV 411 is very uncommon format. Remove support. Update documentation to reflect that 411 is deprecated. Simplify tests for YUV to only test with the new side by side YUV but keep old 3 plane test around with a macro for now. BUG=libyuv:645 R=kjellander@chromium.org Review URL: https://codereview.chromium.org/2406123002 .	2016-10-11 11:14:16 -07:00
Frank Barchard	af87c11c9a	YUY2ToI422 coalesce rows for small images TBR=wangcheng@google.com BUG=libyuv:647 TESTED=LibYUVConvertTest.YUY2ToI422_Opt Review URL: https://codereview.chromium.org/2393393006 .	2016-10-07 18:35:42 -07:00
Frank Barchard	edd3a84d05	libyuv::YUY2ToY for isolating Y channel of YUY2. This function is the first step of YUY2 To I420. Provided primarily for diagnostics. TBR=wangcheng@google.com BUG=libyuv:647 TESTED=LibYUVConvertTest.YUY2ToY_Opt Review URL: https://codereview.chromium.org/2399153004 .	2016-10-07 17:20:30 -07:00

1 2 3 4 5 ...

1415 Commits