Avaliação de desempenho e consumo energético para configurações de Wavefront pools de uma GPU AMD

Ariel Gustavo Zuquello, Emanuel Felipe Duarte, Lucas Pupulin Nanni, Rômulo de Aguiar Beninca, Yoji Massago

Resumo - visualizações: 2302


O uso de sistemas heterogêneos CPU-GPU para atender à crescente demanda por aplicações com grande paralelismo de dados resulta na necessidade de estudar e avaliar tais arquiteturas para melhorá-las continuamente. Neste artigo foram feitas simulações da execução de uma suíte de benchmark em uma GPU AMD ATI RadeonTM HD 7970, de modo a avaliar o impacto sobre o desempenho e o consumo energético quando alterado o número de Wavefront Pools presentes em cada compute unit da GPU, que é 4 por padrão. O resultado mais significante evidencia um aumento de velocidade de cerca de 5,7% para a configuração com duas Wavefront Pools em conjunto com um aumento no consumo de energia de cerca de 5,1%. Todavia, as outras configurações avaliadas também representam opções para diferentes tipos de necessidades, conforme a categoria de demanda computacional.

Palavras-chave: Sistemas heterogêneos. Simulações. Desempenho.

Performance evaluation and energy consumption for settings of Wavefront pools of a GPU AMD

Abstract

The use of CPU-GPU heterogeneous systems to meet the growing demand for applications with large data parallelism results in the need to study and evaluate these architectures in order to improve them continuously. In this paper we made simulations of running a benchmark suite on an AMD GPU ATI RadeonTM HD 7970 in order to assess the impact on performance and power consumption when tuning the number of Wavefront Pools present in each GPU compute unit, which is 4 by default. The most significant result shows a speedup of about 5.7% for configuration with two Wavefront Pools in conjunction with an increase of about 5.1% in the energy consumption. However, the other evaluated configuration also represent options for different kinds of needs, according to   the  computational demand.

Keyworks: Heterogeneous systems. Simulation. Performance.


Palavras-chave


Sistemas heterogêneos. Simulações. Desempenho

Texto completo:

PDF

Referências


ADVANCED MICRO DEVICES. AMD RadeonTM HD 7970 Graphics. [©2013]. Disponível em: . Acesso em: 13 maio 2013.

ASANO, S.; MARUYAMA, T.; YAMAGUCHI, Y. Performance comparison of FPGA, GPU and CPU in image processing. In: INTERNATIONAL CONFERENCE ON FIELD PROGRAMMABLE LOGIC AND APPLICATIONS, 19., 2009. Prague, Czech Republic. Proceedings... Prague: [s.n.], p. 126-131, 2009. Disponível em: . Acesso em: 13 maio 2013.

BAKHODA, A. et al. Analyzing CUDA workloads using a detailed GPU simulator. In: IEEE INTERNATIONAL SYMPOSIUM ON PERFORMANCE ANALYSIS OF SYSTEMS AND SOFTWARE (ISPASS)., 2009. Proceedings… [S.l.: s.n.] 2009. p. 163–174, 2009. Disponível em: . Acesso em: 13 maio 2013.

CAPS. Openhmpp directives. CAPS OpenACC Compiler: HMPP workbench 3.2, 2012. Disponível em: < https://www.olcf.ornl.gov/wp-content/uploads/2012/10/HMPPOpenACC-3.2_ReferenceManual.pdf>. Acesso em: 13 maio 2013.

GOSWAMI, N. GPU-PowerSim. 2012. Disponível em: . Acesso em: 11 maio 2013.

GRAUER-GRAY, S. et al. Accelerating financial applications on the GPU. In: WORKSHOP ON GENERAL PURPOSE PROCESSING USING GPUS. 6, 2013, Houston, TX. [Proceedings]... Houston, TX., 2013. Disponível em: . Acesso em: 28 abr. 2013.

GRAUER-GRAY, S. et al. Auto-tuning a high-level language targeted to GPU codes. In: INNOVATIVE PARALLEL COMPUTING, 2012, San Jose, California, USA. Proceedings... San Jose: IEEE, 2012. Disponível em: . Acesso em: 28 abr. 2013.

HENNESSY, J. L.; PATTERSON, D. A. Computer architecture: a quantitative approach. 5th. ed. Waltham, MA: Morgan Kaufman, 2012.

INTEL. IntelR CoreTM i7-3820 Processor (10MB cache, UP to 3.80 GHZ). Santa Clara, CA, USA: Intel Corporation, [2013]. Disponível em: . Acesso em: 29 abr. 2013.

KHRONOS GROUP. Opencl: the open standard for parallel programming of heterogeneous systems. Beaverton, OR, USA, [2013]. Disponível em: . Acesso em: 04 maio 2013.

LI, S. et al. McPAT: an integrated power, area, and timing modeling framework for multicore and manycore architectures. In: ANNUAL IEEE/ACM INTERNATIONAL SYMPOSIUM ON MICROARCHITECTURE, 42., 2009, New York. Proceedings… New York, NY, USA: ACM, p. 469-480, 2009. Disponível em: . Acesso em: 04 maio 2013.

MULTI2SIM. The Multi2Sim simulation framework. 2013. Disponível em: . Acesso em: 10 abr. 2013.

NVIDIA. CUDA Parallel programming and computing platform. NVIDIA Corporation, [2013]. Disponível em: . Acesso em: 10 abr. 2013.

POUCHET, L. Polybench: the polyhedral benchmark suite. Disponível em: . Acesso em: 11 abr. 2013.

TUMEO, A.; VILLA, O. Accelerating DNA analysis applications on GPU clusters. In: SYMPOSIUM ON APPLICATION SPECIFIC PROCESSORS, 8., 2010, Anaheim, CA, USA. Proceedings... [S.l.:s.n.], p. 71–76, 2010. Disponível em: . Acesso em: 11 abr. 2013.

UBAL, R. et al. Multi2sim: a simulation framework for CPU-GPU computing. In: INTERNATIONAL CONFERENCE ON PARALLEL ARCHITECTURES AND COMPILATION TECHNIQUES, 21., 2012, Minneapolis, MN, USA. Proceedings… New York: ACM, 2012. Disponível em: . Acesso em: 11 abr. 2013.

YANG, J.; WANG, Y.; CHEN, Y. GPU Accelerated Molecular Dynamics Simulation of Thermal Conductivities. Journal of Computational Physics, v. 221, n. 2, p. 799-804, 2007. Disponível em: . Acesso em: 11 abr. 2013.




DOI: http://dx.doi.org/10.29069/forscience.2016v4n1.e164

Apontamentos

  • »
  • »
  • »
  • »
  • »
  • »
  • »
  • »
  • »
  • »
  • »
  • »
  • »
  • »


Indexada em:

                    

          

ISSN 2318-6356

Licença Creative Commons
ForScience: Revista Científica do IFMG   http://formiga.ifmg.edu.br/forscience é licenciado sob uma Licença Creative Commons Atribuição-NãoComercial 3.0 Não Adaptada.

SalvarSalvarSalvarSalvar