Name: | Description: | Size: | Format: | |
---|---|---|---|---|
5.21 MB | Adobe PDF |
Authors
Abstract(s)
Abstract
Audio-based monitoring offers a discreet solution for studying biodiversity behavior in remote or sensitive environments like forests. This work addresses the need for efficient wildlife monitoring, focusing on avian species using audio detection. This work optimizes one of the models related to the Bird Audio Detection Challenge (BADC), designs a hardware accelerator for the algorithm, and implements it in a System-on-Chip Field Programmable Gate Array (Xilinx Zynq UltraScale+ ZU3CG SoC). The model weights and activations are quantized and fine-tuned to improve the hardware performance and reduce resource usage without sacrificing much accuracy. The accelerator has different levels of quantization, 4 bits for the Convolution layers and 8 bits for the Gated Recurrent Unit (GRU) layers, implemented in the FPGA and integrated with the processor of the SoC-FPGA. The results show that the system has an accuracy of 79.5%, with reduced accuracy compared to the software Python model (89.75%). Still, it is acceptable since the objective is to reduce the model, implement it in hardware, and target 1 second or less evaluation time. The evaluation performance has a latency of 679ms, fulfilling the target delay of 1s. This work uniquely demonstrates the process of selecting a model, quantizing it, replicating the Python model in C, and implementing it into an FPGA. This represents a new project approach for a bird audio detection system within the scope of the BADC.
A monitorização baseada em áudio oferece uma solução discreta para estudar o comportamento da biodiversidade em ambientes remotos ou sensíveis, como florestas. Este trabalho aborda a necessidade de uma monitorização eficiente da vida selvagem, focando-se em espécies de aves através da deteção por áudio. Este trabalho otimiza um dos modelos relacionados com o Desafio de Deteção de Áudio de Pássaros (BADC), projeta um acelerador em hardware para o algoritmo e implementa-o num System-on-Chip Field Programmable Gate Array (Xilinx Zynq UltraScale+ ZU3CG SoC). Os pesos e ativações do modelo são quantizados e ajustados para melhorar o desempenho do hardware e reduzir o uso de recursos sem sacrificar muito a precisão. O acelerador tem diferentes níveis de quantização, 4 bits para as camadas de Convolução e 8 bits para as camadas Gated Recurrent Unit (GRU), implementadas na FPGA e integradas com o processador do SoC-FPGA. Os resultados revelam que o sistema possui uma precisão de 79,5%, sendo esta inferior à precisão do modelo em Python (89,75%). No entanto, é aceitável, uma vez que o objetivo é reduzir o modelo, implementá-lo em hardware e alcançar um tempo de avaliação de 1 segundo ou menos. O desempenho de avaliação tem uma latência de 679ms, cumprindo o objectivo de uma atraso maximo de 1s. Este trabalho demonstra de forma única todo o processo, desde a seleção de um modelo, quantização, replicação do modelo Python em C e implementação numa arquitetura hardware/software reconfigurável. Representa uma nova abordagem de projeto de um sistema para deteção de áudio de pássaros no âmbito do BADC.
A monitorização baseada em áudio oferece uma solução discreta para estudar o comportamento da biodiversidade em ambientes remotos ou sensíveis, como florestas. Este trabalho aborda a necessidade de uma monitorização eficiente da vida selvagem, focando-se em espécies de aves através da deteção por áudio. Este trabalho otimiza um dos modelos relacionados com o Desafio de Deteção de Áudio de Pássaros (BADC), projeta um acelerador em hardware para o algoritmo e implementa-o num System-on-Chip Field Programmable Gate Array (Xilinx Zynq UltraScale+ ZU3CG SoC). Os pesos e ativações do modelo são quantizados e ajustados para melhorar o desempenho do hardware e reduzir o uso de recursos sem sacrificar muito a precisão. O acelerador tem diferentes níveis de quantização, 4 bits para as camadas de Convolução e 8 bits para as camadas Gated Recurrent Unit (GRU), implementadas na FPGA e integradas com o processador do SoC-FPGA. Os resultados revelam que o sistema possui uma precisão de 79,5%, sendo esta inferior à precisão do modelo em Python (89,75%). No entanto, é aceitável, uma vez que o objetivo é reduzir o modelo, implementá-lo em hardware e alcançar um tempo de avaliação de 1 segundo ou menos. O desempenho de avaliação tem uma latência de 679ms, cumprindo o objectivo de uma atraso maximo de 1s. Este trabalho demonstra de forma única todo o processo, desde a seleção de um modelo, quantização, replicação do modelo Python em C e implementação numa arquitetura hardware/software reconfigurável. Representa uma nova abordagem de projeto de um sistema para deteção de áudio de pássaros no âmbito do BADC.
Description
Dissertação para obtenção do Grau de Mestre em Engenharia Informática e de Computadores
Keywords
Bird audio detection Bird audio detection challenge Convolutional neural network Recurrent neural network Gated recurrent unit TensorFlow QK-eras Quantization FPGA Hardware accelerator High-level synthesis Detecção de áudio de pássaros Desafio de detecção de áudio de pássaros Rede neural convolucional Rede neural recorrente Quantização Acelerador de hardware Síntese de alto nível