Real-time bird audio detection using AI on FPGAs

Silva, Rodrigo Lopes da

http://hdl.handle.net/10400.21/21564

Utilize este identificador para referenciar este registo.

Nome:	Descrição:	Tamanho:	Formato:
RodrigoSilva_MEIC.pdf		5.21 MB	Adobe PDF	Ver/Abrir

Contacte-nos

Autores

Silva, Rodrigo Lopes da

Orientador(es)

Véstias, Mário Pereira

Duarte, Rui António Policarpo

Resumo(s)

Abstract Audio-based monitoring offers a discreet solution for studying biodiversity behavior in remote or sensitive environments like forests. This work addresses the need for efficient wildlife monitoring, focusing on avian species using audio detection. This work optimizes one of the models related to the Bird Audio Detection Challenge (BADC), designs a hardware accelerator for the algorithm, and implements it in a System-on-Chip Field Programmable Gate Array (Xilinx Zynq UltraScale+ ZU3CG SoC). The model weights and activations are quantized and fine-tuned to improve the hardware performance and reduce resource usage without sacrificing much accuracy. The accelerator has different levels of quantization, 4 bits for the Convolution layers and 8 bits for the Gated Recurrent Unit (GRU) layers, implemented in the FPGA and integrated with the processor of the SoC-FPGA. The results show that the system has an accuracy of 79.5%, with reduced accuracy compared to the software Python model (89.75%). Still, it is acceptable since the objective is to reduce the model, implement it in hardware, and target 1 second or less evaluation time. The evaluation performance has a latency of 679ms, fulfilling the target delay of 1s. This work uniquely demonstrates the process of selecting a model, quantizing it, replicating the Python model in C, and implementing it into an FPGA. This represents a new project approach for a bird audio detection system within the scope of the BADC.

A monitorização baseada em áudio oferece uma solução discreta para estudar o comportamento da biodiversidade em ambientes remotos ou sensíveis, como florestas. Este trabalho aborda a necessidade de uma monitorização eficiente da vida selvagem, focando-se em espécies de aves através da deteção por áudio. Este trabalho otimiza um dos modelos relacionados com o Desafio de Deteção de Áudio de Pássaros (BADC), projeta um acelerador em hardware para o algoritmo e implementa-o num System-on-Chip Field Programmable Gate Array (Xilinx Zynq UltraScale+ ZU3CG SoC). Os pesos e ativações do modelo são quantizados e ajustados para melhorar o desempenho do hardware e reduzir o uso de recursos sem sacrificar muito a precisão. O acelerador tem diferentes níveis de quantização, 4 bits para as camadas de Convolução e 8 bits para as camadas Gated Recurrent Unit (GRU), implementadas na FPGA e integradas com o processador do SoC-FPGA. Os resultados revelam que o sistema possui uma precisão de 79,5%, sendo esta inferior à precisão do modelo em Python (89,75%). No entanto, é aceitável, uma vez que o objetivo é reduzir o modelo, implementá-lo em hardware e alcançar um tempo de avaliação de 1 segundo ou menos. O desempenho de avaliação tem uma latência de 679ms, cumprindo o objectivo de uma atraso maximo de 1s. Este trabalho demonstra de forma única todo o processo, desde a seleção de um modelo, quantização, replicação do modelo Python em C e implementação numa arquitetura hardware/software reconfigurável. Representa uma nova abordagem de projeto de um sistema para deteção de áudio de pássaros no âmbito do BADC.

Descrição

Dissertação para obtenção do Grau de Mestre em Engenharia Informática e de Computadores

Palavras-chave

Bird audio detection Bird audio detection challenge Convolutional neural network Recurrent neural network Gated recurrent unit TensorFlow QK-eras Quantization FPGA Hardware accelerator High-level synthesis Detecção de áudio de pássaros Desafio de detecção de áudio de pássaros Rede neural convolucional Rede neural recorrente Quantização Acelerador de hardware Síntese de alto nível

URI

http://hdl.handle.net/10400.21/21564

Coleções

ISEL - Eng. Elect. Tel. Comp. - Dissertações de Mestrado

Licença CC

cclicense-by-nc-nd

Ver registo completo