Véstias, Mário PereiraCarvalho, António Maria Ferreira de Oliveira2026-03-312026-03-312025-12-09http://hdl.handle.net/10400.21/22770Abstract Semantic segmentation of medical images is a critical task in modern healthcare, enabling precise identification and localization of anatomical structures and pathological regions by classifying image regions at the pixel level, thereby supporting rapid and accurate diagnosis. Although deep learning models have achieved remarkable performance in this domain, their deployment in real-world clinical environments is often constrained by the high computational demands of traditional software implementations, resulting in inefficiency and latency. Field-Programmable Gate Arrays (FPGAs) provide a promising alternative by offering programmable hardware-level acceleration tailored for deep learning inference tasks, with advantages such as parallel processing, low latency, and energy-efficient computation, making them particularly suitable for time-sensitive applications including tumor detection, organ delineation, and lesion classification. In this work, a lightweight neural network architecture, Mobile-CMUNeXt, was designed and optimized for FPGA deployment through architectural pruning, quantization-aware training, and hardware-friendly modifications, alongside the development of modular accelerator cores for depthwise, pointwise, and 3D convolutions implemented on the Avnet Ultra96-V2 platform. Experimental results demonstrate that the proposed accelerator achieves real-time inference performance with clinically acceptable segmentation accuracy, while balancing resource utilization and maintaining energy efficiency and low latency, and further show competitive throughput compared to CPU and GPU baselines, validating the effectiveness of the hardware–software co-design methodology. Overall, this thesis establishes that FPGA-based accelerators constitute a viable solution for deploying deep learning models in edge medical devices by combining efficient neural network design with custom hardware optimizations, thereby enabling real-time, privacy-preserving, and energy-efficient semantic segmentation of medical images.A segmentação semântica de imagens médicas constitui uma tarefa importante na medicina moderna, permitindo a identificação e localização de estruturas anatómicas e de regiões patológicas ao nível do píxel, o que a torna uma ferramenta fundamental para diagnósticos rápidos e rigorosos. Embora os modelos de aprendizagem profunda tenham alcançado avanços notáveis nesta área, a sua implementação em contextos clínicos reais continua limitada pelas elevadas exigências computacionais das soluções exclusivamente baseadas em software, resultando em processamento ineficiente e com maior latência. Os Field-Programmable Gate Arrays (FPGAs) surgem como uma alternativa promissora ao oferecerem aceleração programável a nível de hardware, possibilitando processamento paralelo, baixa latência e computação energeticamente eficiente, características ideais para aplicações em tempo real, como a deteção de tumores, a delineação de órgãos e a classificação de lesões. Neste trabalho foi desenvolvida e otimizada uma arquitetura de rede neuronal leve, Mobile-CMUNeXt, direcionada para implementação em FPGA através de simplificações arquitetónicas, treino quantizado e simplificação de operações, complementada pelo desenvolvimento de núcleos de aceleração modulares para convoluções depthwise, pointwise e 3D, implementados na plataforma Avnet Ultra96-V2. Os resultados experimentais demonstram que o acelerador proposto atinge desempenho em tempo real com precisão de segmentação clinicamente aceitável, equilibrando de forma eficiente a utilização de recursos e mantendo simultaneamente baixa latência e eficiência energética, além de apresentar uma taxa de processamento competitiva face a implementações em CPU e GPU, validando a eficácia da abordagem de co-design hardware–software. Assim, esta tese comprova que os aceleradores baseados em FPGA constituem uma solução viável para a integração de modelos de aprendizagem profunda em dispositivos médicos de ponta, ao combinar desenho de redes neuronais eficientes com otimização de hardware dedicado, permitindo segmentação semântica de imagens médicas em tempo real, com preservação da privacidade e elevada eficiência energética.engMedical image segmentationFPGA accelerationHardware-software co-designDeep learning optimizationReal-time inferenceSegmentação de imagens médicasAceleração em FPGACo-design hardware–softwareOtimização em aprendizagem profundaInferência em tempo realSemantic segmentation of medical images for fast diagnosismaster thesis204247900