
II Workshop do Laboratório de Sinais e Sistemas
O II Workshop do Laboratório de Sinais e Sistemas da UFABC tem como principal objetivo apresentar trabalhos em andamento e trabalhos já apresentados e publicados nos anos de 2018 e 2019. Estes trabalhos são realizados por alunos de iniciação científica, trabalho de graduação, mestrado, doutorado ou professores credenciados ao Laboratório de Sinais e Sistemas.
Local e Data
Data: 05 de dezembro de 2019
​
Local: Auditório A112-0, Bloco A, Campus Santo André
Avenida dos Estados, 5001 - Bairro Santa Terezinha
Santo André - CEP: 09210-580
Programação
15:00 - Apresentação do LSS
Prof. Murilo Bellezoni Loiola e Prof. André Kazuo Takahata
Auditório A112-0
15:30 - Mostra dos Trabalhos do LSS
Apresentação de pôsteres por alunos e professores credenciados ao Laboratório de Sinais e Sistemas.
Mezanino do primeiro andar (em frente ao auditório A112-0)
​
17:00 - Apresentação do Capítulo de Processamento de Sinais do IEEE
Prof. Kenji Nose Filho
Auditório A112-0
17:10 - Palestra - Audio-Visual Voice Activity Detection Using Deep Neural Networks
Prof. Israel Cohen
Promovida pelo Capítulo de Processamento de Sinais do IEEE (South Brazil Section Chapter)
Auditório A112-0
​
18:40 - Coffee Break
Oferecido pelo Capítulo de Processamento de Sinais do IEEE (South Brazil Section Chapter)
Mezanino do primeiro andar (em frente ao auditório A112-0)
Palestra
Audio-Visual Voice Activity Detection Using Deep Neural Networks
​Palestrante: Prof. Israel Cohen
​
Link de transmissão: clique aqui
​
Resumo:
​
Recently, there has been growing use of deep neural networks in many modern speech-based systems such as speaker recognition, speech enhancement, and emotion recognition. In this talk, we address the problem of audio-visual voice activity detection (VAD) by incorporating auditory and visual modalities into an end-to-end deep neural network. We evaluate the proposed system in challenging acoustic environments including high levels of noise and transients, which are common in real-life scenarios. Our multimodal setting includes a speech signal captured by a microphone and a corresponding video signal capturing the speaker’s mouth region. Under such difficult conditions, robust features need to be extracted from both modalities to accurately distinguish between speech and noise. For this purpose, we utilize a deep residual network, to extract features from the video signal, while for the audio modality, we employ a variant of WaveNet encoder for feature extraction. The features from both modalities are fused using multimodal compact bilinear pooling to form a joint representation of the speech signal. To further encode the temporal information, we feed the fused signal to a long short-term memory network and the system is then trained in an end-to-end supervised fashion. Experimental results demonstrate the improved performance of the proposed end-to-end multimodal architecture compared to unimodal variants for VAD.
​
Bio:
​
Israel Cohen (F) is a Professor of electrical engineering at the Technion - Israel Institute of Technology, Haifa, Israel. He received the B.Sc. (Summa Cum Laude), M.Sc. and Ph.D. degrees in electrical engineering from the Technion - Israel Institute of Technology, in 1990, 1993 and 1998, respectively.
Dr. Cohen served as Associate Editor, IEEE Transactions on Audio, Speech, and Language Processing (2004-2007); Associate Editor, IEEE Signal Processing Letters (2004-2008); Member, Audio and Acoustic Signal Processing Technical Committee (2012-2017); and Member, Speech and Language Processing Technical Committee (2013-2015).
Dr. Cohen is a Fellow of the IEEE “for contributions to the theory and application of speech enhancement”. He was awarded the Norman Seiden Prize for Academic Excellence (2017), the SPS Signal Processing Letters Best Paper Award (2014), the Alexander Goldberg Prize for Excellence in Research (2010), and the Muriel and David Jacknow Award for Excellence in Teaching (2009). He is a coauthor of Fundamentals of Signal Enhancement and Array Signal Processing (Wiley-IEEE Press, 2018).
Dr. Cohen’s research interests are in the broad area of signal processing, with a specific focus on array processing, statistical signal processing, analysis and modeling of acoustic signals, speech enhancement, noise estimation, microphone arrays, source localization, blind source separation, system identification and adaptive filtering.
Trabalhos
Estudo de Algoritmos Baseados em Aprendizagem por Teoria de Informação com kernel não-gaussiano
Lucas Henrique Gois de Campos, Aline de Oliveira Neves Panazio
Neste trabalho estudamos algoritmos de equalização autodidatas baseados em aprendizagem por teoria de informação, utilizando como kernel, funções não-gaussianas. Critérios baseados em conceitos de teoria de informação têm mostrado desempenhos melhores do que os critérios clássicos em contextos em que o sinal tratado é correlacionado ou quando existe ruído impulsivo. No entanto, uma dificuldade presente em tais critérios consiste na estimação, em tempo real, das densidades de probabilidade dos sinais envolvidos. Para isto, é comum utilizar-se a técnica da janela de Parzen, que inclui a utilização de um kernel dado por uma função gaussiana. Por outro lado, estudos mostram que as funções gaussianas não são as que apresentam os melhores desempenhos neste contexto. Este estudo utilizou o kernel Epanechnikov para o desenvolvimento dos algoritmos e comparou o desempenho destes com os algoritmos que utilizam o kernel Gaussiano. Simulações em diversos cenários, com sinais correlacionados e não-correlacionados, mostraram como o novo kernel consegue melhorar o desempenho dos algoritmos.
Publicado em: XII Simpósio de Iniciação Científica da UFABC (2019)
Interfaces Cérebro-Computador com o paradigma SSVEP
Matheus Damasceno, Paula Rodrigues, Diogo Soriano e André Takahata
Interfaces cérebro-computador (BCI) são meios de comunicação direta entre o cérebro do usuário e uma máquina que permitem a execução de comandos sem o uso do sistema nervoso periférico, tendo como uma de suas principais aplicações possibilitar a realização de tarefas simples a pessoas com sérias restrições motoras, tais como movimentar cadeiras de rodas, se alimentar e escrever mensagens. Neste trabalho são estudadas técnicas de processamento digital de sinais com o intuito de aplicá-las a uma BCI utilizando o paradigma dos potenciais visuais evocados em regime permanente (do inglês steady-state visually evoked potentials, SSVEP) no qual diferentes comandos são associados a estímulos visuais repetitivos com diferentes frequências, de tal modo que é possível escolher o comando desejado ao focar a atenção em seu respectivo estímulo visual, o que faz surgir um potencial evocado em regime permanente no eletroencefalograma (EEG) na frequência do estímulo escolhido. Os estudos foram realizados utilizando dados de bases de EEG offline, e consistiram inicialmente no desenvolvimento e aplicação de filtros digitais seletivos em frequência e espaciais para remover ruídos e artefatos do sinal, seguidos da extração e seleção de características e por fim a classificação. O principal desafio foi separar o padrão SSVEP de outros biopotenciais, tais como sinais cardíacos, musculares e outros tipos, que foram removidos usando as técnicas de média de referência comum (CAR) – amplamente utilizada na literatura – e decomposição em valores singulares (SVD), proposta neste trabalho como uma alternativa ao CAR. A partir dos resultados, foi possível observar que a seleção de atributos possui um papel significativo no desempenho de uma BCI e que o SVD permite a decomposição do sinal em componentes ligadas a artefatos e componentes ligadas aos sinais de interesse, obtendo-se então um desempenho compatível com o CAR na literatura.
Publicado em: XXXVII Simpósio Brasileiro de Telecomunicações (SBrT 2019) e XXVII Jornadas de Jovens Pesquisadores
Sound Event Recognition in a Smart City Surveillance Context
Tito Spadini, Dimitri Leandro de Oliveira Silva, Ricardo Suyama
Due to the growing demand for improving surveillance capabilities in smart cities, systems need to be developed to provide better monitoring capabilities to competent authorities, agencies responsible for strategic resource management, and emergency call centers. This work assumes that, as a complementary monitoring solution, the use of a system capable of detecting the occurrence of sound events, performing the Sound Events Recognition (SER) task, is highly convenient. In order to contribute to the classification of such events, this paper explored several classifiers over the SESA dataset, composed of audios of three hazard classes (gunshots, explosions, and sirens) and a class of casual sounds that could be misinterpreted as some of the other sounds. The best result was obtained by SGD, with an accuracy of 72.13% with 6.81 ms classification time, reinforcing the viability of such an approach.
Publicado em: III Workshop @NUVEM
Comparative Study between Adversarial Networks and Classical Techniques for Speech Enhancement
Tito Spadini, Ricardo Suyama
Speech enhancement is a crucial task for several applications. Among the most explored techniques are the Wiener filter and the LogMMSE, but approaches exploring deep learning adapted to this task, such as SEGAN, have presented relevant results. This study compared the performance of the mentioned techniques in 85 noise conditions regarding quality, intelligibility, and distortion; and concluded that classical techniques continue to exhibit superior results for most scenarios, but, in severe noise scenarios, SEGAN performed better and with lower variance.
Publicado em: XIV Congresso Brasileiro de Inteligência Computacional
On the application of SEGAN for the attenuation of the ego-noise in the speech sound source localization problem
Tito Spadini, Guilherme Seidyo Imai Aldeia, Guilherme Barreto, Kaleb Alves, Henrique Ferreira, Ricardo Suyama, Kenji Nose-Filho
In this paper, we present some preliminary results using the Speech Enhancement Generative Adversarial Network (SEGAN) for the attenuation of the ego-noise in the speech source localization problem embedded in unmanned aerial vehicles (UAV). This task is of great interest in UAV search and rescue scenarios. The primary motivation of using the SEGAN is that it seems to preserve the waveform of the speech signal, which is essential for time-based direction of arrival (TDOA) algorithms. Although preliminary, the obtained results open an excellent perspective for its usage in this problem and despite its computational burden in the training stage, once the SEGAN is trained, it can be implemented for working in real-time scenarios.
Publicado em: 2019 Workshop on Communication Networks and Power Systems (WCNPS)
CarNotFound: Project and Development of an Autonomous R/C Car
Isabelle Diniz Orlandi, Daniel Pereira Cinalli, Italo Milhomem de Abreu Lanza, Thiago Lima de Almeida, Tito Caco Curimbaba Spadini, Pedro Ivo da Cruz, Filipe Ieda Fazanaro
Robots are fascinating, mainly, due to the fact that it is essential that the acknowledgment of different areas - as electrical engineering, computer engineering, mechanical engineering, physics, mathematics and biology - must be integrated so that the robot can interact with the environment. In the context of autonomous robots, it is also fundamental the capability to locate itself without any human interference, only by processing the information obtained by numerous types of sensors. The work described here aims to study the essential concepts associated with autonomous robots, specifically, an autonomous /C car capable to navigate in a closed environment, following a dashed reference line, using only a single camera. The processing of the images acquired and the execution of the control system were performed by a Raspberry Pi 3B+ using codes in Python and OpenCV. The results obtained indicate strong dependence on the rate of the processed frames per second and, moreover, a simple PD controller was sufficient to adjust the direction of the car along the trajectory to be followed.
Publicado em: Journal of Production and Automation
Comparação de Amplificadores de Áudio Valvulado e Transistorizado
Dimitri Leandro e Ricardo Suyama
No presente trabalho foram estudadas técnicas de análise e desenvolvimento de circuitos amplificadores de áudio, avaliando características de projetos baseados em válvulas e semicondutores. O estudo examinou as especificidades dos componentes mencionados e discutiu algumas classes de operação de amplificadores, realizando simulações computacionais para que, enfim, fossem confeccionados um amplificador transistorizado e um valvulado. Como critério objetivo de avaliação desse amplificadores, utilizaram-se as métricas de distorção harmônica total e resposta em frequência. Os resultados indicam que o amplificador transistorizado apresenta uma resposta em frequência mais plana, mas uma distorção harmônica total cerca de 60% maior do que o amplificador valvulado.
Publicado em: XI Simpósio de Inciniação Científica da UFABC (2018) e Revista Brasileira de Iniciação Científica
Avaliação do LoraWAN para Campus Inteligente
Dimitri Leandro de Oliveira Silva, Jeferson R. Cotrim e João Henrique Kleinschmidt
O presente trabalho avaliou o desempenho de uma rede LoRaWAN na conjuntura de Internet das Coisas para um Campus Inteligente. Os testes foram realizados no campus Santo André da Universidade Federal do ABC, onde foram aferidas a taxa de perda de pacotes, a potência do sinal e configurações de transmissão. Os resultados obtidos mostraram que, apesar de ser uma solução para longas distâncias, o LoRaWAN também pode ser utilizado em aplicações de curtas distâncias, com a vantagem de utilizar uma infraestrutura mais simples em relação a tecnologias mais comuns para esse propósito.
Publicado em: XXXVII Simpósio Brasileiro de Telecomunicações (SBrT 2019)
Avaliação da Variação Total de Espectrogramas
Giulio G. R. Suzumura, Ricardo Suyama
Abordagens clássicas de separação de fontes como as baseadas em Análise por Componentes Independentes e Análise por Componentes Esparsas são amplamente difundidas e, dependendo da aplicação, retornam bons resultados. Entretanto, no estudo de separação de sinais de áudio, explorar características em outros domínios pode trazer melhores resultados. Transformar sinais de áudio em espectrogramas faz com que estes possam ser interpretados como imagens e, portanto, utilizar técnicas de processamento de imagens pode trazer novas perspectivas ao problema. Nesse trabalho, baseando-se em métricas associadas à nitidez de imagens, avaliamos o uso da Variação Total do espectrograma no problema de separação cega de fontes, e os resultados preliminares indicam que a ferramenta pode ser útil para a construção de uma nova abordagem para recuperação dos sinais.
Publicado em: XXXVII Simpósio Brasileiro de Telecomunicações (SBrT 2019)
Reconhecimento Ótico de Caracteres Alfabéticos em Placas de Sinalização
Gustavo da Silva Oliveira, Kenji Nose Filho
Este trabalho de iniciação científica apresenta um algoritmo para a detecção ótica de caracteres (OCR) do alfabeto latino, considerando letras maiúsculas e minúsculas, em placas de sinalização. Primeiramente, o programa faz a conversão da imagem colorida para preto e branco e realiza a sua binarização através do método de Otsu. Na imagem binarizada é feita a separação das letras e o cálculo das features. A última etapa consiste na classificação das letras já separadas, que foi feita utilizando dois classificadores distintos, um baseado em perceptrons e outro em uma rede de regressão generalizada (GRNN). Para o perceptron foram testadas 3 funções de ativação diferentes, a função degrau, a função sigmoide e a função de base radial. Tanto para o perceptron quanto para a GRNN foram utilizadas features de diferentes dimensões e os resultados foram comparados com a ferramenta de OCR Tesseract. Para o perceptron, os melhores resultados foram obtidos com a função sigmoide e entre o perceptron e a GRNN, os melhores resultados foram obtidos com a GRNN. Inclusive quando comparado com os obtidos pelo Tesseract.
Publicado em: XII Simpósio de Iniciação Científica da UFABC (2019)
A semblance based TDOA algorithm for sound source localization
Aldeia, G. S. I., Crispim, A. E., Barreto, G., Alves, K., Ferraira, H., Nose-Filho, K.
Este trabalho propõe uma nova técnica que utiliza a diferença de chegada do som para o problema de localização de fonte sonora, utilizando a função de coerência multicanal Semblance. O algoritmo proposto foi testado em gravações de um veículo aéreo não tripulado equipado com um arranjo de 8 microfones, onde a tarefa é estimar os ângulos de azimute e elevação de uma fonte sonora que emite sinais de voz. Os resultados mostram que o método tem uma boa performance, obtendo bons resultados mesmo quando a proporção entre sinal e ruído é muito baixa.
Publicado em: XXXVII Simpósio Brasileiro de Telecomunicações (SBrT 2019)
An Epanechnikov Kernel Based Method for Source Separation in Post-Nonlinear Mixtures
Caroline P. A. Moraes, Denis G. Fantinato, Aline Neves
In the context of the nonlinear Blind Source Separation problem, Post-Nonlinear mixtures can be separated via Mutual Information minimization. In this case, methods based on score functions can be used and the recovered sources distributions can be estimated by kernel methods. Usually a Gaussian kernel function is used. However, other kernel functions with interesting properties can be used, such as the Epanechnikov kernel. Based on this, we apply the Epanechnikov kernel to estimate the pdf and the relative gradient, in order to recover the sources. Also, we compare a classic Gaussian kernel with the Epanechnikov kernel, showing that the latter performs better than the former.
Publicado em: XXXVII Simpósio Brasileiro de Telecomunicações (SBrT 2019)
Algoritmo Baseado em Estatísticas de Segunda Ordem para Separação Cega de Fontes com Misturas Não Lineares
Juliana Saldanha, Caroline P. A. Moraes, Aline Neves, Denis G. Fantinato
Os modelos de misturas de sinais não lineares do tipo Post-Nonlinear apresentam a vantagem de poderem ser separados através de técnicas baseadas em análise por componentes independentes. No entanto, normalmente as técnicas de separação envolvem estatísticas de ordem superior e algoritmos que utilizam redes neurais ou metaheurísticas. Neste trabalho, buscamos desenvolver um algoritmo simples de separação, baseado no gradiente descendente, que utilize somente estatísticas de segunda ordem, explorando a estrutura temporal dos sinais das fontes. Assim, combinamos dois algoritmos clássicos, o AMUSE e o SOBI, para atuarem nas etapas linear e não linear de separação, respectivamente. Os resultados obtidos mostram que o algoritmo consegue obter bom desempenho.
Publicado em: 2019 Brazilian Technology Symposium
Reconstruction of the glottal pulse using a subband technique on kazoo recordings
Alexandre M. Lucena, Mario Minami, Miguel A. Ramirez
The kazoo, a wind instrument, generates its typical sound when stimulated by voiced speech. Using this instrument, this work proposes a novel technique to recover the glottal pulse excitation of its player. We applied multiband frequency techniques to the kazoo signal to compare the results with those obtained from the corresponding recordings of an electroglottograph (EGG).The kazoo, a wind instrument, generates its typical sound when stimulated by voiced speech. Using this instrument, this work proposes a novel technique to recover the glottal pulse excitation of its player. We applied multiband frequency techniques to the kazoo signal to compare the results with those obtained from the corresponding recordings of an electroglottograph (EGG).
Publicado em: 176th Meeting Acoustical Society of America
Uso de Imagens Sintéticas no Treinamento de Redes Neurais Convolucionais
Edilton Torres de Andrade, André Kazuo Takahata
Neste trabalho, avaliamos o uso de imagens sintéticas geradas a partir de Modelos 3D para treinamento de Redes Neurais Convolucionais. As simulações realizadas demonstraram que as imagens sintéticas podem ser utilizadas de maneira efetiva para reconhecimento de objetos reais e criação de subclasses de classificação sendo, tal procedimento, uma alternativa para obtenção de amostras para construir uma base de imagens de treinamento.
Publicado em: III Workshop Nuvem
Estudo Comparativo Entre Mecanismos de Geração de Chaves Criptográficas a Partir da Informação do Canal Sem Fio
Yan Podkorytoff Ike Chícharo, Pedro Ivo da Cruz, Murilo Bellezoni Loiola
Este trabalho tem como objetivo o estudo de dois algoritmos de quantizaçãos para a geração de chaves de criptografia a partir da informação do canal, avaliando-o em relação a sua capacidade de acordo de chave, número de bits gerados e sua aleatoriedade.
Publicado em: XXXVII Simpósio Brasileiro de Telecomunicações (SBrT 2019)
Robustness of the Tomlinson-Harashima Precoder in Physical-layer Security to Attacks with Non-linear CMA
Pedro Ivo da Cruz, Murilo Bellezoni Loiola
Physical-layer security techniques have proven to be a good alternative to the computational high-cost traditional security mechanisms for wireless communications. In this work, the secrecy level provided by a Tomlinson-Harashima precoder is evaluated in a scenario in which the eavesdropper is allowed to perform extra signal processing at the received signal, aiming to recover the confidential information. The results indicate that even with the extra effort using unsupervised channel equalization methods, the eavesdropper is not able to totally recover the information.
Publicado em: XXXVII Simpósio Brasileiro de Telecomunicações (SBrT 2019)
Improving Sparse Multichannel Blind Deconvolution with Correlated Seismic Data: Foundations and further results
Kenji Nose-Filho, André Kazuo Takahata, Renato Lopes and João M. T. Romano
For more than half a century, seismic deconvolution has been of a great interest in reflection seismics. Its goal is to remove the effect of the seismic wavelet, i.e., the waveform produced by the seismic source, from the data. In this work, we review some key aspects of multichannel blind deconvolution methods, which assume that the wavelets that affect some subsets of the seismic data are approximately the same. Then we show how multichannel methods perfectly remove the wavelet, and under what conditions this can be done. Next, we show how the large similarity between neighboring reflections may lead to ill-posed problems and discuss how some works in the literature use regularization methods to find good solutions. We then describe a method that exploits the high correlation of seismic data to both reduce the computational complexity of multichannel deconvolution and to improve the quality of the solution. Finally, we present some illustrative results, on both synthetic and real data, comparing the reduced-complexity solution and the multichannel method described in [1].
Publicado em: IEEE Signal Processing Magazine, vol. 35, no. 2, pp. 41-50, March 2018.