2017년 2월 7일 화요일

로봇에 사용되는 기술


로봇은 인식(Perception), 판단(Cognition), 행동(Mobility) 분야로 구분되어 정의될 수 있다. 이번 절에서는 3개 분야에서 최근에 많은 주목을 받는 기술을 찾아 알아보도록 한다.

인식(Perception) 분야의 음성 인식 기술

음성 인식 기술은 인간이 말하는 언어를 디지털 데이터로 변환하여 그 의미를 전달하는 기술이다. 기존에는 미리 약속한 예약어 중심으로 인식했지만 최근에는 음성을 완벽하게 이해하고 표현하는 기술이 발달하고 있다.
이미 오래전부터 음성 인식 기술에 대한 연구는 계속 되고 있고 머신러닝이나 딥러닝의 전신인 뉴럴 네트워크(Neural Network)를 통해 많은 연구 성과가 이루어졌으나 학습 데이터와 학습 시간의 부족으로 불특정 다수에 대한 음성 인식은 효과를 얻을 수 없었다.
하지만 최근 클라우드와 모바일 디바이스의 발전에 따라 학습 데이터의 양은 폭발적으로 늘어나는 중이고 음성 인식 시스템이 학습하는 시간 또한 대폭 줄어들어 음성 인식 기술이 인간에 가까워지는 중이다. 특히 애플의 ‘시리(Siri)’나 구글의 ‘어시스턴트(Asistent)는 사용자에게 만족스러운 성능을 보여주고 있다.
음성을 인식하기 위해서는 음성을 인식해서 문장으로 바꾸고 의미를 분석한 후 사용자가 원하는 결과를 찾아 적당한 언어로 만들어 내고 음성으로 변환하여 사용자에게 들려준다(그림3).

<그림3> 음성 인식 기술의 개념
출처: 다이퀘스트

여기서 중요한 기술로 알려진 것이 인식된 음성을 문장으로 변환하는 것이다. 문장의 의미를 파악하고 그에 맞는 대답을 찾고 문장으로 정리하는 것은 음성과는 별개의 작업이고 문장을 음성으로 읽어주는 기술은 그다지 어려운 기술이 아니기 때문이다. 음성 인식과 의미 분석, 검색 기술은 최근에 딥러닝 기술을 활용하여 시스템을 구현하고 있다.
구글에서는 음성 인식 기술인 ‘클라우드 스피치 API’를 공개했는데 누구나 신청하여 사용이 가능하다. 클라우드 스피치 API는 오디오를 텍스트로 바꿔주는 기술이다. 딥러닝 뉴럴 네트워크 알고리즘을 이용했으며, 구글 내부 제품에서 실제로 활용하고 있는 기술이다. 클라우드 스피치 API는 전세계 80개 언어를 지원하며, 부적절한 콘텐츠를 따로 걸러낼 수 있는 필터 기능도 제공한다.
음성 인식의 경우 구현 방법이나 시스템에 따라 결과가 다르게 나타나지 않는다. 어차피 불특정 다수의 음성을 문장으로 변환시켜주는 기술은 똑같기 때문에 별도의 시스템으로 구현하는 것보다는 공개된 구글이나 다른 글로벌 기업의 API를 사용하는 것이 좋을 것으로 보인다. 소프트웨어적인 구현 방법이나 활용 방법은 아래 사이트를 참고한다.


댓글 없음 :

댓글 쓰기