본문 바로가기

[LG SDC 2023] 나를 알아주는 스마트홈, 음성인식으로 구현하려면?

2023-11-02 김유진 연구위원

📢 Editor’s talk: 2023년 9월 14일부터 이틀간 열린 「LG SW 개발자 콘퍼런스(LG Software Developer Conference, 이하 LG SDC 2023)」. LG 계열사 내 개발자들의 경험과 열정을 공유하고 지식과 혁신적인 아이디어를 나눴던 시간, 구체적으로 살펴보겠습니다.

LG전자 CTO부문 인공지능 연구소의 김유진 연구위원 프로필. 2004년 LG전자 입사 이후 음성인식 기술의 전문가로서 LG전자의 다양한 제품에 최적화 된 기술 개발을 해왔으며 앞으로 스마트홈을 위한 LG전자만의 차별화된 기술을 개발하고자 합니다.

우리가 살고 싶은 스마트홈과 현실

지난 9월 개최된 LG전자 SDC2023에서 스마트홈 기술에 대해서 설명하는 김유진 연구위원
지난 9월 개최된 LG전자 SDC2023에서 스마트홈 기술에 대해서 설명하는 김유진 연구위원

LG전자는 집(home)이라는 공간을 주 사업 영역으로 봅니다. 이 공간은 혼자 사용하는 공간이기도 하지만 여러 다른 스타일의 사람들이 함께 거주하는 공간이기도 하죠. 즉, 한 가정에서 사용하는 음성인식 디바이스는 아빠, 엄마, 어린 아이 목소리까지도 인식할 수 있어야 합니다. 하지만 아이러니하게도 고객들은 이렇게 공용으로 사용하는 동시에 개개인의 라이프스타일에 최적화 된 맞춤 기능에 대한 니즈가 있습니다. 오늘은 이러한 홈이란 공간에서 개인화 경험 실현을 위해 음성인식 기술이 마주한 과제를 살펴보겠습니다.

현재 스마트홈 음성인식 기술 수준으로는 각 기기들에 일일이 명령을 내릴 수 밖에 없는 불편함이 있습니다. 그럼에도 한 조사기관의 ‘스마트홈 트렌드 리포트’에 따르면 조명, 에너지 제어, 도어락, 블라인드 등에 대한 고객들의 향후 스마트홈의 다양한 IoT기기의 가전 사용 의향이 매우 큰 것으로 나타났죠.

LG전자가 제주 빈집 재생 공간 ‘어나더하우스’ 와 내부에 설치된 ‘스마트 월패드’
LG전자가 제주 빈집 재생 공간 ‘어나더하우스’ 와 내부에 설치된 ‘스마트 월패드’

현재 고객들에게 가장 필요한 것은 기기별 제어가 아닌 ‘상황별 통합 제어’입니다. 음성인식 서비스인 것은 아니나 상황별 통합 제어 사례가 있습니다. 먼저 LG전자는 제주도의 빈집 재생 공간 ‘어나더 하우스’에서 다양한 스마트 가전과 함께, IoT 기술을 활용한 ‘스마트 월패드’를 통해 상황별 통합제어 경험을 제공하고 있는데요. 월패드엔 총 4가지의 통합 제어가 가능한 상황들이 정의되어 있습니다. 예를 들어 입실 시 커튼과 함께 조명과 에어컨이 동작하는 ‘입실모드’가 있죠.

통합적 경험을 제공하는 LG 씽큐 앱의 ‘스마트 루틴’ 기능
통합적 경험을 제공하는 LG 씽큐 앱의 ‘스마트 루틴’ 기능

또한 LG 씽큐 앱에도 이와 유사한 ‘스마트 루틴’ 기능이 있습니다. 휴가를 가거나 외출하기 전 사전 정의된 모드에 기기를 등록하여 각 모드에 따라 통합적으로 제어할 수 있죠. 또한 ‘나의 루틴’ 기능으로 사용자 개인의 필요에 따라 루틴을 추가할 수 있습니다. 이처럼 각각의 기기를 말로 일일이 제어하기보다 말 한 마디로 모든 가전이 알아서 통제된다면 음성인식은 더욱 편리해질 것입니다.

통합적 경험을 ‘음성인식’으로 구현하려면?

하지만 LG 씽큐가 제공하는 상황별 통합 제어 경험을 음성인식으로 구현하는 것이라면 이야기가 달라집니다. 예를 들어 ’휴가갈래’ 외에 ‘휴가가면’ 이라는 음성에도 동작해야 하죠. 디바이스 입장에선 이 음성이 기기를 동작시키기 위한 것인지 아니면 단순 스몰토크인지 인지하기 어렵습니다. 또한 음성 텍스트 변환과 의도 파악을 위한 복잡한 과정이 필요한 것은 물론, 음성 구간이 끝났는지 검출하기 위해 시간 지연도 발생하죠.

사용자의 음성을 인식하여 목적성을 판단하는 ‘스피치 투 인텐트(Speech to intent)’ 기술. 좌측에 휴가를 가면 좋겠다는 말을 하는 남성에 반응하지 않는 로봇청소기, 우측에는 휴가를 간다는 여성의 말에 반응하는 로봇청소기의 모습. 이번 연휴에 휴가가면 좋겠다! 드디어 나도 휴가간다~
사용자의 음성을 인식하여 목적성을 판단하는 ‘스피치 투 인텐트(Speech to intent)’ 기술

*가상의 상황을 연출한 이미지며 실제 제품 기능과는 무관합니다

이때 우리는 ‘스피치 투 인텐트(Speech to intent)’ 라는 기술을 적용할 수 있습니다. 이 기술은 ‘Spoken Language Understanding’이라는 오래 전부터 존재하던 기술영역으로 사용자의 음성이 사용자 정의 모드를 실행하기 위한 목적인지 아닌지 한번에 판단해 동작 시킵니다. 실제 해당 기술을 테스트한 결과, 기존보다 0.4초~1초까지 단축되어 훨씬 빠른 응답속도를 기대할 수 있습니다. 물론 이는 찰나의 시간이지만 고객에겐 큰 차이로 느껴질 수 있는데요. 현재 저희는 음성 명령이 길수록 처리 속도가 더욱 빨라지는 것을 파악하여 관련 기술을 계속 개발해 나가고 있습니다.

‘무엇을 도와드릴까요?’ 대화형 인터페이스를 구현하려면?

우리는 집이라는 공간에서 기기 제어 뿐만 아니라 다양한 생활 문제에 부딪힙니다. 가전제품 소모품 교체하는 일 하나에도 콜센터에 전화하거나 인터넷으로 검색하는 등의 인지/가사노동이 발생하죠. 만약 이를 쉽게 처리할 수 있는 스마트한 방법이 있다면 어떨까요? 디바이스와 대화를 하며 가사노동을 처리하는 ‘대화형 인터페이스’를 구현하는 방법이 있지만 사실 여기에는 많은 장애요소가 있습니다

주변 잡음을 제거하여 사용자의 음성을 또렷하게 인식하는 목표 음성 추출 기술. 잡음이 들려도 사용자의 목소리만을 정확하게 인식해 동작하는 에어컨의 모습. 하이 엘지, 오늘 날씨 알려줘. 오전 10시 약한 비가 예상됩니다. 그럼 에어컨 바람세기 약풍으로 해줘
주변 잡음을 제거하여 사용자의 음성을 또렷하게 인식하는 목표 음성 추출 기술

*가상의 상황을 연출한 이미지며 실제 제품 기능과는 무관합니다

현실적으로 스마트 디바이스에 물어봐야 하는 상황에서 사용자가 ‘충전대 설치 주의사항 알려줘’, ‘광촉매 필터 재생방법 다시 말해줘’ 와 같은 어려운 문장을 외워서 말하는 것은 쉽지 않습니다. 심지어 음성인식 동작어인 ‘하이 엘지!’ 를 말한 후 해당 문장을 말하기 위해 한참 생각하는 도중 끝나버리게 되죠.

또한 집에서 대화형 인터페이스를 구현하려면 주변 잡음이나 소음 속에서도 사용자의 목소리만을 정확하게 인식하는 기술이 필요합니다. 현재 여러 기술들을 개발 중에 있지만 여러 대의 마이크를 설치해야 하는 등의 물리적 한계가 지적되고 있습니다. 이에 저희는 ‘목표 음성 추출(Target speaker extraction)’ 이라는 기술에 주목하고 있는데요. 사용자가 ‘하이 엘지’라고 말하는 순간 입력된 목소리 정보를 분석하여 주변잡음과 목소리를 분리하여 인식하는 원리입니다.

나를 알아주는 스마트 홈- 화자 식별

앞서 말씀 드렸다시피 1인 가구가 아닌 이상 스마트홈은 여러 가족 구성원이 사용할 수 있는 공용 기기임에도 불구하고 사람들은 개개인을 위한 맞춤 기능이나 서비스를 원합니다. 저희는 이런 개인화된 AI 기술을 제공하기 위해 ‘화자 식별 기술’을 개발하고 있습니다.

사용자 음성을 인식하여 평소 시청 이력 정보들을 불러와 맞춤 광고와 콘텐츠 추천이 가능해진다. TV를 켜자마자 선호하는 컨텐츠와 관련 광고 제공, 요즘 아빠가 주로 보시는 자동차 리뷰 영상 보여드릴게요. 하이 엘지, TV 틀어줘. 채널 선택 명령에서 관심있는 제품의 채널과 광고 제공. 요즘 찾고 계시던 무드업 냉장고를 A 홈쇼핑에서 판매중이예요. 보시겠어요?
사용자 음성을 인식하여 평소 시청 이력 정보들을 불러와 맞춤 광고와 콘텐츠 추천이 가능해진다

*가상의 상황을 연출한 이미지며 실제 제품 기능과는 무관합니다

예를 들어 TV 시청 시 각각 아빠와 엄마가 이야기하는 것에 따라 평소 시청 이력 정보들을 기반으로 콘텐츠나 맞춤 광고를 추천할 수 있습니다. 또한 평소 가족들의 정수기 사용 패턴을 학습하여 아이스커피를 좋아하는 아빠에게는 냉수 200ml를, 따뜻한 차를 좋아하는 엄마한테는 온수 150ml를 주는 등의 초개인화 서비스가 가능해지죠.

화자 식별에는 음성인식, 언어 식별 등의 ‘언어적인 정보’와 목소리와 같은 ‘비언어적인 정보’를 분리하여 사용합니다. 이는 목소리가 개인의 특성을 담고 있기 때문인데요. 목소리 분석을 통해 화자는 물론, 화자의 감정/건강상태까지 파악하는 준 언어(Para-linguistic) 영역으로 저희 또한 관심있게 연구하는 분야입니다. 화자식별을 위한 비언어적인 정보는 일반적으로 ‘스피커 임베딩 모델’을 사용합니다. 사용자의 음성이 입력되면 그 임베딩 벡터를 추출 및 등록하여 인식한 음성과 등록된 임베딩 벡터를 비교하며 누구인지 파악하는 과정은 비교적 간단하지만, 화자의 목소리 특징을 추출하는 임베딩 모델을 만드는 것은 다양한 제품에서 입력되는 음성데이터를 학습해야 하는 어려운 영역이라고 할 수 있습니다.

저희는 현재 지금까지 소개해드린 모든 기술들을 실제 제품에 적용하기 위해 꾸준히 개발 중으로, 가능한 빠른 시기에 여러분들이 제품을 통해서 경험할 수 있도록 열심히 연구하고 있습니다.

가사노동 해방 경험을 만들 진정한 스마트홈의 약속

스마트홈 솔루션을 통한 가사 노동 해방으로 여유로운 여가시간을 보내는 가족들의 모습
스마트홈 솔루션을 통한 가사 노동 해방으로 여유로운 여가시간을 보내는 가족들의 모습

지난 3월, 서울 여의도 콘래드 호텔에서 열린 CSA 정례회의에서 LG전자가 생각하는 스마트홈의 청사진이 공개됐는데요. 진화, 연결, 개방이라는 세 가지 키워드를 통해서 단순히 기술을 넘어 기술을 통한 편리하고 재미있는 ‘경험’을 제공하는 진정한 스마트홈 구현을 약속했습니다. 또한 엠비언트 컴퓨팅(ambient computing)이라는 기술을 통해 그 같은 혁신적 고객경험을 제공하겠다고 발표했죠.

LG전자 CTO부문 인공지능 연구소는 엠비언트 컴퓨팅 기술을 연구해오고 있습니다. 우리는 이 기술을 통해 스마트 기기를 마치 콜센터 직원처럼 사용자를 자연스럽게 도와주는 수준으로 끌어올려 사용자가 기기 작동법을 일일이 학습해야 하는 가사노동에서 벗어나게 하고자 합니다. 이로써 사람들은 여유로워진 시간만큼 가족들과 함께 여가시간을 보낼 수 있게 되겠죠. 그것이 저희 LG전자가 지향하는 미래입니다.