도면에서 가전 어떻게 표현 - domyeon-eseo gajeon eotteohge pyohyeon

일 측면에 따르면, 자연어 형태의 단일 문장의 발화를 통해 기기 제어를 위한 다수의 설정 항목을 일괄 설정할 수 있도록 하는데 그 목적이 있다.

상술한 목적의 본 발명에 따른 가전 기기의 음성 인식 시스템은, 가전 기기의 제어를 위해 단일 문장의 발화를 통해 생성되는 음성 명령을 수신하는 상기 가전 기기와; 상기 가전 기기로부터 상기 단일 문장의 음성 명령을 전달받아 다중 의도 판단을 통해 상기 단일 문장의 음성 명령을 해석하는 서버를 포함한다.

상술한 가전 기기의 음성 인식 시스템에서, 단일 문장의 발화를 통해 생성되는 상기 음성 명령은 복수의 의도를 포함하고, 상기 서버는 상기 복수의 의도에 기초하여 상기 음성 명령을 해석한다.

상술한 가전 기기의 음성 인식 시스템에서, 상기 서버는, 상기 복수의 의도를 조합하여 복수의 명령어 문장 공식을 생성하고; 상기 복수의 명령어 문장 공식에 기초하여 복수의 파생 문장을 생성하며; 상기 복수의 파생 문장과 상기 서버에 등록되어 있는 복수의 음성 명령 데이터들을 비교하여 일치하는 음성 명령 데이터를 검색한다.

상술한 가전 기기의 음성 인식 시스템에서, 상기 서버는, 상기 가전 기기의 기능 및 사양에 기초하여 상기 가전 기기의 동작 가능한 복수의 시나리오를 생성하고; 상기 복수의 시나리오 각각에 대응하는 상기 복수의 명령어 문장 공식을 생성한다.

상술한 가전 기기의 음성 인식 시스템에서, 상기 서버는, 상기 복수의 파생 문장과 상기 서버에 등록되어 있는 상기 복수의 음성 명령 데이터를 비교할 때 상기 복수의 음성 명령 데이터 중에서 우선 순위가 더 높은 것부터 비교한다.

상술한 가전 기기의 음성 인식 시스템에서, 사용 빈도가 더 높은 동작을 표현하는 음성 명령 데이터가 상대적으로 더 높은 우선 순위를 갖는다.

상술한 가전 기기의 음성 인식 시스템에서, 상기 서버는, 상기 음성 명령의 해석 결과로부터 상기 가전 기기를 제어하기 위한 복수의 제어 값을 추출하고; 상기 복수의 제어 값을 포함하는 음성 인식 결과를 상기 가전 기기로 전송하는 것을 더 포함한다.

상술한 가전 기기의 음성 인식 시스템에서, 상기 음성 인식 결과는 상기 가전 기기의 기능과 옵션, 하드웨어 값, 제어에 필요한 값, 음성 인식 결과의 성공 여부, 사용자에게 안내할 텍스트 정보 가운데 적어도 하나를 더 포함한다.

상술한 가전 기기의 음성 인식 시스템에서, 상기 가전 기기는 냉장고와 세탁기, 조리 기기, 공기 조화기, 로봇 청소기 가운데 적어도 하나를 포함한다.

상술한 목적의 본 발명에 따른 가전 기기의 음성 인식 서버는, 가전 기기의 제어를 위해 단일 문장의 발화를 통해 생성되는 음성 명령을 인식하여 텍스트 데이터로 변환하는 음성 인식부와; 상기 단일 문장의 음성 명령을 분석하여 의도(Intent)를 추출하기 위한 자연어 해석부를 포함하고; 다중 의도 판단을 통해 상기 단일 문장의 음성 명령을 해석한다.

상술한 가전 기기의 음성 인식 서버에서, 단일 문장의 발화를 통해 생성되는 상기 음성 명령은 복수의 의도를 포함하고, 상기 복수의 의도에 기초하여 상기 음성 명령을 해석한다.

상술한 가전 기기의 음성 인식 서버는, 상기 복수의 의도를 조합하여 복수의 명령어 문장 공식을 생성하고; 상기 복수의 명령어 문장 공식에 기초하여 복수의 파생 문장을 생성하며; 상기 복수의 파생 문장과 상기 서버에 등록되어 있는 복수의 음성 명령들을 비교하여 일치하는 음성 명령을 검색한다.

상술한 가전 기기의 음성 인식 서버는, 상기 가전 기기의 기능 및 사양에 기초하여 상기 가전 기기의 동작 가능한 복수의 시나리오를 생성하고; 상기 복수의 시나리오 각각에 대응하는 상기 복수의 명령어 문장 공식을 생성한다.

상술한 가전 기기의 음성 인식 서버에서, 상기 복수의 파생 문장과 상기 서버에 등록되어 있는 상기 복수의 음성 명령을 비교할 때 상기 복수의 음성 명령 데이터 중에서 우선 순위가 더 높은 것부터 비교한다.

상술한 가전 기기의 음성 인식 서버에서, 사용 빈도가 더 높은 동작을 표현하는 음성 명령 데이터가 더 높은 우선 순위를 갖는다.

상술한 가전 기기의 음성 인식 서버에서, 상기 음성 명령의 해석 결과로부터 상기 가전 기기를 제어하기 위한 복수의 제어 값을 추출하고; 상기 복수의 제어 값을 포함하는 음성 인식 결과를 상기 가전 기기로 전송한다.

상술한 가전 기기의 음성 인식 서버에서, 상기 음성 인식 결과는 상기 가전 기기의 기능과 옵션, 하드웨어 값, 제어에 필요한 값, 음성 인식 결과의 성공 여부, 사용자에게 안내할 텍스트 정보 가운데 적어도 하나를 더 포함한다.

상술한 가전 기기의 음성 인식 서버에서, 상기 가전 기기는 냉장고와 세탁기, 조리 기기, 공기 조화기, 로봇 청소기 가운데 적어도 하나를 포함한다.

상술한 목적의 본 발명에 따른 가전 기기의 음성 인식 방법은, 가전 기기의 제어를 위해 단일 문장의 발화를 통해 생성되는 음성 명령을 기기를 통해 수신하는 단계와; 상기 가전 기기로부터 상기 단일 문장의 음성 명령을 전달받아 다중 의도 판단을 통해 상기 단일 문장의 음성 명령을 해석하는 단계를 포함한다.

상술한 가전 기기의 음성 인식 방법에서, 단일 문장의 발화를 통해 생성되는 상기 음성 명령은 복수의 의도를 포함하고, 상기 복수의 의도에 기초하여 상기 음성 명령을 해석한다.

상술한 가전 기기의 음성 인식 방법은, 상기 복수의 의도를 조합하여 복수의 명령어 문장 공식을 생성하는 단계와; 상기 복수의 명령어 문장 공식에 기초하여 복수의 파생 문장을 생성하는 단계와; 상기 복수의 파생 문장과 상기 서버에 등록되어 있는 복수의 음성 명령 데이터들을 비교하여 일치하는 음성 명령 데이터를 검색하는 단계를 포함한다.

상술한 가전 기기의 음성 인식 방법은, 상기 가전 기기의 기능 및 사양에 기초하여 상기 가전 기기의 동작 가능한 복수의 시나리오를 생성하는 단계와; 상기 복수의 시나리오 각각에 대응하는 상기 복수의 명령어 문장 공식을 생성하는 단계를 더 포함한다.

상술한 가전 기기의 음성 인식 방법에서, 상기 복수의 파생 문장과 상기 서버에 등록되어 있는 상기 복수의 음성 명령 데이터를 비교할 때 상기 복수의 음성 명령 데이터 중에서 우선 순위가 더 높은 것부터 비교한다.

상술한 가전 기기의 음성 인식 방법에서, 사용 빈도가 더 높은 동작을 표현하는 음성 명령 데이터가 상대적으로 더 높은 우선 순위를 갖는다.

상술한 가전 기기의 음성 인식 방법은, 상기 음성 명령의 해석 결과로부터 상기 가전 기기를 제어하기 위한 복수의 제어 값을 추출하는 단계와; 상기 복수의 제어 값을 포함하는 음성 인식 결과를 상기 가전 기기로 전송하는 단계를 더 포함한다.

상술한 가전 기기의 음성 인식 방법에서, 상기 음성 인식 결과는 상기 가전 기기의 기능과 옵션, 하드웨어 값, 제어에 필요한 값, 음성 인식 결과의 성공 여부, 사용자에게 안내할 텍스트 정보 가운데 적어도 하나를 더 포함한다.

상술한 가전 기기의 음성 인식 방법에서, 상기 가전 기기는 냉장고와 세탁기, 조리 기기, 공기 조화기, 로봇 청소기 가운데 적어도 하나를 포함한다.

일 측면에 따르면, 자연어 형태의 단일 문장의 발화를 통해 기기 제어를 위한 다수의 설정 항목을 일괄 설정할 수 있도록 함으로써, 기기 제어를 위한 다수의 설정 항목을 쉽고 빠르게 설정할 수 있도록 한다.

도 1은 본 발명의 일 실시 예에 따른 음성 인식 기술이 적용된 가전 기기를 나타낸 도면이다. 본 발명의 실시 예에 따른 음성 인식 기술은 가전 기기는 물론 자동차, 컴퓨터, 산업용 설비, 모바일 디바이스 등 음성 인식 모듈을 탑재할 수 있고 또 음성 명령을 통해 제어될 수 있는 모든 기기에 적용될 수 있다.

도 1에 나타낸 가전 기기(100)의 예시는 세탁기이다. 본 발명의 실시 예에 따른 음성 인식 기술이 적용될 수 있는 가전 기기는 세탁기에 한정되지 않고, 오븐이나 로봇 청소기와 같은 다른 가전 기기들로 확장될 수 있다.

도 1에 나타낸 바와 같이, 가전 기기(100)에는 마이크로폰 홀(102)과 스피커 홀(104)이 마련된다. 마이크로폰 홀(102)은 마이크로폰(도 3의 306 참조)이 설치되는 위치에 마련된다. 사용자(화자)가 발화하는 음성 신호가 마이크로폰 홀(102)을 통해 마이크로폰(도 3의 306)에 전달된다. 스피커 홀(104)은 스피커(도 3의 312)가 설치되는 위치에 마련된다. 가전 기기(100)에서 생성되는 음향 신호가 스피커 홀(104)을 통해 외부로 출력될 수 있다.

마이크로폰 홀(102)과 스피커 홀(104)의 위치는 마이크로폰(도 3의 306)과 스피커(도 3의 312)의 위치에 의해 결정된다. 마이크로폰(도 3의 306)과 스피커(도 3의 312)는 가전 기기(100)의 본체의 어느 곳이라도 설치될 수 있다. 바람직하게는, 가전 기기(100)의 본체의 상단 전면에 마련되는 컨트롤 패널(106)에 마이크로폰(도 3의 306)과 스피커(도 3의 312)를 설치하고 같은 위치에 마이크로폰 홀(102)과 스피커 홀(104)을 형성함으로써 사용자(화자)가 가전 기기(100)의 앞에 섰을 때 사용자(화자)의 귀와 입이 마이크로폰 홀(102)과 스피커 홀(104)에 가까이 접근할 수 있도록 할 수 있다.

도 2는 본 발명의 실시 예에 따른 음성 인식 기술이 적용된 음성 인식 시스템을 나타낸 도면이다. 도 2에 나타낸 바와 같이, 사용자(화자)(250)의 발화에 의해 생성되는 음성 명령은 가전 기기(100)의 음성 인식 장치(230)에 입력된 후 일련의 신호 처리 과정을 거쳐 원격지의 음성 인식 서버(270)로 전송된다. 음성 인식 장치(230)는 마이크로프로세서에 로직 형태로 마련되거나, 또는 음성 인식 어플리케이션 소프트웨어의 형태로 마련될 수 있다. 음성 인식 서버(270)에서는 음성 명령의 해석 및 변환이 이루어진다. 음성 인식 서버(270)에서 해석 및 변환된 음성 명령은 다시 가전 기기(100)에 제공되어 음성 명령에 상응하는 가전 기기(100)의 제어가 이루어진다.

음성 인식 서버(270)는 원격지에 마련되어 가전 기기(100)와 통신하도록 이루어진다. 또 다른 실시 예로서, 가전 기기(100) 내에 음성 인식 서버(270)를 설치하여 운용할 수도 있다. 또 다른 실시 예로서, 모바일 디바이스(예를 들면 삼성전자의 갤럭시 시리즈와 같은 스마트폰)를 음성 인식 서버로서 운용할 수도 있다.

도 3은 도 2에 나타낸 음성 인식 시스템의 구성을 더욱 자세히 나타낸 도면이다. 가전 기기(100)에 마련되는 음성 인식 장치(230)는 제어부(302)와 통신부(304), 마이크로폰(306), 음성 저장부(308), 전처리부(310), 스피커(312), 센서부(314)를 포함할 수 있다. 원격지에 마련되는 음성 인식 서버(270)는 음성 인식부(Automatic Speech Recognition, ASR)(372)와 자연어 해석부(Natural Language Understanding, NLU)(374), 텍스트-음성 변환부(Text to Speech, TTS)(376)를 포함할 수 있다.

음성 인식 장치(230)에서, 제어부(302)는 음성 인식 장치(230)의 동작 전반을 제어한다. 예를 들면, 사용자(화자)의 발화에 의해 생성된 음성 명령을 수신하여 일련의 신호 처리를 수행하고, 신호 처리가 완료된 음성 명령을 통신부(304)를 통해 원격지의 음성 인식 서버(270)로 전송한다. 또한 제어부(302)는 음성 인식 서버(270)로부터 해석 및 변환된 음성 명령을 수신하고, 수신된 음성 명령을 가전 기기(100)의 다른 제어부에 전달하여 해당 음성 명령에 대응하는 가전 기기(100)의 제어가 이루어질 수 있도록 한다.

통신부(304)는 가전 기기(100)의 음성 인식 장치(230)와 원격지의 음성 인식 서버(270)가 서로 통신할 수 있도록 한다. 통신부(304)는 유선 통신과 무선 통신을 위한 통신 수단일 수 있다. 가전 기기(100)의 음성 인식 장치(230)와 원격지의 음성 인식 서버(270) 사이의 통신은 유선 통신망과 무선 통신망을 모두 이용할 수 있다. 무선 통신망의 경우 LTE(Long Term Evolution)와 같은 기존의 인프라를 이용할 수 있다. 또는 와이파이 통신이나 이더넷 통신을 이용할 수도 있다. 또는 가전 기기(100)와 음성 인식 서버(270)가 모바일 디바이스의 핫스팟 기능을 이용해 통신할 수도 있다. 또는 가전 기기(100)와 음성 인식 서버(270)가 블루투스나 NFC 등의 근거리 통신망을 통해 통신할 수도 있다. 근거리 통신망을 통해 통신하는 경우 음성 인식 서버(270)는 가전 기기(100)로부터 가까운 곳에 위치할 필요가 있다.

마이크로폰(306)은 사용자(화자)가 발화하는 음성 신호를 수신하기 위한 장치이다. 사용자(화자)의 발화에 의해 생성되는 음향 신호는 마이크로폰(306)에 의해 수집되어 전기 신호로 변환된다.

음성 저장부(308)는 마이크로폰(306)에 의해 수집된 음향 신호를 일시적으로 저장하는 일종의 버퍼로서 동작한다.

전처리부(310)는 음성 저장부(308)에 저장되어 있는 음향 신호의 전처리를 수행한다. 음향 신호의 전처리 과정은 노이즈 제거 또는 신호 증폭을 포함할 수 있다.

스피커(312)는 가전 기기(100)에서 생성되는 음향 신호를 출력하기 위한 장치이다. 스피커(312)를 통해 출력되는 음향 신호는 가전 기기(100)의 상태를 나타내는 비프 음이나 경고 음 등을 포함할 수 있다. 또한 스피커(312)를 통해 출력되는 음향 신호는 사용자의 음성 명령에 대한 응답이거나 또는 음성 명령의 수행 결과를 안내하기 위한 음향 신호일 수 있다.

센서부(314)는 가전 기기(100)의 다양한 동작 상태 등을 감지하도록 마련된다. 예를 들면 센서부(314)는 가전 기기(100)의 도어 열림을 검출할 수 있는 도어 센서일 수 있다. 또한 센서부(314)는 가전 기기(100)의 수온을 측정하기 위한 온도 센서일 수 있다.

음성 인식 서버(270)에서, 음성 인식부(372)는 사용자(화자)의 발화에 의해 생성되는 음성 명령을 인식하여 텍스트 데이터로 변환한다.

자연어 해석부(374)는 자연어 처리를 통해 사용자(화자)의 발화에 의해 생성되는 음성 명령의 내용을 분석하고 사용자(화자)의 의도(Intent)를 추출하기 위한 장치이다. 여기서 사용자(화자)의 '의도'는 사용자가 목적하는 독립된 제어 항목을 의미한다. 예를 들면, “표준 세탁 코스 헹굼 3회 건조 섬세로 시작해 줘”라는 음성 명령은 '세탁 코스'와 '헹굼 회수', '건조 정도', '시작(설정)'의 네 개의 의도(Intent)를 포함한다.

텍스트-음성 변환부(376)는 텍스트 데이터를 음성 신호로 변환하도록 마련되는 장치이다(Text to Speech). 음성 인식 서버(270)에는 가전 기기(100)와 관련된 다양한 텍스트 데이터들이 저장되어 있다. 텍스트-음성 변환부(376)는 다양한 텍스트 데이터들 가운데 취사 선택된 것을 음향 신호로 변환하여 가전 기기(100)의 음성 인식 장치(230)로 전송한다. 가전 기기(100)의 음성 인식 장치(230)는 음성 인식 서버(270)의 텍스트-음성 변환부(376)로부터 전달되는 음향 신호를 스피커(312)를 통해 출력하여 사용자가 청취할 수 있도록 한다.

본 발명의 실시 예에 따른 음성 인식 시스템에서, 음성 인식 서버(270)의 자연어 해석부(NLU)(374)는 음성 인식부(372)에 의해 변환된 텍스트 데이터를 자연어 해석부(374)가 확보하고 있는 여러 텍스트 데이터들과 비교하여 일치하는 문장이 존재하는지를 확인한다. 예를 들면, 사용자(화자)가 “표준 세탁 코스 헹굼 3회 건조 섬세로 시작해 줘”라고 발화하여 음성 명령을 생성한 경우, 자연어 해석부(374)는 확보되어 있는 텍스트 데이터들 중에서 사용자(화자)가 발화한 “표준 세탁 코스 헹굼 3회 건조 섬세로 시작해 줘”와 일치하거나 또는 근접하는 텍스트 데이터를 검색하여 존재 여부를 확인한다. 이 경우 검색의 기준이 되는 규칙 이름(Command Name)은 “start cycle and rinse and dryer”가 된다.

음성 인식 서버(270)에 확보되어 있는 텍스트 데이터들은 음성 명령을 이해하고 운용하기 위한 명령어 문장 공식들을 포함한다. 아래의 (A)-(D)에 명령어 문장 공식의 몇 가지 예를 기술하였다. 아래에 기술한 명령어 문장 공식들은, 다중 의도(Multiple Intent) 파악 기술을 이용하여 마련할 수 있다. 앞서 “표준 세탁 코스 헹굼 3회 건조 섬세로 시작해 줘”라는 음성 명령은 '세탁 코스'와 '헹굼 회수', '건조 정도', '시작(설정)'의 네 개의 의도(Intent)를 포함하는 것임을 언급한 바 있다. 따라서 이 네 개의 의도를 조합하면 다양한 명령어 문장 공식을 생성할 수 있다. 다만, 자연어 형태의 단일 문장으로 표현될 수 있는 명령어 문장 공식만을 취하면 아래와 같이 정리할 수 있다.

(A) <washer_cycle> 코스 건조 <dryer_number>코스에 헹굼<rinse_number>회로 {concept_start}

(B) <washer_cycle> 코스 헹굼<rinse_number>회 건조 <dryer_number>코스로 {concept_start}

(D) 건조 <dryer_number>코스에 헹굼<rinse_number>회로 <washer_cycle> 코스를 {concept_start}

이 중에서 “start cycle and rinse and dryer”에 해당하는 명령어 문장 공식은 명령어 문장 공식 (B)이다. 다중 의도(multiple intents) 파악 기술 및 자연어 규칙이 적용되어 명령어 문장 공식 (B)로부터 생성될 수 있는 파생 문장들은 아래의 (B1)-(B5)와 같이 나타낼 수 있다. (B1)-(B5) 모두 자연어에 가까운 문장 구조 및 표현을 포함하고 있지만, 원래의 음성 명령인 “표준 세탁 코스 헹굼 3회 건조 섬세로 시작해 줘”와 일치하는 파생 문장은 (B4)인 것을 알 수 있다. 만약 일치하는 파생 문장이 존재하지 않으면, 가장 유사한 파생 문장을 선택한다.

(B1) 표준 세탁 코스 헹굼 0회 건조 섬세로 시작해

(B2) 표준 세탁 코스 헹굼 1회 건조 섬세로 시작해줘

(B3) 표준 세탁 코스 헹굼 2회 건조 섬세로 시작해줄래

*(B4) 표준 세탁 코스 헹굼 3회 건조 섬세로 시작해줘

(B5) 표준 세탁 코스 헹굼 2회 건조 섬세로 시작해줄래

자연어 해석부(374)가 확보하고 있는 텍스트 데이터들은 인식률을 높이기 위한 목적으로 우선 순위를 갖는다. 해당 가전 기기(100)에서 사용 빈도가 더 높은 일반적인 동작을 표현하는 텍스트 데이터에 더 높은 우선 순위가 부여된다. 예를 들면, 가전 기기(100)가 세탁기인 경우 일반적인 형태의 세탁 운전이 '세탁 코스'와 '헹굼 회수', '건조 정도' 등을 포함하므로, '세탁 코스'와 '헹굼 회수', '건조 정도'를 포함하는 텍스트 데이터가 상대적으로 더 높은 우선 순위를 갖는다. 이와 달리, '헹굼 회수' 또는 '건조 정도'를 포함하지 않는 세탁 운전은 일반적이지 않기 때문에 이와 관련된 텍스트 데이터는 상대적으로 낮은 우선 순위를 갖는다. 자연어 해석부(374)는 확보하고 있는 텍스트 데이터들 중에서 우선 순위가 높은 것부터 비교를 시작함으로써 더 빠르고 정확하게 매칭되는 텍스트 데이터를 검색할 수 있다.

비교 결과, 일치하는 텍스트 데이터가 존재하는 것은 사용자(화자)가 발화한 음성 신호에 해당하는 명령어의 텍스트 데이터가 자연어 해석부(374)에 존재하는 것을 의미한다. 자연어 해석부(374)는 해당 명령어의 규칙을 확인한다.

명령어의 규칙은 가전 기기(100)의 동작 시나리오에 따라 다르게 구현된다. 먼저 가전 기기(100)의 기능과 사양에 따라 예외 사항들을 확인한다. 예를 들면, 사용자(화자)가 "표준 세탁 코스를 시작해"라고 말하는 경우, 명령어에 해당하는 규칙을 찾아 "Start Cycle Washer"라는 명령어의 규칙을 확보한다. 이어서 가전 기기(100)의 성능과 요구 사양에 기초하여 사용자(화자)가 발화한 '표준 세탁 코스'가 가전 기기(100)에 존재하는 세탁 코스인지를 확인한다. 만약 '표준 세탁 코스'가 가전 기기(100)에 존재하는 세탁 코스일 때, 가전 기기(100)의 현재의 동작 상태를 확인한다. 가전 기기(100)의 현재 상태의 정보는 가전 기기(100)의 음성 인식 장치(230)로부터 제공받는다.

가전 기기(100)의 현재의 동작 상태를 확인한 결과, 가전 기기(100)의 현재의 상태가 '표준 세탁 코스'를 수행할 수 있는 상태이면 음성 명령에 따라 '표준 세탁 코스'가 수행되도록 한다. 반대로 만약 가전 기기(100)의 현재의 상태가 '표준 세탁 코스'를 수행할 수 없는 상태이면 '표준 세탁 코스'를 수행할 수 없음을 스피커(312)(또는 디스플레이)를 통해 표출하여 사용자가 인지할 수 있도록 한다.

예외 사항들을 확인한 결과 정상적인 음성 명령으로 확인되면, 자연어 해석부(374)는 음성 인식 결과를 가전 기기(100)의 음성 인식 장치(230)로 전송한다. 음성 인식 결과는 가전 기기(100)의 기능과 옵션, 하드웨어 값, 제어에 필요한 값, 결과의 성공 여부, 사용자에게 안내할 텍스트 정보(TTS 정보)를 포함할 수 있다.

이와 같은 가전 기기(100)의 음성 인식 장치(230)와 원격지의 음성 인식 서버(270)에 의해 사용자(화자)의 발화에 의해 생성되는 음성 명령이 가전 기기(100)에 의해 인식되어 수행됨으로써 사용자(화자)는 가전 기기(100)를 직접 조작하지 않고도 목적하는 동작의 설정(또는 제어 명령의 입력)을 실시할 수 있다.

도 4는 본 발명의 실시 예에 따른 음성 인식 기술에 적용되는 음성 명령 프로토콜의 일례를 나타낸 도면이다. 본 발명의 실시 예에 따른 음성 인식 시스템에서는, 사용자(화자)의 발화에 의해 생성되는 음성 명령이 연속된 복수의 설정 항목을 포함하는 자연어 형태의 단일 문장인 경우에도 빠르고 정확하게 음성 명령을 해석하고 변환할 수 있다. 예를 들면 복수의 설정 항목은 동작 제어 항목과 옵션 설정 항목일 수 있다. 본 발명의 실시 예에 따른 음성 인식 기술에서는 사용자(화자)가 복수의 동작 제어 항목 및 복수의 옵션 설정 항목을 단일의 문장 내에서 연속해서 언급할 수 있도록 하고, 이를 미리 정해진 규칙을 적용하고 자연어 해석부(374)를 이용한 자연어 처리를 수행함으로써 사용자(화자)의 음성 명령의 내용을 정확히 파악할 수 있다.

도 4에 나타낸 음성 명령 프로토콜은 <기능>과 <옵션>, <하드웨어 제어 값>을 포함한다. <기능>은 가전 기기(100)에 구비되는 여러 가지 기능들을 구분하는 것이고, <옵션>은 각 기능 별로 설정 가능한 값 또는 상태를 구분하는 것이며, <하드웨어 제어 값>은 각 기능 별 옵션을 16진수로 나타낸 것이다. <하드웨어 제어 값>은 16진수 외에 다른 형태로 표현될 수도 있다.

도 4에서는 가전 기기(100)가 세탁기인 경우를 가정하고, 사용자(화자)가 “표준 세탁 코스 헹굼 3회 건조 섬세로 시작해 줘”라고 발화한 경우를 가정하였다. 이와 같은 사용자(화자)의 음성 명령에는 '코스'와 '헹굼(회수)', '건조(정도)', '동작 제어'의 네 개의 의도(Intent)가 포함되어 있다.

'코스'는 세탁 코스를 선택하기 위한 것으로서, 표준 세탁이나 울 세탁, 대형 빨래 세탁 등의 코스를 포함할 수 있다. 사용자(화자)가 선택한 표준 세탁을 대표하는 하드웨어 제어 값은 “0x00”이다.

'헹굼'은 세탁물의 헹굼 회수를 선택하기 위한 것으로서, 예를 들면 1회 내지 5회 등의 헹굼 회수 가운데 어느 하나를 선택할 수 있다. 사용자(화자)가 선택한 헹굼 회수 3회를 대표하는 하드웨어 제어 값은 “0x0f”이다.

'건조'는 세탁물의 건조 정도를 선택하기 위한 것으로서, 예를 들면 일반 건조와 고온 건조, 섬세 건조 등의 건조 정도 가운데 어느 하나를 선택할 수 있다. 사용자(화자)가 선택한 섬세 건조를 대표하는 하드웨어 제어 값은 “0xA0”이다.

'동작 제어'는 가전 기기(100)의 동작 설정을 위한 것으로서, 예를 들면 세탁 운전의 시작과 종료, 일시 정지 등의 동작 가운데 어느 하나를 선택할 수 있다. 사용자(화자)가 선택한 세탁 시작을 대표하는 하드웨어 제어 값은 “0x43”이다.

사용자(화자)가 “표준 세탁 코스 헹굼 3회 건조 섬세로 시작해 줘”라고 발화하면, 가전 기기(100)의 음성 인식 장치(230)는 음성 인식 서버(270)와의 협업을 통해 사용자(화자)의 음성 명령이 도 4에 나타낸 것과 같은 <기능>과 <옵션>, <하드웨어 제어 값>을 포함하는 것으로 분석하고, 분석된 내용대로 3회의 헹굼 행정과 섬세한 건조 행정을 포함하는 표준 세탁 코스가 수행되도록 가전 기기(100)를 제어할 수 있다.

기존의 일반적인 가전 기기의 경우, 음성 인식 기술을 기반으로 <기능>과 <옵션>을 설정하기 위해 먼저 1차 음성 명령을 생성하여 기능을 설정한 후 2차 음성 명령을 생성하여 옵션을 설정하였다. 즉, 각각의 설정 항목마다 독립된(구분된) 음성 명령을 발생시켜야 했다. 그러나, 본 발명의 실시 예에 따른 음성 인식 시스템에서는 복수의 <기능>과 복수의 <옵션>을 모두 포함하는 자연어 형태의 단일 문장 구조의 음성 명령 하나만으로도 목적하는 복수의 <기능>과 복수의 <옵션>을 모두 포함하는 음성 명령을 생성할 수 있다.

도 5는 본 발명의 실시 예에 따른 음성 인식 제어 방법을 나타낸 도면이다.

먼저, 사용자의 파워 버튼 조작에 의해 가전 기기(100)가 파워 온 되어 가전 기기(100)의 각 요소에 전력이 공급될 수 있다(502).

가전 기기(100)가 파워 온 상태일 때, 다음에 설명하는 두 가지 방법 중 적어도 하나의 방법을 통해 음성 인식 모드가 활성화될 수 있다. 음성 인식 모드를 활성화하기 위한 별도의 과정이 수반되지 않으면, 가전 기기(100)의 주변에서 발생하는 일상적인 대화가 자칫 음성 인식 기능에 의해 사용자가 제어 명령을 입력한 것으로 잘 못 인식될 수 있다. 따라서 이와 같은 오인식을 방지하기 위해 음성 인식 모드를 활성화하기 위한 별도의 과정이 필요하다.

음성 인식 모드가 활성화되도록 하기 위한 첫 번째 방법으로는, 음성 트리거를 통해 음성 인식 모드가 활성화되도록 하는 것을 들 수 있다. 즉, 사용자가 미리 정해진 특정 음성을 발화하면, 가전 기기(100)가 미리 정해진 특정 음성의 발화를 인식함으로써 음성 인식 모드가 활성화될 수 있다. 음성 인식 모드가 활성화되도록 하기 위한 두 번째 방법으로는, 사용자가 가전 기기(100)에 마련되어 있는 음성 인식 아이콘이나 음성 인식 버튼을 직접 조작하여 음성 인식 모드가 활성화되도록 하는 것을 들 수 있다.

음성 인식 모드가 활성화되면, 음성 인식 장치(230)의 제어부(302)는 대기 상태에서 음성 명령이 수신되는지를 모니터링 한다(506).

사용자(화자)의 발화에 의해 생성된 음성 명령이 마이크로폰(306)을 통해 수신되면(506의 '예'), 수신된 음성 명령은 음성 저장부(308)에 임시 저장된 후 전처리부(310)의 전처리 과정을 거치면서 노이즈가 제거되거나 신호가 증폭된다(508).

전처리 과정이 완료된 음성 명령은 통신부(304)를 통해 원격지의 음성 인식 서버(270)로 전송된다(510). 음성 인식 서버(270)에서는 가전 기기로(100)로부터 전송된 음성 명령을 대상으로 음성 인식(ASR) 및 자연어 해석(NLU)을 포함하는 음성 인식 과정이 이루어진다. 음성 인식 서버(270)에서 실시되는 음성 인식 과정은 앞서 도 3의 설명에서 자세히 언급한 바 있다. 음성 인식 서버(270)에서 실시된 음성 인식의 결과(ASR과 NLU, TTS의 결과)는 다시 가전 기기(100)의 제어부(302)로 전송된다.

가전 기기(100)는 음성 인식 서버(270)로부터 음성 인식의 결과(ASR과 NLU, TTS의 결과)를 수신한다(512). 음성 인식의 결과는 가전 기기(100)의 기능과 옵션, 하드웨어 값, 제어에 필요한 값, 결과의 성공 여부, 사용자에게 안내할 텍스트 정보(TTS 정보)를 포함할 수 있다.

가전 기기(100)의 음성 인식 장치(230)의 제어부(302)는 음성 인식 서버(270)로부터 수신된 음성 인식의 결과(ASR과 NLU, TTS의 결과)에 기초하여 음성 명령대로 가전 기기(100)의 제어가 이루어질 수 있도록 가전 기기(100)의 다른 제어부들에게 필요한 데이터를 전달한다.

음성 명령에 기초한 작업이 진행 중일 때 또는 완료된 이후에는, 제어부(302)가 음성 인식 서버(270)로부터 수신한 음성 인식의 결과에 포함되어 있는 텍스트 정보(TTS 정보)를 취사 선택하여 가전 기기(100)의 현재 상태에 맞는 음성 안내를 스피커(312)를 통해 출력한다. 음성 안내는 가전 기기(100)에서 현재 진행되고 있는 작업의 진행 상태를 알리기 위한 것이거나 또는 작업의 완료를 알리는 것일 수 있다. 가전 기기(100)에 디스플레이가 구비되어 있다면, 디스플레이를 통해 텍스트 또는 그래픽의 형태로 안내 메시지를 출력할 수도 있다.

도 6은 본 발명의 실시 예에 따른 음성 인식 기술을 적용한 세탁기의 음성 인식 시나리오를 나타낸 도면이다. 도 6에 나타낸 바와 같이, 사용자(화자)가 단일 문장의 발화를 통해 “오후 6시까지 아기 옷 코스로 세탁해 줘.”와 같은 음성 명령을 생성하면, 음성 명령을 수신한 세탁기(600)는 음성 인식 서버(270)와 협업하여 사용자(화자)의 단일 문장 형태의 음성 명령으로부터 다중 의도 판단을 통해 복수의 제어 값을 추출하고, 사용자(화자)의 음성 명령에 반응하여 “네. 6시까지 세탁 완료하겠습니다.”와 같은 음성 메시지를 스피커(312)를 통해 출력한다. 이와 같은 자연어 형태의 음성 명령의 인식 및 음성 메시지의 생성은 본 발명의 실시 예에 따른 음성 인식 기술의 다중 의도 판단을 통해 상기 단일 문장 형태의 음성 명령에 포함되어 있는 복수의 제어 값을 추출하는 것을 통해 구현될 수 있다.

도 7은 본 발명의 실시 예에 따른 음성 인식 기술을 적용한 세탁기의 또 다른 음성 인식 시나리오를 나타낸 도면이다. 도 7에 나타낸 바와 같이, 사용자(화자)가 단일 문장의 발화를 통해 “타월과 티셔츠는 어떻게 세탁할까”와 같은 음성 명령을 생성하면, 음성 명령을 수신한 세탁기(700)는 음성 인식 서버(270)와 협업하여 사용자(화자)의 단일 문장 형태의 음성 명령으로부터 다중 의도 판단을 통해 복수의 제어 값을 추출하고, 사용자(화자)의 음성 명령에 반응하여 “타월과 티셔츠를 함께 세탁하는 것은 추천하지 않습니다. 분리 세탁을 추천합니다.”와 같은 음성 메시지를 스피커(312)를 통해 출력한다. 이와 같은 자연어 형태의 음성 명령의 인식 및 음성 메시지의 생성은 본 발명의 실시 예에 따른 음성 인식 기술의 다중 의도 판단을 통해 상기 단일 문장 형태의 음성 명령에 포함되어 있는 복수의 제어 값을 추출하는 것을 통해 구현될 수 있다.

도 8은 본 발명의 실시 예에 따른 음성 인식 기술을 적용한 오븐의 음성 인식 시나리오를 나타낸 도면이다. 도 8에 나타낸 바와 같이, 사용자(화자)가 단일 문장의 발화를 통해 “450도로 20분, 300도로 3시간 조리해 줘.”와 같은 음성 명령을 생성하면, 음성 명령을 수신한 오븐(800)은 음성 인식 서버(270)와 협업하여 사용자(화자)의 단일 문장 형태의 음성 명령으로부터 다중 의도 판단을 통해 복수의 제어 값을 추출하고, 사용자(화자)의 음성 명령에 반응하여 “네. 말씀하신 대로 조리하겠습니다.”와 같은 음성 메시지를 스피커(312)를 통해 출력한다. 이와 같은 자연어 형태의 음성 명령의 인식 및 음성 메시지의 생성은 본 발명의 실시 예에 따른 음성 인식 기술의 다중 의도 판단을 통해 상기 단일 문장 형태의 음성 명령에 포함되어 있는 복수의 제어 값을 추출하는 것을 통해 구현될 수 있다.

도 9는 본 발명의 실시 예에 따른 음성 인식 기술을 적용한 오븐의 또 다른 음성 인식 시나리오를 나타낸 도면이다. 도 9에 나타낸 바와 같이, 사용자(화자)가 단일 문장의 발화를 통해 “고구마, 꿀, 생크림, 카스텔라가 있는데, 어떤 요리가 좋을까”와 같은 음성 명령을 생성하면, 음성 명령을 수신한 오븐(900)은 음성 인식 서버(270)와 협업하여 사용자(화자)의 단일 문장 형태의 음성 명령으로부터 다중 의도 판단을 통해 복수의 제어 값을 추출하고, 사용자(화자)의 음성 명령에 반응하여 “고구마 케이크를 추천합니다. 자세한 레시피를 원하시면 알려드리겠습니다.”와 같은 음성 메시지를 스피커(312)를 통해 출력한다. 이와 같은 자연어 형태의 음성 명령의 인식 및 음성 메시지의 생성은 본 발명의 실시 예에 따른 음성 인식 기술의 다중 의도 판단을 통해 상기 단일 문장 형태의 음성 명령에 포함되어 있는 복수의 제어 값을 추출하는 것을 통해 구현될 수 있다.

도 10은 본 발명의 실시 예에 따른 음성 인식 기술을 적용한 로봇 청소기의 음성 인식 시나리오를 나타낸 도면이다. 도 10에 나타낸 바와 같이, 사용자(화자)가 단일 문장의 발화를 통해 “거실과 안방, 부엌을 청소해 줘.”와 같은 음성 명령을 생성하면, 음성 명령을 수신한 로봇 청소기(1000)는 음성 인식 서버(270)와 협업하여 사용자(화자)의 단일 문장 형태의 음성 명령으로부터 다중 의도 판단을 통해 복수의 제어 값을 추출하고, 사용자(화자)의 음성 명령에 반응하여 “네. 말씀하신 구역을 청소해 놓겠습니다.”와 같은 음성 메시지를 스피커(312)를 통해 출력한다. 이와 같은 자연어 형태의 음성 명령의 인식 및 음성 메시지의 생성은 본 발명의 실시 예에 따른 음성 인식 기술의 다중 의도 판단을 통해 상기 단일 문장 형태의 음성 명령에 포함되어 있는 복수의 제어 값을 추출하는 것을 통해 구현될 수 있다.

도 11은 본 발명의 실시 예에 따른 음성 인식 기술을 적용한 로봇 청소기의 또 다른 음성 인식 시나리오를 나타낸 도면이다. 도 11에 나타낸 바와 같이, 사용자(화자)가 단일 문장의 발화를 통해 “3시에 외출할 예정이니까, 4시에 거실 청소 시작해 줘.”와 같은 음성 명령을 생성하면, 음성 명령을 수신한 로봇 청소기(1100)는 음성 인식 서버(270)와 협업하여 사용자(화자)의 단일 문장 형태의 음성 명령으로부터 다중 의도 판단을 통해 복수의 제어 값을 추출하고, 사용자(화자)의 음성 명령에 반응하여 “네. 4시에 거실 청소를 시작하겠습니다.”와 같은 음성 메시지를 스피커(312)를 통해 출력한다. 이와 같은 자연어 형태의 음성 명령의 인식 및 음성 메시지의 생성은 본 발명의 실시 예에 따른 음성 인식 기술의 다중 의도 판단을 통해 상기 단일 문장 형태의 음성 명령에 포함되어 있는 복수의 제어 값을 추출하는 것을 통해 구현될 수 있다.

위의 설명은 기술적 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명의 기술 분야에서 통상의 지식을 가진 자라면 본질적인 특성에서 벗어나지 않는 범위 내에서 다양한 수정, 변경 및 치환이 가능할 것이다. 따라서 위에 개시된 실시 예 및 첨부된 도면들은 기술적 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시 예 및 첨부된 도면에 의하여 기술적 사상의 범위가 한정되는 것은 아니다. 그 보호 범위는 아래의 청구 범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술적 사상은 권리 범위에 포함되는 것으로 해석되어야 할 것이다.