북집 지식DB

사람처럼 배우는 로봇

로봇 산업이 “양산 가능한 몸”을 향해 달릴수록, 병목은 하드웨어보다 소...

사람처럼 배우는 로봇

- 대화로 고치고, 기억으로 숙련되는 휴머노이드 학습의 다음 단계

로봇 산업이 “양산 가능한 몸”을 향해 달릴수록, 병목은 하드웨어보다 소프트웨어로 옮겨간다. 특히 휴머노이드는 손·팔·몸통·보행까지 한꺼번에 묶인 복합 행동이 많아, 현장에서 매번 규칙을 새로 짜는 방식만으로는 확장성이 떨어진다. 최근 한 연구는 이 문제를 “대화로 행동을 수정하고, 수정된 방식 자체를 기억해 다음부터 더 잘하게 만드는” 구조로 풀어내며, 인간-로봇 상호작용 기반 학습이 어디까지 왔는지를 보여줬다.

휴머노이드 학습을 ‘대화형 프로그래밍’으로 바꾸는 발상

2024년에 발표된 한 논문은 Karlsruhe Institute of Technology 연구진(공동저자 포함)이 휴머노이드 로봇 ARMAR-6에 적용한 시스템을 정리한다. 핵심은 단순히 “자연어로 명령하면 로봇이 움직인다”가 아니다. 자연어 지시로 시작하되, 로봇이 실행한 결과를 다시 피드백으로 받아서, 사용자가 한 번 더 설명하거나 “그게 아니라 이렇게”라고 고쳐 주면 시스템이 즉석에서 행동을 조정하고, 그 조정된 방식을 저장해 다음 번에는 같은 실수를 덜 하게 만든다.

이 접근이 흥미로운 이유는 언어 모델을 ‘완성된 코드를 한 번에 뱉는 천재’로 쓰지 않는다는 점이다. 대신 “한 줄 수행 → 결과 확인 → 다음 줄 조정”처럼, 사람도 현장에서 문제를 풀 때 쓰는 방식으로 로봇을 굴린다. 처음엔 어설퍼도, 실패가 나면 그 자리에서 이유를 좁혀가며 고친다. 현장에서 흔한 변수—물건이 생각과 다르게 놓였거나, 손이 미끄러지거나, 문장이 애매했거나—가 등장해도, 시스템이 그때그때 관찰 결과와 오류를 근거로 다음 행동을 수정한다. 로봇이 똑똑해 보이는 지점은 “완벽한 계획”이 아니라 “현장에서 고치는 능력”이다.

‘고친 방식’을 저장해 다음 요청에서 덜 묻고 더 맞추게 만든다

이 연구가 단순한 데모를 넘어서는 지점은 ‘기억’이다. 사용자가 피드백을 주면, 시스템은 방금의 대화와 행동 기록을 검토해 “다음에는 이렇게 하는 편이 낫다”는 개선된 절차를 만들어낸다. 그리고 그 절차를 메모리로 저장한다. 다음에 비슷한 상황이 오면, 기억해 둔 예시를 찾아와서 같은 실수를 줄이도록 돕는다.

여기서 중요한 것은 학습의 단위가 “로봇의 뇌를 통째로 재훈련”하는 방식이 아니라, “상호작용 경험을 차곡차곡 쌓아 재사용”하는 방식이라는 점이다. 이 차이는 제품화 관점에서 크다. 현장에 로봇이 여러 대 깔리는 순간, 매번 무겁게 재학습시키는 방식은 비용이 커진다. 반면 “현장에서 자주 반복되는 규칙과 선호”를 경험 단위로 저장해 공유하거나 재사용하면, 운영이 훨씬 현실적이 된다. 즉, 로봇이 커지기 위해 필요한 것은 더 큰 모델만이 아니라, 더 좋은 기억 관리다.

성과를 어떻게 확인했나: 성공률만이 아니라 ‘추가 대화 횟수’를 본다

연구진은 이 시스템을 여러 과제에 적용해 평가하면서, 단순히 “성공했냐/실패했냐”만 보지 않는다. 실무적으로 더 중요한 질문을 던진다. “성공할 때까지 사람이 몇 번 더 개입해야 했나”다.

로봇을 써본 현장에서는 이 숫자가 얼마나 무서운지 안다. 로봇이 자꾸 멈춰서 사람이 매번 붙잡아야 하면, 로봇은 노동력을 줄이는 도구가 아니라 노동력을 잡아먹는 도구가 된다. 반대로 한두 마디 고쳐주면 바로 안정적으로 돌아가고, 그 고친 방식이 저장돼 다음부터는 스스로 더 잘하면, 로봇은 진짜로 ‘사람 시간을 절약하는 기계’가 된다. 이 논문이 제시하는 시스템은 바로 이 지점—사람의 개입을 학습 자산으로 바꿔, 시간이 지날수록 개입이 줄어드는 방향—을 정면으로 겨냥한다.

현실 데모가 보여준 장점과 경고: 사소한 문장이 로봇의 ‘규칙’이 된다

논문은 실제 휴머노이드 플랫폼에서의 시연도 담는다. 여기서 눈여겨볼 장면은 “로봇이 말귀를 알아듣는다”가 아니다. “사소한 한 문장이 로봇의 규칙이 된다”는 점이다.

예를 들어 높은 곳을 닦으라고 했을 때 로봇이 스펀지만 가져오면, 사용자가 “사다리도 필요해”라고 말한다. 그리고 “높은 곳 작업엔 사다리를 함께 가져오라”는 식의 습관을 한 번 만들어두면, 다음부터 비슷한 요청에서는 사다리를 함께 가져오도록 행동이 바뀐다. 사람의 입장에서는 너무 당연한 상식이지만, 로봇에겐 이런 상식이 기본 탑재돼 있지 않다. 상식은 결국 학습으로 들어가야 한다. 이 연구는 그 학습을 ‘코드’가 아니라 ‘대화’로 만드는 통로를 보여준다.

동시에 경고도 드러난다. 언어의 표현이 바뀌면 일반화가 매끈하지 않을 수 있다. “음료를 가져다줘”는 잘 되는데 “우유 좀”으로 바꾸면 다시 어색해지는 식이다. 사람에게는 같은 의미인데, 로봇에게는 입력 형태가 달라져서 새로 배워야 하는 부분이 생긴다. 다시 말해, 대화형 학습은 분명 비용을 줄이지만, 언어가 가진 다양성을 완전히 공짜로 만들지는 못한다. 제품 관점에서는 “사용자의 말투와 표현이 바뀌어도 잘 따라가는 능력”이 여전히 큰 비용 항목으로 남는다.

또 하나의 경고는 더 중요하다. ‘속도’나 ‘힘’처럼 안전과 직결되는 파라미터를 학습으로 만지는 순간, 성능은 올라갈 수 있지만 위험도 커진다. 사용자가 “여긴 안전하니 더 빨리 가도 된다” 같은 요청을 주면 로봇이 속도를 올릴 수 있다. 문제는 그 규칙이 의도하지 않은 상황에까지 번져버릴 가능성이다. 그래서 양산형 휴머노이드의 핵심은 “학습을 많이 한다”가 아니라 “학습이 적용되는 범위를 잘 제한하고, 검증하고, 되돌릴 수 있다”로 옮겨간다. 결국 기억이 늘수록 로봇이 유능해지는 동시에, 운영자는 더 강한 안전 거버넌스를 요구받게 된다.

앞으로의 전망: ‘로봇의 대규모 배치’는 메모리 운영의 산업이 된다

이 연구가 보여주는 방향을 그대로 확장하면, 휴머노이드의 대중화는 네 가지 조건에 달린다.

첫째, 초기 투입 속도다. 로봇은 낯선 현장에 들어가는 순간부터 최소한의 유의미한 성과를 내야 한다. 대화형 수행은 “첫 시도에서 실패하더라도 현장에서 고쳐서 성공까지 끌고 가는” 경로를 제공한다. 초기 성능이 조금 부족하더라도, 빠르게 고쳐가며 쓸 수 있게 만드는 것이다.

둘째, 반복 비용의 감소다. 사람의 개입이 계속 필요하면 휴머노이드는 비싸진다. 반대로 개입이 시간이 갈수록 줄어야 한다. 대화가 단순한 지원이 아니라, ‘다음부터 덜 묻게 만드는 학습 자산’이 되는 순간부터 경제성이 생긴다.

셋째, 개인화를 표준화하는 능력이다. 고객마다 현장마다 선호와 규칙이 다르다는 사실은 피할 수 없다. 그렇다면 제품은 “선호를 받는 인터페이스(자연어)”, “선호를 저장하는 단위(경험/규칙)”, “선호의 적용 범위(맥락 제한)”, “선호의 추적 가능성(로그)”을 기본으로 갖춰야 한다. 사람에게는 편한 개인화가, 시스템에는 안전한 개인화가 되어야 한다.

넷째, 안전과 책임의 설계다. 로봇이 더 많이 배우고 더 자주 업데이트될수록, 운영자는 “이 변화가 안전하다는 증거”를 요구한다. 특히 속도·힘·접촉처럼 물리적 위험과 직결되는 항목은 학습의 대상이 될 수는 있어도, 그대로 현장에 풀기 전에 검증과 제한이 필요하다. 결국 휴머노이드 시대의 경쟁력은 더 똑똑한 모델 하나가 아니라, 기억을 어떻게 제한하고 검증하며 되돌리는지까지 포함한 운영 체계에서 나온다.

요약하면, 이 연구가 보여주는 로봇의 미래는 “대화로 고치고, 기억으로 숙련되는 기계”다. 사람의 피드백은 더 이상 일회성 조작이 아니라 학습 자산이 되고, 그 자산이 쌓이면서 로봇은 점점 덜 묻고 더 정확해진다. 휴머노이드가 진짜로 산업에 자리 잡는 순간은, 로봇이 한 번 잘하는 순간이 아니라, 시간이 갈수록 더 잘하게 되는 순간이다. 그 변화는 결국 ‘메모리를 어떻게 운영하느냐’의 문제로 귀결될 가능성이 크다.

Reference

Bärmann, L., Kartmann, R., Peller-Konrad, F., Niehues, J., Waibel, A., Asfour, T. (2024). Incremental learning of humanoid robot behavior from natural interaction and large language models. Frontiers in Robotics and AI