로봇 산업이 “양산 가능한 몸”을 향해 달릴수록, 병목은 하드웨어보다 소프트웨어로 옮겨간다. 특히 휴머노이드는 손·팔·몸통·보행까지 한꺼번에 묶인 복합 행동이 많아, 현장에서 매번 규칙을 새로 짜는 방식만으로는 확장성이 떨어진다. 최근 한 연구는 이 문제를 “대화로 행동을 수정하고, 수정된 방식 자체를 기억해 다음부터 더 잘하게 만드는” 구조로 풀어내며, 인간-로봇 상호작용 기반 학습이 어디까지 왔는지를 보여줬다.
휴머노이드 학습을 ‘대화형 프로그래밍’으로 바꾸는 발상
2024년에 발표된 한 논문은 Karlsruhe Institute of Technology 연구진(공동저자 포함)이 휴머노이드 로봇 ARMAR-6에 적용한 시스템을 정리한다. 핵심은 단순히 “자연어로 명령하면 로봇이 움직인다”가 아니다. 자연어 지시로 시작하되, 로봇이 실행한 결과를 다시 피드백으로 받아서, 사용자가 한 번 더 설명하거나 “그게 아니라 이렇게”라고 고쳐 주면 시스템이 즉석에서 행동을 조정하고, 그 조정된 방식을 저장해 다음 번에는 같은 실수를 덜 하게 만든다.
이 접근이 흥미로운 이유는 언어 모델을 ‘완성된 코드를 한 번에 뱉는 천재’로 쓰지 않는다는 점이다. 대신 “한 줄 수행 → 결과 확인 → 다음 줄 조정”처럼, 사람도 현장에서 문제를 풀 때 쓰는 방식으로 로봇을 굴린다. 처음엔 어설퍼도, 실패가 나면 그 자리에서 이유를 좁혀가며 고친다. 현장에서 흔한 변수—물건이 생각과 다르게 놓였거나, 손이 미끄러지거나, 문장이 애매했거나—가 등장해도, 시스템이 그때그때 관찰 결과와 오류를 근거로 다음 행동을 수정한다. 로봇이 똑똑해 보이는 지점은 “완벽한 계획”이 아니라 “현장에서 고치는 능력”이다.
‘고친 방식’을 저장해 다음 요청에서 덜 묻고 더 맞추게 만든다
이 연구가 단순한 데모를 넘어서는 지점은 ‘기억’이다. 사용자가 피드백을 주면, 시스템은 방금의 대화와 행동 기록을 검토해 “다음에는 이렇게 하는 편이 낫다”는 개선된 절차를 만들어낸다. 그리고 그 절차를 메모리로 저장한다. 다음에 비슷한 상황이 오면, 기억해 둔 예시를 찾아와서 같은 실수를 줄이도록 돕는다.
여기서 중요한 것은 학습의 단위가 “로봇의 뇌를 통째로 재훈련”하는 방식이 아니라, “상호작용 경험을 차곡차곡 쌓아 재사용”하는 방식이라는 점이다. 이 차이는 제품화 관점에서 크다. 현장에 로봇이 여러 대 깔리는 순간, 매번 무겁게 재학습시키는 방식은 비용이 커진다. 반면 “현장에서 자주 반복되는 규칙과 선호”를 경험 단위로 저장해 공유하거나 재사용하면, 운영이 훨씬 현실적이 된다. 즉, 로봇이 커지기 위해 필요한 것은 더 큰 모델만이 아니라, 더 좋은 기억 관리다.
성과를 어떻게 확인했나: 성공률만이 아니라 ‘추가 대화 횟수’를 본다
연구진은 이 시스템을 여러 과제에 적용해 평가하면서, 단순히 “성공했냐/실패했냐”만 보지 않는다. 실무적으로 더 중요한 질문을 던진다. “성공할 때까지 사람이 몇 번 더 개입해야 했나”다.
로봇을 써본 현장에서는 이 숫자가 얼마나 무서운지 안다. 로봇이 자꾸 멈춰서 사람이 매번 붙잡아야 하면, 로봇은 노동력을 줄이는 도구가 아니라 노동력을 잡아먹는 도구가 된다. 반대로 한두 마디 고쳐주면 바로 안정적으로 돌아가고, 그 고친 방식이 저장돼 다음부터는 스스로 더 잘하면, 로봇은 진짜로 ‘사람 시간을 절약하는 기계’가 된다. 이 논문이 제시하는 시스템은 바로 이 지점—사람의 개입을 학습 자산으로 바꿔, 시간이 지날수록 개입이 줄어드는 방향—을 정면으로 겨냥한다.
현실 데모가 보여준 장점과 경고: 사소한 문장이 로봇의 ‘규칙’이 된다
논문은 실제 휴머노이드 플랫폼에서의 시연도 담는다. 여기서 눈여겨볼 장면은 “로봇이 말귀를 알아듣는다”가 아니다. “사소한 한 문장이 로봇의 규칙이 된다”는 점이다.
예를 들어 높은 곳을 닦으라고 했을 때 로봇이 스펀지만 가져오면, 사용자가 “사다리도 필요해”라고 말한다. 그리고 “높은 곳 작업엔 사다리를 함께 가져오라”는 식의 습관을 한 번 만들어두면, 다음부터 비슷한 요청에서는 사다리를 함께 가져오도록 행동이 바뀐다. 사람의 입장에서는 너무 당연한 상식이지만, 로봇에겐 이런 상식이 기본 탑재돼 있지 않다. 상식은 결국 학습으로 들어가야 한다. 이 연구는 그 학습을 ‘코드’가 아니라 ‘대화’로 만드는 통로를 보여준다.
동시에 경고도 드러난다. 언어의 표현이 바뀌면 일반화가 매끈하지 않을 수 있다. “음료를 가져다줘”는 잘 되는데 “우유 좀”으로 바꾸면 다시 어색해지는 식이다. 사람에게는 같은 의미인데, 로봇에게는 입력 형태가 달라져서 새로 배워야 하는 부분이 생긴다. 다시 말해, 대화형 학습은 분명 비용을 줄이지만, 언어가 가진 다양성을 완전히 공짜로 만들지는 못한다. 제품 관점에서는 “사용자의 말투와 표현이 바뀌어도 잘 따라가는 능력”이 여전히 큰 비용 항목으로 남는다.
또 하나의 경고는 더 중요하다. ‘속도’나 ‘힘’처럼 안전과 직결되는 파라미터를 학습으로 만지는 순간, 성능은 올라갈 수 있지만 위험도 커진다. 사용자가 “여긴 안전하니 더 빨리 가도 된다” 같은 요청을 주면 로봇이 속도를 올릴 수 있다. 문제는 그 규칙이 의도하지 않은 상황에까지 번져버릴 가능성이다. 그래서 양산형 휴머노이드의 핵심은 “학습을 많이 한다”가 아니라 “학습이 적용되는 범위를 잘 제한하고, 검증하고, 되돌릴 수 있다”로 옮겨간다. 결국 기억이 늘수록 로봇이 유능해지는 동시에, 운영자는 더 강한 안전 거버넌스를 요구받게 된다.
앞으로의 전망: ‘로봇의 대규모 배치’는 메모리 운영의 산업이 된다
이 연구가 보여주는 방향을 그대로 확장하면, 휴머노이드의 대중화는 네 가지 조건에 달린다.
첫째, 초기 투입 속도다. 로봇은 낯선 현장에 들어가는 순간부터 최소한의 유의미한 성과를 내야 한다. 대화형 수행은 “첫 시도에서 실패하더라도 현장에서 고쳐서 성공까지 끌고 가는” 경로를 제공한다. 초기 성능이 조금 부족하더라도, 빠르게 고쳐가며 쓸 수 있게 만드는 것이다.
둘째, 반복 비용의 감소다. 사람의 개입이 계속 필요하면 휴머노이드는 비싸진다. 반대로 개입이 시간이 갈수록 줄어야 한다. 대화가 단순한 지원이 아니라, ‘다음부터 덜 묻게 만드는 학습 자산’이 되는 순간부터 경제성이 생긴다.
셋째, 개인화를 표준화하는 능력이다. 고객마다 현장마다 선호와 규칙이 다르다는 사실은 피할 수 없다. 그렇다면 제품은 “선호를 받는 인터페이스(자연어)”, “선호를 저장하는 단위(경험/규칙)”, “선호의 적용 범위(맥락 제한)”, “선호의 추적 가능성(로그)”을 기본으로 갖춰야 한다. 사람에게는 편한 개인화가, 시스템에는 안전한 개인화가 되어야 한다.
넷째, 안전과 책임의 설계다. 로봇이 더 많이 배우고 더 자주 업데이트될수록, 운영자는 “이 변화가 안전하다는 증거”를 요구한다. 특히 속도·힘·접촉처럼 물리적 위험과 직결되는 항목은 학습의 대상이 될 수는 있어도, 그대로 현장에 풀기 전에 검증과 제한이 필요하다. 결국 휴머노이드 시대의 경쟁력은 더 똑똑한 모델 하나가 아니라, 기억을 어떻게 제한하고 검증하며 되돌리는지까지 포함한 운영 체계에서 나온다.
요약하면, 이 연구가 보여주는 로봇의 미래는 “대화로 고치고, 기억으로 숙련되는 기계”다. 사람의 피드백은 더 이상 일회성 조작이 아니라 학습 자산이 되고, 그 자산이 쌓이면서 로봇은 점점 덜 묻고 더 정확해진다. 휴머노이드가 진짜로 산업에 자리 잡는 순간은, 로봇이 한 번 잘하는 순간이 아니라, 시간이 갈수록 더 잘하게 되는 순간이다. 그 변화는 결국 ‘메모리를 어떻게 운영하느냐’의 문제로 귀결될 가능성이 크다.
Reference
Bärmann, L., Kartmann, R., Peller-Konrad, F., Niehues, J., Waibel, A., Asfour, T. (2024). Incremental learning of humanoid robot behavior from natural interaction and large language models. Frontiers in Robotics and AI
Humans Teach, Robots Remember
- The Next Stage of Humanoid Learning Through Conversation and Memory
As the robotics industry races toward “mass-producible bodies,” the bottleneck shifts from hardware to software. Humanoids, in particular, must coordinate hands, arms, torso, and locomotion at once, so a workflow that rewrites rules from scratch for every site does not scale well. A recent study tackles this problem with a simple idea: humans correct behavior through conversation, and the system stores those corrections so the robot performs better the next time—showing how far human–robot interaction-based learning has come.
Turning Humanoid Learning Into “Conversational Programming”
A paper published in 2024 documents a system developed by researchers (including co-authors) at the Karlsruhe Institute of Technology and applied to the humanoid robot platform ARMAR-6. The core is not merely “a robot moves when you give a natural-language command.” It starts with natural-language instructions, but then loops: the robot executes, the outcome becomes feedback, and if the user adds one more explanation or says “No, do it like this,” the system adjusts the behavior on the spot—and saves that adjusted approach so it makes fewer of the same mistakes later.
What is especially interesting is that the language model is not used as a genius that outputs perfect, finished code in one shot. Instead, it is structured more like how people solve problems in the field: “execute one line, check the result, revise the next line.” Even if it starts out clumsy, when something fails, the system narrows down why and fixes it in place. When real-world variables appear—an object is positioned differently than expected, the hand slips, a sentence is ambiguous—the system revises the next action based on observations and errors. The moment it feels “smart” is not in producing a flawless plan, but in fixing itself under real conditions.
Saving “How It Was Corrected” So It Asks Less and Gets More Right Next Time
What pushes this beyond a simple demo is memory. When the user gives feedback, the system reviews the recent dialogue and action logs and generates an improved procedure—what would have been better to do next. Then it stores that procedure as memory. When a similar situation occurs later, it retrieves the saved example to reduce repeated mistakes.
The crucial point is that the unit of learning is not “retraining the robot’s brain from scratch,” but “accumulating interaction experiences and reusing them.” This difference matters for productization. Once many robots are deployed on-site, repeatedly running heavyweight retraining becomes expensive. In contrast, storing and reusing frequently recurring “rules and preferences” as experience units makes operations far more practical. In other words, what a robot needs to scale is not only a bigger model, but better memory management.
How Performance Was Verified: Not Only Success Rate, but “How Many Extra Conversations”
The researchers evaluate the system across multiple tasks and do not stop at a simple “success or failure.” They ask the more practical question: “How many additional human interventions were required before success?”
Anyone who has seen robots deployed knows how decisive this number is. If a robot keeps stopping and a person must constantly step in, it does not reduce labor—it consumes labor. But if one or two corrective phrases are enough to stabilize performance, and if those corrections are stored so the robot improves on its own next time, then the robot becomes a machine that truly saves human time. The system presented in the paper targets exactly this: converting human intervention into a learning asset so that intervention decreases over time.
Real-World Demos Show Both Promise and Warning: A Small Sentence Becomes the Robot’s “Rule”
The paper also includes demonstrations on an actual humanoid platform. The key point is not “the robot understands speech,” but that “a small sentence can become the robot’s rule.”
For example, if the robot is told to clean a high place and it brings only a sponge, the user can say, “You also need a ladder.” If the user then establishes a habit such as “For high-place tasks, always bring a ladder as well,” the robot’s behavior changes so that it brings a ladder for similar future requests. To a person, this is obvious common sense. To a robot, it is not preinstalled. Common sense must enter through learning. This work shows a channel for that learning to happen through conversation rather than code.
At the same time, it reveals a caution: generalization can be imperfect when language changes. “Bring me a drink” may work well, but switching to “Milk, please” can make the robot awkward again. To humans, the meaning is essentially the same, but to a robot the input form changes, creating parts it must relearn. In other words, conversational learning clearly reduces costs, but it does not make the diversity of language free. From a product standpoint, “the ability to follow a user’s shifting wording and speaking style” remains a major cost item.
There is another warning that matters even more. The moment learning touches parameters tied directly to safety—such as speed and force—performance may improve, but risk can also increase. If a user says, “This area is safe, so you can move faster here,” the robot may raise its speed. The problem is that such a rule can spread into unintended situations. That is why, in mass-produced humanoids, the core challenge shifts from “learning a lot” to “constraining, verifying, and rolling back what has been learned.” The more memory grows, the more capable the robot can become—and the more strongly operators will demand robust safety governance.
Outlook: Large-Scale Humanoid Deployment Becomes an Industry of Memory Operations
If you extend the direction demonstrated here, humanoid adoption depends on four conditions.
First is the speed of initial deployment. The moment a robot enters an unfamiliar site, it must deliver at least some meaningful performance. Conversational execution provides a route that “may fail on the first try, but can be corrected on-site and pushed to success.” Even if initial performance is imperfect, it becomes usable by quickly correcting and stabilizing it.
Second is lowering the cost of repetition. If human intervention remains constantly necessary, humanoids become expensive. Economic viability appears only when intervention decreases over time. When conversation is not merely support but a learning asset that makes the robot ask less next time, the system starts to pay off.
Third is standardizing personalization. The fact that preferences and rules differ across customers and sites cannot be avoided. So products must include, by default, an interface that accepts preferences (natural language), a unit that stores them (experience and rules), a defined scope for how they apply (context constraints), and traceability (logs). Personalization that feels convenient to humans must also be safe for systems.
Fourth is the design of safety and responsibility. The more a robot learns and the more frequently it updates, the more operators will demand evidence that the changes are safe. Especially for items tied directly to physical risk—speed, force, and contact—learning may be possible, but it requires verification and constraints before being released into the field. In the end, competitive advantage in the humanoid era will come not from a single smarter model, but from an operational system that includes how memory is constrained, verified, and rolled back.
In sum, the future pictured here is “a robot corrected through conversation and refined through memory.” Human feedback stops being a one-off intervention and becomes a learning asset; as that asset accumulates, the robot asks less and gets more right. The moment humanoids truly take root in industry will not be when a robot performs well once, but when it gets better over time. That change is likely to converge on a single question: how memory is operated.
Reference
Bärmann, L., Kartmann, R., Peller-Konrad, F., Niehues, J., Waibel, A., Asfour, T. (2024). Incremental learning of humanoid robot behavior from natural interaction and large language models. Frontiers in Robotics and AI.