1.2. 강화학습에서 '사람'의 역할

1.2. 강화학습에서 '사람'의 역할

- 12월 11, 2023

1.1.에서 우리는 강화학습의 개략적인 내용을 살펴보았습니다. 지금까지 살펴본 내용을 가지고, 강화학습에서의 사람의 역할을 살펴보겠습니다. 먼저 인공지능 개념부터 볼까요?

인공지능은 '학습', '컴퓨터' 두 단어로 다른 영역과 구분됩니다. 이 두 단어가 함께 사용 되어야 인공지능이라고 부를 수 있습니다. 예를 들어보겠습니다. 우리는 "자동차 로집 공정"을 '인공지능'이라고 부르지 않습니다. 왜냐하면 이 공정에 '컴퓨터'가 투입되어 자동차가 조립되지만, '학습'의 개념은 없기 때문입니다. 따라서 이 공장을 "인공지능 공장"이라고 부르지 않고, 간단히 "자동화 공장"이라고 표현합니다. 화장실에 들어가면 불이 켜지도 음악이 나오며, 방향제에서 좋은 향기가 납니다. 이 화장실에는 움직임을 감지하는 '센서' 컴퓨터 기술이 들어 있지만, '학습' 개념이 포함되지 않았기 때문에, "인공지능 화장실"이라고 부르지 않습니다.
인공지능을 개념적으로 살펴봤으니, 다음은 사람의 역할을 살펴보겠습니다. "알고리즘을 만들어야 한다.", "사람은 코딩을 해야하는데, 이것은 인공지능이 대체할 수 있다." 등이 일반적으로 생각하는 사람의 역할입니다. 맞는 말입니다. 그런데 이것만이 사람의 역할은 아닙니다. 예를 들어보겠습니다. 우리가 인공지능 무기를 이용하여 전쟁을 한다고 생각해 보겠습니다. 그럼 우리는 어떤 것을 고려해야 할까요? '우리는 민간인을 살상하면 아니된다, 우리는 전쟁법과 국제질서를 준수해야 한다. 우리는 대량살상 무기를 사용해서는 안된다.’ 등의 규칙을 준수해야 하는 등 많은 지식이 수반됩니다. 즉 사람은 전쟁에서 해야할 일과 해서는 안되는 일들을 알고 있어야 합니다. 이 것이 바로 사람의 역할입니다. 즉 인공지능에게 과업을 지시하거나, 제약조건을 설정하는 것이 사람의 역할입니다. 위에서 예를 들 것을 대입하면, 사람은 인공지능에게 적 대응이라는 과업을 지시하고, 전쟁법 등을 준수해야 한다는 제약조건을 설정하는 역할을 수행합니다. 한편, 이런 사람을 ‘알고리즘 전문가’라고 부릅니다.
'알고리즘 전문가’는 인공지능에게 ‘임무’를 부여하고, 인공지능이 올바르게 행동할 수 있도록 ‘제약조건’을 설정할 줄 알아야 합니다. ‘알고리즘 전문가’가 바로 사람의 역할입니다. 인공지능은 ‘알고리즘 전문가’가 가진 지식을 구체화하는 도구일 뿐입니다. 만약 인공지능이 ‘알고리즘 전문가’의 범위를 벗어나는 행동을 한다면…, 다시말해
‘우리는 민간인을 살상하면 아니된다.’를
‘인공지능은 민간인을 살상 해도 된다.’으로

‘우리는 전쟁법과 국제적 질서를 존중해야 한다.’를
‘인공지능은 전쟁법과 국제적 질서를 존중하지 않아도 된다.’ 으로

‘우리는 대량살상 무기 사용을 자제하여야 한다.’를
‘인공지능은 대량살상 무기 사용이 가능하다.’으로

표현할 수 있을 것 입니다. 이와 같이 사람이 설정한 규칙을 벗어난 인공지능은 ‘미래의 악마를 소환’하는 것과 같을 것 입니다. 따라서 사람은 인공지능의 행동에 제약을 줄 수 있는 제약조건(constraint)을 구체화하여야 합니다. 이것이 사람의 역할, 정확히는 ‘알고리즘 전문가’의 역할입니다. 제약조건을 강화학습에 적용하는 방법은 “000장 안전 강화학습”에서 살펴보겠습니다.
요약하면, 강화학습에서 사람은 ‘알고리즘 전문가’ 역할을 수행합니다. ‘알고리즘 전문가’는 인공지능에게 ‘임무’를 부여하고, 인공지능이 올바르게 행동할 수 있도록 ‘제약조건’을 설정하는 사람입니다.
알고리즘 전문가의 역할이 이것 뿐만은 아닙니다. 하지만, 현재 우리는 지금 ‘개요'를 다루고 있으므로, 이정도 수준에서만 논의하겠습니다. 이 책을 다 읽어보신후 “강화학습에서 ‘사람’의 역할”에 대해 세부적으로 살펴보겠습니다.
[문제] ‘자율 주행 자동차’가 행동하는 환경을 생각해 보세요.
[문제] ‘자율 주행 자동차’를 만드는 프로젝트에서 사람의 역할을 생각해 보세요.
[문제] 여러분이 관심을 갖고 있는 분야의 ‘알고리즘 전문가’ 역할을 생각해 보세요.

댓글