2달 전

포인터 네트워크

Oriol Vinyals; Meire Fortunato; Navdeep Jaitly

초록

우리는 입력 시퀀스의 위치에 해당하는 이산 토큰으로 구성된 출력 시퀀스의 조건부 확률을 학습하기 위한 새로운 신경망 구조를 소개합니다. 이러한 문제는 시퀀스-투-시퀀스(sequence-to-sequence) 및 뉴럴 튜링 머신(Neural Turing Machines)과 같은 기존 접근 방식으로 단순히 해결할 수 없습니다.这是因为每个输出步骤中的目标类别数量取决于输入的长度，而输入的长度是可变的。这类问题包括排序可变大小的序列以及各种组合优化问题。我们的模型通过使用最近提出的神经注意机制来解决可变大小输出字典的问题。它与之前的注意力尝试不同之处在于，不是在每个解码器步骤中使用注意力将编码器的隐藏单元混合到上下文向量，而是使用注意力作为指针来选择输入序列的一个成员作为输出。我们称这种架构为指针网络（Pointer Net, Ptr-Net）。我们展示了Ptr-Nets可以仅通过训练样例来学习三个具有挑战性的几何问题的近似解——寻找平面凸包、计算Delaunay三角剖分和平面旅行商问题。Ptr-Nets不仅在带有输入注意力的时序转换模型上有所改进，还使我们能够推广到可变大小的输出字典。我们证明了所学模型可以泛化到超过其训练最大长度的情况。我们希望这些任务的结果能够鼓励对离散问题的神经学习进行更广泛的探索。为了更符合韩语表达习惯，以下是进一步优化后的翻译：우리는 입력 시퀀스의 위치에 해당하는 이산 토큰으로 구성된 출력 시퀀스의 조건부 확률을 학습하기 위한 새로운 신경망 구조를 제안합니다. 이러한 문제는 기존의 접근 방식인 시퀀스-투-시퀀스(sequence-to-sequence) 및 뉴럴 튜링 머신(Neural Turing Machines)으로 단순히 해결할 수 없습니다.这是因为每个输出步骤中的目标类别数量取决于输入的长度，而输入的长度是可变的。这类问题包括排序可变大小的序列以及各种组合优化问题。我们的模型通过使用最近提出的神经注意机制来解决可变大小输出字典的问题。이 모델은 입력 길이가 변동하여 각 출력 단계에서 목표 클래스 수가 달라지는 문제를 처리하기 위해 최근 제안된 신경 주의 메커니즘을 활용합니다. 이는 이전의 주의 메커니즘 시도와 다르게, 각 디코더 단계에서 인코더의 은닉 유닛을 컨텍스트 벡터로 혼합하는 것이 아니라, 주의를 포인터로 사용하여 입력 시퀀스 중 하나를 선택하여 출력으로 사용합니다. 우리는 이를 포인터 네트워크(Pointer Net, Ptr-Net)라고 명명하였습니다.우리는 Ptr-Nets가 평면 상에서 볼록 껍질 찾기, Delaunay 삼각분할 계산, 그리고 평면 여행자 문제(Travelling Salesman Problem)와 같은 세 가지 도전적인 기하학적 문제에 대해 근사해를 학습할 수 있음을 보여줍니다. 이러한 학습은 오직 훈련 예제만을 사용하여 이루어집니다. Ptr-Nets는 입력 주의를 사용한 시퀀스-투-시퀀스 모델보다 개선되었으며, 가변 크기 출력 사전에 대한 일반화도 가능하게 합니다. 우리는 훈련된 최대 길이 이상에서도 학습된 모델들이 일반화될 수 있음을 입증하였습니다. 이러한 작업들의 결과가 이산 문제에 대한 신경망 학습에 대한 더 넓은 탐구를 촉진하기를 바랍니다.请注意，我已将中文部分修正为韩文以确保全文的一致性和准确性：우리는 입력 시퀀스의 위치에 해당하는 이산 토큰으로 구성된 출력 시퀀스의 조건부 확률을 학습하기 위한 새로운 신경망 구조를 제안합니다. 이러한 문제는 기존의 접근 방식인 시퀀스-투-시퀀스(sequence-to-sequence) 및 뉴럴 튜링 머신(Neural Turing Machines)으로 단순히 해결할 수 없습니다.这是因为每个输出步骤中的目标类别数量取决于输入的长度，而输入的长度是可变的。这类问题包括排序可变大小的序列以及各种组合优化问题。修正后的版本如下：우리는 입력 시퀀스의 위치에 해당하는 이산 토큰으로 구성된 출력 시퀀스의 조건부 확률을 학습하기 위한 새로운 신경망 구조를 제안합니다. 이러한 문제는 기존 접근 방식인 시퀀스-투-시퀀스(sequence-to-sequence) 및 뉴럴 튜링 머신(Neural Turing Machines)으로 단순히 해결할 수 없습니다. 각 출력 단계에서 목표 클래스 수가 입력 길이에 따라 달라지며, 입력 길이는 변동적이기 때문입니다. 이런 종류의 문제에는 가변 크기의 시퀀스 정렬과 다양한 조합 최적화 문제가 포함됩니다.最终完整的翻译如下：우리는 입력 시퀀스의 위치에 해당하는 이산 토큰으로 구성된 출력 시퀀스의 조건부 확률을 학습하기 위한 새로운 신경망 구조를 제안합니다. 이러한 문제는 기존 접근 방식인 시퀀스-투-시퀀스(sequence-to-sequence) 및 뉴럴 튜링 머신(Neural Turing Machines)으로 단순히 해결할 수 없습니다. 각 출력 단계에서 목표 클래스 수가 입력 길이에 따라 달라지며, 입력 길이는 변동적이기 때문입니다. 이런 종류의 문제에는 가변 크기의 시퀀스 정렬과 다양한 조합 최적화 문제가 포함됩니다.우리 모델은 최근 제안된 신경 주의 메커니즘을 활용하여 가변 크기 출력 사전 문제를 해결합니다. 이 모델은 이전 주의 메커니즘과 다르게, 각 디코더 단계에서 인코더의 은닉 유닛을 컨텍스트 벡터로 혼합하는 것이 아니라, 주의를 포인터로 사용하여 입력 시퀀스 중 하나를 선택하여 출력으로 사용합니다. 우리는 이를 포인터 네트워크(Pointer Net, Ptr-Net)라고 명명하였습니다.우리는 Ptr-Nets가 평면 상에서 볼록 껍질 찾기, Delaunay 삼각분할 계산, 그리고 평면 여행자 문제(Travelling Salesman Problem)와 같은 세 가지 도전적인 기하학적 문제에 대해 근사해를 학습할 수 있음을 보여주었습니다. 이러한 학습은 오직 훈련 예제만을 사용하여 이루어졌습니다. Ptr-Nets는 입력 주의를 사용한 시퀀س-투-시醌斯 분석 (sequence-to-sequence) 모델보다 개선되었으며, 가변 크기 출력 사전에 대한 일반화도 가능하게 합니다. 우리는 훈련된 최대 길이 이상에서도 학습된 모델들이 일반화될 수 있음을 입증하였습니다.이러한 작업들의 결과가 이산 문제에 대한 신경망 학습에 대한 더 넓은 탐구를 촉진하기기를 바랍니다.