자료구조
자료구조란 여러 데이터의 묶음을 저장하고 사용하는 방법을 정의한 것이다. 단순한 타입(형태)을 넘어, 데이터의 종류와 쓰임새는 정말 다양하다. 우리가 활용해야 하는 데이터는 무궁무진 하기 때문에 데이터를 정해진 규칙 없이 저장하거나 하나의 구조로만 정리하고 활용하기 보다는 데이터를 체계적으로 정리하여 저장하는 것이 데이터 활용에 유리하다. 자료구조는 데이터를 효율적으로 다룰 수 있는 방법을 모아둔 것이고, 그 방법은 필요에 따라 여러 분류로 나뉜다.
자료구조의 특징
자료구조는 대부분 특정 상황에 놓인 문제를 해결하는 데에 특화되어 있다. 따라서 많은 자료구조를 알아두면, 어떤 상황이 닥쳤을 때 적합한 자료구조를 빠르고 정확하게 적용해 문제 해결이 가능하다. 이는 문제 해결력을 필요로 하는 알고리즘 테스트와 밀접한 연관성이 있고, 특정 문제 해결을 위해 적합한 자료구조를 활용한다면 상황에 가장 적합하고 정확한 코드 작성이 가능하다.
Stack
Stack의 사전적 정의인 ‘쌓다’, ‘포개지다’ 처럼, 이 자료 구조는 데이터를 순서대로 쌓는 자료구조이다. 입력과 출력이 하나의 방향으로 이루어지는 제한적 접근만 가능하며, 이런 정책을 LIFO(Last In First Out) 혹은 FILO(First In Last Out)이라 부르기도 한다. Stack에 데이터를 넣는 것을 ‘PUSH’, 데이터를 꺼내는 것을 ‘POP’이라 한다.
Stack의 특징
- LIFO(Last In First Out)먼저 들어간 데이터는 가장 나중에 나오는 후입 선출의 구조를 가지고 있다. 이런 특성으로 인해 스택 구조는 조회가 필요하지 않아 해당 자료구조를 사용해 데이터를 저장하고 검색하는 프로세스가 매우 빠르며, 최상위 블록에서 데이터를 저장하고 검색하면 된다는 장점이 있다.
- 데이터는 하나씩 넣고 뺄 수 있다데이터가 아무리 많아도 하나씩 데이터를 넣고 뺀다. 한꺼번에 여러 개를 넣거나 뺄 수 없다.
- 하나의 입출력 방향을 가진다데이터의 입출력 방향이 같다. 만약 입출력 방향이 여러개라면 Stack 자료구조라 볼 수 없다.
- 저장되는 데이터는 유한하고 정적이어야 한다스택이라는 자료 구조를 사용한 콜 스택(Call Stack)을 예시로 들자면, 콜 스탭 내부에 함수의 실행 데이터는 스택의 프레임으로 저장된다. (각 프레임은 해당 기능에 필요한 데이터가 저장되는 공간 블록이다.) 함수가 새로 변수를 선언할 때마다 스택의 최상위 블록으로 Push된다. 그 다음 함수가 종료될 때 마다 후입선출 구조로 인해 최상위 블록이 지워지므로 해당 함수에 의해 스택에 들어간 모든 변수가 지워진다. 여기에 저장된 데이터가 정적 특성을 가져야지만이 컴파일 시간이 결정되며, 스택에 저장되는 일반적인 데이터는 로컬 변수(value type 또는 프리미티브, 프리미티브 상수), 포인터 및 함수 프레임이다.
- 스택의 크기는 제한되어 있다heap에 비해 스택의 크기가 제한되어 있으므로, 스택 오버플로(Stack Overflow)같은 에러가 자주 발생한다. 대부분의 언어는 스택에 저장할 수 있는 값의 크기가 제한되어 있다.
Stack 실사용 예제
대표적인 예로 브라우저의 뒤로 가기, 앞으로 가기 기능을 구현할 때 Stack이 활용된다. 새로운 페이지로 접속할 때, 현재 페이지를 Prev Stack에 보관하고, 뒤로 가기 버튼을 눌러 이전 페이지로 돌아갈 때는 현재 페이지를 Next Stack에 보관한 뒤 Prev Stack에 가장 나중에 보관된 페이지를 현재 페이지로 가져오는 방식이다.
Queue
Queue의 사전적 정의인 ‘줄을 서서 기다리다’, ‘대기행렬’ 처럼, 이 자료 구조는 데이터를 줄을 세우는 자료 구조이다. Stack과 반대되는 개념으로, 먼저 들어간 데이터가 먼저 나오는 FIFO(First In First Out) 혹은 LILO(Last In Last Out) 를 특징으로 가진다. 입력과 출력의 방향이 고정되어 있어 두 곳으로 접근이 가능하다. Queue에 데이터를 넣는 것은 ‘Enqueue’, 데이터를 꺼내는 것을 ‘Dequeue’라고 한다. 보통 데이터가 입력된 순서대로 처리할 때 주로 사용한다.
Queue의 특징
- FIFO (First In First Out)먼저 들어간 데이터가 제일 처음에 나오는 선입선출의 구조를 가지고 있다.
- 데이터는 하나씩 넣고 뺄 수 있다데이터가 아무리 많아도 하나씩 데이터를 넣고 뺀다. 한꺼번에 여러 개를 넣거나 뺄 수 없다.
- 두 개의 입출력 방향을 가진다데이터의 입출력 방향이 다르다. 만약 입출력 방향이 같다면 Queue 자료구조라 볼 수 없다.
Queue 실사용 예제
많은 곳에서 사용하지만 대표적인 예로 컴퓨터 장치들 사이에서 데이터를 주고 받을 때 각 장치 사이에 존재하는 속도의 차이나 시간 차이를 극복하기 위해 임시 기억 장치의 자료구조로 Queue를 사용한다. 이를 통틀어 버퍼(buffer)라고 부르며, 아래의 이미지는 버퍼링의 개념을 보여준다.
예를 들어, 컴퓨터와 프린터 사이에 데이터 통신을 정리하자면 다음과 같다.
- 일반적으로 프린터는 속도가 느리고, CPU는 프린터와 비교했을 때 데이터 처리 속도가 빠르다.
- CPU는 빠른 속도로 인쇄에 필요한 데이터를 만든 다음, 인쇄 작업 Queue에 저장하고 다른 작업을 수행한다.
- 프린터는 인쇄 작업 Queue에서 데이터를 받아 일정한 속도로 인쇄한다.
유튜브와 같은 동영상 스트리밍 앱 역시 버퍼를 이용한다. 영상을 재생하기에 충분하지 않은 데이터가 모여있다면 동영상을 정상적으로 재생하기 위해 버퍼에 모아두었다가 데이터가 충분히 모이면 영상을 재생한다.
Tree
Tree는 이름 그대로 나무의 형태를 가지는 자료구조로, 그래프의 여러 구조 중 단방향 그래프의 한 구조이다. 하나의 뿌리로부터 가지가 사방으로 뻗은 형태가 나무와 닮아 트리 구조라 부른다. 데이터가 바로 아래에 있는 하나 이상의 데이터에 한 개의 경로와 하나의 방향으로만 연결된 계층적 자료구조로, 데이터를 순차적으로 나열시킨 선형 구조(Queue, Stack 등)과 달리 하나의 데이터 아래에 여러 데이터가 존재할 수 있는 비선형 구조이다. 트리 구조는 계층적으로 표현되고 아래로만 뻗어나가기 때문에 사이클(cycle)이 없는 하나의 연결 그래프(connected graph)라 할 수 있다.
Tree의 특징
트리 구조는 Root(루트)라는 하나의 꼭짓점 데이터를 시작으로 여러 개의 데이터를 Edge(간선)으로 연결한다. 각 데이터를 Node(노드)라 하며, 두 노드가 상하 계층으로 연결되면 부모/자식 관계를 가지는 부모 노드(Parent Node), 자식 노드(Child Node)가 된다. 자식이 없는 노드는 나무의 잎과 같다 하여 리프 노드(Leaf Node)라 부른다.
Tree의 구조
깊이 (depth)
루트로부터 하위 계층의 특정 노드까지의 깊이를 표현할 수 있다. 위의 예시를 기준으로 루트 A
의 depth는 0, B
와 C
는 1, D
, E
, F
, G
의 depth는 2가 된다.
레벨 (level)
같은 깊이를 가진 노드를 묶어 레벨로 표현할 수 있다. depth가 0인 루트 A
의 level은 1, B
와 C
는 2, D
, E
, F
, G
는 level 3이 된다. 같은 레벨에 나란히 있는 노드를 형제 노드(Sibling Node)라고 한다.
높이 (height)
리프 노드를 기준으로 루트까지를 높이로 표현할 수 있다. 각 리프 노드의 높이가 0이 되며, 부모 노드의 자식 노드 중 리프 노드의 depth가 각기 다르다면 더 깊은 리프 노드를 기준으로 높이를 가진다. H
, I
, J
를 기준으로 D
, E
, F
, G
의 높이는 1, B
와 C
는 2(E
와 F
도 리프 노드이긴 하지만 더 깊은 리프 노드가 있으므로), 루트 A
의 높이는 3이 된다.
서브 트리 (sub tree)
루트에서 뻗어 나오는 큰 트리의 내부에 트리 구조를 갖춘 작은 트리를 서브 트리라고 부른다. (D
, H
, I
)는 물론 (B
, D
, E
), (C
, F
, G
)도 모두 서브트리이다.
Tree 실사용 예제
가장 대표적인 예제는 컴퓨터의 디렉토리 구조이다. 어떤 프로그램이나 파일을 찾을 때, 여러 폴더에서 다른 폴더로 진입하고, 또 그 안에 다른 폴더에 진입하면서 원하는 프로그램이나 파일을 찾는다. 모든 폴더는 하나의 폴더(루트 폴더, /
)에서 시작되어 가지를 뻗어나가는 모양새를 띈다. 위 그림처럼, 제일 첫 번째 폴더에서 출발하여 도착하려는 폴더로 가는 경로는 유일하다. 사용자들이 편하게 사용하기 위한 파일 시스템 등에서는 트리 구조를 이용해 만들어져 있다.
효율적인 탐색을 위한 트리 구조
트리 구조는 편리함 외에 효율적인 탐색을 위해 사용하기도 한다. 이러한 목적성을 위해 다양한 트리 디자인이 존재하며, 트리 구조가 가지고 있는 특징에 따라 여러 이름으로 불린다.
이진 트리(Binary tree)
자식 노드가 최대 두 개인 노드들로 구성된 트리로, 왼쪽 자식 노드와 오른쪽 자식 노드로 나눌 수 있다. 이진 트리는 자료의 삽입, 삭제 방법에 따라 정 이진 트리(Full binary tree), 완전 이진 트리(Complete binary tree), 포화 이진 트리(Perfect binary tree)로 나뉜다. 이러한 이진 트리는 이진 탐색 트리와 이진 힙 구현에 사용되며, 효율적인 검색과 정렬을 위하 사용된다.
이진 트리는 아래와 같은 특징을 가진다.
- 정 이진 트리(Full binary tree) : 각 노드가 0개 또는 2개의 자식 노드를 갖는다.
- 포화 이진 트리(Perfect binary tree) : 정 이진 트리이면서 완전 이진 트리인 경우이며, 모든 리프 노드의 레벨이 동일하고 모든 레벨이 가득 채워져 있는 트리이다.
- 완전 이진 트리(Complete binary tree) : 마지막 레벨을 제외한 모든 노드가 가득 차 있어야 하고, 마지막 레벨의 노드는 전부 차 있지 않아도 되지만 왼쪽이 채워져야 한다.
이진 탐색 트리(Binary Search Tree)
이진 탐색 트리란 이진 탐색(Binary Search)와 연결 리스트(Linked List)를 결합한 이진 트리를 말한다. 이진 탐색의 효율적인 탐색 능력을 유지하면서 빈번한 자료 입력과 삭제를 가능하게끔 고안되었다. 이진 탐색 트리는 다음과 같은 특징을 가진다.
- 각 노드에 중복되지 않는 키(key)가 있다.
- 루트 노드의 왼쪽 서브 트리는 해당 노드의 키보다 작은 키를 갖는 노드들로 이루어진다.
- 루트 노드의 오른쪽 서브 트리는 해당 노드의 키보다 큰 키를 갖는 노드들로 이루어진다.
- 좌우 서브트리도 모두 이진 탐색 트리여야 한다.
즉, 이진 탐색 트리는 모든 왼쪽 자식의 값이 루트나 부모보다 작고, 모든 오른쪽 자식의 값이나 루트가 부모보다 큰 값을 가지는 특징이 있다. 이진 탐색 트리는 균형 잡힌 트리가 아닐 때 입력되는 값의 순서에 따라 한 쪽으로 노드들이 몰릴 수 있고 이는 탐색하는 데 시간이 더 걸릴 수도 있기 때문에 해결해야 할 문제이다. 이런 문제를 해결하기 위해 삽입과 삭제마다 트리의 구조를 재조정하는 과정을 거치는 알고리즘을 추가할 수 있다.
이진 탐색 트리는 기존 이진 트리보다 탐색이 빠르다는 장점이 있다. 이진 탐색 트리의 연산은 높이가 h라면 O(h)
의 복잡도를 가지는데, 이같은 효율적인 연산이 가능한 이유는 탐색 과정에 있다.
- 루트 노드의 키와 찾고자 하는 값을 비교한다. 찾고자 하는 값이라면 탐색을 종료한다.
- 찾고자 하는 값이 루트 노드의 키보다 작다면 왼쪽 서브 트리로 탐색을 진행한다.
- 찾고자 하는 값이 루트 노드의 키보다 크다면 오른쪽 서브 트리로 탐색을 진행한다.
이러한 과정을 찾고자 하는 값을 찾을 때까지 반복해 진행한다. 만약 값을 찾지 못한다면 그대로 연산을 종료하게 되는데, 이런 탐색 과정을 거치면 최대 트리의 높이(h)만큼 탐색을 진행한다. 즉, 이진 탐색 트리에 값이 없더라도 최대 h번의 연산 및 탐색이 진행된다는 것이다.
트리 순회
특정 목적을 위해 트리의 모든 노드를 한 번씩 방문하는 것을 트리 순회라 한다. 트리 구조는 계층적 구조라는 특별한 특징을 가지기 때문에 모든 노드를 순회하는 방법엔 크게 세 가지가 있다. 단, 이런 순회 방식과 논외로 트리 구조에서 노드를 순차적으로 조회할 때는 항상 왼쪽부터 오른쪽으로 순회하게 된다.
이진 트리의 탐색은 간단한 편이지만 순회 방법은 조금 복잡하다. 일정 조건에 의해 설계된 트리구조는 특정 값을 찾아내는 것 자식 노드에 대한 조건이 명확해 쉽지만 트리 구조 전체를 탐색할 때는 모든 노드를 방문하기 위해 일정한 조건이 필요하고, 트리 구조를 유지보수하거나 특정 목적을 위해서 순회 방법에 대한 정의가 필수적으로 필요하다.
전위 순회 (preorder traverse)
전위 순회는 루트에서 시작해 왼쪽의 노드들을 순차적으로 둘러본 뒤, 왼쪽의 노드 탐색이 끝나면 오른쪽 노드를 탐색한다. 즉, 부모 노드를 가장 먼저 방문하는 순회 방식으로 주로 부모 노드가 먼저 생성되어야 하는 트리를 복사할 때 사용된다.
중위 순회 (inorder traverse)
중위 순회는 루트를 가운데에 두고 순회한다. 제일 왼쪽 끝에 있는 노드부터 순회하기 시작하여, 루트를 기준으로 왼쪽에 있는 노드의 순회가 끝나면 루트를 거쳐 오른쪽에 있는 노드로 이동하여 마저 탐색한다. 부모 노드가 서브 트리의 방문 중간에 방문되는 순회 방식으로, 이진 탐색 트리의 오름차 순으로 값을 가져 올 때 쓰인다.
후위 순회 (postorder traverse)
후위 순회는 루트를 가장 마지막에 순회한다. 제일 왼쪽 끝에 있는 노드부터 순회를 시작해 루트를 거치지 않고 오른쪽으로 이동해 순회한 뒤, 제일 마지막에 루트를 방문한다. 후위 순회는 트리를 삭제할 때 사용한다. 자식 노드가 먼저 삭제 되어야 상위 노드를 삭제할 수 있기 때문이다.
레벨 순회 (levelorder traversal)
레벨 순회는 루트를 가장 먼저 순회하고, 그 다음 레벨의 노드를 순회한다. 일반적으로 queue를 하나 선언해두고 루트 노드를 넣어준 다음, queue에 넣어준 노드를 하나씩 탐색하며 자식 노드를 queue에 넣으면서 queue가 비어있을 때까지 반복한다. 레벨 순회의 자세한 작동 방식은 여기를 참고하자.
Graph
Graph는 여러개의 점들이 서로 복잡하게 연결되어 있는 관계를 표현한 자료구조이다. 일반적으로 생각하는 수학에서 사용하는 그래프와 달리, 자료구조의 그래프는 마치 거미줄처럼 여러개의 점들이 선으로 이어져 있는 복잡한 네트워크망과 같은 모습을 가진다.
Graph의 구조
- 직접적인 관계가 있는 경우 두 점 사이를 이어주는 선이 있다.
- 간접적인 관계라면 몇 개의 점과 선에 걸쳐 이어진다.
- 하나의 점을 정점(vertex), 하나의 선을 간선(edge)이라 한다.
Graph의 표현 방식
인접 행렬
두 정점을 바로 이어주는 간선이 있다면 이 두 정점은 인접하다고 표현한다. 인접 행렬은 서로 다른 정점들이 인접한 상태인지를 표시한 행렬로 2차원 배열의 형태로 나타낸다. 만약 A라는 정점과 B라는 정점이 이어져 있다면 1(true)
, 이어져 있지 않다면 0(false)
로 표시한 일종의 표이다. 만약 가중치 그래프라면 1
대신 관계에서 의미 있는 값을 저장한다.
위의 그래프의 인접 행렬은 다음과 같다.
- A의 진출차수는 1개 :
A —> C
- [0][2] === 1
- B의 진출차수는 2개 :
B —> A
,B —> C
- [1][0] === 1
- [1][2] === 1
- C의 진출차수는 1개 :
C —> A
- [2][0] === 1
인접 행렬은 한 개의 큰 표와 같은 모습을 하고 있어 두 정점 사이에 관계가 있는지, 없는지 확인하기에 용이하다. 예를 들어, A에서 B로 진출하는 간선이 있는지 파악하기 위해 0번째 줄의 1번째 열에 어떤 값이 저장되어 있는지 바로 확인 가능하다. 주로 가장 빠른 경로(shortest path)를 찾고자 할 때 사용된다.
인접 리스트
인접 리스트는 각 정점이 어떤 정점과 인접하는지 리스트의 형태로 표현한다. 각 정점마다 하나의 리스트를 가지고 있으며, 이 리스트는 자신과 인접한 다른 정점을 담는다. 보통 메모리를 효율적으로 사용하고 싶을 때 인접 리스트를 사용한다. 인접 행렬은 모든 경우의 수를 저장하여 상대적으로 메모리를 많이 차지하기 때문이다.
알아두어야 할 Graph 용어
- 정점 (vertex): 노드(node)라고도 하며 데이터가 저장되는 그래프의 기본 원소
- 간선 (edge): 정점 간의 관계이자 정점을 이어주는 선
- 인접 정점 (adjacent vertex): 하나의 정점에서 간선에 의해 직접 연결되어 있는 정점
- 가중치 그래프 (weighted Graph): 연결의 강도(추가적인 정보 등)가 얼마나 되는지 적혀져 있는 그래프
- 비가중치 그래프 (unweighted Graph): 연결의 강도가 적혀져 있지 않는 그래프
- 무(방)향 그래프 (undirected graph): 간선이 양방향으로 이루어진 그래프. 단방향(directed) 그래프의 경우, 간선으로 진출할 수 있는 방향이 정해져 있다.
- 진입차수 (in-degree) / 진출차수 (out-degree): 한 정점에 진입(들어오는 간선)하고 진출(나가는 간선)하는 간선이 몇 개인지를 나타낸다.
- 인접 (adjacency): 두 정점 간에 간선이 직접 이어져 있는 것
- 자기 루프 (self loop): 정점에서 진출하는 간선이 곧바로 자기 자신에게 진입하는 경우 자기 루프를 가졌다 라고 표현한다. 다른 정점을 거치지 않는다는 것이 특징.
- 사이클 (cycle): 한 정점에서 출발하여 다시 해당 정점으로 돌아갈 수 있다면 사이클이 있다고 표현한다.
Graph 실사용 예제
자료구조 그래프는 일상 생활에서 밀접하게 사용된다. 포털 사이트의 검색 엔진, SNS에서 사람들과의 관계, 내비게이션 (길 찾기) 등에서 사용하는 자료구조가 그래프이다. 세 가지 모두 수많은 정점을 가지고 있고, 서로 관계가 있는 정점은 간선으로 이루어져 있다.
서울, 대선, 부산을 각 정점으로 표현하는 비가중치 그래프를 간단한 자바스크립트 객체로 표현하면 다음과 같다. 비가중치 그래프는 각 정점간의 연결 유무만 판단한다.
let isConnected = { seoul: { busan: true, daejeon: true }, daejeon: { seoul: true, busan: true }, busan: { seoul: true, daejeon: true } } console.log(isConnected.seoul.daejeon) // true console.log(isConnected.daejeon.busan) // true
만약 가중치를 거리로 두고 추가하여 가중치 그래프를 만든다면 다음과 같을 것이다.
let isConnected = { seoul: { busan: '325km', daejeon: '140km' }, daejeon: { seoul: '140km', busan: '200km' }, busan: { seoul: '325km', daejeon: '200km' } } console.log(isConnected.seoul.daejeon) // '140km' console.log(isConnected.daejeon.busan) // '200km'
Graph의 탐색
그래프의 탐색은 하나의 정점에서 시작해 모든 정점들을 한 번씩 탐색하는 것이 목적이다. 그래프의 데이터는 배열처럼 정렬되어 있지 않기 때문에, 원하는 자료를 찾기 위해서는 하나씩 모두 방문하여 찾아야 한다. 이러한 모든 정점 탐색 방법에도 여러가지가 있으며, 이 중 가장 대표적인 방법이 DFS와 BFS이다. 이 둘은 데이터를 탐색하는 순서만 다를 뿐 모든 자료를 하나씩 확인한다는 점은 같다.
BFS (Breathed First Search)
BFS는 너비 우선 탐색으로, 시작 정점을 방문한 후 시작 정점에 인접한 모든 정점을 우선 방문하고, 더이상 방문할 정점이 없다면 한 depth 내려가서 다시 인접한 모든 정점을 우선 방문하는 탐색 방법이다. 너비를 우선 탐색하기 때문에 목표 정점에 도달하는 경로가 여러 경우가 있더라도 최단 경로를 보장하고 노드 수가 적고 깊이가 얕은 목표 정점을 찾는 데에 유리하다. 하지만 노드의 수가 많을 수록 탐색해야하는 노드가 많아 비효율적이고, 재귀 호출을 사용하는 DFS와 달리 큐를 이용하기 때문에 필요 없는 노드들까지 저장해야 해서 비교적 큰 저장공간이 필요하다.
DFS (Depth First Search)
DFS는 깊이 우선 탐색으로 시작 정점을 방문 한 후 자식을 모두 탐색하고, 연결 된 노드가 없을 때 까지 탐색을 마쳤다면 한 단계 이전으로 돌아가 다시 자식을 모두 탐색하는 방법이다. BFS에 비해 저장공간의 필요성이 적고 찾아야 하는 목표 정점이 깊은 단계에 있고 왼쪽에 있을 수록 유리하다. 하지만 목표가 아닌 경로가 매우 깊다면 탐색을 깊게 할 우려가 있고 찾은 경로가 최단 경로라 보장할 수 없는 단점이 있다.
Uploaded by
N2T