본문 바로가기
Programming/Python

[Python] Embedchain 오픈소스 RAG 프레임워크

by 코딩하는 금융인 2024. 6. 3.

안녕하세요.

오늘은 오픈 소스 RAG 프레임워크 Embedchian에 대해 알아보겠습니다.

 

 Embedchain RAG FrameWork

▣ Embedchain이란?

대규모 언어 모델(LLM)을 활용하여 구조화되지 않은 데이터(예: 웹페이지, PDF, 동영상 등)로부터 지식을 추출하고 질의응답 시스템을 구축할 수 있는 오픈소스 프레임워크

 

: 주요 기능

 - 웹페이지, PDF, 동영상 등 다양한 데이터 소스로부터 지식을 추출하여 LLM 기반 챗봇 또는 질의응답 시스템 구축

 - 기존 데이터베이스를 업데이트하거나 새로운 데이터를 추가하여 지속적으로 지식베이스 확장 가능

 - 데이터 청크(chunking), 임베딩(embedding), 벡터 데이터베이스 저장 등 RAG(Retrieval Augmented Generation)* 파이프라인 전체 프로세스 자동화

* 검색 증강 생성(RAG) : 프라이빗 또는 독점 데이터 소스의 정보로 텍스트 생성을 보완하는 기술

 

▣ 파이썬 실습해보기

!pip install embedchain

 

 - 파이썬 환경에서 실습하려면, OpenAI의 API KEY가 필요함 (토큰 사용량이 많으면 비용이 들 수 있으니 주의)

 - 코드 자체도 어렵지 않음, 인스턴스를 생성하고 참조 데이터 소스URL(PDF 주소도 가능)로 추가하면 됨

※ OpenAI API Key 발급 방법은 아래 글 참고하면 됨

2023.02.06 - [Programming/AI] - [AI] 파이썬으로 GPT 사용하기

import os
from embedchain import Pipeline as App

# OpenAI API 키 설정
os.environ["OPENAI_API_KEY"] = "YOUR_API_KEY"

# embedchain 인스턴스 생성
elon_bot = App()

# 데이터 소스 추가
elon_bot.add("https://en.wikipedia.org/wiki/Elon_Musk") 
elon_bot.add("https://www.forbes.com/profile/elon-musk")
elon_bot.add("https://www.youtube.com/watch?v=RcYjXbSJBN8")

# 질의
query = "How many companies does Elon Musk run and name those?"
result = elon_bot.query(query)

print(result)

 

: 출력 결과

Elon Musk currently runs several companies. As of my knowledge, he is the CEO and lead designer of SpaceX, the CEO and product architect of Tesla, Inc., the CEO and founder of Neuralink, and the CEO and founder of The Boring Company. However, please note that this information may change over time, so it's always good to verify the latest updates.

 

References

 

반응형

댓글