안녕하세요.
오늘은 오픈 소스 RAG 프레임워크 Embedchian에 대해 알아보겠습니다.
Embedchain RAG FrameWork
▣ Embedchain이란?
대규모 언어 모델(LLM)을 활용하여 구조화되지 않은 데이터(예: 웹페이지, PDF, 동영상 등)로부터 지식을 추출하고 질의응답 시스템을 구축할 수 있는 오픈소스 프레임워크
: 주요 기능
- 웹페이지, PDF, 동영상 등 다양한 데이터 소스로부터 지식을 추출하여 LLM 기반 챗봇 또는 질의응답 시스템 구축
- 기존 데이터베이스를 업데이트하거나 새로운 데이터를 추가하여 지속적으로 지식베이스 확장 가능
- 데이터 청크(chunking), 임베딩(embedding), 벡터 데이터베이스 저장 등 RAG(Retrieval Augmented Generation)* 파이프라인 전체 프로세스 자동화
* 검색 증강 생성(RAG) : 프라이빗 또는 독점 데이터 소스의 정보로 텍스트 생성을 보완하는 기술
▣ 파이썬 실습해보기
!pip install embedchain
- 파이썬 환경에서 실습하려면, OpenAI의 API KEY가 필요함 (토큰 사용량이 많으면 비용이 들 수 있으니 주의)
- 코드 자체도 어렵지 않음, 인스턴스를 생성하고 참조 데이터 소스를 URL(PDF 주소도 가능)로 추가하면 됨
※ OpenAI API Key 발급 방법은 아래 글 참고하면 됨
2023.02.06 - [Programming/AI] - [AI] 파이썬으로 GPT 사용하기
import os
from embedchain import Pipeline as App
# OpenAI API 키 설정
os.environ["OPENAI_API_KEY"] = "YOUR_API_KEY"
# embedchain 인스턴스 생성
elon_bot = App()
# 데이터 소스 추가
elon_bot.add("https://en.wikipedia.org/wiki/Elon_Musk")
elon_bot.add("https://www.forbes.com/profile/elon-musk")
elon_bot.add("https://www.youtube.com/watch?v=RcYjXbSJBN8")
# 질의
query = "How many companies does Elon Musk run and name those?"
result = elon_bot.query(query)
print(result)
: 출력 결과
Elon Musk currently runs several companies. As of my knowledge, he is the CEO and lead designer of SpaceX, the CEO and product architect of Tesla, Inc., the CEO and founder of Neuralink, and the CEO and founder of The Boring Company. However, please note that this information may change over time, so it's always good to verify the latest updates.
References
![](https://blog.kakaocdn.net/dn/qCGaa/btsHLYlfRqt/vhNBDl3K33wLJ4PVrv3kpK/img.png)
반응형
'Programming > Python' 카테고리의 다른 글
[Python] 주식시장 동향 확인하기 (3) | 2024.06.30 |
---|---|
[Python] 주식 데이터 텔레그램 메시지 보내기 (2) | 2024.06.19 |
[Python] 판다스 치트시트 기초 익히기 (4) | 2024.06.02 |
[Python] 코인 상위 거래대금 리스트 텔레그램 알림 만들기 (56) | 2024.05.26 |
[Python] yfinance 미국 주식 데이터 추출하기 (3) | 2024.05.21 |
댓글