mấy thứ tôi học được lúc build AI agent nội bộ

cuối năm ngoái team tôi được giao build một nền tảng AI agent nội bộ. ý tưởng là các team khác trong công ty có thể tự tạo agent cho việc của họ — hỏi đáp tài liệu, review code, tóm tắt cuộc họp.

nghe thì hay. làm thì không hay lắm. nhưng cũng xong.

agent platform simple diagram

bọn tôi chọn python vì hệ sinh thái AI nằm hết ở đó. celery với rabbitmq cho task queue. qdrant cho vector search, chạy on-prem được. minio cho storage. mongo cho config.

setup cơ bản thì nhanh. cái khó là làm sao cho người khác dùng được nó.

mất khoảng 2 tháng để có bản chạy ổn. rồi thêm 1 tháng nữa để sửa mấy thứ không ai nghĩ tới lúc đầu.

vài thứ tôi nhớ nhất:

việc lưu checkpoint giữa các bước của agent quan trọng hơn mình tưởng. worker hay bị kill vì hết RAM — có đứa trong team cứ load nguyên file PDF 50 trang lên memory. không có checkpoint thì làm lại từ đầu. người dùng không biết chuyện gì xảy ra, họ chỉ thấy "sao lâu thế".

đừng dùng mongo nếu schema thay đổi liên tục. tuần nào cũng có field mới, field cũ không dùng nữa nhưng vẫn nằm đó. document thành bãi rác. đáng lẽ nên dùng postgres.

nobody dùng platform của bạn chỉ vì nó tồn tại. team tôi phải tự build 3 con agent demo — review code, tóm tắt meeting, hỏi đáp tài liệu — mới có người bắt đầu xài. không demo thì không ai buồn mở docs ra đọc.

rate limit từ ngày đầu. không có thì sẽ có đứa gửi 10,000 request LLM trong 1 tiếng.

cái platform này giờ vẫn đang chạy. không hoàn hảo, nhưng chạy. với project R&D nhỏ làm trong vài tháng, vậy là được.

vài thứ tôi muốn làm lại, nhưng thôi — project sau rút kinh nghiệm.