Hướng dẫn sử dụng MiraBOT

Training dữ liệu cho BOT

Trong phần này, MiraBOT sẽ hướng dẫn quý khách quá trình đào tạo BOT thông qua việc cập nhật và tối ưu hóa các nguồn tài liệu. Hiện tại, MiraBOT đang hỗ trợ 5 loại nguồn: URL, Document, Sitemaps, Q&A, OCR cho PDF.

So với các BOT truyền thống, MiraBOT nổi bật với khả năng tự động học và hiểu biết ngôn ngữ tự nhiên bởi một quá trình huấn luyện mạnh mẽ. MiraBOT có khả năng điều chỉnh dựa trên ngữ cảnh và học từ mỗi tương tác để đảm bảo phản hồi ngày càng chính xác và hữu ích. 

Dưới đây là các bước thực hiện đào tạo dữ liệu cho BOT:

Bước 1: Truy cập màn chi tiết BOT

Sau khi tạo BOT thành công, người dùng ấn vào tên BOT hoặc thao tác “Xem chi tiết” tại màn danh sách BOT:

Bước 2: Chọn "Thêm nguồn"

Tại màn chi tiết BOT, BOT khi mới được tạo ở trạng thái Chưa có nguồn. Để thêm các nội dung mà người dùng muốn BOT có thể đọc và trả lời, người dùng chọn “Thêm nguồn”:

Hệ thống hiển thị các loại nguồn có thể thêm, MiraBOT hiện tại đang hỗ trợ người dùng xử lý 5 loại nguồn:

Bước 3: Thao tác thêm nguồn với từng loại nguồn cụ thể

Người dùng tùy chọn loại nguồn muốn thêm và thực hiện thêm nguồn:

Tại mục Chọn loại mục cần thêm -> Click chọn nguồn URL. Hệ thống hiển thị popup thêm URL:



Tại popup, người dùng thao tác:

1. Nhập liên kết URL => Hệ thống tự động tạo tiêu đề nguồn. Nếu không có tiêu đề URL, hệ thống sẽ lấy chính URL đó làm tiêu đề hoặc người dùng có thể chỉnh sửa tiêu đề khác.

2. Sau đó người dùng có thể lựa chọn lịch Refresh URL (lịch tự động cập nhật nội dung URL).

3. Người dùng nhấn “Thêm nguồn”, hệ thống hiển thị danh sách các nguồn mới được thêm vào trong các tiến trình trạng thái: Chờ xử lý > Đang xử lý > Đã xử lý hoặc Lỗi

Một số lưu ý khi thêm nguồn URL:

+ Trường URL là bắt buộc. Người dùng phải nhập URL đúng định dạng và không quá 2048 ký tự. Hệ thống có thể kiểm tra các URL trùng lặp bằng danh sách URL được thêm vào của BOT và giới hạn tối đa 15 URL cho mỗi lần thêm.
+ Với tiêu đề URL, người dùng có thể tự chỉnh sửa, với yêu cầu nhập không quá 255 ký tự, có kiểm tra tiêu đề URL trùng lặp. Với tiêu đề URL trùng lặp, hệ thống sẽ thông báo cho bạn về tiêu đề trùng lặp và tự động tạo tiêu đề khác.
+ Một số loại URL BOT không hỗ trợ đọc: URL yêu cầu quyền truy cập (ví dụ: link Facebook), URL Google Drive (Khách hàng cần tải file và thêm file đã tải docx, xlsx, … vào MiraBot)
+ Refresh URL là thời điểm BOT tự động cập nhật, làm mới URL. Điều này sẽ ảnh hưởng đến BOT trò chuyện được nhúng trong các trang web, vì Bot sẽ không thể đọc được nguồn Làm mới nữa. Làm mới có thể tăng số lượng trang nguồn nếu URL thay đổi.

Tài liệu là tài liệu hoặc tệp văn bản chứa nội dung văn bản.

Tại mục Chọn loại mục cần thêm -> Click chọn nguồn Document. Hệ thống hiển thị popup thêm Document

Tại popup người dùng thao tác:

  1. Người dùng chọn file muốn upload theo định dạng cho phép: PDF, DOCX, PPTX, TXT, XLSX, CSV, JSON, HTML. 
  2. Tiêu đề nguồn bắt buộc nhập, giới hạn 255 ký tự
  3. Người dùng click chọn ” Thêm nguồn”, hệ thống hiển thị thêm nguồn thành công với trạng thái Chờ xử lý > Đang xử lý > Đã xử lý hoặc Lỗi
  4. Tài liệu Private: Có thể tích chọn hoặc không. Nếu chọn Tài liệu Private hệ thống sẽ không hiển thị ra Tiêu đề và không tải file Document xuống được

Một vài lưu ý khi thêm nguồn Document:

+ Hệ thống có thể tự động tạo tiêu đề nguồn dựa trên file tài liệu do khách hàng tải lên nếu trường tiêu đề nguồn trống

+ Hệ thống không tự động tạo tiêu đề nếu trường tiêu đề nguồn đã được điền trước đó

+ Người dùng có thể tự điều chỉnh tiêu đề nguồn Tài liệu, giới hạn trong 1-255 ký tự

+ Yêu cầu bắt buộc upload file tài liệu, giới hạn tối đa 40Mb, cho phép định dạng: PDF, DOCX, PPTX, TXT, XLSX, CSV, JSON, HTML.

Sitemaps là các file có định dạng XML, phù hợp cho người dùng muốn BOT đọc nội dung từ một trang web lớn chứ không phải các trang web lẻ như nguồn URL. Một file XML bao gồm nhiều URL.

Tại các loại nguồn hiển thị, người dùng chọn tab Sitemaps, hệ thống hiển thị Popup:


 

Tại popup hiển thị, người dùng thao tác:

1. Người dùng chọn file muốn upload ở định dạng XML

2. Hệ thống tự động tạo tiêu đề hoặc người dùng tự điều chỉnh tiêu đề

3. Người dùng nhấn “Thêm nguồn”, hệ thống hiển thị nguồn mới thêm với các trạng thái theo quy trình: Đang chờ > Đang xử lý > Đã xử lý hoặc Lỗi

Một số lưu ý khi thêm nguồn Sitemaps:

+ Hệ thống có thể tự động tạo tiêu đề nguồn dựa trên file tài liệu do khách hàng tải lên nếu trường tiêu đề nguồn trống

+ Hệ thống không tự động tạo tiêu đề nếu trường tiêu đề nguồn đã được điền trước đó

+ Người dùng có thể tự sửa tiêu đề nguồn Sitemaps, giới hạn 1-255 ký tự

+ Yêu cầu upload file tài liệu, giới hạn tối đa 40Mb, định dạng cho phép: XML. BOT sẽ không đếm số trang nguồn (0 trang) và không thể đọc được nội dung nếu người dùng upload file XML sai định dạng Sitemap.

Đối với tài liệu chứa hình ảnh ở định dạng PDF, hệ thống đã tích hợp OCR để hỗ trợ đọc nội dung hình ảnh.

Tại các loại nguồn hiển thị, người dùng chọn tab OCR cho tài liệu, hệ thống hiển thị Popup:



Tại cửa sổ bật lên, người dùng thao tác:

1. Người dùng chọn file muốn upload ở dạng PDF

2.  Hệ thống tự động tạo tiêu đề hoặc người dùng tự điều chỉnh tiêu đề

3. Người dùng chọn ngôn ngữ của tài liệu để OCR có thể nhận dạng nội dung tốt hơn. Hiện tại hệ thống hỗ trợ tài liệu bằng 3 ngôn ngữ: Tiếng Việt, Tiếng Anh, Tiếng Nhật

4. Tài liệu Private: Có thể tích chọn hoặc không. Nếu chọn Tài liệu Private hệ thống sẽ không hiển thị ra Tiêu đề và không tải file Document xuống được

5. Người dùng ấn “Thêm nguồn”, hệ thống hiển thị nguồn mới thêm với các trạng thái theo quy trinh:  Đang chờ > Đang xử lý > Đã xử lý hoặc Lỗi

Một số lưu ý khi thêm nguồn tài liệu PDF có OCR hỗ trợ:

+ Hệ thống có thể tự động tạo tiêu đề nguồn dựa trên file tài liệu do khách hàng tải lên nếu trường tiêu đề nguồn trống

+ Hệ thống không tự động tạo tiêu đề nếu trường tiêu đề nguồn đã được điền trước đó

+ Người dùng có thể tự điều chỉnh tiêu đề nguồn tài liệu, giới hạn trong 1-255 ký tự

+ Yêu cầu bắt buộc upload file tài liệu, giới hạn tối đa 40Mb, định dạng cho phép: PDF

Tính năng cho phép người dùng thêm các bộ câu hỏi và đáp án có sẵn để tăng tỷ lệ trả lời đúng cho BOT. Khi thêm nguồn Q&A, BOT sẽ ưu tiên lấy nội dung từ Q&A để trả lời trước khi BOT đọc nội dung từ các loại nguồn khác được thêm hoặc nội dung từ nguồn bên ngoài.

Tại các loại nguồn hiển thị, người dùng chọn tab Q&A, hệ thống hiển thị popup:



Tại popup, người dùng nhập câu hỏi và câu trả lời cho 1 Q&A. Người dùng có thể thêm nhiều Q&A khác nhau.

Một số lưu ý khi thêm nguồn Q&A:

+ Hệ thống có check các câu hỏi trùng lặp với danh sách Q&A đã được thêm của BOT và giới hạn tối đa 60 Q&A cho 1 lần thêm nguồn.

+ Câu hỏi giới hạn không quá 500 ký tự. Câu trả lời giới hạn không quá 2000 ký tự

+ Thêm hình ảnh: Không bắt buộc, giới hạn thêm 5 ảnh và chỉ cho phép các định dạng ảnh là: PNG, JPG, JPRG

Bước 4: Kiểm tra trạng thái nguồn sau khi thêm

Sau khi thêm nguồn thành công, hệ thống hiển thị ra danh sách các nguồn đã thêm và Thành viên kiểm tra hiển thị trạng thái sau khi thêm nguồn

 


Hệ thống sẽ tự động kiểm tra các nguồn đã thêm theo các trạng thái: Chờ xử lý> Đang xử lý> Đã xử lý hoặc lỗi. Nguồn xử lý thành công sẽ hiển trạng thái ” Đã xử lý” hoặc không thành công Lỗi (Để kiểm tra nguyên nhân lỗi người dùng click vào xem chi tiết nguồn)

Bước 5: Tùy chọn xem chi tiết thông tin nguồn

Người dùng ấn vào tiêu đề nguồn hoặc chọn “Xem nguồn” tại cột Thao tác để xem chi tiết nguồn: 

 


Hệ thống hiển thị chi tiết nguồn đã thêm. Với nguồn URL, người dùng có thể chỉnh sửa Lịch refresh URL hoặc Refresh URL ngay lập tức:

Một số lưu ý khi thêm nguồn

+ Với mỗi nguồn được thêm, AI sẽ tính toán ra 1 số lượng trang được lập chỉ mục nhất định tùy theo ký tự và nội dung của nguồn đó được quy đổi ra.  

+ Với gói tài khoản thường, hệ thống sẽ sử dụng Key có sẵn trong pool Key của Tenten để sử dụng mỗi khi khách thêm 1 nguồn mới

+ Số trang nguồn sẽ được thống kê vào giới hạn gói tài khoản sau khi bạn thêm nguồn thành công và sẽ KHÔNG THAY ĐỔI kể cả khi bạn xóa nguồn!

Chúc quý khách thao tác thành công!

Share this Doc

Training dữ liệu cho BOT

Or copy link

CONTENTS