Uniform Resource Locators – URL trong HTML

Uniform Resource Locators – URL là cách viết khác của một địa chỉ web.

URL có thể cấu tạo thành từ các chữ cái (quantrimang.com) hoặc địa chỉ IP (192.68.20.50). Hầu hết người dùng sử dụng tên vì chúng dễ nhớ hơn.

URL – Uniform Reousece Locators – Định vị tài nguyên thống nhất

Trình duyệt web sẽ yêu cầu trang web từ máy chủ web bằng URL. Uniform Resource Locator (URL) được dùng để xác định địa chỉ của một tài liệu (hay dữ liệu khác) trên mạng. Một địa chỉ web như https://quantrimang.com/html/ sẽ đi theo quy tắc cú pháp như sau.

scheme://prefix.domain:port/path/filename

Trong đó

  • scheme – định nghĩa kiểu dịch vụ Internet (thường là HTTP hoặc HTTPS)
  • prefix – phần tiền tố của tên miền (mặc định với HTTPS là www)
  • domain – định nghĩa tên miền (ví dụ quantrimang.com)
  • port – định nghĩa số cổng tại host (mặc định với HTTP là 80)
  • path – định nghĩa đường dẫn tới máy chủ (nếu bỏ qua thì đây sẽ là thư mục gốc (root) của trang)
  • filename – định nghĩa tên của tập tin hoặc nguồn dữ liệu

URL Scheme phổ biến

Các URL Scheme (giao thức kết nối) phổ biến được liệt kê trong bảng dưới:

Giao thức Tên đầy đủ Mục đích sử dụng
http HyperText Transfer Protocol Các trang web thông thường, không được mã hóa
https Secure HyperText Transfer Protocol Trang web an toàn, được mã hóa
ftp File Transfer Protocol Tải lên hoặc tải xuống tập tin
file Một tập tin trên máy tính

Mã hóa URL

URL chỉ có thể chuyển qua Internet bằng bộ kí tự mã hóa ASCII. Nếu có chứa các kí tự ngoài bộ ASCII, URL sẽ được chuyển đổi. Việc mã hóa URL sẽ chuyển các kí tự không phải ASCII sang định dạng khác để chuyển được qua Internet, thay thế các kí tự này bằng ”%” và theo sau là các chữ số thập phân.

URL không được chứa khoảng trắng, thường quá trình mã hóa sẽ thay thế khoảng trắng bằng dấu cộng (+) hoặc %20.

Các ví dụ mã hóa ASCII

Tùy theo bộ kí tự sử dụng trên trang, trình duyệt sẽ mã hóa đầu vào. Bộ kí tự mặc định của HTML5 là UTF-8.

Kí tự Từ Windows-1252 Từ UTF-8
%80 %E2%82%AC
£ %A3 %C2%A3
© %A9 %C2%A9
® %AE %C2%AE
À %C0 %C3%80
Á %C1 %C3%81
 %C2 %C3%82
à %C3 %C3%83
Ä %C4 %C3%84
Å %C5 %C3%85