안드로이드

STT관련 라이브러리 API정보

코딩하는후운 2022. 11. 9. 18:29
반응형

Cloud Speach-to-Text

 

데모 테스트

https://cloud.google.com/speech-to-text?hl=ko#section-3

https://cloud.google.com/speech-to-text

  • 확인 결과 정확성이 그렇게 좋지는 않은 것 같다.

모바일 플랫폼 예시

Android 샘플

이 샘플은 Cloud Speech RPC API와 함께 마이크를 사용하여 스트리밍 음성 인식을 제공하는 방법을 보여줍니다.

문서 및 코드

iOS 샘플

이 샘플은 Cloud Speech RPC API와 함께 마이크를 사용하여 비 스트리밍 및 스트리밍 음성 인식을 제공하는 방법을 보여줍니다.

문서 및 코드

이 샘플은 Cloud Speech-to-Text, Translation, Text-to-Speech API를 사용하여 실시간 번역 서비스를 만듭니다.

문서 및 코드

가격

아래 가격표는 개인용 시스템(예: 스마트폰, 태블릿, 노트북, 데스크톱)의 애플리케이션에 적용됩니다.

가격 계산

각 요청은 15초 단위로 올림됩니다. 예를 들어 각각 7초 분량의 오디오를 포함하는 요청이 3회 이루어진 경우 오디오 45초(3x15초)에 해당하는 $0.018(USD)가 청구됩니다. 15초 단위로 올림할 때 소수점 이하 초수도 포함됩니다. 즉, 15.14초는 30초로 올림되어 청구됩니다.

월별 사용량은 월 1백만 분으로 제한됩니다. 월별 오디오 사용량이 100만 분을 초과하는 경우 필요한 사용량을 자세히 알려주시기 바랍니다. 프로젝트의 Speech-to-Text 할당량 요청을 제출하세요.

 

 


 

NHN Cloud

https://docs.toast.com/ko/AIService/Speech to Text/ko/overview/

AI Service > Speech to Text > 개요

Speech to Text는 NHN Cloud의 음성 인식 및 문자 합성 기술을 통해, 입력된 음성을 인식하고, 인식된 음성을 텍스트로 변환하여 제공합니다. 음성 받아쓰기, 음성을 통한 디바이스 제어, 음성 챗봇 서비스 등 음성을 문자로 변환해서 이용하는 다양한 분야에 적용할 수 있습니다.

주요 기능

  • 음성 인식
    • 입력된 음성에서 NHN Cloud의 Speech to Text 엔진을 통해 음성을 인식하고 변환된 텍스트를 제공합니다.
    • 음성 인식은 한국어에 한해 합성 결과를 제공합니다.
  • 다양한 방식의 음성 입력 지원
    • 인식할 음성을 음성 파일로 업로드할 수 있습니다.
    • 마이크로 음성을 녹음하여 음성 입력을 할 수 있습니다.
  • 인식 결과 다운로드 지원
    • JSON, TXT 파일을 다운로드할 수 있습니다.
    • 음성 인식 결과 파일을 다운로드하여 원하는 결과로 수정할 수 있습니다.

음성 입력 가이드

보다 정확한 음성 인식을 위해 아래의 가이드를 참고하시기 바랍니다.

  • 음성 파일 업로드 지원 형식: WAV, WebM, MP3, OGG, FLAC, AAC, AC3
  • 최대 용량: 3MB
  • 음성 파일 인식 가능 시간: 최소 0.36초, 최대 60초
  • 권장 사항
    • 파일 형식: WAV
    • 비트: 16bit
    • 샘플 레이트: 1.6kHz
    • 채널 수: 모노(mono)
    • 음성 파일 시간: 10초
  • 최대한 조용한 환경에서 녹음해 주시기 바랍니다.
반응형

'안드로이드' 카테고리의 다른 글

Bitrise-android  (0) 2022.11.14
Compose 훑어보기  (0) 2022.11.10
STT (구글) - 샘플코드  (0) 2022.11.09
STT(구글) - SpeechRecognizer Document  (0) 2022.11.09
STT(Speech-to-Text)란?  (0) 2022.11.09